gis
gis
管理员
管理员
  • 注册日期2003-07-16
  • 发帖数15945
  • QQ554730525
  • 铜币25337枚
  • 威望15352点
  • 贡献值0点
  • 银元0个
  • GIS帝国居民
  • 帝国沙发管家
  • GIS帝国明星
  • GIS帝国铁杆
阅读:1894回复:1

从用户的行为模式来自动地生成动态链接

楼主#
更多 发布于:2003-08-16 00:56
从 用 户 的 行 为 模 式 来 自 动 地 生 成 动 态 链 接


 

背景:每个用户在浏览网页的时候,有很多不同的浏览过程,现有的静态超链接不可能做到让每个用户都非常满意地到达他所想要去的地方,也就是他必须经过中间链接才能到他所想去的网页。如果我们能够根据用户的行为模式,动态地生成一些他可能想要去的网页的超链接,这样就会让用户更有效地访问效率,从而也就提高了“回访率”。这样,有些与用户当前浏览的网页看起来并不相关的网页就有可能被从设置成了超链接,这点在静态里是做不到的 。从server这端来看,也就可以在日志中减少了对不必要的中间层网页访问的分析,提高了日志的质量,而且还可以为访问的用户预先取出。

原因:其一,在网站竞争日夜激烈的今天,如何让每一个用户满意,保住用户和吸引更多的用户就成为网站的首要任务。而利用动态生成网页连接的话,就可以为每个用户独身定做他自己个性化的浏览模式。而静态连接则并不是对每一个用户都是适用的。其二,网站的内容是经常更新的,动态连接能够比静态连接提供更“新”的东西。

具体方法:通过分析该用户浏览的该网站的Session,来确定他属于哪一个类,从而生成向他推荐在那个类里的人接下来所浏览的网页的超链接。

实现的困难:怎样确定同一个用户和一个用户的一个Session.

系统的设计:由在线和离线两种结构组成。web服务器主要用于保存用户的Session信息,一个离线的模块主要用于日志分析,就是数据挖掘。一个在线的模块主要用于动态连接的产生。

具体步骤由日志预处理,聚集和生成动态连接建议组成。

一,预处理:

我们可以认为一个网站是由许多个令用户感兴趣的元素组成的,例如一个HTML网页。那么每个人对于元素的喜爱程度是不同的。如果在一个Session里面包含n个元素(就是n个不同的网页),我们就可以把一个Session表示为n个向量。向量的其中一维是网页的代号,另外一维是就是他的喜欢程度的量化表示,他可以量化为在这个网页的停留时间,点击的次数和在这个网页上点击超链接的次数。那么预处理的过程就是将用户进入日志的信息转化为向量的表示形式。

二,聚集:

这部分的目的是找出具有相似向量的类。相似有很多定义,例如几何距离等等。

在这儿我们采用了Leader algorithm的聚集方法。先解释一下其中涉及的名词:1,MinNumpages,表示Session中包含的最小网页数。对那些只是看一眼的用户进行研究是没有意义的,所以我们必须选择那些浏览数目超过一定值的Session.2,Minclustersize.。表示我们设定的分出的类中向量个数的最小值。对于不超过最小值的类,我们就把它删除了,我们只研究那些有共性的类。3,Maxdistance.即几何最大距离。小于这个距离才能把它分在那个类里。

聚集过程:首先将V作为输入的向量的集合,C作为输出的类(向量的集合)的集合。

一开始,C设为0,对于每个向量,我们尽量把它加到最近的类中,并且该向量与类的中值之间的距离要小于Maxdistancesize,如果符合这个条件的类不存在,那么我们就建立一个新类,然后再继续对下一个向量进行同样的处理,一直到最后一个向量。然后再将C中不符合Minclustersize的类给删除掉。

完成后,我们可以采用计算每一个类的中间值的方法来估测这个类代表的意义。

这种做法有一些缺点,主要是不能反映用户的访问顺序。但它只需要对数据库访问一次,因此速度,效率很快。

三,生成动态连接:

  当一个用户浏览这个网站的时候,我们看他去了哪些网页,根据这些信息我们可以把他归为一个或者几个已知的类,根据这个类中用户的历史行为我们可以为他增加他感兴趣的网站的连接。

问题:当一个用户浏览一个新的网页的时候,Session中的向量也就在更新了。这时的向量只是一个不断变化的Session中的一部分。当对新的Session进行分类的时候,类的中间值和新的向量并不匹配,新向量的元素个数要比类中向量要少。那么问题是从什么时候开始对新的Session进行分类呢?如果Session中所访问的有两个网页能和类中网页相似,那么就开始进行计算归类.
喜欢0 评分0
游客

返回顶部