菜单
Web日志挖掘来源于互联网的快速发展,其含义就是通过挖掘web日志记录以发现用户访问web页面的模式、挖掘有用模式和预测用户浏览行为的技术。目前关于web日志
研究
的主要流程包括下面几步:26382
(1)预处理过程:企业服务器上的web日志中,记录了用户的每一次点击访问,有的是真实且有用的,有的却是虚假且错误的,比并且各个服务器上存储的web日志的内容格式也是千差万别。这些就要求我们在对这些日志文件加以解读和分析利用前,必须要先对它们进行处理,已消除其中数据的无效性、不规则性以及不完整性。这是一个较为细致的过程,其中包括数据清理、用户识别、会话识别、路径的补充以及会话拆分[7]等过程。论文网
(2)序列模式识别[8]:其本质主要是找到用户在访问网站的过程中,群体选择的较长且较为频繁的序列。首先是通过MF算法(Maximal Forward References)来消除用户在访问网站过程中因为后退而产生的影响,从而得到最大的向前引用集。接着利用Chen等人提出的FS(Full Scan)和SS(Selective Scan)两种算法,从上步中的引用集里面找到频繁出现的引用序列。最后从大引用序列中确定“最大引用序列”[9](Maximal Reference Sequences),找出没有包含在其他任何大引用序列中的大引用序列即可,也就是频繁中的最大的引用序列。
(3)序列模式分析[10]:针对得到的用户的访问序列模式,就可以就此展开相应的后续工作。例如,改善网站的组织结构,增删网站链接的位置,按照大多数访问者的浏览行为习惯对网站加以重组等。
上一篇:
大数据处理国内外研究现状
下一篇:
网络舆情国内外研究现状
量化交易算法国内外研究现状
Web信息抓取技术研究现状
道光年间的禁烟问题研究现状
钛合金微弧氧化技术的研究现状和参考文献
医学图像去噪国内外研究现状
Bi0.5Na0.5TiO3陶瓷研究现状
国内外关于机构投资者参与公司治理研究现状
杂拟谷盗体内共生菌沃尔...
当代大学生慈善意识研究+文献综述
酸性水汽提装置总汽提塔设计+CAD图纸
乳业同业并购式全产业链...
大众媒体对公共政策制定的影响
java+mysql车辆管理系统的设计+源代码
电站锅炉暖风器设计任务书
河岸冲刷和泥沙淤积的监测国内外研究现状
十二层带中心支撑钢结构...
中考体育项目与体育教学合理结合的研究
主页
计算机
机械
自动化
关闭菜单
栏目
毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
日语论文
英语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
菜单
毕业论文
刷新
分享
收藏
关于
关闭
关闭
分享本页
返回
关闭
暂无收藏
全部清除
关闭菜单
About
751论文网手机版...
主页:
http://www.751com.cn
关闭
返回