国内现有的系统有中科院软件技术研究所开发的“天达”主题web信息采集系统。为了实现基于主题信息的自动采集,将整个处理过程分成了七个大模块:主题选择、初始URL选择、Spider采集、页面分析、URL与主题相关性判定(链接过滤和链接预测)、页面与主题的相关性判定(页面过滤)、数据存储。65852
为了有效的提高主题web信息采集的可靠性(查全率和查准串的综合)和效率,系统需要在采集的过程中增加过滤机制,以便采集的页面能够向主题靠拢。系统采用了综合扩展元数据方法和链接分析方法的IPagerank方法,这种方法是进行URL和主题的相关性判定,可以大量减少采集页面的数目,并有效地提高主题信息搜索的效率和速度。
国外的系统有C&C Rsearch Laboratories 开发的WTMS(基于主题的网络信息采集分析系统)。论文网
WTMS提供了几种不同层次的可视化信息提取方法,用户能够在搜索的同时进行浏览,除了传统方式上基于关键字的搜索,结构化分析技巧使得用户能够对于收集结果获得几种不同的有用的知识。它整合了查询与浏览,超越了基于关键词的查询,用户能够成批的收集相关信息,过滤不重要的信息。用户能够很容易地共享收集到的信息。
优点:引入最佳中心页面和权威页面作为过滤信息的技巧,它通过减少超过20%的下载页面来改进性能,同时只丢失了很少的无关紧要的页面。
缺点:结构化分析不容易使用传统的搜索引擎或以前的主题管理系统,而且系统还不支持中文处理。
参 考 文 献
[1] 邹涛,张福炎.网络信息搜寻技术与发展[J].计算机工程与科学 1998
[2] 陈松桥.计算机应用[M].长沙:湖南科学技术出版社 2002
[3] 李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统[M].北京:科学出版社 2005
[4] 郭红,郭朝珍,苏群.多网站信息采集与异构信息集成应用[J].福州大学学报(自然科学版)2001
[5] 龙银香.基于HTML标记的信息隐藏方法[J].微计算机信息 2006
[6] 孙鑫,余安萍. VC++深入详解[M]. 北京:人民邮电出版社 2006.
[7] 王国辉,李钟尉. Java程序设计自学手册[M]. 北京:人民邮电出版社 2008.
[8] (美)Douglas C.Schmidt,Stephen D.Huston著,於春景译. C++网络编程卷1[M]. 武汉:华中科技大学出版社 2003.
[9] (英)哈诺德著,朱涛江,林剑译. Java网络编程(第3版)[M]. 北京:中国电力出版社 2005.
[10] 南京航空航天大学图书馆组. 网络信息采集与应用[M]. 北京:清华大学出版社 2005.
[11] 李盛韬,余智华等.Web信息采集研究进展[J].计算机科学 2003
[12] (美)HarjinderS Gll著 王仲谋 刘书舟译.数据仓库-客户/服务器计算指南[M].北京:清华大学出版社 1997
[13] Elliotte Rusty Harold,杜大鹏,李善茂,傅烨. XML实用大全 2000
[14] Ann Navarro,Chuck White,周生炳,宋浩,Linda Burman.XML从入门到精通 2000
[15] 王超,张鹏. ASP NET/XML深入编程技术 2002