爬虫集群国内外研究现状和参考文献

菜单

随着互联网的迅速发展，网络的使用用户越来越多，使用用户越来越多使得网络中的数据十分庞大，虽然现在网络更加强大，但是越来越多的数据同样让检索所有的网页越来越困难，因此，越来越多的编程者尝试实现一种高效的搜索功能，为了使网页检索功能更加有效率一些编程者在Matthew Gray的Wanderer基础上改进了传统的“蜘蛛”程序工作原理。其设想是根据每一个网页都可能有连向其他网站的链接，就这样从跟踪一个网站的链接开始，一层层的另一个网页，从而检索整个互联网。43272

近十二年的爬虫集群开发经验：互联网上凡是人能看到的信息，都可以用机器自动化，大规模的爬取下来；

德国全网 -> 国外全网口碑-> 中文全网口碑 -> 电商口碑评论

高效，高可配置，低成本：通过大规模自动化控制的集群机制和高效可视化的爬虫模板配置特性，可以以低廉成本高效的大规模的爬取和扩展网络信息资源。当前计算机技术中几种比较常用的网络爬虫实现策略：广度优先的爬虫程序，Repetitive爬虫程序，定义爬行爬虫程序，深层次爬行爬虫程序:751!文~论`文/网www.751com.cn。此外, 还有根据概率论进行可用Web页的数量估算, 用于评估互联网Web规模的抽样爬虫程序; 采用爬行深度、页面导入链接量分析等方法, 限制从程序下载不相关的Web页的选择性爬行程序等等。

参考文献

[1]. Michelangelo Diligenti, Frans Coetzee, Steve Lawrence, etal. Focused Craw ling using Context Graph s[J ], Intemat ional Conference on Very Large Databases. 2002, (26) : P 527～534.

[2]. Wisenut．WiseNut Search Engine white paper [M]．北京：中国电力出版社，2001，P 400～500.

[3]. Winter．中文搜索引擎技术解密：网络蜘蛛 [M]．北京：人民邮电出版社，2004，P 234～457.

[4]. Sergey等．The Anatomy of a Large-Scale Hypertextual Web Search Engine [M]．北京：清华大学出版社，1998，P 568～732.

[5]. Wisenut．WiseNut Search Engine white paper [M]．北京：中国电力出版社，2001，P 300～432.

[6]. 王保罗.Java面向对象程序设计[M]. 北京：清华大学出版社，2003，P 327～434.

[7]. 高林，周海燕.Jsp网上书店系统与案例分析[M]. 北京：人民邮电出版社，2004，P 127～147.

[8]. 菲茨杰拉德. 学习正则表达式. 北京：人民邮电出版社. 2013，P 87-91

[9]. 陶国荣. jQuery权威指南. 北京：机械工业出版社.2011，P 100-102

[10]. Silverstein, Craig, Marais, Hannes, Henzinger, & Monika, et al. Analysis of a very large web search engine query log. ACM SIGIR Forum, 1999，33(1), 6-12.

[11]. Liwen Vaughan, & Mike Thelwall. Search engine coverage bias: evidence and possible causes. Information Processing & Management, 2004，40(4), 693-707.

[12]. Lewandowski, D., Wahlig, H., & Meyer-Bautor, G. The freshness of web search engine databases. Journal of Information Science, 2006，32(2), 131-148.