Python针对社区论坛BBS的网络爬虫系统设计(2)

参考文献27
1 绪论
1.1 课题的研究背景
随着互联网的发展，web已经成为现代人生活中不可或缺的一种信息的载体。中国互联网络中心2015年1月发布的《第35次中国互联网络发展状况统计报告》中显示[1]，截至2014年12月，互联网普及率达47,9%，较2013年底提升了2.1个百分点。中国网民规模达6.49亿，全年共计新增网民3117万人。手机网民规模达5.57亿。我们如今正处于一个信息爆炸的时代，海量数据已渗透到各行各业中。2012年2月12日《纽约时报》发表文章“ The age of big data”，作为主流媒体告诉人们，大数据真实的存在于人们生活中，而不是仅在于科技概念上的炒作[2]。TeckTarget在2012年发表的一项调查中显示，伴随着业务增长以及互联网尤其是社交网络领域的发展，目前已有57.1%的企业数据突破TB级别[4]。在社交媒体领域，Twitter上每天更新的数据达3.4亿条，Facebook上每天发布和分享量达到40亿，YouTube每天上传的影片内容多达5万小时。大数据时代已经到来。由于数据量庞大，而且杂乱无章，因此数据的处理成为现在研究的热点。爬虫成为大数据环境下进行数据研究的一项必备钥匙。互联网上存在很多的网络社区和论坛（BBS），这些BBS的话题保罗万象，分布于各行各业，存在大量的大数据主客观文本。面向BBS的网络爬虫系统是一种针对指定BBS的互联网信息搜集系统，可以根据用户需要从BBS上自动搜集相关信息。[5]
本文通过分析常见的BBS平台网站架构，分析主要信息模块，设计网络爬虫算法，针对主流BBS平台抽取有效的文本信息，以达到热点话题发现、情感分析和舆情健康的目的。
1.1.1 国内外研究现状
1.1.2 爬虫研究现状
2.增量网络爬虫
增量网络爬虫（Incremental Web Crawler）是一种根据不同同一网站上不同页面更新的频率的不同来对应不同的策略的爬取策略，是一种对已经爬取过的页面在数据存储中采取增量式的更新的策略，也就是说这种爬虫策略只会爬取当前新出现页面的数据和页面产生更新的数据。增量更新的策略相对于优先策略来说其不会出现大量重复爬取页面的情况，避免不能充分利用硬件或网络等资源，最终导致整个系统使用效率低下的情况的发生。
根据上述增量爬虫的工作原理，增量爬虫策略的实现必须经过以下几个步骤，首先要访问并重新下载当前的页面。然后进行数据的采集工作，及时更新进行更新数据库中已有的更新数据。更新数据的方法有很多种，一般来说可以分为以下几类：
（1）个体更新策略[11]：因为各个不同的网页都有可能会存在着彼此不同的更新频度，如此一来每个爬虫就需根据不同的网页的不同的更新频度来定时再次爬取并下载对应的网页。
（2）统一更新策略：在这种策略下爬虫们不管不同页面是否具有的不同的更新频率，全部都以同一个预设的更新频率来定时重新再次下载爬取全部的网页。
（3）分类更新策略[12]：系统会根据不同网页更新频率的大小，将网页分为几类，然后设定每类的更新频次，同一类的页面更新频率一样。
IBM开发的webFountain [13]是一个由基于增量爬取策略的爬虫。它采用一种依据已经爬取下来的历史数据结果以及所处网页的更新速度来自主的改变爬虫爬取下载速度；天网增量爬虫系统[14] 是由北京大学所研发的，其策略是将所有页面分为新爬取页面和有更新的已经爬取过的页面两大类，对两类网页采用两类方法进行爬取；根据不同页面的更新频率的规律，对更新频率高的页面采取直接爬取策略，同时对新网页建立以索引的主要组织形式的网页网路结构。 Python针对社区论坛BBS的网络爬虫系统设计(2):http://www.751com.cn/jisuanji/lunwen_23857.html