网络数据抓取的国内外研究现状

如今微博用户群十分庞大，每天都有大量的微博信息发布，各种舆论事件往往通过微博迅速传播，国内外针对微博的研究方兴未艾。因此，如何全面高效率地抓取微博数据成为摆在科研工作者面前的首要难题。微博数据的抓取方式主要分为两种——调用开放平台API接口和使用网络爬虫[6]。23714
调用开放平台API可以便捷准确地抓取微博数据，但是微博服务商都不能把完整的没有限制的API提供给普通用户，因此只通过调用开放平台API只能获取很有限的微博数据，往往不能满足研究人员的需求[7]。而且开放平台的开发者授权申请也有着严格的限制，一次申请授权时间往往只有几个月的时间，一些高级接口还需要进一步提交申请。因此为了获取更全面的微博数据，必须借助于网络爬虫技术，网络爬虫技术一般通过模拟浏览器行为向web服务器发送HTTP请求，得到web服务器返回的HTML文本或其他形式的数据（如JSON、XML等），通过分析这类文本，来提取自己需要的信息。爬虫技术能够获取更全面的数据，但是抓取过程往往不顺利，并不是每次请求都会得到服务器友好的响应，爬虫客户端往往面临着被拒绝访问的危险，因此爬虫程序要有较高的健壮性与稳定性以及非常完善的异常处理机制。编写爬虫程序还需要研究者具有丰富的网络编程知识，并对HTTP协议有着较深入的理解。数据抓取同时还涉及到解析HTML文本，因此还需要研究者对web前端知识有一定的了解。总之，编写爬虫程序技术难度较大，不如直接调用开放平台API简单便捷。由于爬虫程序运行时会对web服务器造成一定的访问压力，每次请求，服务器换回大量数据，但是研究者往往只提取一小部分有用信息，造成流量浪费，因此web服务器会限制爬虫访问频率，若访问频率过高则拒绝访问一段时间，因此爬虫程序每抓取一个页面都要休息几秒钟甚至几分钟，导致抓取效率不高。基于以上原因，国内对新浪微博数据抓取大都采取调用API与爬虫技术相结合的方法。论文网
国外对微博研究大多集中在Twitter上[8][9][10]，由于Twitter开放平台API限制较少，通过直接调用开放平台API即能满足绝大部分需求，研究人员可以直接向Twitter公司申请授权即可获得某一时间段内所有用户发布的推文[8]。网络数据抓取的国内外研究现状:http://www.751com.cn/yanjiu/lunwen_16911.html