python基于新浪微博的网络爬虫和信息采集系统设计(3)

菜单

重、充满噪声的重复信息干扰人们对数据的提取。挖掘微博的价值，去除噪声，让微博数据得以充分利用成为人们研究的内容。

近年来，面对上述需求，针对微博的数据爬取工作一度成为人们研究的课题。然而目前尚没有针对微博关键字抽取有效文本的较成熟的系统，主要依靠广大网友的力量下载上传数据实现，例如有名的中国爬盟。

综上所述，基于新浪微博的网络爬虫和数据采集技术是当今社交媒体中研究人员获取信息的难点，同时也是“大数据”时代挖掘有效文本急需解决的问题，需要进行深入研究和探索。

1．2 国内外研究现状

1.2.1 微博研究现状

1.2.2 爬虫研究现状

1．3 研究目标和内容

1.3.1 研究目标

本课题的目标是构建一个面向新浪微博的网络爬虫和信息采集系统，对新浪微博的数据进行挖掘，以便研究人员利用数据进行后续研究。针对新浪微博的特性，创建适合新浪微博的依据关键字的数据爬取方案。最后，基于上述技术实现新浪微博的网络爬虫和数据采集系统。文献综述

1.3.2 研究内容

互联网的诞生，将我们的生活彻底改变。从 BBS、MUD、新闻组、电子邮件到门户网站、即时聊天工具、搜索引擎再到今天网民都在密切关注的 SNS（Social Networking Services）。时至今日，我们的生活已经不能缺少社交网站，特别是微博。在互联网时

代，从科学研究到医疗保险，从银行到互联网在不同领域的数据量的爆炸性增长。SNS 社会化网络是一个庞大的人机关系“实验室”，向这个世界呈现的是人类关系的数字化。如今，数据已经渗透到当今学习工作各个领域，成为其中不可或缺的生产因素。大数据时代终将以势如破竹，无可抵挡的气势降临。

在中国。微博自 2009 年 8 月开始推出以来，用户数量一直在大规模地增长。2014

年 3 月，微博的月活跃用户（MAU）和日活跃用户（DAU）数量达到 1.438 意和 6660 万。众多网民的背后，隐藏的是微博的大数据背后的巨大商机。一方面，微博逐步实现商业化为用户提升增值服务，利用广告对应的页面吸引粉丝互动，对品牌和产品进行推广，帮助微博运营商实现盈利；另一方面，另一方面，有很多专业的数据挖掘和分析机构在国内和国外涌现，利用微博平台，收集大量的数据，对微博用户的言论和

兴趣爱好进行分析，从微博“大数据”中挖掘商业价值。在这种情况下，得数据者得天下。如何从微博内容中挖取有价值的信息，并从中提炼出具有商业价值的决策分析数据，对于任何一个企业或者微博运营商来说都面临着极大的挑战。然而一方面微博碎片化的微博特点增加了文本抽取的难度，另一方面，基于庞大的用户群，微博的以裂变的速度爆炸性增长，从而使得微博的抽取技术变得至关重要。来!自~751论-文|网www.751com.cn

综上所述，本文针对新浪微博的海量文本，设计适合新浪微博的数据采集方案，从而实现包含关键字的有价值的微博信息的采集。

2 相关技术及可行性分析

Web 2.0 时代是一个更开放的时代，开放性意味着互联网平台与其他互联网服务之间的集成，意味着用户不再是单纯的服务用户，成为服务的创新参与者。发展必将走向开放，意味着更多的互联网产品最终走向开放。限制用户离开来束缚用户只能导致用户越走越远，开放的架构会吸引用户，让网站和用户的关系更加粘合。Web2.0 时代产生的微博，为开发者推出了基于 API 接口的开放平台。在这种情况下，微博获取有三种技术，下面我们将就这三种技术作详细介绍，并进行可行性分析。