目录
1绪论....1
1.1背景分析...1
1.2研究的内容.1
1.3论文结构...2
2爬虫技术及新浪微博数据挖掘方案...2
2.1正则表达式简介..2
2.2HTMLPARSER概述...2
2.3多线程技术.2
2.4JSP技术...4
2.5新浪微博数据挖掘方案.5
2.6本章小结...9
3系统分析9
3.1系统需求分析....9
3.2通用爬虫的体系结构..10
3.3基于关键字的主题爬虫的体系结构11
4系统设计....12
4.1系统模块设计...12
4.2系统流程设计...13
4.3爬行模块设计...15
4.4网页解析模块设计....18
4.5基于网络爬虫的页面解析...18
4.6数据库设计20
5系统实现....21
5.1实现工具..21
5.2网络爬虫架构...21
5.3页面分析..24
5.4开发中遇到的难题....25
5.5运行效果展示...30
参考文献.32
致谢....35
1 绪论 1.1 背景分析 社会舆情是指人们在一定的社会空间内,围绕着社会事件的发生、发展及变 化,对公共问题和社会管理者持有的社会政治态度、观念和价值判断;它是较多 群众关于社会事件以及问题所表达的观点、态度和情绪等表现的总和。当前,我 国正处于社会转型期,各种社会矛盾和利益冲突日趋复杂、多变。社会舆情不仅 是检验社会成熟度的一个重要标尺,更是一把“双刃剑”。如把握和引导得当就 能推动社会稳定、健康地发展;如处置不当则会模糊社会发展主流、扰乱人心, 进而影响国家和社会的稳定与发展。 新浪微博是一款为大众提供娱乐休闲生活服务的信息分享和交流平台。截至 2010年10月底,新浪微博用户数已达 5000万,新浪微博用户平均每天发布超 过2500万条微博内容。 是中国用户数最多的微博产品,公众名人用户众多是 新浪微博的一大特色,基本已经覆盖大部分知名文体明星、企业高管、媒体人 士。
1.2 研究的内容 社会舆情系统分为多个功能模块,其中数据的抓取模块则大大减轻了管理 员的负担,把管理员从繁重枯燥的工作中解脱出来,不再需要手工地进入各个 门户网站了解舆情。我们将从网页中抓取的数据存入数据库,为后续的功能模 块对数据进行分析提供充足并且有效的数据。 爬虫程序是一个自动获取网页的程序。它为搜索引擎从互联网上下载网页, 是搜索引擎[1] 的重要组成部分。爬虫程序的实现策略,运行效率直接影响搜索 引擎的搜索结果。不同的搜索引擎源]自=751-^论-文"网·www.751com.cn/ ,会根据对搜索结果的不同需求,选择最合 适的爬行策略来搜集互联网上的信息。高效,优秀的爬虫程序可以使人们在互 联网上寻找到更及时,更准确的信息。 本系统通过JAVA语言实现一个基于广度优先偏历算法的多线程爬虫程序。 通过实现此爬虫程序可以搜集种子站点下的 URL,并对 url 的相关性进行分析, 如果与我们需求主题一致,及 url 对应页面为相关高校的舆情信息,即对网页进 行抓取,录入到数据库[4] ,方便后续的的分析。为了保证系统的完整性,我们将后台的mysql 数据库[5] 中的记录显示到前台,并且可以用 sql 语句[6] ,进行按 时间顺序查看记录。
1.3 论文结构 本文着重介绍了爬虫模块的设计与实现。其中第二章介绍了在爬虫模块的 设计实现中所用到的相关技术。第三章对系统整体进行分析,第四章对系统的 各个功能模块作了具体的设计,第五章详细阐述系统的实现过程。 2 爬虫技术及新浪微博数据挖掘方案