毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

网络特定文本信息抓取及统计(2)

时间:2017-02-27 11:47来源:毕业论文
4网页抓取和统计系统的实现 17 4.1 总体设计 17 4.1.1 需求分析 17 4.1.2 系统功能模块 17 4.2 网页内容抓取模块详细设计 18 4.2.1 网页内容抓取概述 18 4.2.2 网页内


4网页抓取和统计系统的实现    17
4.1 总体设计    17
4.1.1 需求分析    17
4.1.2 系统功能模块    17
4.2 网页内容抓取模块详细设计    18
4.2.1 网页内容抓取概述    18
4.2.2 网页内容分析抓取模块流程    18
4.2.3 网页内容抓取部分变量    19
4.2.4 网页内容获取核心代码    19
4.3 分词统计与分析模块详细设计    20
4.3.1 分词系统概述    20
4.3.2 分词统计与分析系统模块流程    21
4.3.3 分词统计与分析系统变量定义    21
4.3.4 分词统计与分析系统核心代码    22
4.4 保存指定日期的文本模块    23
4.4.1 概述    23
4.4.2 保存文本的核心代码    23
4.5 程序界面设计    24
4.5.1 设计原则    24
4.5.2 窗口设计    24
5系统测试    26
5.1 系统测试的目的    26
5.2 测试与分析    26
5.2.1 测试    26
5.2.3 结果情况分析    28
6总结    29
6.1 小结    29
6.2 心得体会    29
致  谢    30
参考文献    31
 
1绪论
1.1 课题的目的和意义
网页上信息的爆炸性增长,人们无法直接而准确地定位感兴趣的资源,越来越多地依赖搜索引擎。而搜索引擎又分为通用搜索引擎(如Goolge、百度等)和垂直搜索引擎。相比于通用搜索广泛地采集各个互联网站点资源,垂直搜索是针对于某一个行业的专业搜索,是对网页中的某类专门数据进行处理后,再对信息进行整合,返回给用户。
本课题就是基于垂直搜索引擎,将一个特定的网站(如:新浪)作为搜索主页。区别于垂直搜索引擎是利用页面上的超文本链接遍历Web,本课题无需遍历,只提取主要上用户感兴趣的话题,返回文本,并进行分析统计,将搜索的结果按照一定的规则返回给用户,并保存在本地数据库中。这样做不仅节约了网络带宽和用户的时间,更能直接了当的查看一个特定网站所感兴趣的数据。
此次课题的完成,能够方便人们搜索自己感兴趣的内容。喜欢体育的可以在新浪体育的基础上搜索篮球等等,这样可以大大减少无用信息的干扰,并且通过统计,可以更加直观的了解想要的信息。
1.3 本文的安排
第1章. 绪论    
第2章. 相关技术    
第3章. 网页特定文本的抓取与统计的方法研究
第4章. 网页抓取和统计系统的实现    
  4.1系统总体设计
  4.2网页内容获取模块详细设计
  4.3 抓取系统模块详细设计
  4.4 分析统计模块设计
  4.5 程序界面设计
第5章. 系统测试
  5.1系统测试的目的及意义    
  5.2测试与分析    
第6章. 结论
2 技术说明
2.1 网页分析
2.1.1 简述
本设计所说的网页分析是通过对某网页内容的源代码分析,通过某些编程软件实现并获取指定网页内容的设计过程。首先我们必须知道网页的基本格式,熟悉HTML。
2.2.2 超文本标记语言HTML
  HTML 是用来描述网页的一种语言。
HTML 指的是超文本标记语言 (Hyper Text Markup Language)
    HTML 不是一种编程语言,而是一种标记语言 (markup language) 网络特定文本信息抓取及统计(2):http://www.751com.cn/jisuanji/lunwen_3461.html
------分隔线----------------------------
推荐内容