5 网页正文提取软件实现 18
5.1 系统总体设计思想 18
5.2 提取网页源代码 19
5.2.1 Java与网络 19
5.2.2 URLConnection类 20
5.3 网页源代码处理 22
5.3.1 字符编码 22
5.3.2 网页规范化 22
5.4 正则表达式去除“噪音信息” 23
5.4.1 获取标题 24
5.4.2 获取正文内容 25
5.4.3 去除标记 26
5.4.4 文本换行处理 26
5.5 系统测试 26
5.5.1 测试环境 26
5.5.2 测试计划 26
5.5.3 测试结果 27
6 结论 32
6.1 系统小结 32
6.2 心得体会 32
致 谢 34
参考文献 35
1 绪论
1.1 选题背景
随着Internet的迅猛发展,互联网已经成为人们处理日常事务必不可少的一种平台,可以这么说,人类的种种社会活动已经与网络形影不离了。任何人都可以在互联网上发布各类信息,与之相伴随的就是网页呈现的爆炸式增长。人们可以在Internet上寻找任何自己想要得到的信息,通过各类搜索引擎就可以简单的找到你想要寻找与之相关的信息。然而,正是因为互联网上信息量巨大,同时这些信息是无序不规则的。因此出现了许多互联网的信息采集辅助工具,当然,其中包括了一些搜索引擎:如Google、Baidu等。在Internet上,大部分的信息是以网页的形式来呈现给浏览者的,但是随着网页的爆炸式增长,网页的结构也越来越复杂。
为了达到增加访问量的目的,很多网站会把自己的网页设计的看起来更美观、内容更丰富,这样做往往会在网页的设计上加上许多的修饰,使得该网站的网页更容易吸引用户的眼球,又或者是帮助人们在浏览网页的过程中更加便捷的获取信息。同时,在一个网页中会存在很多的广告链接、导航链接等。这些信息虽然给用户提供了一定的便利,但同时又带来了一定程度上的浏览干扰。随着移动设备(手机、平板等)的普及,越来越多的人在更小的屏幕上进行网页浏览。在有限的屏幕上对网页进行浏览预示着网页对显示的信息有着更加苛刻的要求。人们同城希望看到的是他们感兴趣的网页正文内容,而不是铺天盖地的广告,在平时的网页浏览中,有谁会对满屏幕的广告内容感兴趣呢?
网页正文提取相关方面的研究对移动互联网的发展具有巨大的推进作用。而网页正文提取技术使得移动互联网的用户对互联网信息的获取更加方便、精准和简洁。信息的爆炸性增长使得网页内容的存在与表现形式趋于多样化,今天的信息已经不仅仅局限于文本,而越来越多的是文本、多媒体和元数据的混合。因此,如何快速有效地利用这些更主题相关的信息,已经成为人们越来越关注的问题。就当前,基于主题相关性的网页正文提取方法优化研究是国际信息提取领域的热点和前沿问题,其研究将有助于提高信息提取的精准率和提取效率,以便人们快速浏览网页获得自己所需的信息。
关于中文文本信息提取方面的研究起步比较晚,并且由于中文本身相对于英文的复杂性,构建中文文本信息提取系统要比之构建提取英文文本信息提取系统更加复杂。目前设计实现完整的中文文本信息抽取系统的研究方面还处在探索阶段。本文主要研究的是中文网页的基于主题相关的网页正文抽取技术。这对众多领域的研究与应用,具有不可忽视的推进作用。
- 上一篇:iOS平台个⼈移动地图的设计与应⽤
- 下一篇:ASP.net企业客户信息管理系统CRM设计+文献综述
-
-
-
-
-
-
-
酸性水汽提装置总汽提塔设计+CAD图纸
杂拟谷盗体内共生菌沃尔...
中考体育项目与体育教学合理结合的研究
大众媒体对公共政策制定的影响
乳业同业并购式全产业链...
电站锅炉暖风器设计任务书
十二层带中心支撑钢结构...
河岸冲刷和泥沙淤积的监测国内外研究现状
java+mysql车辆管理系统的设计+源代码
当代大学生慈善意识研究+文献综述