菜单
  
    摘要:随着Internet的快速发展,互联网上产生了海量的信息,为人们提供了极其丰富的信息资源,但正是由于这种信息快速增长的情况,一个普通网页上的内容往往除了主题文本外,还有诸如图片、链接、广告等与主题文本无关的“噪音信息”,这些“噪音信息”通常会干扰人们获取该网页的主题内容。本毕业论文针对主题型网页,基于HTML标签窗实现网页正文的初步提取,利用正则表达式去除“噪音信息”,最后对提取内容进行标签去除,实现了网页正文的提取。为了进一步提高网页正文提取的精度,利用余弦算法计算提取出的网页正文与网页标题的相似度。测试结果表明该方法能够较好地实现网页正文的提取。20512
    关键词:网页正文;HTML;相似度;信息提取.
    Webpage Text Extraction Optimization based on the Correlation between Text and Title of a Webpage
    Abstract: With the rapid development of the Internet, a large quantity of information has been generated on the Internet, which provides abundant information resources for us. However, a webpage is generally composed of some "noise information" besides useful information, such as pictures, hyperlinks, advertising and so on, which will disturb human to get useful information from the webpage. To solve this problem and extract useful text from a webpage efficiently, this paper first uses the HTML tag window technology to extract text from the webpage preliminarily, then uses Regular Expression to remove the “noise information” of the webpage, finally remove the HTML Tags. To further increase the precision of text extraction, the paper takes advantage of Cosine algorithm to calculate the similarity between the extracted and the title of the webpage. Test results show that the method can work well in text extracting from a webpage.
    Keywords:    Webpage Text; HTML; Similarity; Information Extraction.
    目   录
    1    绪论    1
    1.1    选题背景    1
    1.2    研究意义    2
    1.3    研究现状及存在的问题    2
    1.4    论文研究的内容及结构    3
    2    相关知识及技术    4
    2.1    信息抽取    4
    2.2    HTML    4
    2.3    正则表达式    6
    2.4    JAVA    8
    3    网页正文提取方法    9
    3.1    网页正文的定义    9
    3.1.1    主题型网页    9
    3.1.2    导航型网页    9
    3.2    各类网页正文提取方法    10
    3.2.1    基于HTML的网页正文提取方法    10
    3.2.2    基于DOM树的网页正文提取方法    10
    3.2.3    基于内容的网页正文提取方法    11
    3.2.4    基于模版的网页正文提取方法    12
    3.2.5    基于视觉的网页正文提取方法    12
    3.2.6    基于数据挖掘/机器学习的网页正文提取方法    13
    3.3    本章小结    13
    4    网页正文提取优化方法    14
    4.1    正文    14
    4.2    精确标题    14
    4.3    正文主题相似度的计算    14
    4.3.1    文本相似度    14
    4.3.2    正文主题相似度的计算方法    15
  1. 上一篇:iOS平台个⼈移动地图的设计与应⽤
  2. 下一篇:ASP.net企业客户信息管理系统CRM设计+文献综述
  1. 基于MATLAB的图像增强算法设计

  2. 基于Kinect的手势跟踪与识别算法设计

  3. JAVA基于安卓平台的医疗护工管理系统设计

  4. 基于核独立元分析的非线...

  5. 基于Hadoop的制造过程大数据存储平台构建

  6. 基于安卓系统的测量软件...

  7. 基于VC++的GIS矢量图形系统开发

  8. 酸性水汽提装置总汽提塔设计+CAD图纸

  9. 杂拟谷盗体内共生菌沃尔...

  10. 中考体育项目与体育教学合理结合的研究

  11. 大众媒体对公共政策制定的影响

  12. 乳业同业并购式全产业链...

  13. 电站锅炉暖风器设计任务书

  14. 十二层带中心支撑钢结构...

  15. 河岸冲刷和泥沙淤积的监测国内外研究现状

  16. java+mysql车辆管理系统的设计+源代码

  17. 当代大学生慈善意识研究+文献综述

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回