(3)完成用户提交查询请求的网页检索器:网页检索器一般是一个在Web服务器上运行的服务器程序,它首先接收用户提交的查询条件,根据查询条件对索引库进行查找并将查询到的结果返回给用户。当用户使用搜索引擎查找信息时,网页检索器接收用户提交的关键词,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。有的搜索引擎系统综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。典型的搜索引擎系统如Google就是采用这种策略。
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及ahvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度、中搜等。
随着搜索引擎技术的成熟,它将成为获取信息、掌握知识的利器。但是现有的搜索引擎对于用户所提出的查询要求仅限于关键词的简单逻辑组合,搜索结果重视的是返回的数量而不是质量,在结果文档的组织和分类上也有所欠缺。国外的一次调查结果显示,约有71%的人对搜索的结果感到不同程度的失望。因此,如何提高搜索引擎的智能化程度,如何按照知识应用的需要来组织信息,使互联网不仅提供信息服务,而且能为用户提供知识服务,将成为计算机工业界和学术界有待研究的方向。
1.2 网络爬虫研究现状
1.3 网络爬虫的工作原理
网络爬虫定义有广义和狭义之分,狭义上的定义为利用标准的http协议根据超级链接和Web文档检索的方法遍历万文网信息空间的软件程序;而广义则是所有能利用http协议检索Web文档的软件都称之为网络爬虫。网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万文网上下载网页,是搜索引擎的重要组成。它通过请求站点上的HTML文档访问某一站点。它遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫进入某个超级文本时,它利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL地址,可以完全不依赖用户干预实现网络上的自动“爬行”和搜索。
1.4 论文的组织结构
本论文共分为751个部分。
第一部分——绪论。介绍本课题的研究背景与意义,概括论文研究背景及组织结构。
第二部分——系统开发工具和平台及相关技术介绍。主要介绍本系统所采用的工具:Java语言、Myeclipse8.5、tomcat6.0、JDK及Servlet结构。HTML的解析与常用的爬虫策略。
第三部分——网络爬虫。主要介绍本程序所采用的网络爬虫搜索策略,网页解析类HtmlParser以及网络爬虫的主要运行流程图。
第四部分—— 系统分析。主要介绍在本系统基础上的可行性分析、需求分析及功能的实现。
第五部分——实验效果及分析。主要介绍本系统运行所需的软硬件环境及系统测试结果列举。 网络爬虫的设计与实现+文献综述(3):http://www.751com.cn/jisuanji/lunwen_5324.html