国内互联网的普及是从1998年左右开始的,而搜索引擎是2000年百度提供搜索服务才进入人们的视野。随后在2002,中国互联网的信息迅速增多,大量网民的出现,网民对搜索引擎有了更为深刻的了解。在这个信息膨胀的时代,用户的需求是多样的,人们对信息的准确、适用也提出了更高的要求。搜索引擎要想解决用户的问题就必须改进,增加搜索引擎与用户的人机交互,让搜索引擎更加人工智能化。正因为如此,互联网的发展才能带动搜索引擎的发展。
二、互联网
互联网指的是广域网、城域网、局域网及单机按照一定的通信协议组成的国际计算机网络。互联网上每一台主机都需要有“地址”,并且,这些主机必须按照共同的协议连接在一起。凡是能够彼此通信的设备组成的网络就叫互联网。因特网是由上千万台设备组成的互联网,它属于互联网的一种。因特网使用TCP/IP协议(定义设备如何连入互联网及传输数据的标准)让不同的设备能够相互通信。TCP/IP协议有很多协议,不同类型的协议放在不同的层里。比如应用层里有FTP、SMTP、HTTP等协议。当应用层使用的是HTTP协议时,我们称为万维网。我们平常在浏览器中搜索百度的页面就是通过HTTP在交流。
三、搜索引擎的基本原理及其组成
搜索引擎(search engine);是利用搜索信息相关的系统在互联网庞大的资源空间中搜索相关的有用信息,在其内容上建立索引数据库,并且通过一个友好交互的查询界面来帮助用户进行查找信息服务的工具。搜索引擎的主要特点是能够自动对网页服务器上面的信息进行搜索,并给予分类、索引,然后将索引的内容存放到数据库中,让用户更加便捷的检索信息。实际上就是将互联网上繁琐的信息进行整理规范化。
(一)、搜索引擎的基本原理
搜索引擎的基本原理主要分三个过程。
抓取网页:每个独立的搜索引擎都有自己的Spider(网页抓取程序),它会根据网页中的URL来抓取网页,由于目前互联网中超链接普遍存在,所以它可以从一个网页中连续抓取多个网页。Spider为了能够快速的搜索整个互联网,通常采用抢先式多线程技术来实现网上信息的聚集。抢先式多线程能够索引一个基于链接的网页,启动一个新的线程来跟踪一个新的链接,直至完结。由于网络信息的不断变化,Spider也会不断更新之前组织分类好的目录。
处理网页:当搜索引擎抓取到网页之后,开始提取关键词,并建立索引文件,保证信息的时效性。在这个过程中,还要处理去除重复网页、判断网页的类型、计算网页优先级以及记录站点的信息。记录的信息包括整个HTML的整个文本信息和算法处理后的摘要。文献综述
提供检索服务:用户输入关键词进行检索,搜索引擎将会查询数据库,找出与关键词匹配的网页,通过算法的排序将生成结果的网页返回给浏览器。用户只需要访问搜索引擎搜索出来的链接就可以得到所需的信息。该过程的顺利执行要依靠前面两个过程,一是搜索引擎能否给出最广泛、最准确的信息。另一个是搜索引擎能否尽快的查找到用户的所需的信息。