网络搜索引擎的实践应用研究 第5页
搜索引擎的功能在于将分散的网址集中起来,分类提供给用户,以便快速查找到所需的信息。常规搜索引擎一般都带有数据库资源,因此对搜索引擎的比较主要集中在数据库资源和搜索引擎的性能两个方面。数据库资源方面的比较研究主要包括:数据库规模、索引方式、以及资源内容(如声音、图像、Usenet、FTP、Newsgroup、Gopher、Email等其它资源)。检索性能的比较,主要有布尔检索、复杂布尔检索、相邻和相邻and/or检索(NEAR、ADJ、FAR、BEFORE、FOLLOWED BY、<Sentences>、<Paragraph>)、截词检索、检索范围限定、出版日期限定、多语种检索、多种版本选择、大小写有别、概念检索、词语加权、词语限定、自然语言检索、特定字段检索、缺省值、检索结果显示方式、显示数量选择、相关排序、站点评价、相似性检索、结果过滤、用户界面、查准率、响应时间等方面的比较研究。
2.1国外的比较研究
国外学者对Alta Vista、Excite、Lycos从检索方式、响应时间、准确性等方面进行比较与评价,Alta Vista检索功能较强,Lycos的覆盖范围较广,Alta Vista真正地支持词语检索。不同搜索引擎的检索结果有很大差别,即使功能最完善的搜索引擎也只能找到Web上大约1/3的网页,1998年6种主要搜索引擎的Web网页搜索覆盖率:HotBot 34%;AltaVista 28%;Northen Light 20%;Excite 14%;Infoseek 10%;Lycos 3%。1999年被测试的11种搜索引擎中查询到网页最多的前三名是NorthernLight、Snap、AltaVista,没有任何一种搜索引擎可以包罗超过16%的网上信息资源,搜索引擎的覆盖能力与一年前相比明显萎缩。 近些年来陆续出现了许多比较网络检索工具的研究和报道,绝大多数研究是就一些检索提问,比较和评价多个检索工具,采用的比较和评价标准不统一。
2.2国内的比较研究
国内对于搜索引擎的比较研究主要在两个方面:一是对搜索引擎的基本检索性能和数据库内容进行比较;二是通过一定的检索提问进行上网测试。已有作者从数据库的内容和结构、检索方式及特点、检索结果的显示、数据库的更新及有无扩展功能等方面四个方面加以比较,发现目录型检索工具Yahoo、Librarians'的检索功能相对较弱,检索型检索工具的检索功能则相对较强。在布尔逻辑检索方面,仅仅少数搜索引擎做得比较好。Infoseek和Open Text为检索结果提供了很好的描述,Open Text是唯一支持全文检索的引擎,Lycos、Excite、Open Text是覆盖面较广的数据库,Yahoo是较完整的目录。国内作者对多种搜索引擎的比较测试表明,对同一检索式,不同检索引擎的检索结果相互交叉的现象不多,各搜索引擎检索出的条数有较大差别,元搜索引擎检索出的结果不一定比单一搜索引擎多。有作者发现,Alta Vista、Excite、HotBot、Infoseek、Lycos、Open Text、Webcrawler、Yahoo以及中文搜索引擎Goyoyo在索引资源、用户界面、功能设置、检索速度、检索数量以及准确率等方面各有所长。也有人对中文搜索引擎进行了网络测试。与传统的光盘数据库检索相比,因特网信息缺乏深度、质量和可靠性不稳定,搜索引擎查询和光盘检索在用户服务方面均有优势和不足。
搜索引擎及网址 |
开发公司 |
运行时间 |
网页数 |
检索功能 |
结果显示 |
Google(http://www.google.com) |
|
1998 |
33亿网页 |
简单、高级检索、精确检索、网站定位 |
标准、相关性排序、页显示结果数可选择 |
Altavista(http://www. alvista.digital.com) |
美国数字 设备公司 |
1995.12 |
1亿多网页 |
简单、高级检索、精确检索 |
标准、压缩、详细格式、页显示条数可选择 |
Lycos(http://www.lycos. com) |
美国卡内基•• 梅隆大学 |
1994.5 |
6600万余网页 |
自然语言、布尔、截词检索 |
结果显示可选择 |
Excite(http://www.excite.com) |
Architext 软件公司 |
1995 |
5500万网页 |
自然语言,布尔检索、概念查询,精确检索 |
检索结果带文摘,数量和质量均较理想。 |
Yahoo(http://www.yahoo. com) |
美国斯坦福大学 |
1994 |
5000万 网页 |
主题,关键词检索、布尔、精确检索 |
简短描述,检索结果较好,但数量不多。 |
Infoseek(http://www.info seek.com) |
美国Infoseek公司 |
1995 |
5000万 网页 |
主题分类、关键词 查询 |
相关性排序,结果有描述、较详细。收费 |
Webcrawler(http://www.webcrawler.com) |
华盛顿大学 |
1994 |
200万网页 |
自然语言、布尔检索NEAR、ADJ检索 |
相关性排序,简单、详细格式结果数量大 |
Magellan(http://www.magellan.com) |
美国Magellan公司 |
|
|
自然语言、布尔检索 |
详细的信息描述结果显示网站打分 |
HotBot(http://www.hot bot.com) |
Lycos network |
|
5400万网页 |
布尔运算、关键词 |
无相关排序 |
Inktomi(http://inktomi.berkeley.edu) |
Inktomi公司 |
1996.2 |
280万网页 |
关键词、词根检索;+/-表必用或禁用词 |
智能相关排序,有描述:无摘要 |
Medicalmatrix(http://www Medmatrix.org) |
Healthitel 公司 |
|
5000多个医学站点 |
分类、关键词检索 |
简单、详细格式 |
搜狐(http://www.sohu com) |
爱特信公司 |
1998.2 |
200万网页 |
分类查询、关键词 |
标准、简要格式 |
百度(http://www.baidu.com) |
百度网络公司 |
1999 |
4500万网页 |
分类浏览、简单、高级检索 |
详细格式、有描述,相关性排序 |
天网(http://pccms.pku edu.cn:8000/gbindex.htm) |
北京大学 计算机系 |
|
100万网页 |
简单、高级查询、查词串查询率高 |
命中率高,重复网页多相关性排序,标准/简要 |
Goyoyo(http://www.Goyoyo.com.cn) |
香港优联克、 北京联克公司 |
1997 |
24万中文 网页 |
关键词、分类主题 |
网页过滤、详细格式 |
表2-1 国内外常用WWW网络搜索引擎一览表
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] 下一页