户来说是不可忍受的。搜索引擎就象一个自动化的目录一样,它可以帮助用户发现用户所需要的信息来源,并帮助用户去获取它。
搜索引擎的工作机制大致如下:
首先,搜索引擎用一个绰号为“蜘蛛”的自动代理软件在网址中爬行,访问网络中公开区域的每个站点并记录其网址,从而创建一个详尽的网络目录。
而后,搜索引擎根据自己的需要,访问数据库中记录的部分站点或所有站点。系统把“机器人”软件发往要访问的站点,记录每一页的所有文本内容或者从这些信息中提取自己所需的摘要和其他信息。得到的这些信息被存放于一个数据库中,这个数据库必须经常更新,重建,以保持与信息世界的同步发展。
最后,数据库中的信息最终是为检索用户服务的。搜索引擎启动一个CGI程序接受用户的搜索请求,把符合用户请求的信息从数据库中提取出来,并按其相关程度排序后输出给用户。
随着WWW的迅速发展,专门作为搜索引擎的站点也正以惊人的速度发展。现在网上常用的搜索引擎有Alta Viasta,Excite,InfoSeek,Guide,Lycos,Open Text等第。这些搜索引擎给WWW用户带来了极大的方便。网上的搜索引擎大部分都是对整个WWW进行搜索的。由于搜索的范围相同,各种搜索引擎就有了一种比较的关系。在大量的使用中,各种搜索引擎表现出了许多共同之处,同时页体现出了许多各自的特点。
相同之处:
1。搜索速度十分快,用户响应时间非常短。搜索时间一般都在1~2秒之间。这得益于竞争的结果,因为各搜索引擎的设计者都知道速度是用户的最基本需求,在速度上不能满足用户需求将使得他所设计的搜索引擎毫无竞争力。浅谈培养小学生朗读技巧的困境以及初探
2。搜索结果的准确性依赖于被搜索的内容。对于每一种搜索引擎,除非让它进行以容易描述的主题为基础的简单检索,否则它就会给出相当高比例的无关信息。
3。不能很好的支持自然语言。用户的简单的搜索输入,准确的搜索输出的要求在一定的时间内是无法满足的。用户希望得到一个精确的搜索结果时,用户只能通过复杂的布尔表达式来实现其目的。
4。在进行相同的搜索时,各个搜索引擎给出的结果有很大不同,虽然结果中也有相当数量的重叠信息。对一个搜索引擎进行相同的搜索时,其返回结果总是相同的。
不同之处:
现有的搜索引擎主要的特色体现在它的查全率和查准率。查全率主要依赖于搜索引擎的数据库的大小,在这一方面,Alta Vista和Lycos拥有数千万的网页容量,故而有很高的查全率。其他数据库相对较小的搜索引擎在查全率上无法和它们匹敌。查准率主要依赖于数据库索引的建立方式,查询时的算法和对用户搜索要求的理解。在这一方面,InfoSeek的口碑很好。InfoSeek虽然不能给出最全面的信息,但是其搜索结果的相关性非常的好。
以下是各种搜索引擎的对比表:
Alta Vista Excite InfoSeek Lycos Open Text
类型与容量 全文本
2100万页 全文本
150万页 全文本
100万页 摘要
1900万页 全文本
150万页
数据库 FTP站点 无 无 无 有 有
Gopher站点 无 无 无 有 有
新闻组 有 有 有 无 无
精细化搜索结果 无 无 有 无 有
事件敏感性 有 无 有 无 无
搜索 高级增强搜索 有 无 无 有 有
布尔运算 有 无 无 有 有
搜索结果描述 有 有 有 有 有
图 1.2 网络搜索引擎对比表
§1.3 中文的特点和搜索引擎对中文的支持 中药配合微波理疗治疗慢性盆腔炎的疗效观察
中文是一种象形文字,它与字母文字有着十分巨大的区别。字母文字的字母数量一般都十分有限,例如英文有26个字母,德语有28个字母,俄语有33个字母。由于字母少这个特点, 使得字母文字在计算机上的应用十分简单,无论从文字的输入输出,还是文字的传输处理。中文的字的数量却十分的庞大,有数万个字。这些字中的使用频率有相差悬殊,有些常用词几乎每个句子中都有:如‘的’,‘是’等词。有些词十分罕见,只存在于某些特殊用法或姓氏中,在很多字典中都没有收录。对于这些中文的特点,古代印刷术的解释中就有说明,“遇到罕见的字,在现有的字模中没有,当即用泥土刻造该字作为字模使用。”。这也充分说明了很难将汉字搜集完整。中文由于字数多,表示复杂,使得在计算机上使用中文有一定的困难。为了将计算机对中文支持的标准化,国家标准局颁布了国家汉字编码标准(GB编码)。GB编码使用的是扩展ASCII字符集,其使用范围是0xA1~0xFF。GB编码共收录一级,二级常用字共6768个,每个汉字或汉字符号用两个的字节实现。第一个字节表示该汉字的区号,第二个字节表示该汉字在该区内的编号。由于国家制定了GB标准,使得汉字在计算机上的处理有了一定的标准。但是,在其他方面,如汉字输入,还没有相应的国家标准,使得在这个领域相对混乱。