系统,如Lycos, Excite, AltaVista, Google等,所有这些搜索服务功能都只在一定程度上解决了网民查找信息的问题,其服务质量与服务功能还差强人意。由于搜索服务涉及多领域的理论与技术,其研究的挑战性极强,而搜索市场的巨大吸引力也引起了相关业界的高度关注。
目前对搜索技术研究开发的动向主要集中在以下几个方面:
1),努力提高检索的准确性,提高检索的效率。查准率较低是当前各搜索系统都面临的重大问题,网民不能忍受在千万条检索结果中不断地筛选自己所需的东西,人们对改善检索精度的呼声一直不断。建立开放的精细分类体系,让更多专业人士参与相关行业的信息分类管理,是解决信息分类问题的有效手段。
2),分布式的体系结构,以吞吐海量数据。目前保守的估计是:互联网上的网页信息总量约80亿条,其它诸如无线网络的信息内容、Web存储文件、Web数据库等其它大量接入的内容更是无法统计。信息检索的分布式处理与服务是必然的趋势,成千上万台计算机分布在互联网的各个角落互有分工、协同工作,将可以极大地提高信息的处理能力。
3),机器对自然语言的进一步理解,以使得系统能够在更高层面上分析出信息需求者到底需要什么。目前的自动分类自动聚类技术向这个方向前进了一大步,但其研究与发展的空间仍十分巨大。
4),智能化操作与个性化服务是广大网民的迫切需求。具体到一个信息检索者,由于其文化程度、兴趣爱好等特定行为在一段时间内的稳定性,他的信息服务需求完全可以被搜索系统分析出来,并通过不断地交流来掌握特定群体的特别需求,进而智能化地提供极具针对性的信息服务。
5),“查重过滤”、“死链处理”、“打击作弊”、“多媒体服务”等相关技术研究对提高检索服务的质量和拓展服务功能有着重要的意义。
以IPv6为基础的Internet2将逐渐取代了以IPv4的Internet,大网格的GGG信息服务模式将远远优于DNS为导向的WWW网站模式,全开放的分布式的搜索系统必将取代现行的封闭的集中式的系统。
未来的搜索系统将像HTTP/HTML/TCP/IP等标准化的网络协议那样在一种标准化的环境下工作:
l 向每个信息发布网站提供标准化的网页搜集器,产生标准化的搜索报告提供给网格的分拣机。
l 每个分拣机具有相同的基本操作原则,诸如:查重过滤、作弊分析、基本分类等,这极有利于分拣机与专业分类人士的交流,也利于分拣机之间的交流。
l 在网格中存在着一个庞大的信息分类体系,这个分类体系由许许多多不同的分类子集组成,标准格式的分类描述可以使子集之间相互调用,用于拓展和管理新的子集。
现在的和未来的搜索系统比较
|
现在的搜索系统 |
未来的搜索系统 |
网页收集 |
被动搜索,效率低,不易监控,需要更多的网络带宽,搜索盲区较多, |
主动搜集,容易监控,所需带宽少,工作效率高。 |
数据分类 |
较少的人工干预,分类质量较差,分类体系简单且开放性较差。 |
人工与智能结合,分类质量更高,开放而复杂的分类体系。 |
系统管理 |
需要较高的管理成本,不易形成标准化的管理模式。 |
分布式的开放的管理体系,可监控性强,便于标准化。 |
服务质量 |
个性化服务功能很弱,不利于最新信息的定制与推送服务。信息查全率高,但查准率很低。 |
个性化服务功能极强,便于根据个个兴趣爱好进行信息定制,容易获得相关信息的推送服务。因分类精确的保证,信息检索的查准率很高。 |
体系结构 |
结构复杂,系统封闭。 |
结构简单,系统开放。 |
可扩充性 |
一堆程序与数据库的集合体,不能形成标准化的组件 |
可形成一系列标准化的小型工作单元,协同工作,具有很好的扩展性。 |
可适应性 |
对海量数据的处理需要更高级的技术支持,难以适应快速变化的网络世界。 |
开放与分布式的体系,各节点之间协同工作,可对海量数据进行分布式处理,对网络变化的适应能力强。 |
访问形式 |
“www.abc.com”的网站式HTML网页引导,需要DNS服务。不便于记忆和定位。 |
“中文.新闻.国内.体育.足球”的节点式访问,无需DNS服务,无语言符号的障碍,树形节点定位能力强。 |
目前,各大搜索引擎服务公司仍在不懈地努力着,与广大网民所期盼的一样,搜索系统面临着巨大的挑战,需要在其服务模式上的突破,需要在其服务方式上产生质的飞跃。“更多、更好、更快”是整个IT界无尽的追求。
<< 上一页 [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] ... 下一页 >>