中英文发现系统(搜索引擎)的转接层子系统、索引子系统的设计与实现
本论文所描述的系统即是作者参与设计和实现的一个支持中文的搜索引擎。它即支持对中文,英文的简单检索,又支持逻辑运算,模糊匹配等高级检索。它通过对中文的分词,实现了对在中文词汇一级检索的支持;通过对中文,英文的编码,实现了对中文,英文系统核心实现的一致化;通过两级索引机制和索引项的特殊设计,实现了检索的快速命中。
论文首先介绍了系统设计和实现的一些背景资料,介绍了WWW的发展于现状,世界主要搜索引擎及其比较,中文的特点与搜索引擎对中文的支持。之后,描述了系统的整体设计,详细介绍了转接层子系统和索引数据库子系统的设计。
关键词:搜索引擎 中文分词 索引数据库 编码方案
目录
第一章 背景介绍3
§11 Internet和WWW的发展与现状3
§12 世界主要得搜索引擎及其比较4
§13 中文的特点和搜索引擎对中文的支持6
第二章 系统概述10
§21 系统设计目标10
§22 系统总体结构10
第三章 转结层子系统的设计12
§31 转结层子系统的设计思想12
§32 中文编码互换13
§33 中英文编码方案14
§34 中文分词17
§35 中英文词汇的自动学习19
第四章 索引数据库子系统的设计21
§41 索引数据库系统的设计思想21
§42 索引数据库的设计22
§43 索引数据库的更新和文护23
§44 索引数据库的检索25
第五章 总结展望29
§51 系统测试和评估29
§52 远景展望29
致谢31参考文献32,2659