摘要Lucene作为一个支持扩展的全文索引工具包,它的强大和高效率是得到广大认可的。Lucene是使用纯粹的java语言编写的开源项目,它为用户提供的API简单易用且强大。开发人员如需使用Lucene为自己的应用程序添加检索功能,并不要求深入了解全文索引和搜索机制,只要知道Lucene提供的几个核心类就可以行得通。本文研究了Lucene体系结构、Lucene的索引和检索原理,简单的介绍了开发一个简单的信息检索系统所需的Lucene核心类,并对他们的使用方法做了简要阐述。在这基础上,实现了一个简单的基于Lucene的桌面搜索引擎,为本地磁盘提供检索服务。60145
毕业论文关键词 Lucene 桌面 搜索引擎 全文索引 分词
毕业设计说明书(论文)外文摘要
Title Research Design And Implementation Of Lucene-based Desktop Search Engine
Abstract
Lucene full-text indexing tools support the expansion as a package, it's powerful and high efficiency are the majority of recognition. Lucene is an open source project, which provides users with a simple, easy-to-use and powerful API using pure Java language. Developers For use Lucene to add a search function for your own application, does not require in-depth understanding of the full-text indexing and search mechanisms feasible, as long as you know Lucene provides several core classes. This paper studies the Lucene architecture, Lucene indexing and retrieval principle, a brief the Lucene core classes required to develop a simple information retrieval system, and they use a brief exposition. On this basis, a simple desktop search engine based on Lucene retrieval services to the local disk.
Keywords Lucene Desktop Search Engine Full-Text Indexing Participle
1 绪论 1
1.1 搜索引擎与全文索引技术 1
1.2 索引、检索和倒排2
1.3 关于Lucene 4
1.4 本课题研究的意义 4
2 全文索引工具Lucene 4
2.1 使用Lucene建立索引库 5
2.2 Lucene的搜索过程10
2.3 Lucene分析器——Analyzer 14
2.4 高亮显示Highlighter 16
2.5 中文分词技术的研究17
3 桌面搜索引擎的设计和实现 18
3.1 桌面搜索引擎功能介绍18
3.2 系统分析19
3.3 界面设计19
3.4 代码说明21
3.5 运行结果22
结 论 27
致 谢 28
参考文献 28
1 绪论
在这个信息爆炸的时代,各种信息五花八门,错综繁杂,为了能够在数以千万计的信息中快速的找到所需资料,“搜索”应运而生。
网络的出现极大的方便了人们进行信息交流,它把世界联系在了一起。而搜索引擎的出现,则可以帮助用户在海量的信息中摒除垃圾信息,提取出关键的数据,从而大大节省了用户的时间。
作为一个开发搜索引擎的工具,Lucene无疑是非常成功的。
Lucene之所以成功的关键原因之一就是它的简单易用性,Lucene屏蔽了复杂的实现过程,向用户提供了简单接口API。在使用Lucene实现索引检索功能的时候,只要学会调用它提供的接口就行了。对于Lucene来说,即便构建的索引和检索内容不相同,但是使用方法也是相同的[1],因为Lucene的性质与我们平时熟知的java类库没什么差别。
Lucene作为一个开源的支持扩展的全文信息检索工具,已经发展的相当成熟并且自由,他的高效强大和简单易用,已经被众多的全文搜索技术开发人员以及喜好者所认可并使用。Lucene兼容性、可移植性强,虽然是使用纯JAVA语言编写,但目前已经被翻译成包括Python 、Perl、.Net 、C++等多种编程语言 [2],这极大方便了不同语言的程序人员使用Lucene对文本建立索引和检索。