7.1 检索的主界面 14
7.2 检索结果界面 15
7.3 详情页面 16
八 总结 16
参考资料 17
一 绪论
1.1 前言
随着大数据时代的来临且经过一段时间的发展,各行各业都产生了爆炸性的数据量的增长。大数据时代可以说是一场新的信息革命。
中国是一个人口大国,如今也是一个数据大国,据中国科学院预测,到2020年中国数据存储量将达到8.8ZB。8.8ZB数据什么概念呢?如果将这些数据换成纸质保存,将相当于8287196689km长,这个长度相当于绕地球赤道20.7万圈。在这个大数据时代,各行各业紧跟潮流,在这个数据海洋里逐浪而行。然而就在各行各业都在随着大数据的潮流不断向前的时候,教育领域却始终处于一个摸索前进的初级阶段。面对大量的传统教学资源,我们需要对其进行数字化,并且可以快速的分类、查询、定位。
1.2 研究意义
目前,搜索引擎经过十几年的发展已经进入到一个相对成熟的阶段。如我们每天都要使用的全文检索引擎——百度、谷歌、雅虎等。但是这些这些引擎大多为商用,本文涉及到的搜索引擎为一款开源搜索引擎。尽管搜索引擎已经进入到一个成熟阶段,但是和教育领域结合的程度不高。因此,结合solr全文检索系统,对我们的传统教学资源或者数字化教学资源建立一个检索库,可以有效地、准确地查找到学生或者教师需要的资源,帮助学生更好的自主学习,帮助教师更好的开展教学,同时还可以方便的管理教学资源。
二 搜索引擎技术相关
2.1 搜索引擎的相关概念
搜索引擎是一个工具,是一个信息的检索工具。传统意义上的如百度、谷歌等搜索引擎是对互联网上的信息进行获取并且加工处理,添加到相应的索引库,为用户提供信息检索服务的系统工具。搜索引擎包括全文索引(百度、谷歌等)、目录索引(雅虎等)、元搜索引擎(360综合搜索等)等。全文索引是目前主流的搜索引擎,用户输入关键词,搜索引擎会在索引库里进行检索,如果查找到与用户检索相符合的结果,便予以返回。目录索引是一种早起的检索方式,多由手工操作,使用不多便不予过多介绍。至于元搜索引擎可以说是一种取巧的方式,如360搜索引擎,可以在检索结果返回多个搜索引擎的结果。这在一些特殊情况下有着不错的使用体验
2.2 搜索引擎的基本结构
搜索引擎种类繁多,但是基本组成模块大同小异,包括索引器、索引库、检索器。我们可以通过下图1了解搜索引擎的基本模块。
三 开源搜索引擎solr
3.1 solr的介绍
Solr是一款源码开放的基于Lucene的检索服务器,并且它可以很方便的和web应用部署在一起使用。Solr是一款全文文档引擎,他通过建立全文索引来支持检索服务。并且支持高亮显示及多种格式的返回值,如xml、josn等格式。此外,solr自带一个web后台管理界面,可以快捷方便的对数据添加和修改。严格意义来说,solr是一款企业级的搜索应用服务器。
3.2 solr的优点
在搜索引擎多种多样甚至用数据库也可以实现查询功能的情况下,为什么还要选择solr呢?其一,solr是开源的,也就是免费的。而市面上的大多数搜索引擎都是商用的、收费的。其二,源于其强大的功能。虽然数据库也能实现简单的查询,但是solr有其独特之处,它支持全文检索,通过http协议将索引添加到索引库以后,便可以对整篇文档的任意单词进行匹配查询。Solr支持模糊查询,在完全匹配没有结果的时候,它会优先返回相关性最高的结果。当然它还拥有其他以下优点,快速的响应时间(一般为毫秒级),流量消耗优化,集成web后台管理,可通过xml配置文件使其更具有灵活性和针对性,多核心应对多种需求,通过web应用服务器部署即可实现查询功能。