菜单
(4)处于网站的一些的保密性,要限制某些信息被搜索到,要考虑如何保护文件的私密性。
2.系统相关技术
2.1中文分词
分词是核心的算法,搜索引擎内部保存的就是一个个的“词(word)”。
英文
分词特别简单,按照空格分隔就可以。中文比较麻烦,把“北京,Hi欢迎你们大家”拆成“北京 Hi 欢迎 你们 大家”。Lucene.Net中不同的分词算法就是不同的类。所有分词的算法类都从Analyzer类继承,不同的分词算法有不同的优缺点。
(1)内置的StandardAnalyzer是将英文按照空格、标点符号等进行分词,将中文按照单个字进行分词,一个汉字算一个词。
(2)二元分词算法,每两个汉字算是一个单词,“欢迎你们大家”会分词为“欢迎 迎你 你们 们大 大家”。
2.2盘古分词
这个分词的思想就是匹配,但是针对对于多字的词,盘古分词设置了比较高高的优先级,使得分词结果与我们实际想要的结果非常接近。这个分词的优点是完全开源,结构清晰,方便在内部修改源代码,调整权重,并且有一套很好的词典管理工具。缺点就是它的内置的词典太过于混乱,需要我们手动进行修改。
在Lucene.Net的使用盘古分词:PanGu.Lucene.Analyzer.dll中定义了Analyzer的派生类型Lucene.Net.Analysis.PanGu.PanGuAnalyzer,与Tokenizer的派生类Lucene.Net.Analysis.PanGu.PanGuTokenizer,语法与Lucene.Net内置分词器相同
共3页:
上一页
1
2
3
下一页
上一篇:
下一代数据保护技术研究+文献综述
下一篇:
ASP.net在线订餐网站的设计+源代码
基于MATLAB的图像增强算法设计
jsp+sqlserver高校二手商品交...
基于Kinect的手势跟踪与识别算法设计
JAVA基于安卓平台的医疗护工管理系统设计
java+mysql设备监控记录的大...
基于核独立元分析的非线...
基于Hadoop的制造过程大数据存储平台构建
酸性水汽提装置总汽提塔设计+CAD图纸
中考体育项目与体育教学合理结合的研究
电站锅炉暖风器设计任务书
当代大学生慈善意识研究+文献综述
大众媒体对公共政策制定的影响
杂拟谷盗体内共生菌沃尔...
乳业同业并购式全产业链...
河岸冲刷和泥沙淤积的监测国内外研究现状
java+mysql车辆管理系统的设计+源代码
十二层带中心支撑钢结构...
主页
计算机
机械
自动化
关闭菜单
栏目
毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
日语论文
英语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
菜单
毕业论文
刷新
分享
收藏
关于
关闭
关闭
分享本页
返回
关闭
暂无收藏
全部清除
关闭菜单
About
751论文网手机版...
主页:
http://www.751com.cn
关闭
返回