菜单
  

       (4)处于网站的一些的保密性,要限制某些信息被搜索到,要考虑如何保护文件的私密性。
    2.系统相关技术
    2.1中文分词
    分词是核心的算法,搜索引擎内部保存的就是一个个的“词(word)”。英文分词特别简单,按照空格分隔就可以。中文比较麻烦,把“北京,Hi欢迎你们大家”拆成“北京 Hi 欢迎 你们 大家”。Lucene.Net中不同的分词算法就是不同的类。所有分词的算法类都从Analyzer类继承,不同的分词算法有不同的优缺点。
        (1)内置的StandardAnalyzer是将英文按照空格、标点符号等进行分词,将中文按照单个字进行分词,一个汉字算一个词。
        (2)二元分词算法,每两个汉字算是一个单词,“欢迎你们大家”会分词为“欢迎   迎你  你们  们大  大家”。
    2.2盘古分词
        这个分词的思想就是匹配,但是针对对于多字的词,盘古分词设置了比较高高的优先级,使得分词结果与我们实际想要的结果非常接近。这个分词的优点是完全开源,结构清晰,方便在内部修改源代码,调整权重,并且有一套很好的词典管理工具。缺点就是它的内置的词典太过于混乱,需要我们手动进行修改。
    在Lucene.Net的使用盘古分词:PanGu.Lucene.Analyzer.dll中定义了Analyzer的派生类型Lucene.Net.Analysis.PanGu.PanGuAnalyzer,与Tokenizer的派生类Lucene.Net.Analysis.PanGu.PanGuTokenizer,语法与Lucene.Net内置分词器相同
  1. 上一篇:下一代数据保护技术研究+文献综述
  2. 下一篇:ASP.net在线订餐网站的设计+源代码
  1. 基于MATLAB的图像增强算法设计

  2. jsp+sqlserver高校二手商品交...

  3. 基于Kinect的手势跟踪与识别算法设计

  4. JAVA基于安卓平台的医疗护工管理系统设计

  5. java+mysql设备监控记录的大...

  6. 基于核独立元分析的非线...

  7. 基于Hadoop的制造过程大数据存储平台构建

  8. 酸性水汽提装置总汽提塔设计+CAD图纸

  9. 中考体育项目与体育教学合理结合的研究

  10. 电站锅炉暖风器设计任务书

  11. 当代大学生慈善意识研究+文献综述

  12. 大众媒体对公共政策制定的影响

  13. 杂拟谷盗体内共生菌沃尔...

  14. 乳业同业并购式全产业链...

  15. 河岸冲刷和泥沙淤积的监测国内外研究现状

  16. java+mysql车辆管理系统的设计+源代码

  17. 十二层带中心支撑钢结构...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回