


    毕业论文关键词 中文分词 Viterbi算法 机器学习 语言模型 


    Title  Chinese word segmentation techniques based on statistical language models and the Viterbi algorithm                  

    Abstract With the development of Chinese search engine technology, people access to information to further improve the accuracy. Search accuracy have higher requirements, the first step is to cut  the string reasonablely  which provides by the user.

    This design of Chinese word segmentation system is pided into two modules, the modules and the language model to establish the Viterbi algorithm  module. Language model module has been obtained for the training set of sub-word material through machine learning algorithm is trained to get dictionaries and language models. The current language model has a string-based language model, based on statistical language model and language model based on understanding. This article is mainly based on statistical language model for the study, and also compare the pros and cons of each language model. Viterbi algorithm module Utilization of the language model of Chinese word processing to be string, which is a dynamic programming algorithm, which can be faster to find the best word sequence.

    Keywords  Chinese word segmentation  Viterbi algorithm  Machine Learning            Language model

    1 绪论 1

    1.1 中文分词的概念 1

    1.2 中文分词的应用 1

    1.3 中文分词的研究现状 2

    1.4 本文的主要工作 2

    2 中文分词的基本算法和语言模型 3

    2.1 基于字符串匹配的分词算法 3

    2.2 基于理解的分词 4

    2.3 基于统计的分词 5

    2.4 各种分词算法的比较 5

    2.5 经典统计语言模型 8

    2.6 维特比算法 13

    3 系统设计与实现 13

    3.1建立语言模型、词典与katz平滑 14

    3.2 语言模型的实现 15

    3.3 维特比算法动态规划的过程 23

    3.4 维特比算法的实现 24

    4 实验评估 30

    结  论 38

    致  谢 39

    参考文献 40

    1 绪论

  1. 上一篇:SNMP网络代理的设计分析与实现
  2. 下一篇:微型USB与CAN总线数据转换系统设计
  1. 基于MATLAB的图像增强算法设计

  2. 基于Kinect的手势跟踪与识别算法设计

  3. JAVA基于安卓平台的医疗护工管理系统设计

  4. 基于核独立元分析的非线...

  5. 基于Hadoop的制造过程大数据存储平台构建

  6. jsp公交刷卡数据统计系统图表的设计与实现

  7. 基于安卓系统的测量软件...

  8. 河岸冲刷和泥沙淤积的监测国内外研究现状

  9. 杂拟谷盗体内共生菌沃尔...

  10. 当代大学生慈善意识研究+文献综述

  11. 大众媒体对公共政策制定的影响

  12. 十二层带中心支撑钢结构...

  13. 中考体育项目与体育教学合理结合的研究

  14. 电站锅炉暖风器设计任务书

  15. 酸性水汽提装置总汽提塔设计+CAD图纸

  16. java+mysql车辆管理系统的设计+源代码

  17. 乳业同业并购式全产业链...




