中文分词的研究现状及应用

菜单

自然语言处理中的对于中文信息处理落后于对于英文信息处理，英文中可以省去分词的步骤，大大简化了信息处理的难度。中文分词是中文信息处理的必要步骤，中文分词的应用之一就是搜索引擎的应用。其他的比如信息检索、汉字的智能输入、自动摘要、机器翻译（MT）、语音合成、自动分类、自动校对等，都需要中文分词技术。由于中文有分词的必要，带来了新的研究方向，丰富了学科的研究内容，也给很多的互联网企业带来了机遇和挑战。中文信息的处理，作为中国人具有明显的优势。61630

最近几年的网络的发展，互联网上的中文信息爆炸式增长，各种信息混合在一起，我们要对信息进行合理的筛选和分类。这项工作是我们需要去解决的，虽然早期的yahoo搜索是通过人工干预的方法进行分类，但是今天如果还使用同样的方法显然是这样的搜索引擎是不可以作为商业使用的。这就需要机器自己去识别用户输入的句子进行文本分类，一个好的搜索引擎，技术上来说，对于分词的效果要求比较高，既有效率上的要求又有准确性的要求。搜索引擎要求分词的效果快速且准确，只有这样才能从数以亿计的文本中提取到有用的信息。一旦得到了分词，后续工作难度降低了很多，可见分词显得尤为重要。

中文分词的研究现状

目前例如大型的商用的搜索引擎有雅虎，谷歌和百度，其中雅虎采用自己开发的分词技术，谷歌采用美国Basis Technology提供的中文分词技术，百度采用的自己开发的分词技术。这些大型的搜索引擎基本都是采用机器学习的算法，才开发出来有效的论文网，高速准确的分词技术，来服务于信息的检索。目前国内的分词系统，经典的比如ICTCLAS是中科院计算所研制的汉语词法分析系统（Institute of Computing Technology, Chinese Lexical Analysis System）。[1]集成了中文分词、词性标注、命名实体识别、新词识别和用户词典等功能。ICTCLAS有开源版（无用户词典）、共享版、商用版和行业版（有行业词典）等版本。

目前的分词规范有两个，1993年国家技术监督局公布了《信息处理用现代汉语分词规范》，作为国家标准。1995年，台湾中研院制定了《资讯处理用中文分词规范》。

目前的分词的测评也有很多，例如“863中文与接口技术”汉语自动分词与词性标注一体化测评，共有5个单位参与，测试语料约为40万个汉字。还有国际中文自然语言处理Bakeoff，SIGHAN是国际计算语言学会（ACL）下属“中文处理专业委员会”的简称。Bakeoff是国际中文自然语言处理的品牌。

上一篇：图像融合国内外研究现状概况
下一篇：USB-CAN转换器国内外研究现状

关闭

暂无收藏

About

751论文网手机版...

主页：http://www.751com.cn

关闭返回

曲柄滑块机构的研发现状和未来发展方向

液压试验台的国内外研究现状和发展趋势

PLC的发展研究现状历史及趋势

混合动力汽车国内外研究现状和参考文献

内部EGR技术的研究现状

国内外对茉莉精油的研究现状

国内外城市的物流交通情况研究现状

酸性水汽提装置总汽提塔设计+CAD图纸

大众媒体对公共政策制定的影响

电站锅炉暖风器设计任务书

乳业同业并购式全产业链...

中考体育项目与体育教学合理结合的研究

java+mysql车辆管理系统的设计+源代码

杂拟谷盗体内共生菌沃尔...

十二层带中心支撑钢结构...

当代大学生慈善意识研究+文献综述

河岸冲刷和泥沙淤积的监测国内外研究现状

栏目

About