同国外相比,我国的印刷体汉字识别研究起步较晚[2]。我国在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末仅有少数大学和研究所开始进行汉字识别的研究并发表了一些论文,研制了少量模拟识别软件或系统。但由于我国政府从80年代中期开始对汉字自动识别输人的研究给予了充分的重视和支持,汉字识别技术进入了研究的高潮。经过科研人员这些年的辛勤努力,印刷体汉字识别技术的发展和应用有了长足进步,从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。进入90年代以来,印刷体汉字识别研究的主要目的是提高识别系统的品质和效率,增强系统对不同文本的适应性,扩大使用面。在加强版面分析、识别结果上下文匹配后处理和各种实用化技术的研制的同时,进行对识别方法的进一步研究,促使更实用的产品广泛出现。
1.3 印刷体汉字识别技术存在的难点
由于汉字具有以下几个方面的特点,使汉字字符在识别难度上远远大于字母化字符的识别。
(1)类别较大
目前我国常用汉字约3000~4000个。国标GB2312一80常用汉字字符集有,6763个常用字,分为两级。第一级3,755个汉字,使用频度为99.7%,第二级有3,008个汉字,两级汉字总使用频度为99.99%,识别系统一般应能正确识别这些常用字,才能满足实际应用的需要。目前的研究目标一般都着眼于解决国标一级3755个汉字,即使是这样,汉字识别也属于大类别数的模式识别问题。可以说,字量大是造成汉字识别困难的主要原因之一。
(2)结构复杂
汉字是一种结构性很强的文字,每个汉字都具有独一无二特定分布的若干笔划构成,笔划是汉字最基本的组成部分,汉字也可以看成是由部件组合而成的,部件是笔划有意义的组合,一般称之为偏旁、部首或字根。笔划和部首的不同排列组合,构成了数以千计表达不同含义的结构异常复杂的汉字字符。与世界上常用的其他民族的文字相比,汉字的结构是最为复杂的。
(3)相似字多
部分汉字字符之间只存在着很细小的差别,具有相同笔划数目的汉字字符之间的差异有的表现为某一个笔划位置或形态的微小变化,又比如“土”和“士”这两个字仅在下部笔划长短有细微的差别而已。即使由人来辨认印刷体的这些汉字,在无上下文信息的帮助时,也很容易发生混淆[3]。识别算法和系统必须能够正确判定这些细微的差异,否则就会发生错误。
汉字的以上几个特点就决定了没有单一的一种特征就可以完成对汉字的识别,因此如何有效的选取各种特征,有效的进行组合,使它们在匹配速度和识别率上都能满足实际需求就成为整个系统的关键。
2 印刷体汉字识别的概述
2.1 印刷体汉字识别的原理简介
汉字识别(CCR:Chinese Character Recognition)是用电子计算机自动辨识印刷在纸上或者人写在纸(或其他介质)上的汉字。汉字识别技术是计算机智能接口的一个重要组成部分。从学科上划分,汉字识别属于模式识别和人工智能的范畴。它涉及到模式识别和图像处理、人工智能、形式语言学、模糊数学等众多学科,是一门综合性的技术。该系统由输入设备、汉字识别模块和计算机硬、软件三部分组成。核心部分是汉字识别模块部分,印刷体汉字识别的过程主要过程包括预处理、特征提取、特征匹配、识别后处理。预处理是在所有识别处理之前进行的,它将从各种不同输入方式获得的汉字图像中的干扰因素降到最低。随着汉字识别技术的深入研究,汉字的特征提取的算法越来越多,如何选择特征和如何组合优化特征已经成了研究的重要领域。汉字识别的基本思想是匹配识别,匹配识别技术涉及到分类器的设计等重要问题,这也是非常重要的一个环节。汉字的后处理是出于获得最大化识别率考虑,它在前期已有识别水平上,通过调整参数或反馈处理获得更高的识别率。在本文中,将二值化,平滑去噪,文本行字切分都归为预处理。汉字图像通过光电扫描仪,CCD器件等工具扫描成为二文图像信号(数码图像),该种信号在文本中以图片(jpg,bmp等格式)形式显现,而后通过本文所介绍的预处理,特征提取与匹配及相关后处理等实现汉字识别的过程。
- 上一篇:H.264全零块检测技术研究与实现
- 下一篇:VB车厢内视频监控系统设计+文献综述
-
-
-
-
-
-
-
乳业同业并购式全产业链...
十二层带中心支撑钢结构...
酸性水汽提装置总汽提塔设计+CAD图纸
当代大学生慈善意识研究+文献综述
杂拟谷盗体内共生菌沃尔...
河岸冲刷和泥沙淤积的监测国内外研究现状
java+mysql车辆管理系统的设计+源代码
中考体育项目与体育教学合理结合的研究
电站锅炉暖风器设计任务书
大众媒体对公共政策制定的影响