2.2印刷体汉字识别的流程简介
印刷体汉字识别的过程主要过程包括预处理、版面分析理解、文本行字切分、特征提取、汉字识别、识别后处理,在本文中,将版面分析理解、文本行字切分都归为预处理。系统框图如2.2.1所示。
图2.2.1 印刷体汉字识别流程图
版面分析主要是对文本图像的总体进行分析,区分出文本段落及排版顺序,图像、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,包括为此而做的细化(Thinning)、规范化(Normalization)等。提取特征的稳定性及有效性,直接决定了识别的性能。文字识别,即从学习得到的特征库中找到与待识别字符相似度最高的字符类的过程。后处理则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。由此可见,印刷汉字识别技术主要包括图像处理模块,图像版面的分析与理解模块,图像的行切分与字切分模块,单字图像的特征提取与匹配模块,特征库,识别结果的后处理模块。其中单字图像的特征提取与匹配模块是印刷汉字识别中最为核心的技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过98%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术,也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。
3 印刷体汉字识别技术的研究
3.1 预处理
由于用数码相机或扫描仪作为输入设备得到的数据不可避免地存在着各种外在的干扰,图像质量也有偏差,对识别效果有一定影响。因此,在对原始图像进行识别处理之前,尽可能将干扰因素影响降低,是非常有必要的,也就是要先对原始采样信号进行预处理。预处理通常包括去除噪声、版面分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等[3][4]。
(1)版面分析
印刷体文字识别常遇到的识别主体不是一个文字段,而是整个版面,所以版面分析是印刷体文字识别系统中的重要组成部分。它是指对印刷体文档图像进行分析,提取出文本、图像图形、表格等区域,并确定其逻辑关系,并将相应的文本块连接在一起。这一过程的自动完成算法还不是很完善,有些部分常由手工完成,最终的系统能够自动完成所有的版面分析。
(2)二值化
将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理[5],二值化的主要目的是将汉字从图像中分离出来。通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这个二值化阈值的选取较为关键。若阈值取的过大,则保留的信息过多,其中许多杂点无用信息造成了对以后处理的干扰;若阈值取得过小,则丢失的信息过多,其中许多文字信息产生续断或丢失,造成最终文字提取分割的信息丢失。如何确定此阈值的过程也就成了研究二值化算法的重点。现如今,汉字图像二值化方法多种多样,但大多都有应用限制。研究一种适合各种文字图像的二值化方法也是预处理环节的重点。
(3)倾斜校正
通过输入设备获得的图像不可避免地会发生倾斜,这会给后面的行字分割、文字识别等图像处理与分析带来困难,因此,在汉字识别系统中,倾斜校正是图像预处理的重要部分。倾斜校正的核心在于如何检测出图像的倾斜角。目前,倾斜角检测的方法有许多种,主要可分为5类:基于Hough变换的方法;基于交叉相关性的方法;基于投影的方法;基于Fourier变换的方法和最近邻簇方法。灵活运用倾斜角度检测算法将是倾斜校正环节的重要研究方向。 Matlab印刷体汉字识别技术的研究(4):http://www.751com.cn/zidonghua/lunwen_7959.html