实验证明经过预处理以后的图像,不但保持住了原图像中的有效信息,而且图像的质量有了明显的改善。这部分在第三章中有详尽的阐述并附有相应的效果对照图。
2.2.3图面分析及文本块的行切分和字切分
在普通的脱机文本识别尤其是自由手写体的识别中,图像的分割(文本行的切出)往往是二值化之后的重要一步,有较大难度。在本系统中,由于定位信息的存在,使行分割的难度大大降低了。在单字符的切分中,考虑到印刷体的特点和耗时因素,采用了投影法,根据对文本行二值图像作纵向投影所获取的波峰投影图,结合字符有效宽度完成对字符的切分。
2.2.4基于单字符的特征选择和提取
特征选择和提取在任何OCR系统中,都是OCR技术的核心所在,很大程度上决定了系统的识别性能。本系统中采用的是将字符的投影信号和小波变换相结合的方法,提取多尺度分解后的小波系数作为字符的特征。
由于投影信号特征简单直观易于获得,但是细分能力较差。而小波变换是一种信号的时间一尺度分析方法,它具有多辨析分析的特点。离散小波交换可以将信号分解为不同尺度下的近似和细节:“近似”表征信号的低频成分,常蕴含着信号的特征;而“细节”表征的是信号的高频成分,给出了信号的细节和差别。在本系统中将两者有效地结合在一起,使系统的识别性能有了很大的改善。
2.2.5识别模板的设计
不同形式的识别模板及判别决策,将会对系统的识别性能产生不同的影响。在本系统中根据小波变换后低频和高频系数的不同特点,设计了分类多模板匹配。判别决策采用绝对值距离作为判别依据。 OCR发票信息识别软件实现+文献综述(4):http://www.751com.cn/tongxin/lunwen_10953.html