同时,OCR系统可以与其他应用系统进行集成,使OCR技术具有更加广泛的应用前景。
1.2票据OCR系统研究的意义
根据前面所述,票据OCR系统属于专业型OCR系统,是一种票据格式的表格自动录入系统。在金融电子化的趋势下,信息技术手段己成为金融行业新的业务增长点。快捷、准确、高效地实现日常业务的信息化已成为银行等金融单位日益迫切的业务需要,票据OCR系统的应用对象适合于银行、税务等行业大量票据表格的自动扫描、识别及电子存储,也可应用于证券、保险、海关等众多领域,为信息的记录、保存、分析、交流提供可靠的途径。
2 OCR系统的技术实现
2.1系统实现过程概述
OCR系统的实现:
票据样本
↓
图像预处理
↓
文本行字切分
↓
文字特征提取
↓
文字识别处理
↓
识别结果
↓
保存
2.1 票据OCR系统实现过程方框图
待识别的票据样本经过光电扫描转换为图像信息,为了方便地提取有效的识别特征,需要对原始图像进行滤波去噪、倾斜扶正、二值化等预处理。图面分析是完成对图像的总体分析,区分出大写文本区域、小写数字区域、印章区域等,各作相应的处理。文本行、字切分是指从整幅图像中切割出文本行,再从行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,所提取特征的稳定性及有效性.直接决定了识别的性能。识别处理即从学习得到的标准模板库中找出与待识别字符最相似的字符类的过程。最后输出一个唯一的识别结果按指定格式存入数据库中。
2.2系统的技术特点
由上述可知,票据OCR系统的技术实现主要包括:样本数据的输入、图像的预处理、图面分析及字符切出、基于单字符的特征选择和提取、识别模板的设计及判别决策。
2.2.1票据样本的数据输入
本系统采用直接从本地或网络输入票据图像。
2.2.2票据图像的预处理
本系统中的图像预处理包括:为突出字符的有效信息而采取的灰度线性拉伸处理,不仅压缩了字符图像背景灰度的层次,而且使字体灰度分布与背景灰度分布之间的距离得以扩张,最大程度地保证了字符笔划的完整性以及字符和背景的有效分离,显著提高丁二值化的效果。二值化采用了兼顾全局和局部特点的改进的自适应二值化算法,不仅能完成二值化处理,还能优化图像的质量。对二值化以后的图像又进行了水平和垂直两次中值滤波,以及去除噪声块的处理。
- 上一篇:matlab运动模糊图像复原算法的研究
- 下一篇:基于时域旋转对称矩量法飞行目标回波信号仿真分析
-
-
-
-
-
-
-
杂拟谷盗体内共生菌沃尔...
十二层带中心支撑钢结构...
大众媒体对公共政策制定的影响
中考体育项目与体育教学合理结合的研究
酸性水汽提装置总汽提塔设计+CAD图纸
电站锅炉暖风器设计任务书
java+mysql车辆管理系统的设计+源代码
乳业同业并购式全产业链...
当代大学生慈善意识研究+文献综述
河岸冲刷和泥沙淤积的监测国内外研究现状