ImageMagick发票信息识别软件的算法模块实现(2)

所以目前，很多单位都在争相建立起自己的财物数据中心，这样一来，便可以通过共享财物数据以完善票据的统计梳理工作。这不仅是企业单位快速发展的重要环节之一，财物数据信息化也是企业单位信息化的重要组成部分。利用模式识别的OCR技术，可以进行票据的自动识别以及重要信息数据的提取，这样不仅免去了传统人工处理较大工作量的发票信息，可以提高效率、减少误差，降低较大的业务风险，还可以节约成本，这些都是有助于企业向更好的运营方向发展的因素。论文网

在这个快速发展、信息化的时代，能够有效的管理票据、发票以及实现信息管理自动化，是每个企业单位都有必要去认真面对、解决的部分。

高效的发票信息识别系统对于个人、单位都是有重大意义的。以下几点优势不容忽视：

（1）可以提高发票信息存储效率，这一点相比书面记录信息的方式可以有效的延长信息存储时间，还可以节省存储空间；

（2）解决输入发票重要信息这一较为的繁杂问题，利用系统代替大量的手工操作可以更有效率的完成；

（3）完善的信息库有利于发票信息的检索，使之变得更容易、更快捷、更精准、更高效。

本文讨论的基于Tesseract-OCR、ImageMagick这两个开源代码软件的发票信息识别是一个综合性的研究课题，涉及到多门学科，如c++、图像处理、模式识别、模糊数学、数字信号处理、信息论等等。针对这些学科结合实际情况进行综合性的运用，难度比较大，可以算为信息识别领域中较为挑战性的命题。但其理论、成果对很多产业如金融、通信、办公自动化、出版行业等行业的发展都起着极大的推动作用，在这光明的市场需求中，将利用其优势吸引更多的潜在性用户，市场如自动识别名片信息、自动识别车牌信息、自动识别身份证信息、对文档进行自动分类等等。

1．2 发票信息识别系统的研究现状及不足

1．3 发票识别基本模型及其特征

1.3.1 基本模型

一般情况下，理想的发票信息识别系统可分为这几个模块：发票样本图像的输入模块、图像预处理模块、版面分析模块、字符切分模块、特征提取模块、模式分类模块、识别后处理模块。如图1.1所示。

发票信息识别流程

图1.1 发票信息识别流程

发票样本的输入：发票图像的输入系统可采用光电扫描仪，常用的扫描精度有100dpi、200dpi、300dpi和600dpi等几种。扫描的精度越高，图像分辨率就越高，虽然质量好了，这是对识别率有利的方面，但同时数据量的增大也会使需要的内存加大，会延长处理时间，速度明显会受到影响。所以，选取合适的扫描精度不容忽视。

图像预处理：首先用扫描仪处理样本图片，二值化灰度、彩色图像，随后需要平滑去除图像噪声、图像增强、进行倾斜校正以及对扫描时产生的黑边去除等等。很多论文中中提到的常用的去噪方法不少，主要有：领域平均法、低通滤波、中值滤波这几种。对于图像增强的算法，可以采用高通滤波等方法[8]。这些理论、方法已被广泛应用，故本文不着重阐述。

版面分析：总体、宏观的分析发票图像版面，划分出对所要提取信息的区域，对于重要信息的区域将被进行识别。

字符切分：文本的字符切分是一个文本图像分割处理的过程，对每个字符块按一定规则进行处理。这一步是OCR系统的重要步骤，这将影响到识别率的高低。目前，大多数系统这部分的算法可分为基于结构、识别结果，也可以基于整体切分或综合切分等算法。文献综述 ImageMagick发票信息识别软件的算法模块实现(2):http://www.751com.cn/tongxin/lunwen_72258.html