菜单
  

    所以目前,很多单位都在争相建立起自己的财物数据中心,这样一来,便可以通过共享财物数据以完善票据的统计梳理工作。这不仅是企业单位快速发展的重要环节之一,财物数据信息化也是企业单位信息化的重要组成部分。利用模式识别的OCR技术,可以进行票据的自动识别以及重要信息数据的提取,这样不仅免去了传统人工处理较大工作量的发票信息,可以提高效率、减少误差,降低较大的业务风险,还可以节约成本,这些都是有助于企业向更好的运营方向发展的因素。论文网

    在这个快速发展、信息化的时代,能够有效的管理票据、发票以及实现信息管理自动化,是每个企业单位都有必要去认真面对、解决的部分。

    高效的发票信息识别系统对于个人、单位都是有重大意义的。以下几点优势不容忽视:

    (1)可以提高发票信息存储效率,这一点相比书面记录信息的方式可以有效的延长信息存储时间,还可以节省存储空间;

    (2)解决输入发票重要信息这一较为的繁杂问题,利用系统代替大量的手工操作可以更有效率的完成;

    (3)完善的信息库有利于发票信息的检索,使之变得更容易、更快捷、更精准、更高效。

    本文讨论的基于Tesseract-OCR、ImageMagick这两个开源代码软件的发票信息识别是一个综合性的研究课题,涉及到多门学科,如c++、图像处理、模式识别、模糊数学、数字信号处理、信息论等等。针对这些学科结合实际情况进行综合性的运用,难度比较大,可以算为信息识别领域中较为挑战性的命题。但其理论、成果对很多产业如金融通信、办公自动化、出版行业等行业的发展都起着极大的推动作用,在这光明的市场需求中,将利用其优势吸引更多的潜在性用户,市场如自动识别名片信息、自动识别车牌信息、自动识别身份证信息、对文档进行自动分类等等。

    1.2  发票信息识别系统的研究现状及不足

    1.3  发票识别基本模型及其特征

    1.3.1  基本模型

    一般情况下,理想的发票信息识别系统可分为这几个模块:发票样本图像的输入模块、图像预处理模块、版面分析模块、字符切分模块、特征提取模块、模式分类模块、识别后处理模块。如图1.1所示。

    发票信息识别流程

    图1.1 发票信息识别流程

    发票样本的输入:发票图像的输入系统可采用光电扫描仪,常用的扫描精度有100dpi、200dpi、300dpi和600dpi等几种。扫描的精度越高,图像分辨率就越高,虽然质量好了,这是对识别率有利的方面,但同时数据量的增大也会使需要的内存加大,会延长处理时间,速度明显会受到影响。所以,选取合适的扫描精度不容忽视。

    图像预处理:首先用扫描仪处理样本图片,二值化灰度、彩色图像,随后需要平滑去除图像噪声、图像增强、进行倾斜校正以及对扫描时产生的黑边去除等等。很多论文中中提到的常用的去噪方法不少,主要有:领域平均法、低通滤波、中值滤波这几种。对于图像增强的算法,可以采用高通滤波等方法[8]。这些理论、方法已被广泛应用,故本文不着重阐述。

    版面分析:总体、宏观的分析发票图像版面,划分出对所要提取信息的区域,对于重要信息的区域将被进行识别。

    字符切分:文本的字符切分是一个文本图像分割处理的过程,对每个字符块按一定规则进行处理。这一步是OCR系统的重要步骤,这将影响到识别率的高低。目前,大多数系统这部分的算法可分为基于结构、识别结果,也可以基于整体切分或综合切分等算法。文献综述

  1. 上一篇:HFSS的WLAN双频双模贴片滤波器的设计
  2. 下一篇:ADS宽带线性调频源的设计
  1. FPGA数字视频信息叠加软件设计+程序

  2. AIC基于随机解调的模拟信息转换

  3. 心音信息传感器电路设计及其信号处理

  4. 基于ADS的射频混频器设计

  5. 离散通信系统的信息传输...

  6. 气象传真图信息提取与分析

  7. FPGA数字相位差测量仪设计

  8. java+mysql车辆管理系统的设计+源代码

  9. 乳业同业并购式全产业链...

  10. 当代大学生慈善意识研究+文献综述

  11. 杂拟谷盗体内共生菌沃尔...

  12. 酸性水汽提装置总汽提塔设计+CAD图纸

  13. 河岸冲刷和泥沙淤积的监测国内外研究现状

  14. 电站锅炉暖风器设计任务书

  15. 十二层带中心支撑钢结构...

  16. 中考体育项目与体育教学合理结合的研究

  17. 大众媒体对公共政策制定的影响

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回