菜单
  

    摘要现代信息化社会中,发票的自动化处理可以有效的减少人工参与操作,不仅可以避免输入信息时的操作差错,还可以减少花费节约人力成本。如若将发票图片进行整体识别信息,对于OCR系统来说,图片版面虽较为简单但运算量不小且识别率低,所以不太适用。本文尝试通过结合开源软件ImageMagick和Tesseract来处理发票信息。本文的主要内容总结如下:

    (1)利用ImageMagick进行对发票图像的预处理、版面分析等多个环节,处理好的图片即为Tesseract识别信息的输入端图片。64870

    (2)分析Tesseract识别信息的流程及其重要算法,利用它来实现识别重要信息中的中文和数字。实验证明,可以准确的识别发票中所需区域的数字,而中文识别率还有待提高。

    关键词  发票信息识别  ImageMagick  Tesseract-OCR

    毕业论文毕业设计说明书(论文)外文摘要

    Title                  Algorithm module in information recognition software of invoice                                           

    Abstract With the incredibly rapid advancement of society, invoice automated processing can effectively reduce manual operations involved, not only to avoid errors made by inpiduals, but to reduce labor costs. If the overall picture of the invoice, simple layout of picture relatively, to be identified by OCR systems, a huge amount of computation and low recognition rate cannot be ignored. This paper attempts to combine ImageMagick and Tesseract, which is open source softwares, to process information of invoice. The main contents of this paper are summarized as follows:

    (1)Using the ImageMagick to preprocess the image of an invoice, to analysis the layout and so on, whose result image is the input picture of Tesseract.

    (2)Analyze the flow of information recognition in Tesseract and its important algorithms, and then use it to achieve the identification result of important information in Chinese and numbers. Experiments show that the invoice numbers can be accurately identified in the desired area, and the rate of Chinese recognition to be improved. 

    Keywords  recognition of invoice  ImageMagick  Tesseract-OCR

    目   次

    1  绪论 1

    1.1  发票识别的研究背景 1

    1.2  发票信息识别系统的研究现状及不足 2

    1.3  发票识别基本模型及其特征 3

    1.4  本文主要内容及创新点 5

    1.5  本文的结构组织 5

    2  预处理 7

    2.1  预处理环节 7

    2.2  发票图像二值化 8

    2.3  倾斜校正 10

    2.4  去除噪声 10

    2.5  ImageMagick的操作 11

    2.6  本章小结 11

    3  版面分析 13

    3.1  版面分析的方法 13

    3.2  ImageMagick命令行 15

    3.3  实验效果 15

    3.4  本章小结 17

    4  Tesseract识别算法 19

    4.1  Tesseract识别过程 19

    4.2  字的识别 20

    4.3  功能模块函数 21

    4.4  实验结果及分析 22

    4.5  本章小结 26

    结论  27

    致谢  29

    参考文献  30

    1  绪论

    1.1  发票识别的研究背景

    我们的生活、工作中离不开发票,而各行各业发票的信息输入大部分都沿袭着手工操作的方法,这种方式需要大量的人力的投入来完成票据中内容的数字化输入。同时,也需要不少的时间投入到这项工作之中。如此一来,工作的效率肯定也不如自动化系统来处理的效果好,而且人为操作有引入差错导致经济损失的可能性。

  1. 上一篇:HFSS的WLAN双频双模贴片滤波器的设计
  2. 下一篇:ADS宽带线性调频源的设计
  1. FPGA数字视频信息叠加软件设计+程序

  2. AIC基于随机解调的模拟信息转换

  3. 心音信息传感器电路设计及其信号处理

  4. 基于ADS的射频混频器设计

  5. 离散通信系统的信息传输...

  6. 气象传真图信息提取与分析

  7. FPGA数字相位差测量仪设计

  8. java+mysql车辆管理系统的设计+源代码

  9. 乳业同业并购式全产业链...

  10. 当代大学生慈善意识研究+文献综述

  11. 杂拟谷盗体内共生菌沃尔...

  12. 酸性水汽提装置总汽提塔设计+CAD图纸

  13. 河岸冲刷和泥沙淤积的监测国内外研究现状

  14. 电站锅炉暖风器设计任务书

  15. 十二层带中心支撑钢结构...

  16. 中考体育项目与体育教学合理结合的研究

  17. 大众媒体对公共政策制定的影响

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回