



    关键词  发票信息识别  ImageMagick  Tesseract-OCR


    Title                  Algorithm module in information recognition software of invoice                                           

    Abstract With the incredibly rapid advancement of society, invoice automated processing can effectively reduce manual operations involved, not only to avoid errors made by inpiduals, but to reduce labor costs. If the overall picture of the invoice, simple layout of picture relatively, to be identified by OCR systems, a huge amount of computation and low recognition rate cannot be ignored. This paper attempts to combine ImageMagick and Tesseract, which is open source softwares, to process information of invoice. The main contents of this paper are summarized as follows:

    (1)Using the ImageMagick to preprocess the image of an invoice, to analysis the layout and so on, whose result image is the input picture of Tesseract.

    (2)Analyze the flow of information recognition in Tesseract and its important algorithms, and then use it to achieve the identification result of important information in Chinese and numbers. Experiments show that the invoice numbers can be accurately identified in the desired area, and the rate of Chinese recognition to be improved. 

    Keywords  recognition of invoice  ImageMagick  Tesseract-OCR

    目   次

    1  绪论 1

    1.1  发票识别的研究背景 1

    1.2  发票信息识别系统的研究现状及不足 2

    1.3  发票识别基本模型及其特征 3

    1.4  本文主要内容及创新点 5

    1.5  本文的结构组织 5

    2  预处理 7

    2.1  预处理环节 7

    2.2  发票图像二值化 8

    2.3  倾斜校正 10

    2.4  去除噪声 10

    2.5  ImageMagick的操作 11

    2.6  本章小结 11

    3  版面分析 13

    3.1  版面分析的方法 13

    3.2  ImageMagick命令行 15

    3.3  实验效果 15

    3.4  本章小结 17

    4  Tesseract识别算法 19

    4.1  Tesseract识别过程 19

    4.2  字的识别 20

    4.3  功能模块函数 21

    4.4  实验结果及分析 22

    4.5  本章小结 26

    结论  27

    致谢  29

    参考文献  30

    1  绪论

    1.1  发票识别的研究背景


  1. 上一篇:HFSS的WLAN双频双模贴片滤波器的设计
  2. 下一篇:ADS宽带线性调频源的设计
  1. FPGA数字视频信息叠加软件设计+程序

  2. AIC基于随机解调的模拟信息转换

  3. 心音信息传感器电路设计及其信号处理

  4. 基于ADS的射频混频器设计

  5. 离散通信系统的信息传输...

  6. 气象传真图信息提取与分析

  7. FPGA数字相位差测量仪设计

  8. java+mysql车辆管理系统的设计+源代码

  9. 乳业同业并购式全产业链...

  10. 当代大学生慈善意识研究+文献综述

  11. 杂拟谷盗体内共生菌沃尔...

  12. 酸性水汽提装置总汽提塔设计+CAD图纸

  13. 河岸冲刷和泥沙淤积的监测国内外研究现状

  14. 电站锅炉暖风器设计任务书

  15. 十二层带中心支撑钢结构...

  16. 中考体育项目与体育教学合理结合的研究

  17. 大众媒体对公共政策制定的影响




