OCR发票信息识别软件实现+文献综述(2)

通过将光学扫描和识别软件相结合，对记录在纸张上的手写体文字、印刷体文字、数字、条形码等符号进行光电录入、识别处理，然后按照指定的格式将信息进行电子化存储，这就是光学字符识别技术，又称OCR技术。OCR技术从上个世纪五十年代着手研究，发展至今，不仅有了相当成熟的技术基础，同时也开发出了许多不同种类、适合不同条件的OCR产品。
根据识别对象的不同，OCR通常分为印刷体OCR和手写体OCR两种。目前，印刷体OCR的识别技术已经达到实用程度，识别系统也走出实验室，加入到办公自动化产品的行列。国内在这方面研究比较领先的单位有：清华的紫光文通，中自的汉王等。另外单字符手写体的识别，尤其是数字识别率也接近95%．实用系统开始逐渐进入市场。代表性的国内外系统和研究小组有美国Expervision的RTK( Recognition Cool Kits)虽然目前国内外在这一学科领域，均已经建立起丰富的理论，并且还在进一步发展，但是距要实现使机器具有类似人的进行复杂模式识别能力的目标还相差甚远。如何能够进一步地提高字符的识别率，是国内外有关OCR研究的焦点和难点。
根据用途的不同，OCR又分为文本型OCR和专业型OCR两种。文本型OCR是指可分析并识别通用的印刷体文本，如报纸、杂志等。文本型OCR系统通常提供版面处理和文字识别两大功能：版面处理包括版面图像倾斜校正、版面手工或自动分析等，并标注出文本识别序列；文字识别就是对文本序列块进行识别，将文字图像转化成文字机内码。我国目前普遍使用的文本型OCR软件主要有清华文通(TH-OCR)、北信(BI-OCR)、中自(ICR)、沈阳自动化所( SY-OCR)、北京曙光公司(M-OCR)等，这些系统均可以实现中英文混排，宋体、楷体、黑体、仿宋体、繁体等多字体、多字号的混排识别，文字识别率可达到95﹪。
尽管文字识别率较高，但对于印刷质量较低、图像倾斜等干扰，识别率会有明显下降。同时，目前具有的版面分析技术对于版面设计较为简单的文本可以达到较高的切分水平，但对于版面比较复杂或印剧质量不高（如图像倾斜或污点严重）的文本，分析与切分的实用化程度仍有待提高。对复杂表格的识别应用还有较大的距离。但已可满足一般用户使用要求。
专业型OCR系统的产品多面向特定的行业，即适用于大量表格信息录入的部门，如邮政、税务、海关等。这种面向特定行业的专业型OCR系统信息格式较为固定，识别的字符集相对较小，经常与专用的输入设备结合使用，因此具有速度快、效率高等特点。常见的专业型OCR系统包括：
(l)邮件自动分拣系统：早期的邮件分拣系统只能对数字的邮政编码进行识别，目前国外的有些分拣系统可以识别城市名、州名等，识别的字体可以是印刷体、也可以是手写体或两种字体的混合使用。地址的识别结合了自然语言理解中的上下文相关技术，这一技术多用于文字识别的后处理，目前在文字识别过程中也有采用。国内有些大型邮政系统也采用了邮政编码的分拣系统。
(2)表格数据自动录入系统：此系统适用于需要处理大量填写表格（印刷体或手写体）的行业，如银行的单据、税务部门的纳税申报表、保险业的各种投保单、海关的物品出入境申报单、制造业的产量表等。这些行业在数据录入工作中一般采用人工录入，由于录入速度慢、错误率较高，已无法满足信息量日益增加的需要，成为这些行业计算机信息化进程的瓶颈。应用表格数据自动录入系统可以将人们从繁忙的录入工作中解放出来，极大地提高了工作效率。因此表格自动录入系统有着广泛的使用价值，特别适用于需要处理大量表格数据的部门。 OCR发票信息识别软件实现+文献综述(2):http://www.751com.cn/tongxin/lunwen_10953.html