表格识别系统国内外研究现状

字符识别是模式识别中的一个重要分支，OCR[1](Optical Character Recognition)是字符识别的一个主要应用。OCR技术是一项涉及人工智能、识别、图像处理的交叉性学科。其中，在图像处理技术方面的研究占很大比重。早在上世纪五十年代[2]，人们已经开始了对OCR的研究，但由于当时的计算机设备发展还不完善，计算机计算及存储能力有限，因此早期OCR的研究也收到了限制。随着电子科技技术的不断完善，自80年代起[3]，人们对OCR的研究也越来越广泛，经多年的研究与发展，字符识别技术已有了长足的进步。表格识别系统作为OCR的一个重要应用，也得到了国内外研究人员的青睐。30683
1国外研究现状
Paul Hough[4]提出了Hough变化的方法来检索图像中的直线，该方法具有较好的鲁棒性和稳定性，可以分别应对表格虚线、表格线断裂等各种复杂情况，但会受到图形约束，且计算复杂。Freeman[5]提出了Freeman链码来跟踪目标物体的轮廓，该方法可以很好的得到目标轮廓，并在目标分析、压缩等方面得到推崇。H. Shin jo[6]等人提出了表格线交叉点分析法提取了表格线，该方法将表格线框中相邻的交叉点归类和匹配，然后构建单元格，能够得到表格线框，但是稳定性较差，且耗时长。G Pirlo[7]等人提出了滴水算法分割粘连字符的方法，该方法可以较好的分割粘着在一起的两个字符，还可以将倾斜、扭曲的字符分开。除了在各种算法研究成果外，国外也有许多成功的OCR系统，如美国 Buffalo 分校的文档识别中心（CEDAR）[8]主要研究手写体识别、信封与信件的自动处理等，并开发了智能识别字符、处理表格以及日文文档的系统；美国华盛顿大学的智能系统研究室（ ISL ）[9]开发了用于 OCR 和文档分析与理解算法的 CD-ROM 文档数据库（UW-I,UW-II,UW-III）等。论文网
2国内研究现状
目前国内表格识别系统也得到了广泛应用。司明[10]等人提出了改进的模糊阈值算法改进了二值化算法并结合最小二乘法进行倾斜矫正，使用这种结合处理的方法可以快速得到轮廓更加清晰端正的表格图像。何柳[11]等人提出了采用连通区域算法提取出了表格线框的轮廓并根据特征点识别单元格的方法，该方法可以准确的分离表格框架，并找到各种规格的表格单元格。周壮[12]等人研究了表格线去除的方法，提出基于自定义“有向单连通链”的方法搜索表格线，并根据字线交叠方法进行分离，这种方法可以成功将表格线框去除。刘昱[13]等人采用基于形态学的方法提取表格线，并对提取到的表格线进行细化，然后合并成表格框架，这种方法可以较好的提取出各种类型的表格的框架，但是对有些短小的表格线的提取并不精准。刘今晖[14]博士成功研究出了印刷表格识别系统；谢亮[15]等人提出了一套完整的识别表格的方法，该方法可以成功提取表格线，并对断裂字符进行修补，最终识别率可以达到90%。表格识别系统国内外研究现状:http://www.751com.cn/yanjiu/lunwen_26538.html