目前,由于电子文档的大量使用以及表格之于数据处理的不可或缺,表格识别的研究和应用也很广泛。表格识别的出现和日益发展带来了重大的经济效益和社会效益,比如重庆大学曾借助“863”计划期间的相关资助研制出了AV-100表格自动阅读机[3],大大节省了当时的人力物力资源。另外,还有不少企业开发了此类产品,进行表格的识别和数据的录入[4]。表格的识别不仅包括本文讨论的表格检测,还包含了表格数据的识别录入。本文研究的表格检测是将表格图片筛选出并提取表格框线,也是为后续的识别提供基础。43102
表格检测现下主要是通过对表格框线和横竖线交点的检测进行。就表格的处理方法而言,-751`文~论^文.网www.751com.cn有最常见也较成熟的Hough变换[5];有潘世言等人提出的基于投影的检测方法[6];也有刘为[7]和李海涛[8]等人分别采用过的连通域分析法和交叉点特征法。这些方法各有其优缺点。如Hough变换的优点是能够较为全面地检测直线,但运算量大、运算速度慢,直线的检测仅针对直线本身而不能识别端点则是它不可忽视的缺点[5]。而连通域分析法和交叉点特征法具有一定的自我约束条件,若采用上述两种方法的同时能够满足这种约束,就可以取得较好的检测效果,但被检测对象出现表格线断裂、倾斜等情况时,这两者的效果却不尽人意[6]。还有一种基于有向单连通链的表格检测算法[9]。此法具有原理简单易懂、具有明确的物理意义、方便结果的存储处理等特点,凭借一定方式地合并有向单连通链,便可以快速准确地将直线提取出来。
参考文献
[1] 房婧, 高良才, 仇睿恒,等. 版式电子文档表格自动检测与性能评估[J]. 北京大学学报:自然科学版, 2013, 49(1):45-53.
[2] 廖涛, 刘宗田, 孙荣. Web表格定位技术的研究与实现[J]. 计算机科学, 2009, 36(9):227-230.
[3] 陈纯. 计算机图像处理技术与算法[M]. 清华大学出版社, 2003.
[4] 司明. 表格识别的研究[D]. 西安科技大学, 2009.
[5] 郑秀清, 付茂名. 一种改进的自动表格框线检测方法[J]. 中国民航飞行学院学报, 2004, 15(4):30-32.
[6] 刘长松, 潘世言, 郑冶枫,等. 一种表格框线检测和字线分离算法[J]. 电子与信息学报, 2002, 24(9):1190-1196.
[7] 刘为, 平西建, 郭戈. 基于字线分离的表格识别预处理算法[J]. 计算机工程与设计, 2008, 29(19):5066-5068.
[8] 李海涛, 柳健, 明德烈,等. 一种统计特征点网格分布的表格图像识别方法[J]. 华中科技大学学报:自然科学版, 2002, 30(9):60-63.
[9] 郑冶枫, 刘长松, 丁晓青,等. 基于有向单连通链的表格框线检测算法[J]. 软件学报, 2002, 13(4):790-796.
[10] 常江. 车辆图像局部识别[J]. 信息网络安全, 2013(11):94-96.
[11] 曾子芳, 潘建平. 基于大津法求阈值的变化矢量分析法[J]. 测绘与空间地理信息, 2013, 36(3):50-52.
[12] 孙璐, 陈洪海. 最大类间方差法在图像分割中的应用[J]. 煤炭技术, 2008, 27(7):144-145.
[13] 齐丽娜, 张博, 王战凯. 最大类间方差法在图像处理中的应用[J]. 无线电工程, 2006, 36(7):25-26.
[14] 王龙强. K均值聚类算法初始聚类中心的选取与改进[D]. 东北大学, 2013.
[15] 周卫星, 廖欢. 基于K均值聚类和概率松弛法的图像区域分割[J]. 计算机技术与发展, 2010, 20(2):68-70.