摘要含有表格的图片在日常生活中极为常见,它被广泛地应用于各种场合,尤其是淘宝、京东等购物网站上。为了对大量图片中的表格进行自动识别、搜索和查找,就要先定位哪些图片含有表格,然后再对这些表格进行识别。在此背景下,本文利用C++语言开发了一个表格图像检测定位算法,该算法先利用图像二值化、构造连通区域和图像过滤等操作进行图像的预处理,再借助团块分析对表格进行了检测判断,最后,通过投影分割定位提取出表格区域。对于给定的图像集合,本算法能够检测出其中哪些图像含有表格,并且能够自动定位出表格所在区域,为后续的识别算法提供基础。本文除阐述了设计的原理和过程,还利用大量图片进行了实验分析,结果表明算法达到了预期要求,具有实际运用价值。43102
毕业论文主关键词 表格图片 检测定位 团块分析 投影分割
毕业设计说明书外文摘要
Title Table Detection Algorithm in Images
Abstract
Images with tables are common in our lives, which are widely used in various occasions, especially on shopping websites such as Taobao and Jingdong. In order to automatically recognize, search and find the tables in a large number of pictures, we must first find the images with tables, and then to recognize these tables. Against this background, a table positioning detection algorithm in images is developed by means of C++ programming language, which firstly uses image preprocessing such as image binarization, connected component construction and image filtering, and then detects the tables by means of blob analysis, finally extracts the table areas by projection pision. For a given set of images, this algorithm can detecte them and find out which images of them contains tables, it can also automatically locate the areas of the tables, getting ready for the subsequent recognition algorithm. This paper not only describes the principle and process of the design, but also conducts the experimental analysis by utilizing a lot of pictures. The results evidence that the algorithm has achieved the expectations, having practical values.
Keywords table image positioning detection blob analysis projection pision
目 次
1 绪论 1
1.1 研究背景 1
1.2 研究现状 1
1.3 论文工作及安排 2
2 算法设计 3
2.1 开发平台及开发工具介绍 3
2.2 程序流程 3
2.3 图像预处理 5
2.4 表格定位 14
2.5 表格区域提取 17
3 测试及结果分析 18
3.1 测试演示 20
3.2 结果分析 22
结论 24
致谢 25
参考文献 26
1 绪论
1.1 研究背景
在淘宝、京东等购物网站上,有关衣服和裤子的商品非常多,而且每天都是处于更新和变化中。这些衣服和裤子的店铺网页上,都提供了一些客户穿戴尺寸表格(通常是以图像形式提供)。如果要对这些信息进行识别、搜索和查找,第一步是定位这些店家中的哪些图像含穿戴尺寸表格,然后再是对这些表格进行识别。此过程中需要先对图像进行一个预先处理,然后才能进行表格的定位,根据定位的结果就可选出包含表格的图片。最后还需把表格所在的区域提取出来。传统的表格检测有针对各类电子文档的,也有web网页的[1~2],使用到的方法也多种多样。本文主要针对的是图片的检测,运用到不少图像处理算法,最终算法的实际运用能够节省大量的人力物力,故具有较大的实用价值。