算法现设计为如下几个部分:共用基础模块、表格检测模块、表格图像提取模块、循环查找图像文件和测试程序主函数。其用基础模块为K-means聚类算法,在其它几个模块中基本都有运用到。表格检测模块在图像预处理基础上进行判断,从而得出是否含有表格这一结论。表格图像提取模块的作用则是将表格区域提取出来并统计出表格数量。循环查找部分读取图像,将各部分串连起来,主函数负责执行。
整个程序的执行过程为:查找到图像文件并读入一张彩色图像,进入表格检测模块,利用大津法确定阈值对图像进行二值化得到二值图像,然后构造连通区域,提取团块特征并借助团块分析对连通的二值图像进行过滤,根据输出的过滤后的二值图像判断该图像是否含有表格,输出检测结果。如果图像含有表格,则进入表格图像提取模块,通过估算间隔和投影分割确定表格的位置,最后将表格区域提取出来。循环读入图像进行上述操作,即可完成所有图像的检测提取工作。