1.1 文字区域检测提取理论
提取图像中文字区域检测,是正确理解图像的内容,有效检索图像和监控图像的关键,其关键技术在于从复杂的图像中准确、快速地检测出文字区域。
1.1.1 图像中文字分类
嵌入在图像或者视频中的文字主要被分为两类:
一是场景文字(scene text,也被称为自然文字);二是叠加文字(overlay text,也被称为标题文字或者人工文字)。其中场景文字是指自然存在于场景之中的文字,是自然场景中的一部分,例如场景中的商店招广告牌、路标和一些包装上的文字等等。而叠加文字则是人为覆盖在图像或者视频中的注释性文字,例如图片或视频中的标题、字幕、日期等等。
1.1.2 图像中文字特征
通过分析大量的图像容易发现,图像中的文字对比其背景通常存在一定的特征和规律,如何把握这些特征和规律对于准确提取出图像中文字区域是具有重要意义。这些特征一般表现在:
(1) 空间分布特征。同一文字区域内的文字在图像中一般呈线性排列,或水平或垂直,大多数呈水平分布。
(2) 几何尺寸特征。要达到清晰的可视效果,图像中文字的高度不同于图像中的其它背景,高度通常不小于6个像素才能保证文字在图像中清晰可见。同一文字区域内,文字字号通常保持一致,因此宽度一般相同。
(3) 颜色特征。一幅图像中的文字颜色可以是多样的,但同一文字区域内的文字颜色通常是相同的,以便于阅读。
(4) 边缘特征。文字边缘不同于其它背景边缘,它具有纵向边缘丰富的特征,并且纵向边缘呈线性排列
(5) 对比度特征。由于嵌入在图像中的文字通常反映了图像内容,因此图像中的文字通常与背景呈现较强对比,一方面便于阅读、另一方面更加容易吸引读者的眼球。
1.2 图像识别的特征
视觉是人类从自然界中获取信息最主要的手段之一。根据研究统计,在人类获取的信息中,视觉信息约占60%,听觉信息约占20%,通过其它手段获得的信息约占20%。俗话说“百闻不如一见”就是这个意思。由此可见视觉对人类的重要性,而图像正是人类获取视觉信息的主要途径。
虽然图像重要,但是直接获取的图像通常不能使人满意,为了满足人们视觉上或者心理上的需求,还要对图像进行加工。我们对图像的描述经常借助于一些称为目标特征的描述符来进行,目标特征一般代表了目标区域的特性。图像分析的一个重要工作就是从图像中获得目标特征的量值。用于图像识别的特征一般分为以下几种:
(1)直观性特征
直观性特征如图像的边缘、轮廓、纹理和区域等。这些都属于图像灰度的直观特征。他们一般物理意义明确,提取比较容易,可以针对具体问题设计相应的提取算法。
(2)灰度统计特证
灰度统计特征如灰度直方图特征,将一幅图像看做一个二文随机的过程,引入统计上的各阶矩阵作为特征来描述和分析图像。
(3)变换域特征
对图像进行各种数学变换,可以将变换域的系数作为图像的一种特征。例如小波变换、曲波变换、hough变换、离散余弦变换等等,在图像特征抽取方面均有广泛的应用。
(4)代数特征
代数特征反应了图像的一种内在属性,将图像作为矩阵看待,可对其进行各种各样的代数变换,或进行各种矩阵分解。由于矩阵的特征向量反映了矩阵的一种代数属性,并且具有不变性。统计方法从图像多种属性的分析出发,能够得到有效描述图像纹理的特征。 图像中文字区域检测算法研究(3):http://www.751com.cn/jisuanji/lunwen_16880.html