基于LVQ神经网络的微钙化分类方法
论文导读::数字化的乳腺X光片仍然是乳腺癌检测的可靠工具,X光片中出现的微钙化点是癌症的主要标志。本文提出了一个基于自适应的学习矢量量化神经网路(LVQ)的乳腺癌良恶性分类方法,该方法在提取特征向量的基础上对CC和MLO两种视图的良性和恶性数字化乳腺X光片图像进行训练和测试,分类结果使用最佳分类率和平均分类率来说明。实验结果表明本文方法对CC视图的图象的平均测试分类率为92.6%,而对MLO视图是93.18%。在微钙化分类系统中采用逻辑或的方式用于合并两种不同的视图下的网络,合并后的网络可以获得的最佳分类性能是94.8%。
论文关键词:微钙化点良恶性分类,肿瘤模式识别,学习矢量量化神经网络,敏感度,特异度
1 引言
随着早期检测的重视,近年来乳腺癌的死亡率有降低的趋势,但仅是在欧美国家,比如美国癌症协会ACS建议40-50岁之间的妇女每隔一年就做一次X光片的早期检查,而对50岁以上的则要求一年一次[1]。在过去的十年里中国的乳腺癌诊断病例以每年3%的比例在增长,这个比例已高于西方国家[2],并且呈年轻化的趋势,这可能归结于环境的变化、饮食结构等改变。
本文的主要工作是提出将微钙化簇分类为良性或恶性的分类算法。分类算法包括4个步骤:(1)从DDSM数据库中获取研究对象,并修改图像格式和尺寸;(2)从数据库相关说明文件中提取病灶区域;(3)提取有效的特征向量;(4)对CC和MLO两种视图的图像使用LVQ神经网络分别训练和测试获得最佳的分类率;(5)使用逻辑或操作计算最后的分类结果,即如果认为任何一个视图下的图像是恶性的,那该病人的病灶性质就是恶性的。
2 图像预处理及特征提取
2.1 图像数据库和预处理
本文采用的试验数据库是南佛罗里达州立大学提供的乳腺癌诊断图DDSM数据库,该数据库可以在该大学的网站上免费下载[3],该数据库中每个病人有四张图像,分别是cc和mlo视图下的左右乳腺组织图像,所有的图像都是使用LJPEG格式进行压缩,这样保证了不丢失任何图像细节敏感度,但因此图像尺寸也非常大,而CAD系统要能快速检测并具备高准确度,对一个模式识别系统来说,低分辨率图像是高效和可行的[4]。所以,要对图像的尺寸进行修改,同时尽可能地保留图像的细节。下面是图像预处理的步骤:(1)先将LJPEG格式图像进行解压缩,将DDSM中的LJPEG格式的图像转换成12位的TIFF格式的图像,使得其可以在MATLAB中进行后续处理[5];(2)将它转换成8位格式图像;(3)人工去除黑色背景,提取乳腺区域;(4)选择在使用双线性插值算法进行图像映射,修改图像尺寸为300*200像素,这样在减小图像的尺寸的同时避免图像失真。
使用双线性插值算法,修改图像尺寸为300*200像素大小
图1 图像预处理与分割流程
2.2 提取病灶区域
DDSM数据库的每个病人案例都附带了相关信息,用于标注可疑的病灶区域,这些病灶区域的信息标注是基于像素级的“地表实况”,每个可疑区域的边界通过在每个图像案例中的.overlay文件中的联结点值来标注。使用这些边界信息,就可以获取了每个可疑区域的边界坐标,从而提取出病灶区域。
2.3 特征提取
有效的特征提取可以大大简化分类系统的设计,好的特征的选取是处理过程中一个关键的步骤,因为接下来的步骤只是关注这些特征并在这些特征上进行运算。我们采用统计学方法计算病灶区域的第一类特征,即以下17个灰度特征:平均灰度、平均边界灰度、平均强度、平均对比度、差分、能量、修正能量、熵、修正熵、标准差、修正标准差、倾斜、修正倾斜、微钙化簇的半径、团簇中微钙化的数目、团簇中微钙化的分布、团簇的面积。本文取的第二类特征即四个bi-rads特征是密度,肿块形状、肿块边缘和异常风险评估。最后一个特征是病人的年龄特征。后面两类特征在数据库说明文件中都可以获得具体的值论文开题报告范例。这样就组成了22文的特征向量,使用这些特征向量对神经网络进行训练和测试。
3 LVQ神经网络的分类算法
本文在LVQ 改进算法的基础上采用自适应学习速率调整的技术,来提高竞争神经元的利用率、微钙化识别率和缩短训练速度。
基于LVQ神经网络方法的微钙化分类算法过程如图2所示:
图2 基于LVQ神经网络方法的微钙化分类算法过程
接下来在DDSM数据库中选择240个良恶性案例进行训练和测试,先前面提到的算法将图像预处理成300*200像素。
假定LVQ网络输入层的输入向量为,其中,M为输入神经元的数目;输入层和竞争层之间的连接权值矩阵为。中,i=1,2,…,P;j=1,2,…,M表示输入层第i个神经元和第j个神经元之间的连接权值,P为竞争神经元的数目,竞争层的输出向量为,竞争层与输出层神经元之间的连接权值矩阵为,其中。中敏感度,k=1,2,…,N;r=1,2,…,p,表示竞争层第k个神经元与输出层第r个神经元之间的链接权值,N为输出层神经元的数目。竞争层的每个神经元通过学习原型向量,并对输入空间进行分类。将竞争层学习得到的类称为子类,将输出层学习得到的类称为目标类[6]。
LVQ学习算法步骤如下:
第一步:设置变量和参量。
(1)输入向量和目标向量的设计。每幅图像的原始尺寸为300*200,参与训练的有X=240幅图像,提取的输入特征向量是22个。240张肿瘤图像分为2类(良性和恶性),所以目标向量为240×2的向量,其中每一列中只有一个“1”,其余均为“0”。
为输入向量,或称训练样本。
(2)设置权值向量和学习速率。为权值向量,i=1,2,…,M。t为迭代次数,T为迭代总次数,N是输入层节点数,M是输出层节点数。选择学习速率的函数。
第二步:初始化权值向量及学习速率。在初始状态下,所有神经元都拥有相同的权值,即为这些向量的中间值。学习速率反映了学习过程中连接权调整量的大小,初值设为0. 1,阈值。
第三步:输入训练样本,计算输入向量与权值向量之间的距离,找到与输入向量距离最小的权值向量,这里使用欧氏距离最小的标准,如公式(1),从而寻找获胜神经元c,从而实现了神经元的竞争过程。
, i=1,2,…M(1)
第四步:期望误差的选取和网络结构的确定。期望误差初始值设为0.1,学习函数用LVQ1,最大训练步数设为1000,开始对网络进行训练。训练经过20次迭代就可达到误差要求,为了进一步降低训练误差,要通过增加隐含层的节点,以及训练时间来获得。训练好的网络在选定的图像集(选取良恶性图像各50张,总共100张)上测试的结果是:当竞争层节点数小于10时敏感度,不能进行有效分类;当竞争层节点数为10-20时,分类率为80-86%左右;当竞争层节点数为20-30时,分类率为90%左右。竞争层节点数再增加,对识别结果影响不大。所以,根据实验结果,我们采用隐藏层节点数为30的网络结构进行最终的测试和分类。
第五步:判断分类是否正确,根据如下规则调整获胜神经元的权值向量:
4 结束语
本文提出了一个学习向量量化神经网络整合系统用于区分乳腺癌的良恶性病灶的方法。整合的神经网络拥有更强的学习技能,可以改善神经系统学习的泛化能力。本文整合的神经网络分类系统使用了低分辨率的图像,微钙化使用自适应的学习向量量化网络提取,这个网络在cc和mlo视图下使用良性和恶性的图像进行训练,整合的系统完成的最佳分类性能是94.8%。尽管如此,但整合后的系统的平均分类率有所下降,这是以后需要研究和改进的方向。
参考文献
[1]McLelland, R.Screening for breast cancer: opportunities, status and challenges. In: Brunner,S., Langfeldt, B. (eds.) Advances in Breast Cancer Detection: Recent Results inCancer Research, vol. 119, Springer, pp 29-38, 1990.
[2]Li, S. L. Oncology of breast. Beijing: Science Technique LiteraturePublishing House, 2000. pp 210, 218-220.
[3]美国南佛罗里达大学.数字乳腺图像数据库(DDSM)[EB/OL].http://marathon.csee.usf. edu/Mammography/Database.html/
[4]LJPEG格式转换到TIFF格式的详细说明. http://www.751com.cn/
[5]Khuwa G. A. An adaptive combined classifier system for invariantface recognition. Digital Signal Processing, 2002, 12: 21-46.
[6]SANO K, MOMOSE S, TAKIZAWA H,et al.Efficient parallel processing ofcompetitive learning algorithms[J]. Parallel Computing, 2004, 30(12):1361-1383.