1.2 特征选择研究意义
高维数据往往具有很多特征,但是这些特征并非均有利于最终的分类或识别任务。一方面,“大特征,小样本”问题会带来巨大的计算复杂度和时间复杂度,极可能引起“维数灾难”(Curse Of Dimension),更违背了绝大数统计分析方法中关于p>N的假设(p为样本数,N为特征数);另一方面,许多冗余特征甚至噪声特征, 这些特征可能降低分类或聚类的精度。由于上述原因,引发人们对大规模数据处理的应用需求,作为重要的维度削减技术,近年来特征选择依然是一个热门的研究课题。所谓特征选择,是指从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的。常用的特征选择形式都只是逐步地、独立地选择和提取特征,最终完成维数约减。这种分阶段分顺序进行特征搜索的方式缺乏充足的理论依据,并且在实际应用中存在局限性:由于各个特征之间存在复杂的相互关系,在大多数情况下,如果按照一定的统计或者可分性判据进行排队,逐个地选择特征,取排在前面的几个特征,或者在已选择出的特征子集基础上逐渐增加新的特征,所取得的结果在大多数情况下不是最优特征组,在仿真状况下甚至还有可能取到最差的特征组。
鉴于上述分析,本项目以高维数据为研究对象,以特征搜索策略为具体科学问题,以寻找特征选择中全局最优特征子集为目的,以矩阵投影为研究思路,同步完成维数约减的工作,寻找较好可分性的特征子空间。本课题将拓展维数约减理论和算法的研究,具有十分重要的理论依据;同时,本课题提供的方法和技术,也将推动海量数据挖掘等实际应用,具有十分广阔的应用前景。
1.4 总结
近五六年,特征选择横跨生物信息学、医学、金融工程、高能物理、信息检索等多个学科领域,众多国内外科研工作者都有主持相关项目组对此进行深入研究。总体说来,全局最优搜索方式一直是特征选择的瓶颈,而特征提取中的矩阵投影方式给我们提供了新的研究方向,并在我们的初步研究中证明是切实可的。
2 全局最优搜索策略
特征选择是机器学习中的一个基本问题。其适当的设计不仅可以降低系统复杂度、减少处理时间,而且在许多情况下它也能提高系统的性能。在处理涉及大量无关特征的问题时,特征选择对机器学习算法的成功变得更为重要。例如DNA微矩阵数据,其中特征(基因)的数目通常是以上千甚至上万的数目排列,然而有用基因的数目却被认为是在几十和几百的范围内。由于收集大量病人的数据所带来的高额开销,人们通常只有数十、至多数百的样本进行训练。通过有限的训练样本来选择有用的特征,这类问题对现存的特征选择算法带来了严峻的考验。论文网
特征选择算法的研究在过去的十年内非常活跃。基于特征选择的标准函数是用来搜索信息量最大的特征,现有的特征选择算法一般可以被分类为wrapper(包装)或filter(滤波)算法。在包装方法中,学习算法的性能被用来评估所选特征子集的优劣,然而在滤波方法中,标准函数通过特征子集自身的信息内容来评估他们,通常是类间距离和信息理论方法,而不是对任何特定学习算法的性能进行直接优化。在大多数情况下,滤波方法与包装方法相比计算更为有效,但是性能却较差。对于给定的标准函数,特征选择被还原成一个搜索问题。穷举算法是最优的,但它只有在特征的数目不是特别大时才起作用,随着问题规模的变大,它很快就会在计算上变得不可行。一些启发式的组合搜索策略,例如向前和向后搜索,通常被采用。这些算法在实际应用中取得了一些成功。然而,这些算法中没有一个能够保证最优化求解问题。 特征选择中的全局最优搜索策略研究(2):http://www.751com.cn/jisuanji/lunwen_72445.html