由于在某些庞大数据中获取特征所需的计算量可能很大,因此我们倾向于选择较小的特征集来获取特征之间的相关性,这就是要进行特征选择的原因。特征选择是从高文特征空间中选取特征子集,降低数据文数并且保持特征子集的原始物理特性。经典的特征选择算法有ReliefF[2], Fisher Score[3]等,它们通过特征和类别标签之间的相关性来度量特征的重要性,但是它们大多对每个特征的度量是独立进行的,并且是将特征逐个添加至所选特征子空间中,这种选择方式往往会忽略各个特征之间的相关性。
为此我们对目标函数提出l2,1范数最小化约束来实现同步特征选择,称此方法为稀疏表示保持的鉴别特征选择算法。目的在于使样本的稀疏类内重构残差尽可能小而稀疏类间重构残差尽可能大。
2 稀疏表示理论
随着科技的发展,针对信号的高效传输和重构等问题,人们提出了基于字典的稀疏表示理论,并且由于稀疏表示的优良特性,它得到了广泛的应用,包括数字通信,信号编码识别等领域,它不仅仅能够有效的提取出有用信息而且可以缓解信息处理的速度和存储量的问题。本章节主要阐述稀疏表示的基本思想和应用领域,为之后的章节提供理论基础。
2.1 稀疏表示理论的基本思想
通常稀疏表示的基本思想可以概述为:将给定的信号在己知的函数(或矢量)集上进行分解,然后在变换域上表达原始信号。这种在变换域上用尽量少的基函数来(准确地)表示原始信号,就是信号的稀疏表示。或者说,稀疏表示,就是欲以尽可能少的非零系数来表示信号的主要信息,从而简化信号处理过程的求解程序。
稀疏表示模型可如表达式(2.1)所示,其中y∈Rˆn为待处理信号,D∈ Rˆ(n*m)为字典,x∈Rˆm为稀疏系数。||x||0 « m 。||x||0为x的稀疏度他表示x中非零系数的个数。 基于稀疏表示的特征选择算法(2):http://www.751com.cn/jisuanji/lunwen_22984.html