特征选择中的全局最优搜索策略研究(4)

菜单

我们可以知道原始矩阵X的一个最优p列解。经过奇异值分解后，LSI将一个文本投影到一个低维特征空间，如下：

(2)

其中是文本（i=1,2,,n.）的潜在语义索引。是将文本投影到潜在语义空间的投影矩阵。是一个对角矩阵，它用于在潜在语义空间重新标度文本的特征。对于一个给定的从资料库中提取信息的要求q，它是通过下式来投影到潜在语义空间：

(3)

在传统的信息检索任务中，文件是根据它们在潜在语义空间的要求q的相似性来进行排列的。一个常用的相似性度量方法是余弦相似度的度量，如下：

(4)

其中代表向量之间的内积，表示一个向量的Frobenius范数。下面的定理1将经典LSI重构为一个优化问题：

定理1：令，经典LSI可以按以下方式重构为优化问题：源.自/751·论\文'网·www.751com.cn/

s.t. W=I, W (5)

在这里，表示的是所有对角线元素的总和，即矩阵的迹。

2.2.2 LSI下的特征选择(FSLSI)的实现

线性降维问题一般来说可以被定义为寻找一个最佳线性函数f: （通常p d），使得向量可以通过关系式：投影到一个维度更低的特征空间，其中W 是投影矩阵。传统的降维方法大致可以分为两类，特征提取和特征选择算法。根据一般的降维框架，这两类算法都可以看作是根据一定的目标函数J(W)来寻找最佳的W。

751论文网手机版...