菜单
  

    摘要许多应用,如文本处理,基因表达微阵列分析,组合化学都是以高维数据为特征表示,但通常特征中只有一小部分是重要的。因此,特征选择被优先考虑。特征选择可以提高后续分类器的泛化能力,并明显加速学习和分类的过程。此外,它提高了模型的可解释性,并明显降低存储要求。在本文中,我们提出两种特征选择算法,RELIEF和FSLSI算法。RELIEF算法被公认为是评估特征质量的最成功的算法之一。RELIEF算法的关键思想是根据特征对邻近样本的辨别能力来迭代的估量特征权重。FSLSI是LSI的一个预处理步骤,使得LSI能够有效的应用到大规模数据集上。它的主要思想是使用一个投影矩阵来将向量投影到一个更低维度的特征空间内。我们还会提出一个基于间隔Fisher分析的新算法,其关键思想是在最大化权重特征空间的边缘值时多考虑几个最近的样本。64999

    毕业论文关键词  特征选择 RELIEF 特征权重 FSLSI 投影矩阵 MFA

    Abstract Many applications, such as text processing, gene expression array analysis, and combinatorial chemistry, are characterized by high dimensional data, but usually only a small subset of features is really important. Feature selection is thus preferred. Feature selection can enhance subsequent classifier’s generalization capability and remarkably speed up learning and classification process. Moreover, it improves model interpretability and significantly reduces storage requirements. In this paper, we study two feature selection algorithms, namely RELIEF and FSLSI algorithm. RELIEF is considered one of the most successful algorithms for assessing the quality of features. The Key idea of RELIEF is to iteratively estimate feature weights according to their ability to discriminate between neighboring patterns. FSLSI is a preprocessing step of LSI such that LSI can be efficiently approximated on large scale text corpus. It uses a projection matrix to project the vector to a lower dimensional feature space. We propose a novel algorithm, called Marginal Fisher

    Analysis (MFA),the Key idea is concerning more documents when maximize the averaged margin in a weighted feature space.

    Keywords  feature selection, RELIEF, feature weighting, FSLSI, projection matrix,MFA 

    目   次

    1 引言 5

    2 全局最优搜索策略 8

    2.1 RELIEF算法 8

    2.2 基于隐藏语义空间的特征选择算法(FSLSI)   10

    3 基于间隔Fisher分析的全局最优特征搜索 16

    4   实验 20

    4.1 识别率 20

    4.2错误率VS最优特征数 21

    4.3全局最优特征搜索在人脸识别上的应用 23

    4.4对基于MFA的K-近邻的K的研究 24

    结论 26

    致谢 27

    参考文献 28

    1  引言

    1.1 特征选择背景介绍

    随着信息技术的迅速发展,生物信息学、图像处理、文本挖掘等许多领域中研究对象的数据描述越来越趋向于高维,给数据挖掘造成了“维数灾难”。针对这个问 题,出现了数据降维的研究。而特征选择作为数据降维的方法之一,因简单、直观、有效而应用广泛。特征选择可以去除冗余特征、无关特征、甚至噪声特征,从而 得到一个近乎无冗余、无噪声的样本集。合适的特征选择算法,可以有效的去除不相关的特征和冗余特征,提高学习算法的泛化性能和运行效率,得到更加简单和容易理解的学习模型。

  1. 上一篇:JAI相机图像采集程序实现和参数选取研究
  2. 下一篇:彩色图像融合客观评价指标研究
  1. 神经网络算法在核素识别中的应用研究

  2. XML文档在组态软件中的应用

  3. 基于Agent的突发事件中网络...

  4. 网络新闻文本中的命名实体自动抽取研究

  5. 作业调度系统中的A*智能搜索算法研究与实现

  6. 二维码理论及其在电子商务中的应用研究

  7. H.264标准视频编码中的错误隐藏技术研究

  8. 分光光度法测定水溶液中有机酸含量的研究

  9. 新生代农民工培训现状分析

  10. 探讨“绿色生态”在都市设计中的体现

  11. 合肥老乡鸡连锁餐饮企业的经营策略探析

  12. 文化旅游主题展示设计广富林十里长街设计

  13. 《简爱》女性主义的象征

  14. 公共服务均等化文献综述和参考文献

  15. 机器人摩擦焊机头设计

  16. 圆柱绕流国内外研究现状

  17. 带式输送机技术英文文献和中文翻译

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回