最近邻分类中的距离度量学习算法实现与验证

距离度量学习是模式识别与机器学习领域的重要研究内容，本文的主要内容就是面向最近邻分类器（kNN），研究利用训练数据学习最佳距离的模型和算法。这其中主要包括三种距离度量学习算法：弱监督距离度量学习，近邻成分分析（NCA）以及大间隔距离度量学习。与监督学习算法不同，弱监督学习算法不需要类别信息，只需要给出样本点之间的“相似”和“不相似”对，就能获得有效的距离度量标准。近邻成分分析相对于其他距离度量学习算法的优势在于可以有效地降低样本的文数以满足数据可视化和快速分类的需要。大间隔距离度量学习是一种基于半定规划的马氏距离度量学习算法，算法的主要思想是使得最近邻样本尽量属于同一个类别，而不同类别样本之间尽可能保持较大的距离。针对不同算法和不同数据集，进行了丰富的实验对比，结果表明，相对于欧式距离度量，使用经过训练集学习得到距离度量标准能够有更好的分类效果。8335
关键词距离度量最近邻分类弱监督近邻成分分析大间隔最近邻分类
TitleRealizationandVerificationofDistanceMetric
LearningforNearestNeighborClassification
Abstract
Distancemetriclearningisanimportantresearchtopicinpattern
recognitionandmachinelearningareas.Thefocusofthethesisishowto
learnagooddistancemetricfornearestneighborclassificationbyusing
atrainingdataset.Threemainalgorithmsareincluded:weaklysupervised
distancemetriclearning,neighborhoodcomponentsanalysis(NCA)and
distancemetriclearningforlargemarginnearestneighbor
classification.Comparedwithotherdistancemetriclearningalgorithms，
weaklysupervisedonescanlearnadistancemetricforclusteringandget
goodresultswithside-informationwhichismadeupofsomepairsofpoints
considered＂similar＂or＂dissimilar＂,butnotclasslabels.NCAcan
effectivelyreducedimensionalitiesofinputsthatcouldbeusedfordata
visualizationandfastclassification.LMNNisanapproachthatcanlearn
aMahanalobisdistancemetricfork-nearestneighborclassificationby
semidefiniteprogramming,andmetricistrainedwiththegoalthatthe
k-nearestneighborsalwaysbelongtothesameclasswhileexamplesfrom
differentclassesareseparatedbyalargemargin.Manyexperimentsare
conductedondifferentdatasetsfordifferentalgorithms,andtheresults
indicatethatlearnedmetricsperformbetterthanEuclideandistance
metricsinclusteringandclassification.
KeywordsdistancemetrickNNweaksupervisonNCALMNN
目次

1引言1
1.1关于距离度量1
1.2弱监督距离度量学习的特性2
1.3kNN的缺陷及改进2
2弱监督距离度量学习算法3
2.1学习距离度量标准3
2.2K-means上的实验验证5
3监督距离度量学习算法9
3.1近邻成分分析9
3.2大间隔距离度量学习算法14
4三种算法的对比19
4.1模型对比19
4.2实验对比20
结论21
致谢22
参考文献22
1引言
信息行业的高速发展，加快了各行各业智能化的步伐，因此，在卫星遥感图像
分析，医学影像识别，无人驾驶汽车，智能机器人等领域，模式识别与人工智能技术
得到了广泛的应用。分类和聚类技术作为其重要的组成部分，也扮演着重要的角色，
本文中主要用到了两种分类和聚类算法——K-means算法和最近邻分类（kNN）算法。
本文中的弱监督距离度量学习算法[1]
是以K-means算法为原型的，K-means是一
种简单而有效的硬聚类算法。它采用距离作为相似性的评价指标，即认为两个对象的
距离越近，其相似度就越大。K-means算法首先在N个待聚类样本中选择K个作为聚
类中心，然后对剩余样本分别计算到每个聚类中心的距离，并把它归到最近聚类中心最近邻分类中的距离度量学习算法实现与验证:http://www.751com.cn/jisuanji/lunwen_6622.html