1 0.8883 1 1 0.8338 0.4620 0.5047
表3:预处理之后的数据
算法的选择分析
一般相似度的计算介绍
在一般的计算相似度的算法中,现有的集中基本方法都是基于向量的,其实也就是计算两个向量之间的距离,距离越近相似度越大。下面是几种常见的相似度的算法以及其优劣的基本分析:
皮尔逊相关系数
皮尔逊相关系数一般用于计算两个定距变量间的联系的紧密程度,其取值在[-1,+1]之间。其具体公式为:
p(x,y)=(∑▒〖x_i y_i-n(xy) ̅ 〗)/((n-1)s_x s_y ) (2)
其中sx, sy分别是x和y的样品标准偏差。其取值表示绝对值越大,相关性越强,而其负相关对于推荐的意义比较小。
该相似度并非最好的选择也不是最坏的,仅仅是因为其比较容易理解。因而在早起的研究中经常被提起。使用皮尔逊线性相关系数必须假设数据是成对的从正态分布中提取,并且至少在逻辑范畴内是等间距的数据。并且在使用时有诸多限制,如不考虑重叠的数量,如果重叠只有一项或者重叠的值都相等,则无法计算其相似性。
欧几里德距离
最初用于计算欧几里德空间中两个点的距离,其计算公式如下:
d(x,y)=√((∑▒〖(x_i-y_i)〗^2 )) (3)
其中x,y是n文空间的两个点,可以看出当n=2时,欧几里德距离就是平面上的两个点的距离。当用其表示相似度时,用以下公式进行转换:
sim(x,y)=1/(1+d(x,y)) (4)
其范围是[0,1],值越大,说明d越小,也就是距离越近,相似度越大。同皮尔逊相似度一样,该相似度也没有考虑重叠数对结果的影响,如果要具体使用必须通过增加一个枚举型的参数来使得重叠数也成为计算相似度的影响因子,故也不适合本文。
Cosine相似度
Cosine相似度被广泛的适用于计算文档的数据的相似度,其计算根据的具体公式如下:
T(x,y)=(x∙y)/(〖||x||〗^2×〖||y||〗^2 )=(∑▒〖x_i y_i 〗)/(√(∑▒x_i^2 ) √(∑▒y_i^2 )) (5)
其原理是多文空间两点与所设定的点形成家教的余弦值。其范围是[-1,+1],值越大说明夹角越大,两点相距就越远,相似度就越小。相比较距离度量余弦相似度更加注重两个向量在方向上的差异,而并非距离或者长度上。
高文数据相似性算法
在本文的算法选择的函数介绍前要先对其各个部分进行解释其基本定义:
属性相似概率
属性相似概率P(tx , ty)表示属性i上的空间相似度在d文对象X和Y的总体相似度中所占的比例。其具体公式为:
P(t_(x_i ),t_(y_i ) )=(δ(t_(x_i ),t_(y_i )))/d (6) 以时间为单位的证券相似度的研究+文献综述(7):http://www.751com.cn/shuxue/lunwen_2994.html