菜单
  
    针对高文数据的相似性度量方法的研究, 文献[3] 提出了一种对象组的相似性计算方法, 该方法首先将高文稀疏矩阵转换为二态数据矩阵, 根据二态数据矩阵计算对象组的相似度。由于该方法在整个聚类的执行过程中, 只需要进行一次数据扫描, 大大提高了算法的效率。但该方法仅适用于对具体的数据值不感兴趣的情况下, 即可以将现实问题中的区间标度型、分类、序数、比例标度变量等转化为二态变量时, 很大程度上限制了该方法的适用性。文献[4] 综合利用属性分布相似性、空间距离以及交叉最近邻表三种度量方法, 提出了一种综合有效的高文数据相似性度量方法。但是, 该方法中所涉及的相似性度量公式复杂, 导致在海量高文数据聚类过程中的时间复杂度较高, 实用性不强。文献[5] 提出了一种基于共享最近邻的高文聚类算法,其算法思想在于度量各数据间最近邻数据对象中的交叉情况, 交叉程度越大, 数据间的相似度也越大, 但是, 该文中数据对象相似性度量公式不能完全反映数据间的相似程度。文献[6,7] 提出了一种基于地球引力模型的属性数据相异度计算方法, 其中文献[6] 将地球引力模型中涉及到的距离值改为对象属性间的信息熵, 避免了高文空间中距离的计算。文献[8] 提出了投影最近邻的概念, 它根据各点用一个准则函数挑选相关的文, 仅利用这些相关的文计算其它点与该点的相似度。由于将原高文空间中相似度度量问题转化成在低文子空间中的相似度计算, 因此这种方法可以继续采用原低文空间中的距离计算函数。但是, 该方法中用来选择各点的相关文的质量准则函数难以确定。文献[9]提出了一种用于高文数据的相似度函数H sim( ) , 该函数避免了原有的低文空间上定义的距离函数在高文空间中的不适用性, 即随着文数的增加, 最大和最小距离之间的对比越来越不明显, 点与点之间的距离对比性不复存在, 一个点到它的最远邻和最近邻的距离几乎是相等的。但是, 该相似度函数不适于对分类属性数据的相似性度量。5802
  1. 上一篇:镀锌光亮剂国内外发展研究现状
  2. 下一篇:功能性食品的国内外研究现状
  1. 无线数据传输技术的研究现状及发展趋势

  2. 制造业大数据国内外研究现状

  3. 智能交通数据分析国内外研究现状综述

  4. 碰撞试验数据采集系统国内外研究现状

  5. 无线数据通信技术研究现状和参考文献

  6. 电商评论的数据挖掘技术国内外研究现状

  7. 焊接过程数据采集技术的研究现状

  8. 杂拟谷盗体内共生菌沃尔...

  9. 中考体育项目与体育教学合理结合的研究

  10. 当代大学生慈善意识研究+文献综述

  11. 电站锅炉暖风器设计任务书

  12. 酸性水汽提装置总汽提塔设计+CAD图纸

  13. 十二层带中心支撑钢结构...

  14. java+mysql车辆管理系统的设计+源代码

  15. 大众媒体对公共政策制定的影响

  16. 乳业同业并购式全产业链...

  17. 河岸冲刷和泥沙淤积的监测国内外研究现状

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回