菜单
  

    1.3  国内外研究现状
    2  相关模型
    本文在充分考虑到网络语言的特点的同时把研究的焦点放在了计算相关度之前的工作上,主体思路就是将LDA模型与向量空间模型相结合,利用LDA模型来定义特征项,从而改善向量空间模型单纯依靠相似度计算来判断相关度的局限性,也就是说本文利用词汇比对来判断相关性,但是把研究的重点放在如何得到比对的有效词库。下面就简单介绍一下本文主要涉及的两个模型。
    2.1  向量空间模型
    向量空间模型 (Vector Space Model,VSM) 具有简便、高效等优势,自被发现以来就被广泛地应用于信息过滤、采集以及索引当中,是非常实用的计算相似度的代数模型。VSM的原理很容易理解,用向量空间中的向量运算来对文本信息进行处理转化,再以向量空间上的相似度来衡量文本的相似度。用空间向量表示文档,就可以通过计算向量之间余弦距离的来计算文本间的相关度。
    文件(语料)被视为索引词(关键词)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。实际上,计算夹角向量之间的余弦比直接计算夹角容易:余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
    在向量空间模型中,文本用D(Document)表示各种机器可读的记录;特征项(Term,用T表示)是指出现在文档D中并且能够代表该文档内容的基本语言单位,主要是由词或短语构成。则文本可以用特征项集表示为 ,其中 是特征项 。
    例如,一篇文档中有a、b、c、d四个特征项,那这篇文档就可以用D(a,b,c,d)表示。针对含有n个特征项的文本,通常会给每个特征项赋予一定的权重来表示其重要程度,即 D=D(T1,W1;T2,W2;…,Tn,Wn),简记为 D=D(W1,W2,…,Wn),就形成了我们需要的文本D的向量表示形式,其中W_k 是T_k 的权重(1≤k≤N)。在上面那个例子中,假设(a、b、c、d)的权重分别为(30,20,20,10),则该文本的向量应该表示为D(30,20,20,10)。在VSM模型中,两个文本D_1 和D_2之间的内容相关度 Sim(D1,D2)常用向量之间夹角的余弦值来表示,其公式为:
     、 分别表示文本 和 中第 个特征项的权值 。而在本文中要依靠LDA的建模结果来确定这个权值。
  1. 上一篇:二重VaR的基本特性及应用研究
  2. 下一篇:线性规划的单纯形法及其应用+文献综述
  1. 基于指数模型的最大次序统计量的可靠性性质

  2. 随机波动率模型设定检验问题的研究

  3. 种群生态动力学模型的研究

  4. 基于模型的故障检测观测...

  5. 基金净值变化的数学模型探析

  6. 基于BDI模型的网民行为建模仿真研究

  7. 一类带避难效应的捕食食饵模型的稳定性分析

  8. 中考体育项目与体育教学合理结合的研究

  9. 酸性水汽提装置总汽提塔设计+CAD图纸

  10. 大众媒体对公共政策制定的影响

  11. 电站锅炉暖风器设计任务书

  12. 杂拟谷盗体内共生菌沃尔...

  13. 十二层带中心支撑钢结构...

  14. 河岸冲刷和泥沙淤积的监测国内外研究现状

  15. java+mysql车辆管理系统的设计+源代码

  16. 当代大学生慈善意识研究+文献综述

  17. 乳业同业并购式全产业链...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回