雅虎问答,于二零零五年十二月十三推出,现在是成为最大的知识共享网络社区
在几个流行的CQA服务。超过时间,一个巨大的以前QA对的数目已经被存储在其数据库中,并且在大多数情况下,用户可以直接得到答案的从这个QA存档搜索,而不是雅虎问答翻翻从潜在相关的文件清单网络。作为这样的提取,而不是从某一个答案,文档主体,在CQA检索任务变成的任务寻找新的查询有关类似的问题。
类似的问题匹配的任务尽管是不平凡的。主要的原因是,而不仅仅是输入关键字或者用户形成使用自然语言,其中的问题的问题编码与各种词法,句法和语义特征。
例如,“我怎么能在短短一个月减肥?”和“是否有在短期内失去一磅什么方法?”是两个相似问题问的减肥方法,但它们既不有许多共同的话,也不遵循相同的语法
结构。这种差距使得类似的问题匹配任务困难。相似性度量技术基于纯粹的语句包方法可能表现不佳,在这种情况下失效。
语法或语义特征,因此成为这些关键任务。树核函数是表示一个句子的句法结构最有效的方法之一。在一般情况下,它划分树解析成几个子树,并计算子树的两个向量之间的内积。虽然已经有使用它的一些成功的应用程序,如题分类树类似内核的功能尚未直接应用到寻找类似的问题在QA存档。此外,其匹配计划过于严格是直接
采用我们的问题匹配的问题。在本文中,我们重新制定树内核架构,并引入了新的检索模型找到类似的问题。我们广泛的研究问题的结构表示不仅要编码词汇,而且句法和语义特征到匹配模型。我们的模型不依赖于训练,它被证明对语法错误判断稳健。
本文的其余部分安排如下:给出了著名的树核概念的背景介绍。介绍我们的VSM匹配模型,介绍描述了一个改进的模型语义特征结合,介绍我们的实验结果,比较不同模型的区别,评论一些相关的工程和总结我们的未来的方向。
2 问句相似度计算
2.1 框架概述
首先,对Yahoo!Answers网站中抽取的语料集,建立问题对应答案索引,问题集的索引。对查询q,先用VSM模型检索,得到初步的结果,再用语义模型(SEM)、LDA模型对初步的结果再次进行检索,最后将得到的结果进行线性综合。框架的流程图如图1所示。
2.2 VSM模型
向量空间模型(Vector Space Model,VSM)是60年代末由Gerard Salton等人提出的,本文采用一种流行的VSM模型。给定查询q和问题d,则它们之间的相似度计算如(1)。
2.3 语义模型(SEM)
给定两个特征词w1和w2,利用WordNet来计算两个特征词之间的语义相似度
其中,distance(w1,w2)是两个特征词w1和w2间语义的最短距离,并且定义两个相同的词的语义相似度为0,即:distance(w1,w2)=0时,Sem(w1,w2)=1。
对于给定一个查询q 和问题d,首先对其进行去停用词和去除功能词的处理,然后再用二分图的方法来计算两句子的相似度。其计算公式如下。
其中wqi和wdi分别表示查询和问题的特征词,|q|和|d|分别表示查询和问题的特征词个数总和。
2.4 树核模型
传统的信息检索任务采用弓或语言模型等进行检索。然而,这些纯粹的词汇基础的方法往往不足以进行精细级别的文本分析,如果该任务涉及到使用更多不同的语法结构或复杂的语义含义。为了利用更多的结构或句法信息和捕捉语法规则之间的高阶依存关系,柯林斯试图认为,发生在解析树中的所有树片段。他所定义的树片段是任何的子树,其中包括多个节点,与整个规则的制作必须包含的限制。D. Zhang and W. S. Lee通过提出一个稍微不同的定义继承它,其中所有终端符号都纳入子树,认为树内核可以背过的单词线性核。 社区问答中问句相似度计算方法研究(2):http://www.751com.cn/jisuanji/lunwen_16470.html