从决定文件DP(X)知道,集成的结果表示为 ,可以通过申请一个集成方案来获得。如下:
(3)
此处 ,,且 表示在分类集成后x被分为j类的概率。
不同的集成结果可以通过应用不同的集成方案获得。在Kuncheva[14]很好的调查了许多广泛使用的集成方案后,指出不同的集成方案有各自的优点和缺点,且对于各类应用不存在一个普遍的最好的集成方案。对于一个特殊的应用,例如在本研究中蛋白质-ATP绑定位点预测,人们可以尝试选择一个合适的集成方案,但是仍然不可以使用理论理由来作为选择。在这项研究中,我们测试了五个流行的集成方案[14],例如最大值、最小值、平均值、决策模版和Dempster-Shafer,然后取其中最好的一个来使用。
2.2.5 集成方案
(A)最大值集成 (4)
(B)最小值集成 (5)
(C)平均值集成 (6)
(D)决定模版集成
首先,最典型的决定文件例如决定模版,对于每一个类 表示为 , ,计算如下:
(7)
此处x表示训练集, 表示属于类 的样品的数量。
其次,集成结果 是通过比较现在的决定文件和据诶的那个模版的相似度来决定的。表示如下:
(8)
此处 表示现在的决定文件, 是一个合适的相似度测量。在本研究中,平方欧几里德距离作为相似性度量,从而等式(8)可改写为:
(9)
请注意,虽然我们在本文中只用了欧氏距离,但是其他的距离,如Minkowski距离,Mahalanobis距离等也是可以被使用的。
(E)Dempster-Shafer集成
Dempster-Shafer集成方案源于Dempster-Shafer(DS)理论[14,15]。类似于决定模版集成,,Dempster-Shafer集成的第一步也是计算每一个C类的决定模版。此后,代替计算在决定模版集成中模版和现有的决定文件 之间的相似度的是一个Dempster-Shafer理论基本进程,以此来作为集成结果如下所示:
让 作为决定模版 的第i行, 作为现在决定文件 的第i行。然后,这“接近” 在 和 之间的是如下计算:
(10)
此处 是一个矩阵范数。在本次研究中,使用欧几里德范数。
此后,对于每个分类对的信任度在输入x的计算如下:
(11)
接着,最后的集成结果是 ,此处 的计算如下:
(12)
此处 是一个正火系数。
一旦集成结果在等式(3)中定义的 通过应用任何一种上述提到的集成方案而得到,x的类的标签表示为 。此时 被定义为[14]:
(13)
然而在这项研究中,我们将不会直接使用等式(13)定义的方法,且基于阈值的方法将取代它。在现在的研究,主要的目的是决定一个剩余物是不是一个蛋白质-ATP结合位点。换句话来说,类C的数量是2(绑定或非绑定结合位点)。我们使用数字1和2来分别表示绑定和非绑定结合位点类。例如 和 。让 分别作为在有N个剩余物的蛋白质中的剩余物1,2,......,N的特征向量。因此我们能够得到一个向量 ,此处 测量剩余物i是不是一个蛋白质-ATP结合位点的概率。最后,第i个剩余物的标签表示为 ,在一个蛋白质中可以通过一个阈T被定义,如下所示: 蛋白质-ATP绑定位点预测研究+文献综述(5):http://www.751com.cn/yixue/lunwen_6747.html