(后两次的迭代结果完全相同,故未列出),从上表中可以看到,经过不足20步迭代,就可以得到与前面方法同样的排名结论。
注意在网页数量很大时,迭代运算需要更多有效数字,迭代次数一般也会更多,才能使得归一化特征向量的各分量有序从而确定网页排名。
5.4 实际问题解析
5.4.1 假想模型和现实世界的不同
对于上述提到的对于图2的改进的PageRank算法,这里分别将P值改为0.75,0.8和0.9重新计算了图2的结果,如下:
P取0.75: p=0.75;
A=[0 0 0 0.5;1/3 0 0 0;1/3 0.5 0 0.5;1/3 0.5 0 0];
S=ones(4,4)/4;
M=p*A+(1-p)*S;
[V,D]=eig(M);
diag(D);
abs(V(:,1))/norm(V(:,1),1)
对应的归一化特征向量为 ,网页排名为 ;同样的P取0.8时: ,网页排名为 ;P取0.9时: ,网页排名为 。可以看出,随着P取值的变化,虽然归一化的特征向量有所变动但都不影响最终网页的排名。
或许我们就要问了,究竟P值的变化代表着什么?那么,让我们将概率过程的考虑方法和实际的网页链接构造结合起来看。对于图1这样的假象网页群来说,只要相互顺着链接前进则在彼此页面间必定有相互链接关系。即,有向图表是强链接的行列既是回归又是最简。但是现实的网页并不是强链接。也就是说邻接行列不是最简的。具体来说,顺着链接前进的话,有时会走到完全没有向外链接的网页,通常这样的情况只有利用Web浏览器的“返回”功能了。如果人们只是浏览的话一切就到此结束了,然后PageRank的计算不能却不能到此结束。因为PageRank一旦被引入后是不能返回的。PageRank称这种页面是“dangling page”。同样的道理,只有向外的链接而没有相反链接的页面也是存在的,但PageRank并不考虑这样的页面,因为没有流入的PageRank而只有流出的PageRank,从对称性来考虑的话是很奇怪的。
总之,由现实的Web页组成的推移概率行列大部分都不是最简的。当不是最简时,最大特征值是重复的,并且不能避免优固有矢量多数存在的问题。在此,PageRank为了解决这样的问题,考虑了一种“用户虽然在许多场合都顺着当前页面中的链接前进,但时常会跳跃到完全无关的页面里”,这样的浏览模型。再者将“时常”固定为15%来计算。用户在85%(也就是我们这里的P)的情况下沿着链接前进,但在15%的情况下会突然跳跃到无关的页面中去,将次运算式用数学公式表示的话也就是 ,其中 是所有要素为 的N次正方行列,p=0.85(=1-0.15)。本文来自辣%文,论'文.网,
毕业论文 www.751com.cn 这也就将原先求行列特征值的问题变成了求行列 的优固有矢量特征值问题。
因此无论P取值如何变化都影响不了最终的网页排名。
上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页
网页排名PageRank算法初探+数学建模与求解 第7页下载如图片无法显示或论文不完整,请联系qq752018766