毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

面向商业应用的网络信息过滤技术在搜索引擎中的应用 第2页

更新时间:2012-5-21:  来源:毕业论文
当条目出现在标题,开始或者结束部分, ,如果出现在其它部分就令它等于零。
  计算出矩阵D之后,我们开始计算Dk,Dk是D的一个基于SVD的K级近似矩阵。单值分解之后,矩阵D可以表示为  。这里 U表示D矩阵的左单值矩阵,而V表示右单值矩阵。 是一个对对角矩阵,它的值是按D矩阵的单值降序的排列。然后K级仅是矩阵Dk就是U和V里面的前K列,就是 
Uk和Vk的列都是正交的。Dk是用来近视表示D,Uk和Vk是分别用来表示条目向量和文本向量的。
3. 当Spider进行搜索过程的时候,它把那些累赘的东西先不管,把它们放入等待队列之前先把他们命名为X。X的特征向量是 ,xi可以用方程2算出来,把X映射到Dk空间上去就得到 。现在我们计算XX和Vk的排之间的相似度,计算相似度的公式是:
 
把所有的相似度加起来,用结果和一个给定的值比较,假如相似度大于给定的值,我们就认为该链接是商业相关的链接。
3. 过程优化
3.1 文本中条目的过滤
实验表明文本条目矩阵的文度不能过大,否则,搜索引擎将花费大量的时间用于判断,因此我们通常使用分解文本的程序来分解文本并且在抓取文本的时候标记条目的属性。把那些跟分类无关的东西删掉,保留名词,动词,形容词,副词。将动词分成三类:联系动词,状态动词和动作动词。然后删除联系动词和状态动词,计算剩下的条目的权重,把他们按降序排列,然后把前你条拿出来用。
3.2 使用线程池连云港人才与技术需求考察团暑期实践心得体会
实验显示,多线程能提升Spider的效率,使用多线程技术,spider可以在处理一个页面的同时请求或者等待另外其他页面。通常spider程序为每一个请求创建一个线程。当时为每一个请求创建一个线程的代价非常高,当有很多个请求的时候,会耗费非常多的系统资源来创建和销毁线程。所以我们使用线程池来解决这个问题。在线程池里面,线程的数目是预先规定好的。太多或太少线程都会削减spider的效率。任务会由线程池分配到每一个线程。当一个线程完成了一个任务,线程池会给它安排下一个任务,由于线程的数目是定了的,附加的线程是无法增加的。
我们使用一个现成的线程池程序而不是我们自己去实现它。Jeff Heaton在他的论文里面为我们提供了一个线程池类,程序是开源的。本文来自辣.文'论,文·网原文请找腾讯324,114
线程池里面用到的算法如下描述:
1. 创建一个大小为N的线程池
2. 检查URL等待队列,假如有web页面需要处理转到步骤3;假如为空,程序结束。
3. 创建一个线程处理下一个URL;检查是否有空闲的线程,假如有就用它来处理页面,然后转到2,假如没有,就等待直到有为止。
搜索策略
由于spider是用来抓去商业信息的,初始的URL肯定会跟商业有关。假如不是,那么初始页面里面可能就没有和商业相关的链接,这样的话等待处理的队列将会为空,程序将会结束,所以说最好不要拿这样一个程序到一个教育网站上去跑,因为教育网站上是没有商业信息的。

上一页  [1] [2] 

面向商业应用的网络信息过滤技术在搜索引擎中的应用 第2页下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©751com.cn 辣文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。