您现在的位置：毕业论文 >> 英语论文 >> 正文

网络信息过滤技术英文文献和翻译第3页

更新时间：2012-1-12: 来源：毕业论文

由于网络蜘蛛的目的是捕捉商业信息，初始网址应该和商业相联系。如果不这样，将有可能在第一个网页的网站上不存在商业化的超链接，而且还会导致一个空队列和网络蜘蛛程序终止。因此，在教育网络中最好不要运行网络蜘蛛程序，因为大多数的商业信息是从商业网络获得的，而不是教育网站。

5实验与结论
不同计算机，不同网络和不同的时间会导致不同的下载速度。例如：同样地一个网络蜘蛛程序，在校园网的计算机上每秒只能从非教育网络下载几个文件，但它可以从教育网络上下载甚至高达100份文件。下面的实验是在校园网络使用相同计算机上进行的。由于外部环境几乎是相同的，实验结果具有可比性。论文网http://www.751com.cn/

1. 没有对超链接是否为商业的评判和初始URL为教育网站。
本实验表明，更多的线程并不意味着更高的效率。因此，使用线程池可以提高工作效率。
2.没有对超链接是否为商业的评判和初始URL为非教育网站

从表1和表2中我们可以得出一个结论，当我们从不同的源URL搜索信息时，网络蜘蛛的速度是极大地不同。因此，在现实中，一般网络蜘蛛往往在不同的网络运行，以之来得到不同源的不同信息。例如，一些网络蜘蛛能在CERNET运行用来处理后缀为“.edu”的网站，而其他网络蜘蛛则可能专注于后缀为“.com”或“.net”的网站

3.采取对超链接为商业信息的评判并且初始的URL是一个集的商业网站。

从表2和表3中，我们可以得出结论，当初始的URL是商业网站时，是否涉及商业判断不会对处理速度有太大影响。本文来自辣~文'论,文·网原文请找腾讯3249,114

4.在所获得的文件中商业事务的相关度
在实验中，θ是固定的：0.3;URL的圆周化文本的长度为10-600字。我们在结果中得到了500个文件。
分析结果文件，我们可以得到一个一般性的结论。有一些不相关的文件：2个Flash，30个图片文件，4的JavaScript文件，1个应用程序和10个不相关HTML文档。相关关文件的数量是453，相关度为90.6％。包含有商业星系的大量图片文件是被下载的。10个无关的HTML文档中大部分都是空的。从源代码中我们可以发现，头部和文件的标题都是和商业相关的，但是文本内容无关。
总而言之，使用文字过滤和线程池技术来在互联网上检索商业信息是可行的和有效

上一页 [1] [2] [3] [4] 下一页

网络信息过滤技术英文文献和翻译第3页下载如图片无法显示或论文不完整，请联系qq752018766

上一篇文章：灾难备份业务实现原理IDC英文文献和翻译

下一篇文章：浅谈小学英语游戏教学法

网络信息过滤技术英文文献和翻译 第3页

网络信息过滤技术英文文献和翻译第3页