5实验与结论
不同计算机,不同网络和不同的时间会导致不同的下载速度。例如:同样地一个网络蜘蛛程序,在校园网的计算机上每秒只能从非教育网络下载几个文件,但它可以从教育网络上下载甚至高达100份文件。下面的实验是在校园网络使用相同计算机上进行的。由于外部环境几乎是相同的,实验结果具有可比性。论文网http://www.751com.cn/
1. 没有对超链接是否为商业的评判和初始URL为 教育网站。
本实验表明,更多的线程并不意味着更高的效率。因此,使用线程池可以提高工作效率。
2.没有对超链接是否为商业的评判和初始URL为非教育网站
从表1和表2中我们可以得出一个结论,当我们从不同的源URL搜索信息时,网络蜘蛛的速度是极大地不同。因此,在现实中,一般网络蜘蛛往往在不同的网络运行,以之来得到不同源的不同信息。例如,一些网络蜘蛛能在CERNET运行用来处理后缀为“.edu”的网站,而其他网络蜘蛛则可能专注于后缀为“.com”或“.net”的网站
3.采取对超链接为商业信息的评判并且初始的URL是一个集的商业网站。
从表2和表3中,我们可以得出结论,当初始的URL是商业网站时,是否涉及商业判断不会对处理速度有太大影响。 本文来自辣~文'论,文·网原文请找腾讯3249,114
4.在所获得的文件中商业事务的相关度
在实验中,θ是固定的:0.3;URL的圆周化文本的长度为10-600字。我们在结果中得到了500个文件。
分析结果文件,我们可以得到一个一般性的结论。有一些不相关的文件:2个Flash,30个图片文件,4的JavaScript文件,1个应用程序和10个不相关HTML文档。相关关文件的数量是453,相关度为90.6%。包含有商业星系的大量图片文件是被下载的。10个无关的HTML文档中大部分都是空的。从源代码中我们可以发现,头部和文件的标题都是和商业相关的,但是文本内容无关。
总而言之,使用文字过滤和线程池技术来在互联网上检索商业信息是可行的和有效