摘要:随着网络信息的日益增长,从事商业事务的人都渴望拥有一个面向商业的搜索引擎。建立搜索引擎的第一步是高效地从互联网上获取商业信息。本文将介绍用于过滤互联网上面向商业的信息的方法。通过这种方法,网络蜘蛛决定了面向的域通过评判是否超链接于商业事务相关。在实验中,我们使用文字过滤技术优化程序并且使用线程池来提高性能。论文网http://www.751com.cn/
关键词:垂直搜索引擎,面向商业的网络蜘蛛,LSA理论。
1.研究目的本文来自辣~文'论,文·网原文请找腾讯324'9114
随着计算机和互联网的迅速发展,越来越多的信息产生和存在于互联网。如何获得准确和有用的信息?搜索引擎是一个很好的工具以获取有用的信息。因此,他成为了除email之外最为流行的线上服务。
通用搜索引擎的工作过程可描述为如下步骤:首先,网络机器人也叫网络蜘蛛撇渣全互联网,收集网页的网址和在网页中包含的信息;网络蜘蛛存储信息到索引数据库中;然后搜索效用建立了网页的网址一个链表,通过该链表,搜索引擎可以通过搜索关键字找到于链中匹配的网址。
但有这么多无关的信息显示于结果页面。因此,人们需要越来越多的关注在一定区域内的垂直搜索。
商业信息仅仅是一个网络信息的一小部分。如果我们想搜索商业信息,这会采取更多的时间和精力去下载一般的网络知识蜘蛛程序发现的所有信息,同时也会花去更多的时间和精力并判断它是否是商业信息。因此,实施一个高效的电子商务为导向的网络蜘蛛程序的研究是必要且有价值的。在本文中,将介绍一个能够实现面向商业搜索引擎的方法。
2.实现过程
网络机器人总是从开始于一个或多个Web页,然后通过它们可以找到的所有的网页。网络蜘蛛首先分析一个网页的HTML代码,查找在页面中的超链接,然后通过递归或非递归算法的所有链接的网页信息。递归是一种可以不断调用自身的算法。很简单,但它不能适用于多线程技术。因此它不能在一个有效的网络蜘蛛方案通过。使用非递归方法,网络蜘蛛程序将超链接放入一个队列中而不是访问它。当网络蜘蛛程序已经扫描完当前网页,他会根据算法连接到下一个超链接。
一个超链接如果和商业有关,那么他会被放入到队列中。否则,不予以处理。
下面是其实现方法:
1.收集一些典型的面向商业的网站并保存为文本作为原始的判断依据。
2.使用LSA的理论为存在的文本建立一个矩阵。使用的LSA模式,一个文本集可以被认为是r*m的矩阵D。“M”是指在文本集中文本的数量,而“R”代表了不同的文本条目。也就是说,每一个不同的文本都对应着矩阵的一行;每个不同文件对应着矩阵的一列.D = [dij]r*m,dij第i个条目在文本j中的权值。众所周知,有很多的公式来计算传统向量中的权值。下面是一个非常常见的公式用于计算权值.2297