.net互联网信息采集程序的开发+文献综述(2)

采集系统均基于网页内容分析，所有利用服务器实现采集的功能可以实现，也能解决比较实际的问题。
1．1 采集系统直观流程图
第一步确定采集任务群，即确定采集的内容分类。
第二步确定采集站点群，即确定采集的目标网站或网页。
第三步确定规则采集群，即分析网站确定采集使用规则。
第四步执行采集，根据前面几步系统开始执行采集。
第五步数据入库，把采集下来的有效信息存储到数据库中
2 技术背景
2．1 采集系统研究背景
根据中国互联网络信息中心( CNN IC )发布的《第26次中国互联网络发展状况统计报告》显示, 截至2010年6月底, 我国网民规模达4. 2亿人,互联网普及率持续上升增至31. 8%。手机网民成为拉动中国总体网民规模攀升的主要动力, 半年内新增4334万, 达到2. 77亿人, 增幅为18. 6%。我国目前的网站数量为279万个, 全国每万人拥有21个网站, 每万名网民拥有66个网站。然而, 面对如此众多的网站, 如何了解、熟知, 并最终从这些网站得到对你有用的信息成为亟需解决的问题, 网络信息采集技术就是解决了这个问题。
2．2 采集系统当前技术
目前, 网络信息采集技术主要可以分为基于人工系统的信息采集技术和基于计算机系统的信息采集技术。基于人工系统的信息采集技术方法主要分为直接观察法、社会调查法和查资料法, 其中社会调查法又可以分为普遍调查法、典型调查法、抽样调查和个别访谈。平时所说的信息采集技术基本上都是指基于计算机系统的信息采集技术。传统的基于计算机系统的信息采集技术主要有以下几种。
一是网络信息采集技术。这里以对单个网页进行信息采集为例, 其一般流程为获得网页的URL, 识别URL所在主机(服务器) , 向该服务器发出请求、建立TCP连接, 根据HTTP协议向服务器发出获取URL 的命令, 接收服务器的响应、读取URL对应的文件内容, 将文件内容写入本地永久性存储, 最后释放与服务器之间的TCP连接。这个过程是以因特网上最基本的TCP协议为基础, 通过与网络服务器建立连接, 而后将信息下载到本地主机,从而完成对网络信息的采集, 这个技术也是目前应用最广泛的。
二是网络信息挖掘技术网络信息挖掘技术主要利用数据挖掘技术获得可用的信息。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。
三是网络信息的分析与过滤技术。为了有效去掉绝大部分无关信息, 必须采用分析与过滤技术来控制信息的采集。
四是网络信息资源的整合技术。对所采集的信息可以按照主题或分类方式, 利用计算机自动分类技术对其进行整合。整合后的信息可以建立自有的信息资源搜索系统或建立专题文献数据库来为用户提供服务。
五是网络信息资源的发布与推送技术。实时、动态、按科学分类的发布技术, 不但可以确保用户查找方便, 也可以确保数据的全面及时。
我们最终完善的信息采集系统实现图如下：
3 系统设计
从一个初始的URL出发，再将这个URL上的链接全部放入到一个URLS数据表里。而采集器从这个URLS数据表中按顺序取出URL，获取URL所指向页面，然后从这重复上面的过程，直到URLS数据表中没有可用的URL，则采集完成。将采集到的页面数据和相关处理结果进行处理、分析、存储入库。
3．1 设计目的
信息采集过程可表现为用户指定需要采集的内容，这些内容映射到数据库中的哪一部分，以及其他一些采集规则，然后采集系统根据用户的需求对目标网址进行信息的采集。它不是用于互联上未知信息、未知网站的自动搜索。而是主要用于指定网站，指定栏目下的信息，其采集的最终结果不再是页面，而是深入到站点和页面内部，采集中有效数据项和相关图片附件，并直接进入用户指定数据库。 .net互联网信息采集程序的开发+文献综述(2):http://www.751com.cn/jisuanji/lunwen_4178.html