要实现互联网信息采集程序,首先需要了解如何从互联网抓取数据,输入URL,能够让程序从指定的网站开始抓取数据。
其次是数据的过滤,因为互联网信息大多是非结构化的,每个网站所采集到的信息也不尽相同,然后需要将采集到的无用信息过滤掉,只留下使用者所需要的数据。
然后是存储到本地的数据库中,数据库应该建立怎样的数据结构,能够灵活的应用于不同的网站。最后是数据的显示,编辑和修改,涉及到数据库相关语句的操作。
2 开题报告
2.1 课题的背景、现状及理解
本课题包含两大部分,一是如何在互联网采集信息并加以分析处理的思想方法,二是进行系统设计和实际编程,完成一个互联网信息采集程序。
主要由网络数据抓取,数据过滤,数据存储。
1.网络数据抓取,使用idHTTP网络编程。网络数据抓取,首先要实现的是网络数据的下载。本课题使用delphi的相关控件及函数实现网页源代码的下载。
2.数据的过滤,利用正则表达式技术进行网页数据的过滤提取。加载reg perl 库,录用库函数进行过滤
3.存储到本地的数据库,需要建立对应的SCHEMA,然后插入数据库元组。
2.2 课题的相关技术及课题难点
课题利用到了从互联网抓取数据的网络编程技术;存储到本地数据库并进行编辑和显示的数据库编程技术,如SQL语句等;实现多路采集的技术,如多线程技术;过滤无用信息的技术。
其中的课题难点在于,不同的网站数据结构并不相同,抓取到的也是非结构化的数据,并不能直接加入数据库,如何判定数据的相关程度,过滤掉无用数据,将所需的数据存储入数据库。而且网络数据采集下来往往是混带有很多网页标记的字符串,如何从这些字符串中找出所需要的数据,并且要满足一定的模式,因此不能简单的利用字符串匹配算法。
2.3 可以解决课题难点的当代技术
可以解决从字符串中提取出有用信息,过滤掉无用信息的技术有:正则表达式技术,字符串匹配技术
正则表达式是一种上下文无关的语法,能够表达字符串集和字符串集中字符的顺序(IEEE对正则表达式的定义),通过正则表达式,可以测试某个字符串是否符合一定的模式。我们可以实现在指定的字符集中搜索相匹配的字串。正则表达式的优点在于,可以按照一定的模式进行数据的匹配和数据相关度的判断,而不是简单的进行字符串查找,针对网络信息常常带有网页标记的特征。正则表达式适用于本次课题。可以使用PERL语言编写正则表达式规范。
字符串匹配技术是一种简单的从字符串中匹配对应字符串的技术,它的缺点有,灵活性差,遇到部分无关字符会终止匹配,这个不能适合于网络信息匹配字符串的模式,因此无法满足课题的需要。
2.4 对于课题的预测
软件预计使用borland delphi作为编程软件进行可视化编程,语言为pascal,需要加载REGEX库。
正则表达式技术目前已经相对成熟,在编译器,语法分析器中皆有利用,正则表达式在编译原理课程中已接触过;数据库技术和多线程技术在编程中是经常利用到的技术。课题需要经过系统设计,局部设计,编程实现等环节,其中局部设计中的数据过滤需要花费相对较多的时间。
3 整体设计
3.1 课题的目标
互联网信息采集系统,要求实现如下功能:⑴、任选一款数据库存储采集的信息。⑵、通过操作界面设置信息源URL或其他地址。⑶、可同时进行多路信息采集。⑷、可编辑和修改数据库中已采集的信息。
- 上一篇:汽车虚拟中控平台的仿真与软件实现
- 下一篇:WSN基于网络编码的无线传感器网络Qos传输机制研究
-
-
-
-
-
-
-
河岸冲刷和泥沙淤积的监测国内外研究现状
乳业同业并购式全产业链...
java+mysql车辆管理系统的设计+源代码
酸性水汽提装置总汽提塔设计+CAD图纸
大众媒体对公共政策制定的影响
当代大学生慈善意识研究+文献综述
电站锅炉暖风器设计任务书
十二层带中心支撑钢结构...
中考体育项目与体育教学合理结合的研究
杂拟谷盗体内共生菌沃尔...