菜单
  

    要实现互联网信息采集程序,首先需要了解如何从互联网抓取数据,输入URL,能够让程序从指定的网站开始抓取数据。
    其次是数据的过滤,因为互联网信息大多是非结构化的,每个网站所采集到的信息也不尽相同,然后需要将采集到的无用信息过滤掉,只留下使用者所需要的数据。
    然后是存储到本地的数据库中,数据库应该建立怎样的数据结构,能够灵活的应用于不同的网站。最后是数据的显示,编辑和修改,涉及到数据库相关语句的操作。
    开题报告
    2.1 课题的背景、现状及理解
    本课题包含两大部分,一是如何在互联网采集信息并加以分析处理的思想方法,二是进行系统设计和实际编程,完成一个互联网信息采集程序。
    主要由网络数据抓取,数据过滤,数据存储。
    1.网络数据抓取,使用idHTTP网络编程。网络数据抓取,首先要实现的是网络数据的下载。本课题使用delphi的相关控件及函数实现网页源代码的下载。
     2.数据的过滤,利用正则表达式技术进行网页数据的过滤提取。加载reg perl 库,录用库函数进行过滤
     3.存储到本地的数据库,需要建立对应的SCHEMA,然后插入数据库元组。
    2.2 课题的相关技术及课题难点
    课题利用到了从互联网抓取数据的网络编程技术;存储到本地数据库并进行编辑和显示的数据库编程技术,如SQL语句等;实现多路采集的技术,如多线程技术;过滤无用信息的技术。
    其中的课题难点在于,不同的网站数据结构并不相同,抓取到的也是非结构化的数据,并不能直接加入数据库,如何判定数据的相关程度,过滤掉无用数据,将所需的数据存储入数据库。而且网络数据采集下来往往是混带有很多网页标记的字符串,如何从这些字符串中找出所需要的数据,并且要满足一定的模式,因此不能简单的利用字符串匹配算法。
    2.3 可以解决课题难点的当代技术
       可以解决从字符串中提取出有用信息,过滤掉无用信息的技术有:正则表达式技术,字符串匹配技术
       正则表达式是一种上下文无关的语法,能够表达字符串集和字符串集中字符的顺序(IEEE对正则表达式的定义),通过正则表达式,可以测试某个字符串是否符合一定的模式。我们可以实现在指定的字符集中搜索相匹配的字串。正则表达式的优点在于,可以按照一定的模式进行数据的匹配和数据相关度的判断,而不是简单的进行字符串查找,针对网络信息常常带有网页标记的特征。正则表达式适用于本次课题。可以使用PERL语言编写正则表达式规范。
    字符串匹配技术是一种简单的从字符串中匹配对应字符串的技术,它的缺点有,灵活性差,遇到部分无关字符会终止匹配,这个不能适合于网络信息匹配字符串的模式,因此无法满足课题的需要。
    2.4 对于课题的预测
         软件预计使用borland delphi作为编程软件进行可视化编程,语言为pascal,需要加载REGEX库。
    正则表达式技术目前已经相对成熟,在编译器,语法分析器中皆有利用,正则表达式在编译原理课程中已接触过;数据库技术和多线程技术在编程中是经常利用到的技术。课题需要经过系统设计,局部设计,编程实现等环节,其中局部设计中的数据过滤需要花费相对较多的时间。
     
    3  整体设计
    3.1 课题的目标
    互联网信息采集系统,要求实现如下功能:⑴、任选一款数据库存储采集的信息。⑵、通过操作界面设置信息源URL或其他地址。⑶、可同时进行多路信息采集。⑷、可编辑和修改数据库中已采集的信息。
  1. 上一篇:汽车虚拟中控平台的仿真与软件实现
  2. 下一篇:WSN基于网络编码的无线传感器网络Qos传输机制研究
  1. 基于MATLAB的图像增强算法设计

  2. jsp+sqlserver高校二手商品交...

  3. 基于Kinect的手势跟踪与识别算法设计

  4. JAVA基于安卓平台的医疗护工管理系统设计

  5. java+mysql设备监控记录的大...

  6. 基于核独立元分析的非线...

  7. 基于Hadoop的制造过程大数据存储平台构建

  8. 河岸冲刷和泥沙淤积的监测国内外研究现状

  9. 乳业同业并购式全产业链...

  10. java+mysql车辆管理系统的设计+源代码

  11. 酸性水汽提装置总汽提塔设计+CAD图纸

  12. 大众媒体对公共政策制定的影响

  13. 当代大学生慈善意识研究+文献综述

  14. 电站锅炉暖风器设计任务书

  15. 十二层带中心支撑钢结构...

  16. 中考体育项目与体育教学合理结合的研究

  17. 杂拟谷盗体内共生菌沃尔...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回