毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

python+mysql网络爬虫定向爬取文本信息+源代码(2)

时间:2019-08-18 20:17来源:毕业论文
脚本之家(http://www.jb51.net/)是一个知识论坛,里面有很多的干货,对我们的编程学习有很大的帮助,而且可以从中下载论坛大神们写好的实例。但是它的


脚本之家(http://www.jb51.net/)是一个知识论坛,里面有很多的干货,对我们的编程学习有很大的帮助,而且可以从中下载论坛大神们写好的实例。但是它的网站界面很差,又有许多的广告,查找我要的文章时很不方便,所以我选择爬取“脚本之家”里面的文章。
1  系统的开发环境及技术简介
1.1  系统开发环境
1.1.1  Pycharm    
PyCharm是一个Python集成开发工具,它具有界面友好的的特点,是全新的集成开发环境。主要是基于先前的PyCharm,并增加了一些新的插件实现,在当前的一些平台中得到了广泛的应用。因此,整体来看,PyCharm开发软件符合本次的开发要求。PyCharm具有强大的开发功能,能够支持多种开源产品,已经成为一种重要的开发工具。
1.1.2  数据库简介
MySQL作为一个数据服务器具有很大的优势,一方面能够实现多用户以及多线程的操作。而SQL语言也是当前最普遍的数据库编程语言,能够较为简单的实现对数据的更新以及存取等过程。MySQL作为客户机/服务器架构的重要工具,主要包括服务器程序、客户程序以及相关的库。MySQL 的主要目标是快速、健壮和易用。MySQL设计的初衷就是能够降低数据处理的成本,尤其是在硬件平台上的数据库操作,并且能够实现所有对数据的操作和管理,但是数据库的规模比较合适。MySQL数据服务器具有很多可靠的功能,比如说权限设置,还可以设置密码,对系统进行加密处理,这样能够大大提高系统的安全性;在Windows端有ODBC接口,通过ODBC接口能够实现与 Access的连接;最新版本的MySQL 建立了MyISAM,使得最大的表可以达到8百万 TB;可以实现多种语言的支持,但不支持中文。但是为了保证运行的快速性和健壮性,MySQL在一些其他功能方面必须降低一定的性能,例如在存储过程以及触发器等方面。因此,通过这种方式能够有效地提高其数据处理速率和质量,而且使用MySQL数据服务器的数据处理效率要比其他服务器提高了很多倍。
MySQL 本身并不属于Windows系统的专门操作界面,主要的操作方式都是使用MS-DOS方式实现。当前由于 MySQL在性能以及功能方面的优越性,已经成为众多中小型网站开发的首选,针对其开发的很多图形界面控制程序也不断出现,例如EMS公司的EMS MYSQL MANAGER创建的操作软件就是MySQL数据服务器的操作软软件,这将使得其开发和应用更加方便,因此具有更加广阔的应用前景。MySQL是开放码源的,这就导致它的使用成本很低,加之其体积小、速度快的特点,许多的中小型企业在开发中都会选择MySQL 作为数据库。
1.1.3 WebStorm    
    WebStorm 是是一款强大HTML5编辑软件,它含有IntelliJ IDEA中的一些功能。
1.2系统开发的思想与技术
1.2.1定向网络爬虫
定向网络爬虫(主题爬虫)是指有选择性地爬设定好的界面的网络爬虫。 它们要做的只是提取一些跟主题有关的界面的信息,这样能够节省硬件资源和网络资源,而且由于保存的信息较少而可以获得更快的更新。定向网络爬虫还可以帮助对某一特定领域有需求的人方便快捷的从网站中提取出他们需要的知识。
与通用网络爬虫相比,定向网络爬虫增加了对链接的评价和对网页内容的评价。定向爬虫通过特定的方法对网页的内容和网页内的链接进行评价,从而得出不同的重要性,这样就会对链接的访问顺序进行重新的排序,实现网页的爬行。
1.2.2 Scrapy框架
Scrapy是Python开发的一个框架,他能够快速的、高层次的实现屏幕的抓取和web的抓取。Scrapy用途十分广泛,它可以用于数据的挖掘和监测。 python+mysql网络爬虫定向爬取文本信息+源代码(2):http://www.751com.cn/jisuanji/lunwen_37896.html
------分隔线----------------------------
推荐内容