图4-2 知识点爬取程序部分运行效果图 17
图4-3 习题地址爬取程序部分运行效果图 19
图4-4 知识点爬取程序部分运行效果图 20
图4-5 登陆功能图 22
图4-6 注册功能图 23
图4-7 要求验证邮箱界面图 24
图4-8 验证邮件图 25
图4-9 更改密码图 26
图4-10 更改邮件图 27
图4-11 按科目展示习题图 28
图4-12 按知识点展示习题图 29
图4-13 对习题进行分类图 31
图4-14 搜索功能图 33
图4-15 统计习题分类情况图 35
图5-2 组件类型关系图 37
表清单
表序号 表名称 页码
表3-1 用户表(user) 13
表3-2 科目表(sub_url) 14
表3-3 知识点表(cid_url) 14
表3-4 有知识点习题表(cid_ans_ques) 15
表3-3 无知识点习题表(ans_ques) 16
1绪论
1.1课题背景及研究意义
1.1.1网络习题爬取系统研究背景
随着大数据时代的到来,数据就是一切。如何合理利用数据已成为一种潮流,因此爬虫技术应运而生。在互联网上搜索习题时,可以得到成百上千的习题,而所需的只有一小部分,这将花费许多的筛选时间。通过浏览习题网站来学习则会面临题型不全,重复习题过多等问题。因此,为了方便学生高效的使用已有的海量网络资源,网络习题爬取系统已成为一种获取资源的有效方法。
1.1.2网络习题爬取系统的研究意义论文网
1)习题库丰富,习题爬取系统通过对不同的网站进行爬取来获得大量的习题。习题爬取系统将为用户提供海量题库。
2)习题多样性,习题爬取系统会删除习题库中重复的习题来使用户避免重复做一道题的情况。
3)快速地位,习题爬取系统对习题进行知识点分类来使用户快速定位到自己想要学习的题型库中,避免盲目查找情况。
1.2开发语言及开发工具
1.2.1 python简介
Python[1]是完全免费的自由软件,源代码和解释器cpython都遵循GPL协议。
Python是一个高层次的结合了解释性,编译性,互动性和面向对象的脚本语言。
Python是一个跨平台的语言,可以在windows,linux,unix等系统中运行。因为python的跨平台性质,所以用python写出的程序可以很容易的移植到不同的操作系统中。