第2章介绍了将要在本次项目开发中用到技术的背景以及他们的优缺点。以及每一功能实现的方法。
第3章是本次系统的需求分析,可行性分析和用例图的展示。需求分析是系统每一模块简单的设计,是后面每个模块的功能实现的基础文档。
第4章是对本次课题的总体设计,主要阐述需求、运行环境以及逻辑结构的内容。
第5章是本次设计的重点:详细设计。详细设计中,具体的介绍了每个模块的功能、实现过程以及相应的算法和代码信息。还有数据库的设计,包括每个字段的名和字段的意义。
第6章是系统测试,测试系统是否能够如设计的那样准确无误的运行。这主要是为了加强程序的精确度、健壮性。
最后一章是对本次毕业设计的总结、展望以及参考文献和答谢。
2 技术背景
2.1 网络爬虫的定义
网络爬虫是一个自动解析网页的程序,首先他根据URL到浏览器中找到这一网页,软后把这一网页的源码下载下来,然后根据源码中的标签提取有用的数据。它是搜索引擎的重要组成部分。
2.2 电子商务搜索引擎
电子商务的搜索引擎是基于其他搜索引擎原理的,搜索引擎程序根据用户输入额搜索词进行关键字处理,关键字处理是根据中文特有的分词处理,去除停止词,对关键字处理之后根据处理结果判断是否需要启动整合搜索。
对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。
2.3 广度优先搜索策略
广度优先搜索策略是网络爬虫,在完成当前层次的数据搜索后,再根据上一层次的内容进行下一层次的搜索。有很多研究将广度优先搜索策略应用于聚焦爬虫中。
2.4 图形显示
图形显示是在根据系统对商品的所有商品记录进行分析,把分析结果以图标的形式展现给用户。图表显示功能是基于java中的JFreeChart类实现的,JFreeChart是JAVA平台上的一个开放的类库。JFreeChart可生成饼图(pie charts)、柱状图(bar charts)、散点图(scatter plots)、时序图(time series)、甘特图(Gantt charts)等等多种图表,并且可以产生PNG和JPEG格式的输出,还可以与PDF和EXCEL关联。
2.5 服务器监听
服务器监听是实现定时任务必要的操作,ServletContextListener 是实现此功能的一个接口,它是ServletContext 的监听者,如果 ServletContext 发生变化,如服务器启动时 ServletContext 被创建,服务器关闭时 ServletContext 将要被销毁。
服务器启动时,ServletContextListener 的 contextInitialized()方法被调用,所以在里面创建好缓存。contextInitialized()方法用来调用需要监听的任务,也就是需要跟随服务器启动而执行的任务。
服务器将要关闭时,ServletContextListener 的 contextDestroyed()方法被调用,所以在里面保存缓存的更改。将更改后的缓存保存回文件或者数据库,更新原来的内容。
2.6 定时任务
实现定时任务需要用到java中的Timer类和TimerTask接口,在需要按时间计划执行简单任务的情况下,Timer是最常被使用到的工具类。服务器监听启动后调用Timer然后通过Timer来调度TimerTask中的run()方法来执行系统需要执行的任务。
2.7