基于机器学习的数据处理平台研究与设计

菜单

管理

软件

毕业论文

研究

_Toc1521

1绪论.1

1.1研究的背景及意义....1

1.2数据处理平台的应用与发展...3

1.3论文结构3

1.4本章小结4

2关键技术介绍5

2.1网络爬虫5

2.2ReactJS...6

2.3Spring6

2.4Hadoop分布式存储..7

2.5Spark分布式数据处理..9

2.6本章小结9

3机器学习算法研究10

3.1BP神经网络算法....10

3.2K-means聚类算法..12

3.3本章小结17

4平台框架设计...18

4.1数据平台框架设计..18

4.2服务层框架设计.19

4.3数据层结构设计.20

4.4本章小结...22

5平台详细设计...23

5.1内部服务模块设计..23

5.2数据采集爬虫设计及实现26

5.3本章小结...28

结论.29

致谢.30

参考文献.31

1 绪论绪论部分首先介绍研究的背景和意义，这一节将分别介绍数据采集、数据存储、数据挖掘和数据展示四大模块。其次介绍了数据处理平台未来的应用方向。最后介绍本文的主要工作和论文的结构。
1.1 研究的背景及意义本节将逐一介绍数据处理平台的数据采集、数据存储、数据挖掘和数据展示四个模块的研究背景及意义。
1.1.1 数据采集数据采集是指通过HTTP 等网络协议有针对性地获取互联网资源数据，并将最终采集的数据按照特定的规则分类存储的一个过程。目前，采集网络数据的方式基本上为以下几类，网络爬虫（数据采集机器人）、分词系统、任务与索引系统等。研究人员通过上述几类方法对互联网的海量数据进行分类采集，将采集后的数据再进行二次分类，使得网络数据能够在特定专业领域发挥它的最大价值[1]。其中，网络爬虫技术是数据采集技术中最核心的部分，任何网络数据采集模式都需要用到网络爬虫技术。第二章的关键技术介绍将对网络爬虫进行详细介绍。