菜单
  
    当今社会信息产业发展迅速,各行业对于数据的依赖性逐渐增强。整个互联网所产生的数据,并不能直接对各行业管理和决策起到参考作用,因此,将这些没有实际价值的数据转化为高价值数据,将对社会各行业的发展起到极大的推动作用。 本文根据上述情况,首先介绍了建设背景、意义;其次描述了项目涉及的关键技术和创新点的设计与实现;最后从软件工程的角度设计了项目的前后端架构与各模块的功能与实现。 目前,数据处理平台正在建设当中,本文的数据平台服务设计方案已在企业级大型数据处理平台广泛应用,分布式可配置爬虫已在 GITHUB 上发布,作为开源项目得到不断地改进与应用。   43130
    毕业论文关键词  数据平台;数据采集;机器学习;分布式;Spark  Title   
    基于机器学习的数据处理平台设计与研究   
    Abstract With he rapid development of information industry in today's society, the industry tend to depend on data gradually.  The data produced by the Internet can not be a direct reference to the management and decision-making in any industry. Therefore, turning these invalid data into valid data is a social demand, This will play a great role in promoting the development of various sectors of society.  Based on the describment above,this paper could be devided into these parts.To begin with, it introduces the background and meaning of building a data processing platform. Then, it tells about the key technologies involved in the projects and the design and implementation of the innovations.Finally, from the perspective of system outline designing,it introduces the front and rear ends architecture of online date processing platform and the features of every sections.  Currently, the data processing platform is in full swing among construction. Data storage and data presentation programs in this paper has been developed and implemented in the enterprise. Distributed configurable web crawler have already been published on GITHUB, continuously being improved and applied 
     Keywords    data platform;data collection;machine learning;distribute;Spark   

    目次

    _Toc1521

    1绪论.1

    1.1研究的背景及意义....1

    1.2数据处理平台的应用与发展...3

    1.3论文结构3

    1.4本章小结4

    2关键技术介绍5

    2.1网络爬虫5

    2.2ReactJS...6

    2.3Spring6

    2.4Hadoop分布式存储..7

    2.5Spark分布式数据处理..9

    2.6本章小结9

    3机器学习算法研究10

    3.1BP神经网络算法....10

    3.2K-means聚类算法..12

    3.3本章小结17

    4平台框架设计...18

    4.1数据平台框架设计..18

    4.2服务层框架设计.19

    4.3数据层结构设计.20

    4.4本章小结...22

    5平台详细设计...23

    5.1内部服务模块设计..23

    5.2数据采集爬虫设计及实现26

    5.3本章小结...28

    结论.29

    致谢.30

    参考文献.31

    1  绪论 绪论部分首先介绍研究的背景和意义,这一节将分别介绍数据采集、数据存储、数据挖掘和数据展示四大模块。其次介绍了数据处理平台未来的应用方向。最后介绍本文的主要工作和论文的结构。
    1.1   研究的背景及意义 本节将逐一介绍数据处理平台的数据采集、数据存储、数据挖掘和数据展示四个模块的研究背景及意义。
    1.1.1   数据采集 数据采集是指通过HTTP 等网络协议有针对性地获取互联网资源数据,并将最终采集的数据按照特定的规则分类存储的一个过程。 目前,采集网络数据的方式基本上为以下几类,网络爬虫(数据采集机器人)、分词系统、任务与索引系统等。研究人员通过上述几类方法对互联网的海量数据进行分类采集,将采集后的数据再进行二次分类,使得网络数据能够在特定专业领域发挥它的最大价值[1]。 其中,网络爬虫技术是数据采集技术中最核心的部分,任何网络数据采集模式都需要用到网络爬虫技术。第二章的关键技术介绍将对网络爬虫进行详细介绍。

  1. 上一篇:matlab汽车作动器的力跟踪控制
  2. 下一篇:离散时间模糊系统的可靠控制器设计与仿真
  1. 基于中频信号的家用治疗...

  2. 基于嵌入式技术的智能家...

  3. 基于FPGA竞赛系统设计+程序

  4. Matlab基于前馈控制的加热炉温度控制系统设计

  5. MEMS基于SHARC型DSP的组合导航算法实现

  6. MATLAB排爆机器人移动平台控制系统的设计

  7. 基于LabVIEW的车牌图像识别技术研究

  8. 杂拟谷盗体内共生菌沃尔...

  9. 电站锅炉暖风器设计任务书

  10. 酸性水汽提装置总汽提塔设计+CAD图纸

  11. 十二层带中心支撑钢结构...

  12. 大众媒体对公共政策制定的影响

  13. 中考体育项目与体育教学合理结合的研究

  14. 乳业同业并购式全产业链...

  15. 河岸冲刷和泥沙淤积的监测国内外研究现状

  16. 当代大学生慈善意识研究+文献综述

  17. java+mysql车辆管理系统的设计+源代码

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回