TuShare数据资产管理系统设计与实现(2)

菜单

3.4 源数据的基本操作 17

4 数据清洗 22

4.1 数据离散化 22

4.2 数据归一化 22

5 BP神经网络的预测 24

5.1 预测指标与网络结构的选取 24

5.2 神经网络预测的实现 25

5.3 关于神经网络的一些讨论 27

1 绪论

1.1 本文研究的背景与意义

全球信息化的时代早已到来，政府、企业的信息化、系统化管理运营已形成了不可阻挡的趋势。信息化技术不断渗透到人们生活中的方方面面，在不知不觉中对人们的生产生活方式产生了巨大的影响。在信息化不断发展的同时，由此带来的数据管理利用问题也愈发关键。在如今数据信息爆炸的时代，每时每刻都有海量的数据产生。据统计，单就互联网而言，全球每天互联网流量累计可达1000PB，在更广的领域内这个量级还要增加。IBM的研究表明，在过去两年内，人类产生了自人类文明开始产生的所有数据的近90%[1]。海量数据蕴含的潜在价值也逐渐受到人们尤其是企业的关注，虽然数据还未被所有企业充分利用，但从长远来看这些数据才是企业真正的核心。为了管理并发挥数据的价值，让普通大众也能成为数据的消费者，将数据作为企业的资产使用并为企业带来经济效益，数据资产管理的概念便应运而生了。

1.2 国内外研究现状

1.3 本文研究简述与解决方案

随着国内股票市场的不断发展和股票数据信息的不断增加，加上股票数据规模不断扩大，影响因素也较繁杂的特点，本文通过对上交所的历史股票指数复权数据的研究，给出了有参考价值的结果。

本文研究过程主要分为以下三个过程：

1、通过TuShare获取经过数据整合的股票数据，完成不同类数据获取、存储的基本操作，并能够管理源数据。

2、为了完成数据治理的要求，要进行数据清洗，具体是针对完整的数据做归一化与离散化的处理。

3、利用神经网络预测的方式对上证A股指数进行预测分析，对比实验结果并完成相应的可视化操作。

1.4 本章小结

作为绪论，本章介绍了数据资产管理的研究背景与意义，并结合国内外的研究现状做了简单分析，最后概述了本文的研究过程与基本方法。

2 数据资产管理系统中的基本概念与原理

本章将简单介绍数据管理过程中数据流的概念，并对金融市场中的一些基本术语与回测策略作简短介绍，接着会重点就股票预测中所用的神经网络部分给出原理与一些优化上的讨论，并对可视化部分等做相应介绍。

2.1 数据流

在数据资产管理的过程中，为了让数据更加完整且一致，通常会涉及数据治理过程中有关数据采集、加工、使用的管理周期等模块，这个体现了数据在具体业务场景的流向与形式的过程，就是数据流。

数据流是数据治理的重要部分，涉及到对于数据的具体规范处理及可视化，是数据管理系统的主线部分。

在本系统的设计与实现过程中，对应数据收集、加工、使用的大致业务流程是：通过Python获取原始股票数据之后，对源数据作存储、可视化的处理，同时为了让数据使用的更加合理充分，对宏观经济数据做了离散化的处理；同时，为了消除由于数据范围带来的问题，对所有数据做了归一化的处理；最后，基于处理后的数据使用了神经网络做出预测（关于数据的离散化与归一化会在具体实现中做详细介绍）。