1,首先进行问题的定义,确定进行数据挖掘的目的。
2,应用相关领域知识。
3,选取建立目标数据集,首先搜索寻找所有与数据挖掘任务有关的内外部数据信息,从中选取适合数据挖掘的优秀数据子集,以提高效率和准确性。
4,数据预处理,通常必须对原始数据进行加工,主要有去除噪声数据、补充缺失数据,以保证数据挖掘的质量。
5,数据转换,根据挖掘目标、类型和相关算法,对数据进行数学和逻辑处理以转换成符合挖掘的格式,如采用降文的方式将数据映射到相应的特征空间。
6,数据挖掘,根据选定的算法进行数据集模式信息的提取。
7,解释,解释发现的模式,为让用户理解采用相应的分析方法和可视化技术。
8,对发现的模式进行评估。
1.4金融时间序列
金融时间序列是描述各种金融产品随时间变动的序列,因为金融市场与人们日常的经济活动有着紧密的类型,因此其形态也十分复杂,表现出明显的特点。如:
1,高噪声,如前所述,证券市场除了受到经济因素的影响,各种其他的因素也对证券市场有着影响,这使得金融时间序列往往表现出高度的噪声特点。而噪声的存在会隐藏系统存在的规律,误导预测模型的建立,甚至诱导产生虚假的模型。
2,非平稳特点,大多数的时间序列模型是建立在平稳性的条件上的,但同样由于影响证券市场的各种复杂难以预料的因素的影响,金融时间序列常常表现出非平稳性。而这给许多基于平稳时间序列建模的预测方法带来了困难。
3,周期性,金融时间序列反映了人们的经济活动,因此必然会有各种周期性蕴藏其中,而这也会给预测模型的建立带来不同程度的影响。
1.4 证券价格指数
证券价格指数是证券交易所或者有关的金融信息服务机构编制的反映证券市场价格变动的指示数字,是为了便于投资者了解证券市场的动向,检验调整自己的投资策略和投资方向。而选入的样本的代表性也使得证券价格指数能在一定程度上反映证券市场趋势,预测未来经济发展状况。
证券价格指数的编制一般以某年某月某日的价格为基期价格,用往后的各期价格与其进行比较,计算涨跌百分比,作为价格指数。因为证券市场种类众多,计算证券价格指数的方式复杂,因此要考虑诸多的问题。首先要考虑样本的行业分布、市场影响,指数样本一般选取少数体量大,在证券市场上有代表性有影响的证券作为成分股。其次,要考虑加权方法,按单价加权或者总值加权,在选择计算方法时也要选择有高度适应性的,能对股市行情及时做出调整修正,使之有很好的敏感性。具体来说有三种股价指数计算方法:简单算术股价平均数、修正的股价平均数和加权股价平均数。
1.4.1 上证50指数
上证50指数是综合运用科学方法,选取上海证券市场规模大、流动性好的50只代表性股票组成的,反映上海证券市场状况的指数。上证50指数以2003年12月31日为基期日,样本空间由上证180指数样本股组成,根据总市值,交易金额进行股票排名,选取前50位作为样本。其计算方法以样本股的调整股本数作为权数,采用派许加权综合价格指数公式进行计算: 金融时间序列预测的数据挖掘方法比较以上证50指数为例(3):http://www.751com.cn/jingji/lunwen_21506.html