国外对于这方面的研究更为成熟,例如TradeStation 2000i这款具有支持交易策略测试标准和自动控制功能的电脑分析软件,可以帮助自行生成、测试并自动执行成功交易策略的电脑分析软件,无疑算得上是功能最为强大的分析工具。其主要是使用历史数据进行后台测试,同时建立在客观基础上,经过历史走势验证,对于证券数据的研究对比等进入一个比较深入的领域
本文的安排
本文的安排如下:
第一章 绪论,介绍背景,证券数据分析的发展现状,高文数据相似度算法的研究现状。
第二章 数据的存储分析,XML标记语言的背景,选择的原因
第三章 算法的分析与设计过程,算法的确定的分析,算法的具体实现。
第四章 数据的测试、算法的检验,问题的提出与分析。
第五章 对于提出的问题的基本改进以及改进后的总结分析。
第751章 总结与展望。
数据的存储
数据的存储是大量的数据源在需要使用时需要考虑的一个重要问题。一般的数据存储包括文本存储如txt、word等文本文件存储,SQL Server、oracle、access等数据库存储,Excel、XML等多种存储方式。对于不同的数据不同的需求选择不同的存储方式,一方面对于数据本身有着优化简化的作用,另一方面对于需要处理的数据的处理过程等也可以起到一个很好的帮助作用。
XML标记语言的介绍
可扩展标记语言 (Extensible Markup Language, XML) ,用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 XML是标准通用标记语言 (SGML) 的子集,非常适合 Web 传输。XML 提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。
这里需要提及的是HTML(Hyper Text Markup Language)意思是“超文本标示语言”,它实际上是专门用来编写网页的一种编程语。从20世纪80年代以来,Internet飞速发展,在这个发展过程中,Web由于其操作简单、信息获取容易而成为网络应用的关键。在这当中,HTML的作用功不可没。正是由于HTML的出现,迎合了人们只需要一个简单程序,就可以看到图文并茂的网页这种需求,因此在HTML出现后,网页成了人们接近网络、了解网络信息、发布消息的一个主要渠道。
但是HTML也有着其严重的局部性,HTML的可扩展性差。虽然作为一般的应用,HTML应经够用了,但是在处理数学和化学等符号时,HTML有明显的缺点,而且它无法进行扩展,这样使它的发展收到了极大的限制。链路丢失后不能自动纠正。由于Web页面的URL地址经常改变,而在改变URL地址时必须手工修改这些信息,否则就会遇到“404URL地址未找到”的信息,这大大加重了Web页面的文护工作量。数据搜索的时间长。由于HTML主要用来对网页的显示进行控制,导致了同一个数据在不同的网页中有不同的存储格式,这样在进行数据搜索时就无法快速找到所需的资料。HTML对双字节或者多国文字的支持不够。例如中文信息页面在不同的平台下会出现无法显示等问题。
这里通过表1来比较HTML与XML的不同点:
比较内容 HTML XML
可扩展性 不具有扩展性 是元表示语言,可用于定义新的标识语言
侧重点 侧重于如何表现信息 侧重于如何结构化地描述信息
语法要求 不要求标记的嵌套,配对等,不要求标识之间具有一定的顺序 严格要求嵌套,配对,并且遵循DTD的树形结构
可读性及可文护性 难于阅读,文护 结构清晰,便于阅读,文护 以时间为单位的证券相似度的研究+文献综述(3):http://www.751com.cn/shuxue/lunwen_2994.html