图3- 3出行预测算法示意图 11
图4- 1用户实际出行停留图 13
图4- 2理论可预测性 14
图4- 3实际用户出行近点网络图 16
图4- 4 Geolife项目数据按时空近点网络方法预测到的点和用户实际访问的点的对比 17
表目录
表4- 1微软 Geolife 本文的处理后的GPS数据 15
一、 引言
(一) 研究背景和意义
21世纪既是网络的时代也是信息大爆炸的时代。互联网的发展使得信息的采集、传播的速度和规模达到空前的水平,实现了全球的信息共享与交互,它已经成为信息社会必不可少的基础设施[ ] 。软件性能不断提升、硬件功能不断强大的背后是数据流量大爆炸的现实,它主要体现为人类拥有的信息量以指数函数的速度急剧增加,倍增的时间周期越来越短。
在海量的互联网数据中,既存在丰富的可利用有价值的有益信息,当然由于信息缺乏管理或管理不善,数据时效性落后,信息的发布、传播失去控制等因素,产生了大量虚假信息、无用信息,造成信息环境的污染和“信息垃圾”的产生[ ]。受对互联网数据分析的存在数据范围和获取方式等种种问题的困扰。譬如数据过于庞大、类型繁多、价值密度低等不足与问题。同时信息的生产者在不同角度,用不同视角对同一事物也会做出不同的描述与反映,有时甚至大相径庭,使信息使用者难以抓住事物发展变化的本质与主流,从而增加了人们利用信息的困难。
因此,如何利用好流量通道获取数据资源使其造福于人类是我们在发展互联网中亟需解决的一个方向性问题。对互联网数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出庞大的数据背后所潜在的规律。一切以数据说话,成为当今或者未来互联网发展的趋势[ ]。
同时随着定位技术的发展和普及,基于地理位置的信息数据逐渐增多,可利用价值大大提高。随着反应用户主观意愿的即时通讯设备的微型化和基于位置的服务工具变得更加普及,从而为研究人们的出行提供了更好的媒介。
针对这些问题,我们提出了一种新的数据分析方法——近点时空网络。本文从时空近点网络方法的基本理论及其在出行预测中的应用这二方面着手研究。全面讨论近点时空网络方法本身的数理性质和统计实质,,分析其中隐藏的统计性规律,预测其未来的演化趋势,充分利用呈爆炸式发展的有益的互联网数据资源。并应用时空近点网络方法,以基于位置的地理信息为例,来具体演示近点时空理论及其在预测人类出行中的应用。
(二) 研究内容
本文的研究内容主要包含如下两个方面:
1. 时空近点网络方法的基本理论研究。包含近点时空网络的基本构建方法研究,参数设置的优化研究等方面,全面讨论近点时空网络方法本身的数理性质和统计实质。
2. 时空近点网络方法在出行预测中的应用研究。应用时空近点网络方法,对基于地理位置的信息数据,例如即时通讯,基于位置的服务,定位技术的开发等产生的数据,分析其中隐藏的统计性规律,并预测其未来的演化趋势。为人类出行进行预测,并为用户做出有效的决策提供充分的现实依据。源-自/751+文,论`文'网]www.751com.cn