基于基底神经节的机器人强化学习机制研究(2)

3.2.3.3 仿真结论   28
3.3 本章小结   29
4   Simbad仿真平台下的机器人强化学习仿真   30
4.1 Simbad仿真平台简介   30
4.2 机器人走迷宫仿真   30
4.2.1 仿真过程设计思路   30
4.2.2 仿真程序流程图   32
4.2.3 仿真迷宫的构造方法   33
4.2.4 仿真参数设置以及结果分析   35
4.3 本章小结   36
结论   37
致谢   39
参考文献   40
1   绪论
1.1 研究的背景及意义
控制论之父文纳，曾经在其著作《控制论》的引言中写道：“也许我可以澄清一下目前局势的历史背景。如果我说，第一次工业革命是革阴暗的魔鬼的磨坊的命，是人手由于和机器竞争而贬值，那么，现在的工业革命便在于人脑的贬值[1]。”他所说的“现在的工业革命”便是至今方兴未艾的第二次工业革命。第一次工业革命时蒸汽机给我们带来的生产力的进步我们有目共睹。同样，人工智能的发展也必将对人类社会的方方面面产生重要而深远的影响。
人工智能的诞生要从图灵、冯•诺依曼提出通用计算机结构开始，经过半个世纪，人工智能已经发展为机器代替人脑力劳动的关键科学。在至今半个多世纪的发展过程中，先后出现了三个流派[2]：符号主义（Symbolism）、联结主义（Connectionism）和行为主义（Behaviorism）。符号主义认为符号是智能的基础，通过符号运算就能产生智能。早期研究在与人对弈下棋等程序上取得成功，但是上世纪八十年代陷入理论危机，符号运算与推理存在组合爆炸问题；而且其人工智能只能在假定的理想环境中推理，应用于实际中存在较大问题。联结主义认为人脑是产生智能的基础，因此研究大脑微观结构和宏观功能就可以构建出类似的结构或网络。联结主义在智能控制、模式识别、图像处理等领域取得过许多成功应用，但是其应用的神经元模型过于简单，很难对大脑复杂的结构和功能进行模拟；行为主义认为“智能无需表示、智能无需推理”，智能只有在与真实的环境交互作用中才能表现出来。行为主义在模拟昆虫智能方面取得了成功，但是也很难达到人类的智能水平。
学习不仅是心理学的研究内容，如今智能Agent的学习是人工智能研究的重要热点，机器学习是使计算机拥有智能的根本途径。一个系统，如果能对一个固有过程或者其环境的未知特征所固有的信息进行学习，并将得到的经验用于进一步的估计、分类、决策或者控制，从而改善系统的品质，这样的系统称为学习系统。赋予机器人这样的能力，是研究智能机器人的重要一步，也是人工智能的重要研究分支。为了使智能agent具有更强的能力适应环境，学习能力是关键。根据反馈的不同，学习技术可以分为监督学习（supervised learning）、非监督学习（unsupervised learning）和强化学习（reinforcement learning）三大类[3]。其中强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机械学习方法。强化学习的思想来源于条件反射和动物学习理论。它是由动物学习过程启发得到的一种仿生学习方法，是一种重要的学习方法。Agent通过对感知到的环境状态采取各种试探动作，获得环境状态的适合度评价值(通常是一个奖励或惩罚信号)，从而修改自身的动作策略以获得较大的奖励或较小的惩罚，强化学习就是这样一种赋予Agent学习自适应性能力的方法[4]。基于基底神经节的机器人强化学习机制研究(2):http://www.751com.cn/zidonghua/lunwen_4084.html