菜单
  

    (2)Q-学习算法(Q-Learning Algorithm)[6,7]
    Q学习算法是由Watkins在1989年提出的一种无模型强化学习算法。Q学习可以看做一种增量式动态规划。它通过直接优化一个可迭代计算的动态值函数Q(s,a)来找到一个策略使得期望折扣报酬总和最大,而非TD算法中的状态值V(s)。这样,Agent在每一次的迭代中都需要考察每一个行为,可确保学习过程收敛。
    (3)Sarsa算法[8]
    Sarsa算法是Rummery和Niranjan于1994年提出的一种基于模型的算法,最初被称为改进的Q-学习算法。它仍然采用的是Q值迭代。Sarsa是一种在策略TD学习(on-policy TD)。Sarsa与Q-学习的差别在于Q-学习采用的是值函数的最大值进行迭代,而Sarsa则采用的是实际的Q值进行迭代。除此之外,Sarsa学习在每个学习步agent依据当前Q值确定下一个状态时的动作;而Q-学习中依赖修改后的Q值确定动作。因此称Sarsa是一种在策略TD学习。
    (4)R-学习算法(R-Learning Algorithm)[8]
    第一个基于平均报酬模型的强化学习算法是有Schwartz提出的R学习算法,它是一个无模型平均报酬强化学习算法,类似于Q-学习算法,用动作评价函数R(s,a)表示在状态S下执行以动作a为起点的策略π的平均校准值,随后Singh对这基本的R-学习算法进行了改进,用实际获得的报酬作为样本来估计平均报酬,并在每个时间步对平均报酬进行更新。除此之外,基于平均报酬模型的强化学习算法还有H-学习,LC学习,R-MAX学习等算法[8]。相比于基于折扣报酬的学习算法,对于基于平均报酬模型的强化学习算法研究尚不够成熟。
    上述算法中,TD算法和Q-学习算法中,无需学习马尔可夫决策模型的知识,直接学习最优策略,属于典型的模型无关法。Sarsa算法先学习模型知识,后根据模型知识推导优化策略,属于基于模型法。模型无关法每次迭代计算量较小,但是由于没有充分利用学习中获取的知识,其收敛速度要比基于模型法慢的多。
    2.3 研究趋势
    近年来,强化学习的理论与应用研究日益受到重视,但是由于所面临真实世界的复杂性,在实际应用中仍有许多问题有待解决。目前,有关强化学习的课题得到了美国国防部、美国国家科学基金以及国家青年科学基金以及美国海军、空军研究办公室的资助。另外,德国、韩国、澳大利亚等国家的学者都在开展有关强化学习的理论和应用研究。目前,强化学习在国际上是十分活跃的研究领域,研究中的问题如下:
    (1)环境的不完全感知,即部分可观马尔可夫模型问题,环境从一个状态转移到另一个状态不一定是马氏过程,若环境是非马氏过程,一些算法的学习效果可能不好,甚至不收敛[19]。
    (2)连续状态和连续动作问题,通常研究的强化学习系统,其状态和动作都是有限的集合,而在实际问题中,其状态和动作往往是连续的,而连续空间的强化学习问题,目前研究的还不够深入[9]。
    (3)还有探索(exploration)和利用(exploitation)问题。强化学习系统必须对这二者进行折衷处理,即获得知识和获得高回报之间进行折衷。探索对学习来说是重要的,只有通过探索才能确定最优策略,而过多的探索会降低系统的性能,甚至在某些情况下对学习产生不利的影响[3]。
    近年来,随着生物学研究的发展,发现大脑皮层下的一群神经核团(基底神经节)在脊椎动物动物行为控制中发挥重要作用,新的仿生强化学习算法也成为研究热点[11]。因此,本文以基底神经节为切入点,研究机器人的强化学习机制。
    2.4 基底神经节的生物学基础知识
    2.4.1基底神经节
    基底神经节是脊椎动物大脑皮层下一群核团的总称,又称为“基底核”,包括尾状核和豆状核(纹状体)、苍白核、黑质和底丘脑核[14],其结构和位置如图2.2所示。
  1. 上一篇:网络环境下一类中立型神经网络的自适应同步控制算法研究
  2. 下一篇:MATLAB空炸射击高炮武器系统毁伤概率的计算
  1. 基于中频信号的家用治疗...

  2. 基于嵌入式技术的智能家...

  3. 基于FPGA竞赛系统设计+程序

  4. Matlab基于前馈控制的加热炉温度控制系统设计

  5. MEMS基于SHARC型DSP的组合导航算法实现

  6. 基于LabVIEW的车牌图像识别技术研究

  7. 基于LabVIEW和MATLAB混合编程...

  8. 河岸冲刷和泥沙淤积的监测国内外研究现状

  9. 大众媒体对公共政策制定的影响

  10. 十二层带中心支撑钢结构...

  11. java+mysql车辆管理系统的设计+源代码

  12. 电站锅炉暖风器设计任务书

  13. 杂拟谷盗体内共生菌沃尔...

  14. 乳业同业并购式全产业链...

  15. 中考体育项目与体育教学合理结合的研究

  16. 酸性水汽提装置总汽提塔设计+CAD图纸

  17. 当代大学生慈善意识研究+文献综述

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回