基于基底神经节的机器人强化学习机制研究(5)

图2.2 基底神经节的位置及主要组成结构
在鸟类和两栖类动物中，大脑皮层还没有很好的发育，基底神经节是高级神经中枢。而哺乳动物中，大脑高度发育，基底神经节成为中枢神经系统中控制调节功能的重要组成部分。总而言之，在脊椎动物的神经系统中，基底神经节各个核团相互之间的信息交流，共同协调和指导脊椎动物的运动、学习、将多个动作组织为顺畅而自发的整体动作序列。此外，基底神经节还被认为与脑的感知、记忆、学习等机制有着密切的联系。
2.4.2 基底神经节核团之间的相互关系
纹状体是主要的输入性核团，它接受来自几乎整个大脑皮层、脑干的许多区域以及边缘系统的神经输入。纹状体主要包括尾状核和豆状核（壳核）。按照多巴胺的受体不同，纹状体中的神经元可以分为D1-D5型，以D1、D2型为主。多巴胺神经元通常会兴奋D1型神经元而抑制D2型神经元。D1型神经元投射于苍白球内核和黑质网状部，而D2神经元投射于苍白球外核，两者都是通过释放出抑制型神经递质γ-氨基丁酸(GABA)对目标核团起抑制作用[12]。

图2.3 基底神经节核团之间的相互关系
苍白球主要分为两部分：苍白球内核（GPi）和苍白球外核（GPe）。苍白球内核是基底神经节的主要输出核团之一，它受到纹状体D1型神经元的抑制作用，以及底丘脑核的激励作用，并对丘脑产生抑制作用。苍白球外核受纹状体D2型神经元的抑制作用，也对底丘脑核产生抑制。
黑质也分为致密部（SNc）和网状部（SNr）两部分，黑质致密部通过释放多巴胺作用于纹状体，对D1型产生兴奋，对D2型产生抑制。黑质网状部与苍白球内核类似，也是主要的输出核团之一，同样受纹状体D1神经元的抑制作用和底丘脑核的激励作用。
底丘脑核是基底神经节中主要的兴奋性核团，释放出的激励型神经递质谷氨酸会作用于基底神经节的两个输出核团：苍白球内核和黑质网状部；同时它本身也受到来自皮层的激励性输入以及来自苍白球外核的抑制性输入[24]。
2.5 与神经生物学相关的强化学习理论
由于基底神经节在大脑许多活动中扮演着重要的角色，因此许多研究人员对其进行了大量的研究，并结合解剖学的数据和相应的功能假说，建立了许多相应的数学模型，其中就有不少强化学习模型。在早期的神经生理学研究中，黑质中的多巴胺神经元的活动就被认为与学习有关，而且是一种类似于“刺激-响应”的强化学习机制。
2.5.1 Actor-Critic模型与基底神经节的相关性
Andrew G. Barto提出Actor-Critic强化学习模型，根据生物实际的学习情况对“trial-test”模型的说法给予了否定，并论证了此模型的强化学习机制与生物学中的实际机制存在的关系，Actor-Critic模型框图如图2.4所示。

图2.4 Actor-Critic强化学习模型
Barto认为，可以将黑色粗实线部分看作一只动物。其中Actor本身不代表动物的全部，而且Critic是在动物体内部的一部分。Critic部分同时根据内部环境和外部环境来评价Actor产生的行为。在表明行为评论模型与基底神经节的关系上，Houk、Adams和 Barto认为，Actor产生的行为代表影响大脑皮层的信号，额叶皮层和小脑都是模型中内部结构的组成部分[13]。
2.5.2 与多巴胺神经元相关的TD差分算法
Wolfram Schultz 曾经研究并指出了预测和奖励的强化学习模式的生理学基础，他认为预测和奖励机制的信息被编码在基底神经节的多巴胺神经元的活动中，多巴胺神经元通过释放多巴胺对基底神经节的其他核团产生作用，来产生奖励。而且他利用瞬时差分算法对多巴胺神经元的这一特性进行了研究[15]。TD差分算法示意图如图2.5所示：基于基底神经节的机器人强化学习机制研究(5):http://www.751com.cn/zidonghua/lunwen_4084.html