本文继承了人工智能的行为zhuyi和联结zhuyi的主要思想和方法,通过研究生物学中基底神经节的条件反射和非条件反射过程,对机器人强化学习过程进行建模。通过仿真,对基底神经节在学习过程中膜电位的变化进行定性研究,最后通过Simbad机器人仿真平台设计一个机器人走迷宫的实验来研究学习的效果。
1.3 研究内容及方法
(1)研究Izhikevich尖峰神经元模型及其作用机理:建立尖峰神经元模型,并通过matlab对仿真参数和结果的分析,验证Izhikevich尖峰神经元模型是否合理。
(2)研究多巴胺对突触的调节作用:基于Izhikevich尖峰神经元模型,并在其中加入多巴胺的调节机制。通过在matlab上模拟仿真,研究多巴胺的调节作用与机器人的学习能力之间的关系。
(3)研究基底神经节强化学习机制在机器人行为学习中所起的作用:通过基于Simbad机器人仿真平台的机器人走迷宫实验,对DA调节的突触可塑性的模拟,同时对延时奖励和奖励分配是如何在强化学习中起作用的这两个问题进行模拟和研究。
2 基底神经节生物学原理
2.1 基底神经节生物特性
根据解剖学知识,基底神经节包括苍白球、尾状核、红核、壳核、丘脑底核和黑质。壳核、苍白核和尾状核统称纹状体;苍白球被称为旧纹状体,壳核和尾状核被称作新纹状体。苍白球、尾状核、壳核、与黑质、丘脑底核在结构与功能上是紧密联系起来的。其中的苍白球是纤维联系的中心部分,尾状核、丘脑底核、黑质、壳核都能发出纤维投射到苍白球,同时苍白球也会发出纤维和黑质、丘脑底核相联系。基底神经节能够控制肌紧张,处理冲动信息,传入本体感觉,稳定运动状态,因此,它对运动系统的调节起着至关重要的作用。通过观察单个苍白球神经元的放电可以看到,神经元的活动会随身体的运动发生明显的变化,神经元会在四肢弯曲时产生大量放电,从中可以看到基底神经节和运动的密切关系。通过用电刺激动物的纹状体,我们可以观察到,纹状体不会在单独受到刺激的时候作出运动反应;我们必须在同时刺激大脑皮层和尾核或者苍白球,大脑皮层的运动区域才会做出反应。另一个比较残酷的实验是,通过观察猴子单侧的苍白球损坏后的表现,能够明显地发现猴子在同侧上肢的运用上比对侧上肢更加灵敏。上述实验仅仅说明了基底神经节与身体的运动功能紧密相关,但是对于基底神经节到底是怎么样控制运动功能的,仍需要我们作进一步研究。
图2.1 大脑结构图
2.2 突触的生物结构
突触(synapse)又被称为神经元接点,是神经元传递信息的重要结构,它是神经元和神经元之间,或者神经细胞与非神经细胞之间的—种特殊的细胞连接,不同细胞之间的信息传递就是通过突触来实现的。在神经元之间的联结中,最常见的结构是前一神经元的轴突末端与后一个神经元的树突或细胞胞体联结,分别构成轴-树(axodendritic)或者轴-体(axosomatic)突触。此外还有轴-轴(axoaxonal)和树-树(dendrodendritic)突触等。突触根据其信息的传导方式可分为化学突触(chemical synapse)和电突触(electrical synapse)。顾名思义,化学突触以化学物质(神经递质)作为通讯的媒介,电突触以电流(电讯号)传递信息。由于哺乳动物的神经系统主要以化学突触为主,所以我们通常所说的突触是指化学突触。
simbad基于基底神经节机器人强化学习技术研究(3):http://www.751com.cn/zidonghua/lunwen_72849.html