基于基底神经节的机器人强化学习机制研究(6)

图2.5 TD差分算法示意图
上图中，M1、M2是假设能够产生瞬时差分输入的皮层中的两个不同区域，和奖励信号共同作用于SNc/VTA，后者输出的即为误差奖励信号。经过研究分析，Schultz得出结论，预测误差（随多巴胺神经元的输出而变化）和估值函数与时间和实验次数之间的关系，如下图2.6所示。多巴胺神经元的活动与学习密切相关，具体阐述将于本文第四章讨论。

图2.6 TD差分算法所得预测误差δ以及估值函数V与时间和实验次数的关系
2.6 神经元模型
2.6.1 神经元基础知识
在神经系统中，功能相似的神经元聚集成界限明显的群落成为核团。而基底神经节又是脊椎动物大脑皮层下一群神经核团的总称。所以可见，要研究基底神经节需从神经元入手。
神经元是神经系统的基本组成单位。神经元由细胞体和细胞突起构成，如图2.7所示。细胞体位于脑、脊髓和神经节中，细胞突起可延伸至全身各器官和组织中。细胞体是细胞中含细胞核的部分，细胞突起是由细胞体延伸出来的细长部分，又可分为树突和轴突。每个神经元可以有一或多个树突，可以接受刺激并将兴奋传入细胞体。每个神经元只有一个轴突，可以把兴奋从胞体传送到另一个神经元或其他组织。换句话说，树突负责接收刺激，细胞体负责处理产生新刺激，轴突负责刺激的传递输出。

图2.7 神经元结构
神经元利用电信号和化学信号来传递信息，其中电信号具有普遍性，不管是运动神经、感觉神经还是大脑皮层(brain cortex)之间的信息交换，都需要电信号的参与。因此可以说“电信号是神经系统信息交换的通用货币”。神经元的静息是指神经元在没有任何外部刺激时，胞内相对于胞外的电压，称为静息电位(resting potential)。大部分的神经元，其静息电位在-30mV到90mV之间。当处于静息状态的神经元受到外部刺激时，膜电位就会发生变化，如果膜电位高于静息电位，就称为膜的去极化(depolarization)，如果变得比静息电位更负，就称为膜的超极化(hyperpolarization)。如图2.8所示[14]。
膜电位的变化就是神经元产生的电信号，主要分为两类：第一类是主要由外部刺激如光、热、触觉等引起的局部分级电位。局部分级电位作用区域小，影响范围也较小。第二类是动作电位。当神经元某个部位的局部分级电位大于一个阈值的时候就会产生动作电位，动作电位的作用范围较广，其显著特征是振幅和时程是固定不变的，更大或者更长的刺激并不能够产生更大的动作电位。

图2.8 典型动作电位
2.6.2 神经元模型
神经元模型是研究人员认识、理解真实的神经元结构和功能的基础上建立的数学模型，是建立神经网络的基本组成单元。学者Kumar在其著作《神经网络》中认为神经元的模型一共经历了以下三代[16]：
第一代神经元模型是由麦卡洛克和皮兹在分析、总结神经元基本特性的基础上于1943年提出的阈值逻辑单元(threshold logic unit，TLU)。该模型采用阶跃函数作为激励函数用于传递网络参数，基于阈值函数的二值特性，神经元输入输出均为二进制数，通过设置合理的权值，能实现简单的布尔代数运算。感知神经网络中的感知器就是根据这一神经元模型建立的，根据该神经元模型建立的神经网络通常适用于简单的模式分类问题。
第二代神经元模型的主要特点是传递函数采用连续、光滑的甚至无穷可微的函数，例如sigmoid函数、Gaussian函数，此时的神经网络研究也由单层转向了多层，并且采用学习算法，典型的如BP神经网络、RBF神经网络。第二代神经元模型构成的神经网络在许多领域如模式识别、智能控制、人工智能得到了广泛的研究与应用。但是，诸如sigmoid函数、Gaussian函数等函数描述的神经元模型还是非常简化的，随着研究的深入，人们越来越认识到，要真正认清大脑在体现智能方面所起的作用，必须改进现有的神经元模型，使其接近真实的神经元。基于基底神经节的机器人强化学习机制研究(6):http://www.751com.cn/zidonghua/lunwen_4084.html