基于强化学习的游戏智能体设计(2)

5.1 动态迷宫游戏简介   24
5.2 强化学习在动态迷宫游戏中的运用   24
5.3 迷宫控制部分具体设计   24
5.4 Agent部分具体设计   26
5.5 结果与结论   28
5.5.1 Q学习在动态迷宫游戏中的学习结果   28
5.5.2“探索”与“利用”三种算法的比较   30
结论   32
致谢   33
参考文献   34
1   引言
1.1 问题来源
随着人工智能的发展，设计一个在某些游戏上与最聪明的人类实力相当的智能体已经不是天方夜谭。强化学习是一种重要的机器学习方法，它具有模型无关性，即不需要知道环境模型即可从和环境的互动中学习策略知识。由于这种对先验知识的低依赖性，强化学习一直以来都是人工智能领域中的热门方向。1988年Sutton提出了TD瞬时差分算法，解决了强化学习模型的基本数学问题，标志着强化学习领域的创立[12]。
正是由于强化学习的模型无关性，强化学习算法几乎可以为任何游戏设计智能角色。本文为五子棋游戏和动态迷宫游戏依据强化学习算法设计了智能角色。分析了强化学习模型的学习能力，验证了强化学习模型在两种游戏：五子棋游戏和动态迷宫游戏中的学习能力。
1.2研究内容和主要方法
本文利用强化学习模型，为五子棋游戏和动态迷宫游戏设计了能够自主学习的Agent，并分析了强化学习模型的学习效果。在五子棋游戏中，提出了一种基于局面估计的即时回报函数，并以此设计了Q学习算法，并与基于延时回报的TD瞬时差分算法进行了比较。在动态迷宫游戏中，设计了三种动作选择算法，分析了动作选择算法对收敛速度、收敛效果的影响，验证了基于玻尔兹曼分布的概率选择算法的优越性。
本文研究中主要采用的技术有：强化学习技术，Q学习算法，神经网络算法等。
1.3 本文的组织及主要工作
本文的内容安排如下：
第一章首先介绍了问题的背景，以及解决该问题的大致思路，所采用的具体技术。
第二章主要介绍了强化学习的模型及其主要算法。介绍了强化学习的数学模型马尔可夫决策过程，以及强化学习中利用的两种主要思想：动态规划和蒙特卡洛方法。介绍了目前最常用的强化学习算法：Q学习算法以及TD瞬时差分算法。
第三章介绍了人工神经网络。主要介绍了前向神经网络的网络结构和学习规则。前向神经网络等价于一个以输入向量为定义域，以输出信号为值域的复杂非线性函数。利用梯度下降思想修改神经网络权值可以优化输出误差。
第四章将强化学习模型运用在了五子棋游戏中，分析了强化学习模型在五子棋游戏中的学习效果，提出了一种基于局面估计的即时回报函数，并以此设计了Q学习算法，并与基于延时回报的TD瞬时差分算法进行了比较。
第五章将强化学习模型运用在了动态迷宫游戏中，分析了强化学习模型在动态迷宫游戏中的学习效果，设计了三种动作选择算法，分析了动作选择算法对收敛速度、收敛效果的影响，验证了基于玻尔兹曼分布的概率选择算法的优越性。
2   强化学习模型及其主要算法
2.1 强化学习简介
强化学习是一种通过与环境之间进行交互，并在交互过程中利用环境所给予的奖惩来不断优化自己的策略的机器学习方法。其中，与环境进行交互的、自主的、具有感知环境变化能力和学习能力的主体系统称之为Agent。Agent通过不断地尝试所有可能的动作，并感知环境的变化，利用奖赏值来优化自己的行为，最终学习到能够以最优的方式达到目标的最优行为策略。“尝试”、“奖励”、“经验的记忆与利用”是强化学习的重要特征。强化学习技术对环境的先验知识要求低，所以它特别适合用于控制规划等策略的学习[2]。基于强化学习的游戏智能体设计(2):http://www.751com.cn/jisuanji/lunwen_22891.html