菜单
  
    摘要强化学习是一种重要的机器学习模型。强化学习通过agent感知外部环境状态作出不同的尝试,在不断的尝试中保留较好的动作,抛弃较差的动作,以此来提升自己的行为表现。它具有对环境的先验知识低的特点,可以在实时环境中在线学习,因此在人工智能领域得到了广泛的研究和使用。28145
    本文利用强化学习模型为游戏设计了自主角色。具体使用了前向神经网络和Q学习为五子棋游戏设计了黑白方,并提出了一种即时回报函数。使用了Q学习为动态迷宫游戏设计了智能体,并分析了三种动作选择算法对收敛速度、收敛结果的影响。
    关键词  游戏  强化学习  神经网络   Q学习
    毕业论文设计说明书外文摘要
    Title    Data analysis and research——   Inpidual behavior study in small society        
    Abstract Reinforcement learning is an important branch of machine learning.It uses an agent, sensing the external environment state and making different attempts according to different states.In the numerous attempts,it will retain positive ones and abandon negative ones,therefore,to improve its performance.Reinforcement learning has the characteristic of low prior knowledge of the environment,as well as can be studied on-line in real-time environment,which makes it being widely utilized in the field of artificial intelligence.
    Reinforcement learning model is applied in this paper to design agents for games. Specifically,artificial neural network and Q-learning are provided to design the black and white player of Gobang game.An immediate reward function is advanced.Q-learning algorithm is provided to set a player for dynamic maze.Three type of action-select algorithm is analyzed.
    Keywords  Game  Reinforcement-Learning  Neural-network  Q-learning
    目   次
    1  引言.................................    1
    1.1 问题来源    1
    1.2研究内容和主要方法    1
    1.3 本文的组织及主要工作    1
    2      强化学习模型及其主要算法    3
    2.1 强化学习简介    3
    2.2 强化学习的直观理解    3
    2.3 强化学习模型    4
    2.3.1 马尔可夫决策过程    4
    2.3.2 最优值函数与最优策略    5
    2.3.3 蒙特卡洛方法和动态规划方法在求解最优值函数中的应用    5
    2.3.4 时间信度分配问题    6
    2.3.5 强化学习智能系统的一般模式    6
    2.3.5 Q学习算法    7
    3  人工神经网络...........    8
    3.1 人工神经网络简介    8
    3.2 激励函数    8
    3.3 前向神经网络    9
    3.4 梯度下降算法    9
    3.5 反向传播学习算法    9
    4      强化学习模型在五子棋游戏中的运用    11
    4.1 五子棋游戏简介    11
    4.2 强化学习在五子棋游戏中的运用    11
    4.3 基于BP神经网络以及强化学习的五子棋游戏agent设计    11
    4.3.1 基于Q学习算法的Agent设计    12
    4.3.2 基于TD瞬时差分算法的Agent设计    15
    4.4 五子棋游戏控制部分设计    16
    4.5 结果与结论    18
    4.5.1 由Q学习构造的Agent的训练结果    18
    4.5.2 Q学习算法以及TD瞬时差分算法效果比较    22
    5  强化学习模型在动态迷宫游戏中的运用    24
  1. 上一篇:RDMA性能在多租户环境下的测量研究虚拟机及容器
  2. 下一篇:基于贝叶斯理论的图像去模糊研究
  1. 基于MATLAB的图像增强算法设计

  2. 基于Kinect的手势跟踪与识别算法设计

  3. JAVA基于安卓平台的医疗护工管理系统设计

  4. 基于核独立元分析的非线...

  5. 基于Hadoop的制造过程大数据存储平台构建

  6. 基于安卓系统的测量软件...

  7. 基于VC++的GIS矢量图形系统开发

  8. 酸性水汽提装置总汽提塔设计+CAD图纸

  9. 中考体育项目与体育教学合理结合的研究

  10. 电站锅炉暖风器设计任务书

  11. 十二层带中心支撑钢结构...

  12. 乳业同业并购式全产业链...

  13. java+mysql车辆管理系统的设计+源代码

  14. 河岸冲刷和泥沙淤积的监测国内外研究现状

  15. 当代大学生慈善意识研究+文献综述

  16. 杂拟谷盗体内共生菌沃尔...

  17. 大众媒体对公共政策制定的影响

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回