当前位置:主页 > 科技论文 > AI论文 >

基于强化学习算法的多智能体学习问题的研究

发布时间:2017-07-01 13:05

  本文关键词:基于强化学习算法的多智能体学习问题的研究,由笔耕文化传播整理发布。


【摘要】: 随着控制论及计算机技术的发展,分布式人工智能中多智能体系统的理论及相关的应用研究已成为人工智能和智能控制研究的热点。机器人足球比赛是一项旨在提高诸多相关领域的研究水平而举行的国际大型比赛和学术活动,是研究分布式人工智能、智能控制和机器人技术的绝好平台。 机器人足球比赛的环境是一个动态、复杂、对抗的环境,并且每个机器人只能得到场上的不完全信息,如何使机器人能通过不断地学习提高自己的性能是开发足球机器人系统的关键内容。 本文主要研究强化学习技术在机器人足球中的实现问题。 首先,针对机器人足球比赛的环境的复杂性和状态空间的庞大,对已有的基于CMAC神经网络的Q学习泛化学习算法,引入了信度分配的概念,把基于空间的信度分配和基于时间的信度分配同时融合到CMAC-Q学习算法当中,提高了强化学习的速度。 其次,对近年来从分层强化学习中发展出来的option算法,结合内在激励思想,尝试性地将其应用到机器人足球中的踢球技术、截球技术和配合技术中去。实验表明,这种算法能够提高球队的决策能力。
【关键词】:机器人足球 智能控制 强化学习 信度分配 内在激励
【学位授予单位】:江南大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP18
【目录】:
  • 摘要2-3
  • ABSTRACT3-6
  • 第一章 绪论6-12
  • 1.1 研究背景6-7
  • 1.2 智能AGENT7-8
  • 1.3 强化学习的研究现状8-9
  • 1.4 ROBOCUP 及其学习问题9-10
  • 1.5 主要研究工作10-12
  • 第二章 ROBOCUP 环境模型及智能体的层结构设计12-20
  • 2.1 ROBOCUP 仿真比赛环境12-13
  • 2.2 SOCCERSERVER 仿真模型13-17
  • 2.3 智能体的分层结构17
  • 2.4 决策框架的分层结构17-20
  • 第三章 强化学习理论及其算法20-27
  • 3.1 强化学习理论基础20-22
  • 3.2 Q 学习22-23
  • 3.3 遗忘轨迹(ELIGIBILITY)23-25
  • 3.4 分层强化学习25-27
  • 第四章 改进的CMAC-Q 学习算法27-36
  • 4.1 改进的CMAC 算法27-30
  • 4.2 改进的CMAC-Q 算法30-35
  • 4.3 小结35-36
  • 第五章 内在激励学习算法及其应用36-57
  • 5.1 内在激励强化学习36-44
  • 5.2 内在激励学习在ROBOCUP 仿真中的应用44-57
  • 第六章 结论及展望57-59
  • 6.1 比赛成绩57
  • 6.2 进一步的工作57-59
  • 参考文献59-63
  • 致谢63-64
  • 攻读硕士学位期间发表的论文清单64
  • 机器人比赛获奖情况64

【引证文献】

中国期刊全文数据库 前2条

1 李斐;白洁;朱大奇;;一种钢丝绳局部截面损失识别的信息融合数据处理方法[J];电脑知识与技术;2010年20期

2 申迅;刘国栋;;基于Q学习Robocup前锋的射门训练[J];计算机工程与应用;2011年18期

中国硕士学位论文全文数据库 前5条

1 申迅;基于3D仿真机器人系统的学习控制与算法研究[D];江南大学;2011年

2 毛俊鑫;基于人工情感的机器人行为决策研究[D];哈尔滨工业大学;2011年

3 齐心跃;基于强化学习的多机器人任务分配算法研究[D];吉林大学;2008年

4 尹香花;基于强化学习的多机器人行为式队形控制策略研究[D];吉林大学;2009年

5 刘飞;强化学习在足球机器人仿真中的应用[D];长沙理工大学;2012年


  本文关键词:基于强化学习算法的多智能体学习问题的研究,,由笔耕文化传播整理发布。



本文编号:506004

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/rengongzhinen/506004.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ae577***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com