当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于深度强化学习机制的棋盘类游戏算法的设计与实现

发布时间:2024-02-26 03:57
  随着人工智能的不断发展,深度强化学习以其独特的优势越来越多地受到研究者的关注。通过将深度学习与强化学习有机地结合起来,深度强化学习不仅赋予强化学习智能体在高维环境下端对端的学习能力,而且为其他机器学习任务在超越缺乏训练样本的情况下进一步挖掘模型潜力提供了可能。尽管如此,由于从深度学习与强化学习继承而来的双重复杂性,在面临诸如棋盘类游戏、视频游戏等复杂学习任务时,深度强化学习还存在着诸如训练不稳定、样本利用率低、成果难以复现、依赖准确的超参数以及难以摆脱局部最优等困难。本文以棋盘类游戏为切入点,设计实现了基于卷积神经网络与Upper Confidence Bound Applied to Trees(UCT)算法的深度强化学习算法,并针对上述问题,从以下三个方面加以改进:(1)为了提升训练过程中采样的质量,提出一种利用UCT算法的搜索结果训练棋盘类游戏智能体的方法。该方法使用使用UCT算法对神经网络采样轨迹进行重新的评估,以此修正神经网络偏差。(2)结合神经网络与蒙特卡洛树搜索的方法不仅需要大量的训练样本,而且难以摆脱避免训练过程中的偏差对搜索轨迹的误导。针对此问题,提出一种结合集成学习...

【文章页数】:85 页

【学位级别】:硕士

【部分图文】:

图2.2?A3C总体结构??所谓“异步”,是指该算法的交互过程与更新过程是多线程异步进行的

图2.2?A3C总体结构??所谓“异步”,是指该算法的交互过程与更新过程是多线程异步进行的

?第二章深度强化学习概述??训练效率。图2.2描述了?A3C算法的总体结构。??全局网络??动作|?价值??分布?估计??个?7j\??行动者?i?平论家??网络?网络?? ̄/K ̄? ̄7R ̄??菊入?输入??工人1?工人2?|?工人N??|行?|评?|行?|评?丨行?|评??动论....


图3.1多维循环神经网络结构图[Schaul,?etal.,?2008]??传统的循环神经网络的后一个循环单元仅接收前一个循环单元的输出作为??先验信息,而这一模式显然不能满足多维度的扫描空间的情况

图3.1多维循环神经网络结构图[Schaul,?etal.,?2008]??传统的循环神经网络的后一个循环单元仅接收前一个循环单元的输出作为??先验信息,而这一模式显然不能满足多维度的扫描空间的情况

,,.,,维循环神经网络,发展出了一套新的状态-动作函数评估器。多维循环祌经网络??的训练数据同样通过智能体自我对弈的方法实现。同时,文章创造性地利用了神??经演化算法,开创了将演化算法应用于强化学习领域的先河。??多维循环神经网络??循环神经网络己在诸如语音识别、语义分析、机器....


图3.3基本的蒙特卡洛树搜索流程[Abramson,?1987]??

图3.3基本的蒙特卡洛树搜索流程[Abramson,?1987]??

?(|)????ai??图3.3基本的蒙特卡洛树搜索流程[Abramson,?1987]??一个基本的蒙特卡洛树搜索流程如图3.3所示,包含以下四个步骤:??选择(Selection):从根节点出发,向下选择访问具有最大Q值的子节点,直??到抵达叶节点或最深层数限制为止。值的定义....


图3.4祌经网络模型结构??

图3.4祌经网络模型结构??

这里的神经网络总体上采用类似于谷歌公司在2015年发布的De印??Q-network的结构。不过,由于本棋盘类游戏环境的状态空间远远不及视频游戏,??因此也在一定程度上做出了适应性调整。如图3.4所示,神经网络输入层由3通??道的尺寸为size?x?size的棋局信息构成。接下来....



本文编号:3911297

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3911297.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户46e88***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com