基于深度强化学习机制的棋盘类游戏算法的设计与实现

发布时间：2024-02-26 03:57

　　随着人工智能的不断发展,深度强化学习以其独特的优势越来越多地受到研究者的关注。通过将深度学习与强化学习有机地结合起来,深度强化学习不仅赋予强化学习智能体在高维环境下端对端的学习能力,而且为其他机器学习任务在超越缺乏训练样本的情况下进一步挖掘模型潜力提供了可能。尽管如此,由于从深度学习与强化学习继承而来的双重复杂性,在面临诸如棋盘类游戏、视频游戏等复杂学习任务时,深度强化学习还存在着诸如训练不稳定、样本利用率低、成果难以复现、依赖准确的超参数以及难以摆脱局部最优等困难。本文以棋盘类游戏为切入点,设计实现了基于卷积神经网络与Upper Confidence Bound Applied to Trees(UCT)算法的深度强化学习算法,并针对上述问题,从以下三个方面加以改进:(1)为了提升训练过程中采样的质量,提出一种利用UCT算法的搜索结果训练棋盘类游戏智能体的方法。该方法使用使用UCT算法对神经网络采样轨迹进行重新的评估,以此修正神经网络偏差。(2)结合神经网络与蒙特卡洛树搜索的方法不仅需要大量的训练样本,而且难以摆脱避免训练过程中的偏差对搜索轨迹的误导。针对此问题,提出一种结合集成学习...

【文章页数】：85 页

【学位级别】：硕士

【部分图文】：

图２．２?Ａ３Ｃ总体结构??所谓“异步”，是指该算法的交互过程与更新过程是多线程异步进行的

?第二章深度强化学习概述??训练效率。图２．２描述了?Ａ３Ｃ算法的总体结构。??全局网络??动作｜?价值??分布?估计??个?７ｊ＼??行动者?ｉ?平论家??网络?网络??￣／Ｋ￣?￣７Ｒ￣??菊入?输入??工人１?工人２?｜?工人Ｎ??｜行?｜评?｜行?｜评?丨行?｜评??动论....

图３．１多维循环神经网络结构图［Ｓｃｈａｕｌ，?ｅｔａｌ．，?２００８］??传统的循环神经网络的后一个循环单元仅接收前一个循环单元的输出作为??先验信息，而这一模式显然不能满足多维度的扫描空间的情况

，，．，，维循环神经网络，发展出了一套新的状态－动作函数评估器。多维循环祌经网络??的训练数据同样通过智能体自我对弈的方法实现。同时，文章创造性地利用了神??经演化算法，开创了将演化算法应用于强化学习领域的先河。??多维循环神经网络??循环神经网络己在诸如语音识别、语义分析、机器....

图３．３基本的蒙特卡洛树搜索流程［Ａｂｒａｍｓｏｎ，?１９８７］??

?（｜）?？??ａｉ??图３．３基本的蒙特卡洛树搜索流程［Ａｂｒａｍｓｏｎ，?１９８７］??一个基本的蒙特卡洛树搜索流程如图３．３所示，包含以下四个步骤：??选择（Ｓｅｌｅｃｔｉｏｎ）：从根节点出发，向下选择访问具有最大Ｑ值的子节点，直??到抵达叶节点或最深层数限制为止。值的定义....

图３．４祌经网络模型结构??

这里的神经网络总体上采用类似于谷歌公司在２０１５年发布的Ｄｅ印??Ｑ－ｎｅｔｗｏｒｋ的结构。不过，由于本棋盘类游戏环境的状态空间远远不及视频游戏，??因此也在一定程度上做出了适应性调整。如图３．４所示，神经网络输入层由３通??道的尺寸为ｓｉｚｅ?ｘ?ｓｉｚｅ的棋局信息构成。接下来....

本文编号：3911297

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3911297.html

上一篇：这些年,百度都做了什么?
下一篇：基于改进烟花算法的非线性模拟电路测试激励优化

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|