当前位置:主页 > 科技论文 > 自动化论文 >

基于强化学习与博弈树搜索的非完备信息博弈算法的研究与应用

发布时间:2024-03-15 19:45
  博弈问题存在于人们生活的各个方面,根据参与者对博弈信息掌握程度的不同,可以把博弈问题分为完备信息博弈和非完备信息博弈两类。在现实生活中,人们往往很难获取到所有的博弈信息,因此很多博弈问题,比如商业谈判、广告定价、军事推演、网络安全等都可以归结为非完备信息博弈。随着人工智能相关技术的不断发展,利用人工智能技术来解决非完备信息博弈已经成为了当前的研究热点,具有十分重要的现实意义。本文主要研究关于麻将的机器博弈问题。在麻将游戏中,对手的手牌信息以及牌库中的信息对于每位参与者来说都是不可见的,因此麻将游戏是典型的非完备信息博弈问题。以往的麻将程序主要是通过Expectimax搜索算法来进行设计的。目前关于Expectimax搜索算法的研究主要集中在两个方面。一方面是研究如何合理地对搜索树的分支进行剪枝,另一方面是研究如何设计合理的估值函数。然而,在麻将博弈问题上,目前Expectimax搜索算法的剪枝策略与估值函数的设计还依赖于人工先验知识,而没有结合强化学习等算法来进行改进。为了解决这个问题,本文提出了一种结合Double DQN与Expectimax搜索的非完备信息博弈算法。该算法使用强化...

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景
    1.2 研究目的与意义
    1.3 国内外研究现状
    1.4 本文研究内容
    1.5 本文章节结构
第2章 非完备信息机器博弈
    2.1 非完备信息博弈概述
    2.2 博弈树与搜索
        2.2.1 Expectimax搜索
    2.3 基于深度强化学习的博弈方法
        2.3.1 深度学习
        2.3.2 强化学习
        2.3.3 深度强化学习
    2.4 本章小结
第3章 基于Double DQN与Expectimax搜索的非完备信息博弈算法
    3.1 基于麻将先验知识的特征编码
    3.2 基于Expectimax搜索的麻将决策过程
    3.3 基于Double DQN的麻将模型训练过程
    3.4 关于麻将吃碰杠决策的设计
    3.5 本章小结
第4章 非完备信息博弈智能决策系统的实现与实验分析
    4.1 麻将智能决策系统
    4.2 数据描述和数据预处理
    4.3 实验结果与分析
    4.4 讨论参数α的设置对模型的影响
    4.5 麻将比赛数据分析
    4.6 本章小结
第5章 总结与展望
    5.1 总结
    5.2 展望
致谢
参考文献
附录A 麻将博弈规则介绍
攻读学位期间的研究成果



本文编号:3928778

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3928778.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户4fb8c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com