多智能体博弈强化学习算法及其均衡研究

发布时间：2024-01-27 13:22

　　人工智能和多智能体系统在实际应用中会遇到诸如无人驾驶、无人机编队、机器人对抗等智能体与环境交互、智能体与智能体交互的场景。围绕多智能体博弈模型,以马尔科夫博弈或者随机博弈的框架为基础,讨论基于强化学习方法与环境交互寻找纳什均衡的多智能体强化学习算法、基于均衡理论计算纳什均衡的群智能算法两个方面存在的问题,开展以下研究:为改善多智能体纳什Q学习算法适应性不好,条件苛刻,运算复杂,且没有通用的方法更新策略价值等问题,提出算法改进思路。首先,引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数更新方程;其次,理论分析了算法的收敛性及可行性;最后,通过实验验证了算法的有效性。仿真结果表明,基于参数逼近的多智能体强化学习算法,能够使智能体100%达到纳什均衡,且能够提高算法性能,简化算法复杂性,比起传统的纳什Q学习算法能够较快收敛。针对智能体参与个数多或者维度稍高的矩阵博弈纳什均衡计算困难,对现有的纳什均衡求解理论进行分析,将求解纳什均衡问题转化为可以利用群智能算法求解的单目标优化问题。为改善现有的粒子群算法计算纳什均衡时精度不高,迭代繁琐,提...

【文章页数】：58 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
1 绪论
    1.1 选题背景及研究意义
        1.1.1 选题背景
        1.1.2 研究意义
    1.2 研究现状及发展趋势
        1.2.1 多智能体强化学习的研究现状及发展趋势
        1.2.2 博弈均衡的研究现状及发展趋势
    1.3 本文研究内容和技术路线
        1.3.1 研究内容
        1.3.2 技术路线
2 相关基本理论
    2.1 强化学习
        2.1.1 强化学习模型与基本要素
        2.1.2 马尔科夫决策过程概述
    2.2 多智能体强化学习
        2.2.1 多智能体强化学习模型
        2.2.2 马尔科夫博弈中的多智能体强化学习
    2.3 博弈均衡理论
        2.3.1 纳什均衡的数学描述
        2.3.2 纯策略博弈
        2.3.3 混合策略博弈
    2.4 小结
3 参数逼近的多智能体强化学习算法
    3.1 多智能体纳什Q学习
        3.1.1 策略迭代与时间差分学习
        3.1.2 纳什Q学习算法
    3.2 基于参数逼近的强化学习算法
        3.2.1 算法改进
        3.2.2 算法描述
    3.3 算法的收敛性与可行性分析
        3.3.1 算法收敛性分析
        3.3.2 算法可行性分析
    3.4 实验与结果分析
        3.4.1 实验设置
        3.4.2 结果分析
    3.5 本章小结
4 基于粒子群算法求解纳什均衡
    4.1 纳什均衡问题转化
        4.1.1 双人策略博弈中的纳什均衡
        4.1.2 双人策略博弈的优化问题
    4.2 改进的粒子群算法设计思想
        4.2.1 标准粒子群算法思想
        4.2.2 参数的分析与修正
        4.2.3 改进的粒子群算法步骤
        4.2.4 数值测试
    4.3 改进的粒子群算法求解纳什均衡
        4.3.1 求解纳什均衡优化模型
        4.3.2 算法描述
        4.3.3 算法流程图
        4.3.4 算法可行性分析与性能评价
    4.4 仿真算例
    4.5 本章小结
5 结论与展望
    5.1 结论
    5.2 展望
致谢
参考文献
附录
攻读硕士学位期间获奖

本文编号：3887043

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/lindaojc/3887043.html

上一篇：基于农产品质量安全的农户生产行为决策研究——以喀斯特地区265户农户为例
下一篇：兰州轨道交通公司员工离职率降低策略研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|