基于多智能体强化学习的城市自适应交通信号控制方法研究

发布时间：2024-01-27 10:53

　　城市社会经济发展到一定程度时,城市道路往往会出现不同程度的拥堵现象,为了克服现有城市道路信号控制方法存在的各种局限性,本文提出基于马尔可夫决策过程的最优搜索型强化学习的城市道路自适应信号控制方法,并搭建仿真平台对所提出的自适应信控方法的有效性进行验证。本文针对智能体技术应用于城市道路自适应信号控制方法展开相关研究,主要工作涉及以下几个方面:首先,对现有信控方法的局限性进行充分调查并提出基于强化学习的自适应信控方法,考虑邻域交叉口的交通压力对Agent所处环境的状态和动作选择策略进行定义,以停车次数的变化值作为Agent状态动作对之间转换获得的奖励值;接着,结合VISSIM交通仿真软件的仿真建模能力、VB系统的图形用户界面和快速应用程序开发能力以及MATLAB系统强大的矩阵运算能力和绘图能力,利用COM组件的生成和调用搭建基于VISSIM-VB-MATLAB的交互仿真平台,对本文提出的自适应信号控制方法的有效性进行仿真验证;另外,抽取部分迭代学习过程作为观察对象,分别记录学习过程中的各交叉口信控方案即各Agent选取的动作,以及对各Agent的Q表进行可视化处理;最后,以交叉口总停车次数...

【文章页数】：86 页

【学位级别】：硕士

【文章目录】：
摘要
abstract
第一章绪论
    1.1 研究背景
    1.2 研究目的与意义
    1.3 国内外研究现状
        1.3.1 国外研究现状
        1.3.2 国内研究现状
    1.4 主要研究内容
    1.5 技术路线
    1.6 本章小结
第二章强化学习相关理论
    2.1 有限马尔可夫决策过程
        2.1.1 智能体与环境
        2.1.2 目标和奖励
        2.1.3 策略和值函数
        2.1.4 最优策略和最优值函数
    2.2 动态规划(Dynamic Programming,DP)
        2.2.1 策略迭代
        2.2.2 值迭代
    2.3 时间差分算法
    2.4 Q-learning和 Sarsa
    2.5 本章小结
第三章多智能体强化学习信号控制算法
    3.1 环境状态定义
    3.2 Agent动作定义
    3.3 动作选择策略
    3.4 奖励函数
    3.5 本章小结
第四章搭建仿真平台
    4.1 仿真运行菜单设计
    4.2 VB-MATLAB交互
    4.3 VISSIM-VB-MATLAB集成仿真平台
    4.4 本章小结
第五章自适应信控方法有效性检验
    5.1 定周期信控仿真
        5.1.1 时变交通流量输入
        5.1.2 评价数据
    5.2 强化学习信控仿真
        5.2.1 运行参数设定
        5.2.2 仿真平台运行逻辑图
    5.3 结果分析
        5.3.1 训练结果
        5.3.2 对比评价
    5.4 本章小结
结论与展望
参考文献
攻读学位期间取得的研究成果
致谢

本文编号：3886827

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/daoluqiaoliang/3886827.html

上一篇：集装箱港内交通信号灯选址研究
下一篇：钢-混组合结构PC连续刚构桥的静力和地震响应分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|