当前位置:主页 > 科技论文 > 路桥论文 >

基于多智能体强化学习的城市自适应交通信号控制方法研究

发布时间:2024-01-27 10:53
  城市社会经济发展到一定程度时,城市道路往往会出现不同程度的拥堵现象,为了克服现有城市道路信号控制方法存在的各种局限性,本文提出基于马尔可夫决策过程的最优搜索型强化学习的城市道路自适应信号控制方法,并搭建仿真平台对所提出的自适应信控方法的有效性进行验证。本文针对智能体技术应用于城市道路自适应信号控制方法展开相关研究,主要工作涉及以下几个方面:首先,对现有信控方法的局限性进行充分调查并提出基于强化学习的自适应信控方法,考虑邻域交叉口的交通压力对Agent所处环境的状态和动作选择策略进行定义,以停车次数的变化值作为Agent状态动作对之间转换获得的奖励值;接着,结合VISSIM交通仿真软件的仿真建模能力、VB系统的图形用户界面和快速应用程序开发能力以及MATLAB系统强大的矩阵运算能力和绘图能力,利用COM组件的生成和调用搭建基于VISSIM-VB-MATLAB的交互仿真平台,对本文提出的自适应信号控制方法的有效性进行仿真验证;另外,抽取部分迭代学习过程作为观察对象,分别记录学习过程中的各交叉口信控方案即各Agent选取的动作,以及对各Agent的Q表进行可视化处理;最后,以交叉口总停车次数...

【文章页数】:86 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景
    1.2 研究目的与意义
    1.3 国内外研究现状
        1.3.1 国外研究现状
        1.3.2 国内研究现状
    1.4 主要研究内容
    1.5 技术路线
    1.6 本章小结
第二章 强化学习相关理论
    2.1 有限马尔可夫决策过程
        2.1.1 智能体与环境
        2.1.2 目标和奖励
        2.1.3 策略和值函数
        2.1.4 最优策略和最优值函数
    2.2 动态规划(Dynamic Programming,DP)
        2.2.1 策略迭代
        2.2.2 值迭代
    2.3 时间差分算法
    2.4 Q-learning和 Sarsa
    2.5 本章小结
第三章 多智能体强化学习信号控制算法
    3.1 环境状态定义
    3.2 Agent动作定义
    3.3 动作选择策略
    3.4 奖励函数
    3.5 本章小结
第四章 搭建仿真平台
    4.1 仿真运行菜单设计
    4.2 VB-MATLAB交互
    4.3 VISSIM-VB-MATLAB集成仿真平台
    4.4 本章小结
第五章 自适应信控方法有效性检验
    5.1 定周期信控仿真
        5.1.1 时变交通流量输入
        5.1.2 评价数据
    5.2 强化学习信控仿真
        5.2.1 运行参数设定
        5.2.2 仿真平台运行逻辑图
    5.3 结果分析
        5.3.1 训练结果
        5.3.2 对比评价
    5.4 本章小结
结论与展望
参考文献
攻读学位期间取得的研究成果
致谢



本文编号:3886827

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/3886827.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户58b3e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com