面向人机交互的强化学习与意图推理

发布时间:2017-05-27 23:11

  本文关键词:面向人机交互的强化学习与意图推理,由笔耕文化传播整理发布。


【摘要】:赋予智能系统以强大的学习能力以及丰富的人机交互功能是智能系统在动态不确定环境中完成复杂任务的必由之路。在实际的交互过程中,要想完成智能体与人类用户的自然有效的交互,又需要对人类的意图进行正确的推断和识别。如何建立一个融合强化学习和用户意图推理的学习体系来实现智能系统的高级交互智能,进而应用于复杂的人机交互任务,具有重要的学术价值和实际意义。本文以智能机器人在实际的动态复杂环境中完成人机交互任务为背景,针对交互任务中如何对人的意图进行有效的识别,进而用以提升强化学习算法的适应能力和收敛速度,从强化学习和意图推理两个方面进行了相关研究,设计并提出了面向人机交互的强化学习和意图推理算法,并通过人机交互实验验证了算法的有效性。本文的工作主要包括:1)设计了基于粒子滤波和强化学习的目标跟踪控制框架,以在动态不确定环境下对目标人进行跟踪针对现有的机器人跟随控制算法不能适应动态变化环境的特点,设计提出了一种基于视觉传感的机器人跟踪控制框架,将粒子滤波算法与强化学习算法相结合,使得之能够完成在动态不确定环境下对目标人进行有效跟踪的任务。2)提出了基于灰色预测的意图推理算法,实现对人行走意图的预测,以提升跟踪算法对人运动变化的适应能力由于现有的跟踪控制算法没有考虑人的行走规律,因而使机器人在完成跟随任务时存在一定的迟滞,且难以适应人在行走方向和速度上的变化。本文提出了一种基于灰色预测新陈代谢GM(1,1)模型的用户意图推理算法,对人的行走意图进行建模,并用以对机器人的控制量进行修正,从而提升了机器人跟随的适应能力。3)设计了基于贪婪指导的快速交互式强化学习算法,以实现对人指导信息的充分有效利用,加速强化学习算法的收敛为了使机器人充分利用人交互过程中人给出的指导信息,在任务空间中进行更有效的搜索,本文提出了一种基于贪婪指导的快速交互式强化学习算法,从尽可能少的指导信息中挖掘出尽可能多的有效信息,加快了算法的收敛速度,减少了人的参与度和工作量。4)提出了一种基于意图推理的交互式强化学习算法,在人出现偶然错误的情况下对其真实意图进行有效识别,避免了对学习过程的误导在人机交互的过程中由于各种原因导致人给出的信息会有一定概率出错。在此基础上,本文提出了两种意图建模算法,即人的奖惩意图建模和指导意图建模,并将其与基于贪婪指导的快速交互式强化学习算法相结合,设计了基于意图推理的交互式强化学习算法。对比实验证明了该算法能够在人偶然出错的情况下,仍然能够对人的真实意图进行有效的识别,从而避免了对学习任务的干扰和误导,使机器人仍能快速地完成学习任务。
【关键词】:人机交互 强化学习 意图推理 灰色预测 奖惩信息 指导信息 仿人机器人
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP18
【目录】:
  • 摘要3-5
  • ABSTRACT5-10
  • 第一章 绪论10-19
  • 1.1 课题背景及研究意义10-11
  • 1.2 人机交互技术发展及应用11-14
  • 1.3 强化学习14-15
  • 1.3.1 强化学习简述14
  • 1.3.2 存在的问题及解决途径14-15
  • 1.4 意图推理15-16
  • 1.4.1 意图推理概述15-16
  • 1.4.2 研究现状总结16
  • 1.5 意图推理与强化学习的融合16-17
  • 1.6 本文主要内容和章节安排17-19
  • 第二章 强化学习理论及算法19-28
  • 2.1 引言19
  • 2.2 强化学习模型与主要组成要素19-22
  • 2.2.1 强化学习基本模型19-20
  • 2.2.2 强化学习主要组成元素20-22
  • 2.3 马尔可夫决策模型(MDP)22-23
  • 2.4 强化学习基本算法23-26
  • 2.4.1 瞬时差分算法(TD)24-25
  • 2.4.2 Q学习算法(Q-learning)25-26
  • 2.5 人机交互应用中的关键问题26-27
  • 2.5.1 泛化问题26-27
  • 2.5.2 收敛速度27
  • 2.5.3 强化函数与算法结构设计27
  • 2.6 本章小结27-28
  • 第三章 基于强化学习和意图推理的目标跟踪28-46
  • 3.1 引言28-30
  • 3.2 系统控制框架与基础理论30-35
  • 3.2.1 系统控制框架概述30
  • 3.2.2 粒子滤波30-33
  • 3.2.3 灰色预测33-35
  • 3.3 加入意图推理的强化学习算法35-37
  • 3.4 系统实现与实验37-45
  • 3.4.1 实验平台37-39
  • 3.4.2 状态环境的划分39
  • 3.4.3 机器人动作行为的定义39-40
  • 3.4.4 奖惩回报函数的设定40
  • 3.4.5 实验结果与分析40-45
  • 3.5 本章小结45-46
  • 第四章 基于意图推理的交互式强化学习46-68
  • 4.1 引言46-47
  • 4.2 基本交互式强化学习算法47-50
  • 4.2.1 交互式强化学习算法47-48
  • 4.2.2 探索与利用48-50
  • 4.3 基于贪婪指导的交互式强化学习算法50-54
  • 4.4 基于意图推理的交互式强化学习算法54-59
  • 4.4.1 奖惩意图的建模与推理55-57
  • 4.4.2 指导意图的建模与推理57-58
  • 4.4.3 算法设计58-59
  • 4.5 实验设计与结果分析59-66
  • 4.5.1 实验任务设计60-62
  • 4.5.2 对比实验设计62
  • 4.5.3 实验结果与分析62-66
  • 4.6 本章小结66-68
  • 第五章 总结与展望68-70
  • 5.1 论文工作总结68-69
  • 5.2 研究展望69-70
  • 参考文献70-77
  • 致谢77-78
  • 攻读硕士学位期间已发表或录用的论文78-80

【参考文献】

中国期刊全文数据库 前4条

1 郭劲松;曹江涛;李欣;卢超;;基于多传感器信息融合的避障循迹机器人设计[J];智能计算机与应用;2011年04期

2 石培基;胡科;;等维灰数递补模型在人口预测中的应用[J];统计与决策;2008年06期

3 何穗智;欧顺云;邓卓q,

本文编号:401407


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/401407.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户4a855***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com