31有关行为主义人工智能研究综述

发布时间：2017-01-02 12:04

本文关键词：有关行为主义人工智能研究综述，由笔耕文化传播整理发布。

DOI：10.13195/j.cd.2004.0；第19卷第3期；Vol.19No.3；控制与决策；Controland；Decision；2004年3月；Mar.2004；文章编号:1001-0920(2004)03-0；有关行为主义人工智能研究综述；徐心和,么健石；(东北大学人工智能与机器人研究所,辽宁沈阳110；摘要:通过与传统人工智能的比较,介绍了基

DOI：10.13195/j.cd.2004.03.2.xuxh.001

第19卷第3期

Vol.19No.3

　控　制　与　决　策

　Controland

Decision　

2004年3月

　Mar.2004

　　文章编号:1001-0920(2004)03-0241-06

有关行为主义人工智能研究综述

徐心和,么健石

(东北大学人工智能与机器人研究所,辽宁沈阳110004)

摘　要:通过与传统人工智能的比较,介绍了基于行为的智能模拟技术的发展及现状,并详细评述了行为主义人工智能的研究方向以及在研究过程中涉及到的前沿技术.最后给出了基于行为主义人工智能构建智能主体系统的设计原则.

关键词:人工智能;行为主义;智能主体中图分类号:TP18　　　　文献标识码:A

Surveyofbehaviorisminartificialintelligenceresearch

XUXin-he,YAOJian-shi

(InstituteofArtificialIntelligenceandRobot,NortheasternUniversity,Shenyang110004,China.Correspondent:XUXin-he,E-mail:xuxinhe@163.net)Abstract:ComparedwiththetraditionalAImethod,theevolutionandcurrentstatusofbehavior-basedAIsimulationtechniquearesurveyed.TheresearchdirectionsofbehaviorisminAIarereviewedtogetherwiththeres-pectivepioneertechniques.Thebasicprinciplesforconstructingagentsystemaregiven.Keywords:artificialintelligence;behaviorism;agent

1　引　　言

　　两千多年以来,人们就在不断地试图理解观察、学习、记忆和推理等与人类智能有关的问题.直到1956年由McCarthy,Minsky等发起,联同美国的几位心理学家、数学家、计算机科学家和信息论学家正式提出人工智能的术语,开始了具有真正意义的人工智能研究,使其成为一门能够理解人类智能并通过机器实现智能行为的新的学科.

在长期的研究过程中,由于人们对智能本质的不同理解,形成了人工智能多种不同的研究途径和学派,其中主要包括符号主义(Symbolism)、联结主义(Connectionism)和行为主义(Behaviorism).符号主义认为智能产生于大脑抽象思维的过程中,例如概念化的知识表示、模型论语义以及各种推理过

　　收稿日期:2002-12-11;修回日期:2003-02-10.　　基金项目:国家863计划资助项目(2001AA422270).

[2]

[1]

程等.他们以物理符号系统假设为基础,通过对具有

物理模式的符号实体的建立、修改、复制和删除等操

作生成其他符号结构,从而实现智能行为.联结主义

认为智能产生于大脑神经元之间的相互作用及信息

往来的过程中,因此通过对大脑神经系统结构的模

拟来建立人工神经元网络,从而实现相应的智能行

为.行为主义人工智能与上述传统人工智能的最大区别在于,它摒弃了内省的思维过程,而把智能的研究建立在可观测的具体的行为活动基础上.

行为主义最早来源于20世纪初的一个心理学流派,认为行为是有机体用以适应环境变化的各种

身体反应的组合,它的理论目标在于预见和控制行

为[3].1948年,维纳在《控制论》中指出:“控制论是

在自控理论、统计信息论和生物学的基础上发展起

　　作者简介:徐心和(1940—),男,河北山海关人,教授,博士生导师,从事自动控制与人工智能等研究;么健石(1972—),

男,辽宁沈阳人,博士生,从事人工智能理论及其应用研究.

来的,机器的自适应、自组织、自学习功能是由系统的输入输出反馈行为决定的”.从而将心理学的某些成果引入到控制理论中.20世纪80年代,以Brooks为代表的一批研究人员又将行为主义的观点引入人工智能的研究中,并逐步形成了有别于传统人工智能的新的理论学派[4,5].

行为主义人工智能认为智能行为产生于主体与环境的交互过程中,复杂的行为可以通过分解成若干个简单的行为加以研究.主体根据环境刺激产生相应的反应,同时通过特定的反应来陈述引起这种适应的协调机制实质上就是一种学习机制.

行为主义的思想认为智能主体只有在真实环境

中,通过反复学习才能学会处理各种复杂情况,最终

学会在未知环境中运行.如何实现这种思想,使主体在与环境的交互中学习动作行为,目前主要有两种研究方法:进化计算和强化学习[11].

智能主体通过进化计算进行学习的机制主要有

以下两种:

1)采用进化计算建立主体从“感知”到“动作”

的映射规则,直接驱动执行机构产生相应的动作行

反应的情景或刺激.因此他能以这种快速反馈替代传统人工智能中的精确的数学模型,从而达到适应复杂、不确定和非结构化的客观环境的目的.

目前,行为主义人工智能的研究已经迅速发展起来,并取得了许多令人瞩目的成果,它所采用的结构上动作分解方法、分布并行的处理方法以及由底至上的求解方法已成为人工智能领域中新的研究热点,其智能系统的构造原理如图1所示[6]

图1　行为主义智能系统的构造原理

2　行为主义人工智能的研究方向

　　行为主义人工智能与传统人工智能最主要的区别在于智能主体能够自主地适应客观环境,而不依赖于设计者制定的规则或数学模型.这种适应的实质就是复杂系统的各个要素彼此之间的精确联系以及它们整个集团与四周环境的精确联系.为了达到

精确联系必须采用某种协调机制,这些协调机制可以使智能主体与外界环境相适应[7]

,使智能主体内部状态相互配合

[8]

以及多个智能主体之间产生协

作[9].因此,寻求合理的协调机制便成为行为主义人工智能的主要研究方向.2.1　智能主体与环境间的协调

智能主体对外界环境刺激作出的反应能够给主体带来适应.这种反应可分为“习得性反应”(Lear-ningResponse)和“非习得性反应”(UnlearningRe-sponse)

[10]

.显然“习得性反应”是智能主体在与环境

不断交互过程中通过学习获得的,而“非习得性反应”可以认为是一种连锁的“习得性反应”,最终形成具有遗传性的本能.因此,这种使智能主体与环境相

为.其中最著名的一例是JohnHolland建立的LCS模型[12].LCS模型采用进化算法进化,称之为分类

器的“IF〈condition〉THEN〈action〉

”规则,这些规则将传感器输入映射为相应的动作.图2描述了LCS的结构组成

图2　学习分类器系统(LCS)

当感知器输入被接收后,通过二进制编码放置到消息队列中,如果分类器“IF”

的信息与消息队列中的信息相匹配,则“THEN”中的信息也被放置到

消息队列.这些新的信息或触发其他分类器再次向消息队列提供新的信息,或直接产生一个决策提供

给效应器.在LCS模型中,每一个染色体都表示为

单一的决策规则,整个种群则表示为主体的行动策

略.通常分类器将感知到的环境状态要么映射为内部的状态改变,要么映射为一种行动,例如:　condition

　action

　strength

01##→00000.7500#0→

11000.25??????##00

→0001

0.50

其中“strength”由信任分配算法产生,表示为分类

器规则适应程度的统计量.这个统计量可以解决产

生的冲突(多个行为决策被触发),同时还可以作为遗传算法的适应度值.遗传算子将采用具有较高适

应度的分类器进行交叉、变异,以产生新的规则.通

常种群的规模是固定的,因此在策略空间只有优秀

的规则才被保存下来,从而完成主体在环境中的学

习过程.

2)首先在主体内部建立一个行为模型,然后采用进化计算驱动该模型,进而产生适应于环境的动作行为.这种研究方法也是目前主导的研究方法.例如采用有限状态机(FSM)建立主体的行为模型,使用进化规划方法驱动行为模型的进化.类似的还有采用Boxes结构建立主体行为模型,通过遗传算法确定主体所处的状态并找到相对应的Box,每个Box中都存放着针对该状态主体应采取的控制策监督学习不同,学习过程中由环境提供的强化信号是对动作好坏的一种评价,而不是告诉系统如何去

[14]

产生正确的动作,因此尤其适用于基于行为智能主

体的学习过程.典型的强化学习算法包括时间差分算法(TD)、动态规划算法(DP)、自适应启发式评

判(AHC)和Q学习算法,它们都已应用到智能主体

[15]

的学习过程中.例如图4所示的自适应神经网络评

判算法,主体模型由两个神经网络组成:估值NN和动作NN.前者对评价函数进行近似,将状态映射

为期望的价值;而后者则对动作函数近似产生一个

略.此外利用神经网络建立主体行为模型,通过遗传算法对网络参数及拓扑结构进行优化也成为一个重要的研究方向.例如由Moriarty提出的SANE系统,在该系统中存在两个独立的进化种群,一个是神经元种群,另一个是“蓝图”种群.神经元种群中的每个个体由一系列到输入层和输出层的连接值(标签和权值)组成,它的进化提供了对构成网络隐单元的评估及重组;而“蓝图”种群的进化则为神经元搜索一个构成网络最优的组合方式.图3给出了这两个种群交互的总览[13]

图3　SANE系统模型

“蓝图”种群中的每一个个体都包含了一套指向神经元种群个体的指针.在每一次网络构造过程中,神经网络由每个“蓝图”所指定的隐单元构成.每个“蓝图”都将根据该网络执行任务的好坏获得一个适应度值,同时构成网络的每个隐单元也将根据执行任务的好坏获得相应的适应度值.在神经元种群和“蓝图”种群进化过程中,通过使用一个基因选择和重组策略快速地构建和繁殖具有较高适应度值的神经网络.

强化学习是在没有环境的具体模型下,通过简单控制效果的评估作为反馈进行学习的过程.它与

动作,将状态映射为行动.当系统由一种状态转入另一种状态时,估值NN输出的评价信号(内部启发式的增强信号)可用来判断先前动作的优劣,使主体选

择具有累积奖赏最大的行动策略

图4　自适应启发式神经评判学习过程

权值更新规则通过定义如下平方误差ETD,采用误差最小化方法,同时训练动作NN和估值NN.

ETD=2

error2,

(1)erroe=r(ai+1)+CV(xi+1)-V(xi).

(2)

其中:r(ai+1)为执行动作ai+1后环境产生的外部增强信号,C为前一次奖赏的折扣率,V(xi)为状态xi

时内部的启发式增强信号.

在环境适应性研究过程中,更富有挑战性的工

作是将人本身作为环境的问题.早期的人机界面大

多为无反馈的开环系统,表现为人适应机器.20世

纪90年代末,MIT的Picard提出了情感计算(AffectiveComputing)[16]的概念,即如何使机器具

有情感智能的能力.这种能力体现在对人的嗜好、厌

倦、挫折和愉悦等某种情感状态的识别和恰当的响应,并最终影响人的情绪变化.Picard认为情感首先

是一种可测量的物理量,机器可通过用户界面获得

人的情感数据,并分析这些数据,以对人的当前情感

归类;然后,通过适应算法找出用户喜好的规律;最后,记录下这些规律,并在以后使用.这样就可以通

过借助与人的交互找出人的情感规律,使人越来越

满意,从而实现机器适应人.图5即是通过隐

2.3　智能主体间的协调

多主体系统中的协调问题是指多个主体为了以

一致、和谐的方式工作而进行交互的过程.进行协调

是希望避免主体之间的死锁和活锁.死锁指多个主体无法进行各自的下一步动作;活锁是指多个主体

不断工作却无任何进展的状态.多主体之间的协调

已经有多种方法.

传统人工智能在多机器人系统实施协调时,通

图5　情感计算中的隐Markov模型

常建立一个集中式的复杂的计算机控制系统,针对

目标任务集中组织规划并产生各个机器人控制器的Markov模型描述情感变化规律的一例.2.2　智能主体内部状态间的协调

基于行为主义智能主体的构建方法是将动作分解成几个具有相互独立状态的专用模块(避障、漫游、探险等),每一专用模块由传感装置直接映射到执行装置,没有中枢控制系统的作用.虽然各状态之间没有干扰,但极易产生冲突,造成主体无所适从.为了解决上述问题,早期Brooks采用了包容结构的方法,即相邻模块结合时采用抑制和禁止结点(如图6所示)[6].抑制结点加在输入端,控制输入信号,必要时可以进行修改;禁止结点放在输出端,在一定时间里禁止特定信号的输出

图6　包含结构中的抑制和禁止

由于这种简单的行为组合不具备学习功能,使主体很难完成复杂的行为动作.为此,在内部状态协调方面引入了进化计算和强化学习等机制,其核心是适应度函数的选取.例如利用组合遗传算子参数设置方法实现避碰和获取目标的行为组合

[17]

Fitness=

∑i

∑j

i=1

j=1

∑k=1

.(3)

其中:d为移动距离,n为运行时间步长,c为碰撞惩罚,m为碰撞次数,p为获取目标的奖励,l为获取目标的个数.它的适应度函数包括了组合动作的参数.如果某种动作参数选择不当,使得一种行为占主导地位,则主体的总体平均适应值会降低.类似地采用强化学习方法,在选择每一动作后给出一个奖罚评

判值,以此激励主体选择奖赏值高的动作,达到内部状态协调的目的.

输入指令,控制各机器人的运动达到协作的目的.行

为主义人工智能则从主体特性出发,认为主体具有

自治能力和自发行为,即主体不但可以主动与其他

主体进行交互,而且可以对其他主体的交互请求给予响应或拒绝.这种首先定义分散自主的主体,然后

研究怎样完成一个或几个实体的任务求解由底向上

的设计方法,目前被研究者广泛应用.例如一种基于

agent团队的强化学习模型[18]

,在仿真机器人足球

领域取得了成功应用.模型中引入了主导agent(控

球队员)的概念,整个团队中只有主导agent才承担学习任务,而每个agent都有可能充当这一角色,团

队的学习结果是所有agent学习结果的综合.主导

agent可以部分地决定下一个主导agent的人选,这是一种很典型的基于行为主义的多主体协作学习模式.

此外,还有通过基于互惠利他行为策略的强化学习,加强彼此协作,获得稳定性能;通过协同进化

构造机器人社会;引入达尔文“适者生存”的生物机

制,通过遗传算法实现多主体的协作.这些具有高度协调的多主体系统(MAS)更能体现人类社会的智能,更加适合于开放、动态的世界环境.它的研究已

成为人工智能,甚至计算机科学的研究热点.

3　行为主义人工智能研究中的前沿技术

　　1986年,在行为主义理论的指导下,第一个基于“感知-行为”模式的轮式机器人诞生,它在不需中

枢控制的情况下分别实现了避让、前进、平衡等功

能.经过10余年的发展,一些前沿技术理论不断地渗透到行为主义人工智能的研究中,使以该方法设

计的机器人具有更加复杂的、智能的组合行为,以及协同工作的能力.这些技术主要包括主体技术理论、

软计算和面向主体的编程思想.3.1　主体技术

主体技术把人工智能中相互分离的领域统一起

来,通过从感知外部环境到实施行动并最后对外部

环境施加影响的过程,形成一个相互联系的整体,使

主体成为一个具有智能行为概念的“人”.因此,主体应具有自治性、社会能力、反应能力和自发行为[19].自治性:主体运行时不直接由人或其他东西控制,它对自己的行为和内部状态有一定的控制权.

社会能力:或称可通信性,即主体能够与其他主体进行信息交换.

反应能力:即对环境的感知和影响,它们都可以感知所处的环境,并通过行为改变环境.

从而产生能适应环境并完成目标任务的动作行为.

3.3　面向主体编程

[22]

面向主体编程(AOP)是一种新的关于计算的

框架.相对于面向对象(OOP)中的对象而言,主体是一个粒度更大、智能性更高、具有一定自主性的

实体,同时又具有面向对象方法中的封装性、继承性

和多态性.因此,有的学者认为面向主体编程是面向对象编程方法的一种特例.

尽管如此,AOP与OOP还是存在很大的区别,

自发行为:主体的行为应该是主动,或者说是自发的.

此外,主体还应具有学习能力,即根据过去的经验积累知识,并修改行为以适应新的环境.

在主体概念的框架中研究行为主义人工智能,可以建立以下4种主体类型[20]

1)简单的反应型主体:其内部的“条件-动作”规则形成主体从感知到动作的映射;

2)具有内部状态的反应型主体:内部状态作为历史因素与当前的感知共同产生一个被更新的当前状态,据此指导主体如何动作;

3)基于目标的主体:主体通过学习(进化计算和强化学习)调整内部状态,以获得能够到达目标的动作;

4)基于效用的主体:内部具有清晰的效用评价函数的主体,它能够对不同的动作过程所获得的利益进行比较,作出理性的决定.3.2　软计算

软计算是由Zadeh于1992年首先提出的,它由若干种计算方法构成,包括模糊逻辑、神经计算、遗传算法、概率推理和部分学习理论等[21].这些技术紧密集成便形成了软计算的核心,通过协同工作,可以保证软计算有效利用人类知识,处理不精确及不确定情况,对未知或变化的环境进行学习和调节,以提高性能.Zadeh指出:软计算的指导原则是开拓不精确性、不确定性和部分真实的容忍,以达到可处理性、鲁棒性、低成本求解以及与现实更好地紧密联系;软计算的作用模型是人的思维.可见他的指导原则与行为主义人工智能的中心思想在一定程度上是一致的.

在基于行为的主体框架中,主要采用了遗传算法、强化学习和神经网络等计算方法的结合.例如目前比较先进的方法是以神经网络构建主体的行为模型,通过组合遗传算法和强化学习获得环境知识和适应函数或评价函数,并据此调整网络结构和参数,

主要体现在[23]

1)OOP的对象内部属性在AOP中规定为心

智状态,例如知识、信念、能力、承诺等,每种心智状

态都有其一定含义;

2)OOP中所传递的消息根据对象的不同有所

不同,而在AOP中主体使用同一种通信语言,例如

通知、请求、承诺、拒绝等,它具有与主体无关的语义,因此这种通讯更规范、更明确;

3)OOP的对象没有任何自治性,本质上是被动的,而主体是主动的,它可以自治地、独立地试图完成目标,而无需外界的指令.

国外从20世纪90年代中后期便开始将面向主

体编程方法应用于多主体系统(MAS)的开发设

计[24]

.近年来,国内对面向主体编程方法的研究与应用也取得了许多显著的成果.可以预见,面向主体编程方法必将成为软件工程中新的一代主流技术而

迅速得到发展与应用.

4　结　　论

　　目前,已有许多基于行为主义思想设计的智能系统能够满足人类多方面的要求,这些系统的成功

主要归功于Barry提出的3个基本设计原则:简单

性原则、无状态原则和高冗余性原则[25]

简单性原则是指运用快速反馈代替精确的计算,允许通过简单的估算或比较来产生复杂的动作,

同时分解的行为之间的相互作用要尽可能小或平行.这种设计方法能使系统简化、开放和更适应环

境,而不仅适用于某一特定模型,因而具有设计与现

实相匹配的优点.无状态原则规定设计时必须使系统的内部状态与外在环境保持同步,这就要求所保

留的状态不能在系统中长时间起作用.这种设计原

则提高了系统的可改变性,使系统更易完善,对环境

的变化和其他失误的适应能力更强.高冗余性原则是使系统能与不确定因素共存,而不是消除不确定因素.由不确定因素所造成的矛盾、冲突和不一致,

为智能系统的学习和进化提供了多样选择,使其更

下载地址：31有关行为主义人工智能研究综述_徐心和.Doc

　　【】