评价中心的评分维度和评分效果

发布时间：2016-11-19 00:07

本文关键词：评价中心的评分维度和评分效果，由笔耕文化传播整理发布。

评价中心的评分维度和评分效果 首席医学网 2007年08月14日 23:40:55 Tuesday

加入收藏夹官方投稿信息

作者：王小华车宏生作者单位：（北京师范大学心理学院，北京 100875）

【摘要】 对近年来国内外关于评价中心的研究进行了比较系统的介绍。首先，文章讨论了评分维度的数目对于评分结果的影响，以及评价中心中的4个元维度；其次，介绍了评价中心中衡量评分效果的指标，并讨论了评分者培训的分类及其对评分效果的影响；第三，虽然评价中心具有良好的效标关联效度，但对于其结构效度的研究至今尚无统一结论。最后，文章对评价中心未来的研究趋势进行了探讨。.

【关键词】 评价中心，评分维度，评分者培训，效度。

1 引言

评价中心（assessment centers）是一种综合性的人事测评方法，现已被广泛的应用于人员选拔和培训等领域。它通常包含多种测评方法（例如面试、无领导小组讨论、文件筐等），由多个经过培训的评分者，按照预先设计好的维度，对被评价者在各个测评情境中表现出的行为进行评价。评分者们通过集中讨论使评分结果达成一致；或者用统计的方法对评分结果进行整合，最终得到被评价者行为表现的综合评价[1]。

自从1964年Bray在《American Psychologist》上发表第一篇关于评价中心的论文以来，评价中心一直是国内外心理学家研究的热点。国内外关于评价中心的研究，通常有以下3个切入点：评分维度、评分效果和评分者培训、评价中心的效度，我们将从这3个方面入手，对国内外的相关研究加以介绍。

2 评价中心中的评分维度

2.1评分维度的数目对于评分的影响

人们总是希望能从尽量多的方面对被评价者进行评价，但人的信息加工能力是有限的,如果评分维度过多，就会增加评分者的信息加工负担，造成评分误差。Russel[2]的研究表明，如果评价中心的维度过多，评分者对某个维度的评分就会受到其它维度的影响，从而产生晕轮效应。这样，一些维度尽管表面上名称不同，但在实际评分时却被当作同一个维度进行评价，这就违背了设计者希望区分多个维度的初衷，并浪费了资源。

Gaugler和Thornton[3]曾研究了评分维度的数目对于评分的影响。研究者让评分者分别使用3个、6个和9个维度对被评价者的行为进行评价。结果表明，使用3个维度时，对行为分类和评分的准确度(rating accuracy)最高；而使用6个维度时，行为观察准确度(observational accuracy)最高。因此，他们提出在评价中心中应尽量减少评分维度。国内研究者吴志明[4]也曾做过相似的研究，他的研究表明，评分维度为3个和6个时，评分者的评分一致性都很高，而评分维度为9个时，评分者的评分一致性会有很大的下降。因此从加强评分一致性与改善评分效果的角度出发，他建议在评价中心的一个测评情境中，评分维度应以6个左右为宜。

2.2对于评分维度的定义和分类

Paul 和 Ferry[5]总结了评价中心中的4个元维度（meta-dimensions）（见表1）。表1 评价中心的元维度（meta-dimensions）在国内外对于评价中心的研究和应用中，所采用的维度大都包含在上述4个元维度之内。例如，Ryan等[6]关于评价中心的研究中，使用了6个维度：主动性(drive and initiative)、组织和计划(organization and planning)、说服力(persuasiveness)、沟通技巧(communication skills)、倾听和敏感性(listening and sensitivity)、判断和决策(judgment and decision making)；Lievens[7]的研究中使用了3个维度：问题分析与解决(problem analysis and solving)、人际敏感性(interpersonal sensitivity)、计划和组织(planning and organizing)。Schleicher等[8]关于评价中心的研究中则使用了如下维度：沟通技巧(communication skills)、制定决策(decision-making skills)、领导力 (leadership)。可以看出，这些关于评价中心的研究所使用的维度基本上都可以归入上述4个元维度中去。

3 评价中心中的评分效果和评分者培训

3.1 评分效果

评价中心中的评分是一个非常复杂的过程。评分者要从被评价者所表现出的诸多行为中辨别、筛选、记录其典型行为，做出最终评价；观察和评价的过程需要在很短的时间内完成。这些对评分者的要求是非常高的。因此，如何使评分者的评分更加准确，一直是研究者们关心的问题。衡量评分效果通常有两个指标[9]：（1）评分准确度（rating-accuracy），即将评分者的评分与专家的评分（又称基准分数，True Score）进行比较，两者差异越小则评分越准确，它反映的是评分的结果；（2）行为观察准确度（behavioral-accuracy），指评分者对被评价者典型行为回忆（或再认）的准确程度，它关注的是评分者的信息加工过程。

改善评分效果最有效的方法，就是在评分之前，由专家对评分者进行系统的培训。目前最常用的培训方法有两种：行为观察培训法（Behavioral observation training）和参照系培训法（Frame-of-reference training）。

3.2 行为观察培训法（Behavioral observation training，简称BOT）

行为观察培训法着眼于评分者的“观察”，而非“评分”。Thornton 和 Zorich [10]假设在评分时，评分者的观察过程和评分过程是分开的。他们认为，评分者的观察过程包括对被评价者行为表现的觉察（detection）、知觉（perception）和回忆（recall）（或再认，recognition），而评分者的评分过程则包括对信息的分类（categorization）、综合（integration）、评价（evaluation）。Thornton 等人认为评分误差主要是由于评分者评分时掌握的信息不足所致，因此，如果能够设法改善评分者对被评价者行为的观察，评分的有效性就会提高。BOT并不关注评分者对信息的综合和评价，而主要是教授给评分者一些观察和记录被评价者行为的方法，比如行为观察训练。同时，BOT鼓励评分者先观察后评分，即观察时先详细记录被评价者的行为表现，待观察完毕后再统一评分。

BOT培训效果的评估指标通常是行为观察准确度。这里的假设是：如果评分者能够更好的观察被评价者的行为，他就能够更好的回忆（recall）或再认（recognition）被评价者的行为，从而使评分更加准确。行为观察准确度是基于一些客观的、可以量化的指标。采用较多的方法是：研究者要求评分者对测试情境中被评价者的某一特定行为或事件的出现次数进行估计，然后将这一估计值与该行为在测试情境中实际出现的次数进行比较，从而得出行为观察准确度的指标。Sulsky和Day[11]提出了行为观察准确度的另一种测量方法：行为再认（behavior recognition），研究者首先发给评分者一份行为列表（behavioral checklist），评分者需要判断表上所列的这些行为是否在测试情境中出现，然后，研究者利用信号检测论的方法，计算出评分者的行为观察准确度。

3.3 参照系培训法（Frame-of-reference training，简称FOR培训法）

参照系培训法强调按照统一的评分标准来培训评分者，即在所有评分者头脑中形成统一的评分参照系（frame-of-reference）。

FOR培训法是以认知心理学中的图式驱动（schema-driven）理论[12]为基础的，它假设评分者的评分过程是一个自上而下的认知加工过程，评分者的观察和评分是同时进行的，这与BOT的假设是完全不同的。同时，图式驱动理论认为，日常生活中，人们在头脑里逐渐形成了一整套图式（schema），这些图式中包含着他们评价他人的标准和尺度，他们在评分时也倾向于使用自己的图式（或称标准）去评估被评价者的表现。但是，不同的评分者头脑中的图式往往是不同的，这就造成了评分者评分标准的不统一，进而影响评分的准确性。

因此，在FOR培训中，培训者要求评分者按照事先制定的统一的评分标准（或称图式）去仔细观察被评价者所表现出的典型行为，并同时做出评价（即on-line evaluation）[13]。FOR培训法的假设：如果评分者按照专家提供的维度和标准进行评分，评分就会更加有效。

FOR培训的方法：首先，培训时强调评分的多维性，向评分者解释各个维度的定义，并详细说明每个维度上的不同水平上都有何典型行为表现，在FOR培训中，通常会使用行为尺度评定量表（behaviorally anchored rating scales, 简称BARS）；第二，鼓励评分者一边观察一边评分，而非先观察后评分；第三，为评分者提供模拟评分的机会，并针对他们的评分给予反馈。在FOR培训法中，通常使用评分准确度这一指标来评估培训效果[8]。

3.4 两种培训法效果比较

Woehr和Huffcutt[14]进行了一次元分析，比较了不同培训方法的效果。他们总结后发现，通常用来评估培训方法有效性的因变量有以下4种：（1）晕轮效应（halo error）；（2）宽容效应（leniency error）；（3）评分准确度（rating accuracy）；（4）行为观察准确度（observational accuracy）。其中，BOT可以显著提高行为观察准确度，而FOR培训法提高评分准确度的效果最为明显，同时，两种培训法都能在一定程度上降低晕轮效应和宽容效应。Woehr和Huffcutt同时提出，在FOR培训中需要注意的是，培训者提出的评分标准（或绩效标准，performance standards）是否反应了企业的真实要求；另一点需要引起重视的是，不同培训方法的组合（例如将BOT和FOR相结合）也许会产生更好的效果。

4 评价中心的效度研究

4.1 评价中心的结构效度

评价中心的结构效度通常有两个指标：汇聚效度（convergent validity）和区分效度（discriminant validity）。汇聚效度，指同一评分维度的评分在不同测评方法之间的相关，，相关系数越高，说明汇聚效度越好；区分效度，是指同一测评方法内不同评分维度之间评分的区分性，也用相关系数表示，相关越低，说明区分效度越好。对于评价中心结构效度的研究，多采用多质多法（multitrait-multimethod matrix approach, MTMM）和验证性因素分析（confirmatory factor analysis, CFA）两种方法。

关于评价中心结构效度的研究至今尚无清晰的结论：虽然有许多研究已经证明评价中心具有良好的汇聚效度，但与之相伴随的是，评价中心技术缺乏足够的区分效度[15, 16]。缺乏区分效度，就是指在同一测评方法内，评分者对不同测评维度的评分有很高的相关，换句话说，评价中心技术对于测评方法有一定的依赖性。评分者对于被评价者的评分不止基于评分维度，还受到测评方法的影响，研究者把这种现象称作测评方法效应（exercise effect）。

Schleicher等人[8]认为测评方法效应产生的原因有以下几点：首先，评分者的信息加工能力有限，评分者在评分时难免会出现误差。第二，评分者往往需要依据被评价者表现出的同样的行为，同时在几个能力维度上为其打分[17]；而且，在不同的测试方法中，同一评分维度又可能有着不同的定义和解释[18]，这些都可能造成测评方法效应。第三，设计者对于评分维度的定义往往流于宽泛，不够具体和操作化，这就更增加了评分的难度。最后，评价中心技术是由几种不同的测评方法组成的，因此评分者的评分很容易受到测试方法的影响，而很难按照统一的评分维度进行评价。

Shore等人从分类图式（categorization schemas）的角度解释了测评方法效应[16]。他认为，正确的分类图式可以降低评分的难度：如果评分者能够将其获得的被评价者的行为信息按照评分维度进行正确归类，评分就会更加容易和准确。然而，评价中心的实施是按照不同的测评方法来组织的，因此评分者们也就不得不按照测评方法，而不是维度，来对行为信息进行加工和编码，这就造成了测评方法效应[19]。

基于以上原因，Schleicher等人[8]提出了避免测评方法效应，改善评价中心结构效度的建议：（1）减少评分者信息加工量，帮助评分者更加有效的加工信息；（2）为各个评分维度提供更加清晰、详细的解释；（3）使评分者按照评分维度（而非测评方法）来加工、组织和评价自己获得的信息。

4.2 评价中心的效标关联效度

已经由充分的证据表明，评价中心具有良好的效标关联效度，可以较好的预测被评价者未来的工作表现。Gaugler等人[20]对关于评价中心的研究得出的107个效度系数进行了元分析，发现在不同的效标类型下，评价中心的效标关联效度分别是：绩效评定为0.36、潜能评定为0.53、培训中的表现为0.35、职业生涯进展为0.36。评价中心应用于不同目的时的效度是：选拔为0.41、提升为0.30、早期识别为0.46、研究为0.48。

Clark[21]曾经做过一次评价中心预测效度的元分析，结果发现，评价中心的预测效度为0.31~0.63，能力测验为0.25~0.53，行为型面试为0.24~0.40，人格测验为0.15~0.22。可以看出，与其它测评方法相比，评价中心具有更好的效度。

同时，评价中心的效标关联效度也会随着时间发生变化，但是其随时间变化的趋势尚无统一结论。例如，Thornton 和Byham[22]曾引用了A. Howward 1981年的一个16年的追踪效度研究。结果发现，对于207名大学毕业生，评价中心的效标关联效度在早些年逐渐增高并到达峰值，随后则逐年降低，这说明评价中心的效度随时间变化的趋势成倒U曲线。然而，对于148名非大学毕业生，效度则随时间逐渐降低，表明评价中心的效度成平滑的降低曲线。Gaugler等人[20]的元分析则发现，评价中心的效度与效标施测的时间之间没有显著相关。Tziner等人[23]研究发现，对于高层管理者进行的评价中心的效度随时间呈降低趋势。最后，在一些追踪研究中又得出了相反的结论：评价中心中的评分与效标（如被评价者的晋升状况或薪酬增长状况）之间的相关随时间呈增加趋势[24]。

Mitchel[25]对于评价中心的效度随时间变化的原因提出了两点解释：首先，随着组织和社会的不断发展，管理者的关键工作要素（critical work elements）也在发生变化，因此，被研究者们当作效标的组织因变量（比如晋升、薪酬等）也在跟着发生着变化。第二，在个人职业生涯的不同阶段，取得成功需要不同的能力维度的组合。例如，学术知识和书面交流能力也许只对个体职业生涯早期阶段的成功有较好的预测力，相反，自信和口头交流能力的预测力可能就会更持久一些。因此，评价中心中各个维度得分的预测效度自然也会随着时间发生变化。

5 未来研究趋势

纵上所述，国内外关于评价中心的研究主要集中于3个方面：评分维度、评分效果和评分者培训以及评价中心的效度。评分维度是评价中心的基础，现在研究者对于评分维度的分类和定义已经达成比较一致的看法。同时，对于评分者培训的研究，现在多集中于验证FOR培训的效果，因为它能非常有效的提高评分准确度，但BOT培训的研究也是不应忽视的，因为它能显著提高行为观察准确度。未来的研究也许将尝试几种培训方法的整合。

未来一段时间内，评价中心的研究热点还将集中在效度问题上。首先，研究者们希望能够从评价中心的设计、实施和评分过程中，找到更好的方法来提高汇聚效度和区分效度。第二，在评价中心效标关联效度的研究中，效标的选取不应仅仅局限于对员工整体绩效的测量，因为绩效的不同维度（例如任务绩效和周边绩效）可能受到不同因素的影响，将来的研究需要进一步探讨评价中心中各个测评维度与员工绩效的不同维度之间的关系，因为不同的测评维度可能对绩效的不同维度有不同的预测力。第三，在以往的研究中，对于评价中心结构效度和效标关联效度的研究往往是分开进行的，将来的研究需要进一步探讨它们两者之间的关系，例如，具有良好结构效度的评价中心是否同样具有较好的效标关联效度？同时，具有良好效标关联效度的评价中心，它的结构效度又如何？这两个问题恰恰涉及到评价中心中最本质和最核心的部分。

【参考文献】
[1] Task Force on Assessment Center Guidelines. Guidelines and Ethical Considerations for Assessment Center Operations, 1989. 1~2

[2] Russell C J. Individual Decision Processes in an Assessment Center. Journal of Applied Psychology, 1985, 70: 737~746

[3] Gaugler B B, Thornton III G C. Number of Assessment Center Dimensions as a Determinant of Assessor Accuracy. Journal of Applied Psychology, 1989, 74: 611~618

[4] 吴志明. 评价中心的心理测量学研究.北京师范大学博士论文, 1999. 33-39

[5] Jansen P, Jongh F D. Assessment Centers: A Practical Handbook. JOHN WILEY & SONS, 1997. 25~26

[6] Ryan A M, Daum D B, Todd G. Direct, Indirect, and Controlled Observation and Rating Accuracy. Journal of Applied Psychology, 1995, 80: 664~670

[7] Lievens F. Assessor Training Strategies and Their Effects on Accuracy, Interrater Reliability, and Discriminant Validity. Journal of Applied Psychology, 2001, 86: 255~264

[8] Schleicher D J, Day D V. A New Frame for Frame-Of-Reference Training: Enhancing the Construct Validity of Assessment Centers. Journal of Applied Psychology, 2002, 87: 735~746

[9] Murphy K R. Criterion Issues in Performance Appraisal Research: Behavioral Accuracy Versus Classification Accuracy. Organizational Behavior and Human Decision Processes, 1991, 50: 45~50

[10] Thornton III G C, Zorich S. Training to Improve Observer Accuracy. Journal of Applied Psychology, 1980, 65: 351~354

[11] Sulsky L M, Day D V. Frame-of-reference Training and Cognitive Categorization: An Empirical Investigation of Rater Memory Issues. Journal of Applied Psychology, 1992, 77: 501~510

[12] Pulakos E D. A Comparison of Training Programs: Error Training and Accuracy Training. Journal of Applied Psychology, 1984, 69: 581~588

[13] Day D V, Sulsky L M. Effects of Frame-of-reference Training and Information Configuration on Memory Organization and Rating Accuracy. Journal of Applied Psychology, 1995, 80: 158~167

[14] Woehr D J, Huffcutt A I. Rater Training for Performance Appraisal: A Quantitative Review. Journal of Occupational and Organizational Psychology, 1994, 67: 189~205

[15] Sackett P R, Dreher G F. Constructs and Assessment Center Dimensions: Some Troubling Empirical Findings. Journal of Applied Psychology, 1982, 67: 401~410

[16] Shore T H, Thornton III G C, McFarlane Shore L. Construct Validity of Two Categories of Assessment Center Ratings. Personnel Psychology, 1990, 42: 101~113

[17] Brannick M T, Michaels C E, Baker D P. Construct Validity of In-Basket Scores. Journal of Applied Psychology, 1989, 74: 957~963

[18] Robertson I, Gratton L, Sharpley D. The Psychometric Properties and Design of Assessment Centres: Dimensions into Exercises Won't Go. Journal of Occupational Psychology, 1987, 60: 187~195

[19] Silverman W H, Dalessio A, Woods S B, Johnson R L. Influence of Assessment Center Methods on Assessors' Ratings. Personnel Psychology, 1986, 39: 565~578

[20] Gaugler B B, Rosenthal D B, Thornton III G C, Bentson C. Meta-analysis of Assessment Center Validity. Journal of Applied Psychology, 1987, 72: 493~511

[21] Clark T. Management Selection by Executive Recruitment Consultancies, Journal of Managerial Psychology, 1992, 7: 926~932

[22] Thornton III G C, Byham W C. Assessment Centers and Managerial Performance. New York: Academic Press, 1982. 25~26

[23] Tziner A, Ronen S, Hacohen D. A four-year Validation Study of an Assessment Center in a Financial Corporation. Journal of Organizational Behavior, 1993, 14: 225~237

[24] McEvoy G M, Beatty R W. Assessment Centers and Subordinate Appraisals of Managers: A Seven-year Examination of Predictive Validity. Personnel Psychology, 1989, 42: 37~52

[25] Mitchel J O. Assessment Center Validity: A Longitudinal Study. Journal of Applied Psychology, 1975, 60: 573~579

本文关键词：评价中心的评分维度和评分效果，由笔耕文化传播整理发布。

本文编号：181612

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/181612.html

上一篇：组织承诺名词解释_《第十二届全国心理学学术大会论文摘要集》2009年
下一篇：陕西师范大学国际商学院教授

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|