Untitled Document

作者：（英）斯图尔特·肖（Stuart D. Shaw），（英）西里尔·韦尔（Cyril J. Weir）

语言测试研究发展到21世纪，研究者的目光越来越聚焦高利害考试在设计开发、效度验证、施考维护等环节的透明度和公开度。因此，国际上知名的英语水平考试机构纷纷出版或公开有关考试的效度验证报告，并将此作为首要任务不断滚动发布。比如，美国教育考试服务中心（Educational Testing Service）曾于2008年出版了新托福考试（TOEFL iBT）的效度研究专著（Chapelle, Enright and Jamieson 2008），从效度证据（validity argument）角度说明了考试本身在效度验证方面的尝试和努力。相类似的是，本书正是剑桥大学英语考试委员会（Cambridge ESOL）的一项尝试。两位作者从剑桥系列英语考试的写作测试入手，厘清了在社会—认知框架下写作测试的构念，并结合该系列考试阐述了有关写作效度验证的研究和方法。本书的系统性很强，从写作测试效度的各个方面加以分解并合成，也有机地梳理了二语写作的研究方法。

首先，本书的系统性强，为大规模、高利害考试的效度验证提供了很有价值的框架。全书共分为八章。第一章是引言，提纲挈领地介绍了本书的研究框架和整体基调。第二章是考生特征（test-taker characteristics），详细说明了写作测试中考生特征的不同方面对效度的影响。第三章是认知效度（cognitive validity），从写作过程的角度梳理了写作测试的效度举证。第四章是环境效度（context validity），从客观条件、写作任务的设计等角度分析了影响写作测试效度的因素。第五章是评分效度（scoring validity），从写作评分量表和评分员等方面说明了写作测试的效度元素。第六章是后效效度（consequential validity），从反拨效应的角度说明了写作测评的效度问题。第七章为对标效度（criterion-related validity），从测量标准的参考等视角厘清了写作测试效度需要注意的方方面面。最后第八章则总结了本书的主要内容并对写作测试的开发和效度验证提出了具有建设性的意见。为更好地帮助读者理解本书中大量的实例，本书还有附录，呈现了剑桥系列英语考试的各个细节。

再者，全书结构清晰，章节之间构成一个有机的整体。第一章名为引言，实则详细介绍了本书的研究框架，并将Weir（2005）的社会—认知模型应用于写作测评，给读者呈现了写作测评中该模型的具化内容，提出了从考生特征、认知效度、环境效度、评分效度、后效效度以及对标效度等六个方面对写作效度加以举证。因此，本书第一章是总领，后六章则为具体展开，并在最后一章总结。本书主干部分的各章节编排基本一致。作者首先从文献回顾的角度阐述了各个效度组成的有关研究，然后介绍了剑桥系列英语考试在这些效度举证方面所进行的研究，并在后记（postscript）中以问题清单的方式总结了剑桥系列英语考试在这些效度验证方面的举措和展望。

最后，本书的实践性强。作者在各个章节中对通过不同的研究方法进行的写作测试效度验证展开论述。这些方法本身也可直接应用到其他类似的英语写作考试之中。因此，本书对我国应用语言学研究、特别是语言测评方面的研究意义可见一斑。至今为止，我们大规模、高利害的考试中仅有大学英语四、六级考试（见杨惠中 & Weir 1998）和英语专业四、八级考试（见邹申 1998）出版过相关的效度验证报告。当时的效度研究为这些考试的公平性和透明度作出了积极的贡献。然而，囿于当时的效度观和效度验证研究框架的滞后，二十余年前的效度研究已亟需更新，需从更多的视角、维度、渠道等为考试效度加以举证。此外，就写作而言，我国学者的效度研究往往点面零散，不成系统，更无研究专注于某一大规模、高利害考试的写作测试。

本书的研究范式给广大长期从事写作测评的研究人员提供了范本。我们可以依据不同的效度组成，以社会—认知模型为研究框架，系统并长期地开展有关英语考试中写作测试的效度研究。此外，随着《中国英语能力等级量表》的问世，我国学者可有意识地增加效度研究的渠道，以多维度、多视角的方式对写作测试的效度加以举证。

第一章为全书的研究框架奠定了主要的基调，详细展现了Weir（2005）的社会—认知框架，并解释了语言测试中效度观的演变。值得指出的是，作者在这一章节中把这一研究框架应用于写作测试，提出了与写作测试密不可分的几个效度组成，即考生特征、环境效度、认知效度、评分效度、后效效度以及对标效度。这些效度组成也是本书第二章至第七章的主要内容。此外，第一章还全面介绍了剑桥英语考试系列的具体情况，并着重说明了这一系列考试中写作测试的能力目标及其与《欧洲语言共同参考框架》（Common European Framework of Reference，以下简称 CEFR）的对接情况。

第二章聚焦考生特征。作者在第一章研究框架的基础上回顾了考生特征的定义和分类方法。以托福考试在这方面的研究为切入点，作者指出，文献研究表明，考生群体差异，如性别、社会背景等都会对写作测试效度带来一定的影响，严重的还会对考试本身造成统计学意义上的项目偏颇（differential item functioning）。随后，作者在O’Sullivan（2000）研究的基础上，提炼出考生特征可能会对写作测试效度造成影响的几个方面，即生理因素（physical/physiological）、心理因素（psychological）以及经验因素（experiential）。这些方面的研究对写作测试的效度意义重大，因为这直接涉及到考试的公平性问题。设想如果考生由于生理缺陷或心理因素等而未被测量出真实的写作水平，则这一考试并没有发挥应有的作用。同理，如果有考生因为对话题熟悉或通过突击备考等方式可以取得高分，那么该项考试本身也存在问题。

第三章围绕认知效度展开。作者一开始就对认知效度加以定义，即“写作测试的认知效度是检测试题与其在写作情景中所涉及的认知过程，即真实生活中完成写作任务的认知过程的契合度”。在这一定义下，作者除了借鉴Weir（2005）的社会—认知框架外，也参考了Hayes & Flower（1980）和Field（2004, 2005）等有关认知研究的成果，指出写作测试的认知效度可以从三个写作阶段进行效度举证，即构思（planning）、转化（translating）和检查（reviewing）。写前阶段的构思则又可细分为宏观构思（macro-planning）、组织（organisation）和微观构思（micro-planning）三个方面。宏观构思主要指思想设计以及写作障碍层面的内容，如文体、读者群、目标等。组织则对宏观构思的结果加以梳理，如分清主要论点和次要论点。微观构思则涉及如何将这些内容在段落之间和段落内较好地呈现。写中阶段的转化就是将大脑中的构思结果转换成语言文字。写后阶段的检查又分为监控（monitoring）和修改（revising）。监控在基础层面是指对拼写、标点和语法正确等的监控，而在高级层面则是指对写作意图和谋篇布局等的监控。修改是在监控的指引下对字、词、句、篇以及意义层面的改进和完善。

第四章主要从环境效度来分析写作测试。作者认为，“环境效度与考生能胜任写作任务所需达到的语言和内容要求有关，也与描述写作行为的任务设计等特征有关”。因此，写作测试的环境效度验证可以从三个方面展开，即语言要求（linguistic demands）、任务设计（setting: task）和施考环境（setting: administration）。由于本章涉及的小点较多，作者采用类似问题清单的模式列举了不同环境效度的要求，并逐一比对，呈现了剑桥系列英语考试在环境效度方面的研究和举措。

第五章主要探讨评分效度。作者指出，评分效度长久以来是写作测试研究的核心问题之一。评分效度关乎写作测试的各个环节，包括评分标准（criteria/rating scale）、评分员特征（rater characteristics）、评分过程（rating process）、评分条件（rating conditions）、评分员培训（rater training）、考后校正（post-exam adjustment）、分数报告（grading and awarding）等。本章还专门讨论了纸笔写作考试和计算机写作考试的异同。多项实证研究指出在评分结果上两种考试模式并未产生显著的差异。此外，作者还介绍了计算机辅助评阅的阅卷方式以及自动评分的阅卷方式，这些都对协调大规模写作评分、保证评分信度和效度产生了积极的影响。

第六章主要聚焦写作测试的后效效度。在梳理有关反拨效应的主要文献后，作者指出可从三个方面来探索写作考试的后效效度，即对个体在课堂或职场中的反拨效应（washback on individuals in classroom/workplace）、对机构和社会的影响（impact on institutions and society）以及杜绝测试的偏颇（avoidance of test bias）。本章主要报告了剑桥系列英语考试的一些实证研究，试图回答有关后效效度的问题。比如，考试对教材编写和开发有何影响？教材在多大程度上反映出考试的痕迹？再如，（突击）备考对考试成绩的影响如何？考试在社会和机构中的认可度如何？又如，考试对不同性别、不同民族、不同家庭背景的考生是否会产生偏见？这些研究都为有关考试中写作测试的后效效度进行了举证。

第七章主要探讨对标效度。作者首先引用了Weir（2005）的定义，即对标效度是一种定量性质的考后验证效度，主要涉及考分与外部标准的相关程度。一般而言，对标效度可分为共时效度和预测效度，不仅需要慎重选择所对标的外部标准，其本身也应具备较高质量。作者主要从三个方面阐述了写作测试的对标效度，即考试间的可比性（cross-test comparability）、同一考试不同版本的比较（comparison with different versions of the same test）以及与外部标准的比较（comparison with external standards）。

第八章再次回归到Weir（2005）的社会—认知模型，并对此进行评述。在此基础上，本章回顾了以上讨论的六个效度组成，逐一扼要地回顾了这些效度组成和有关研究，并对一些今后可以继续探索的效度研究提出了建议。