寂静半斜闲,一岁一相见。为提升外语教师测评素养,实现以测促教,以评促学,7月31日至8月1日,北京市教育委员会、北京外国语大学中国外语与教育研究中心和外语教学与研究出版社共同举办“外语教学中的测试与评价”研修班。本期研修班特邀北京师范大学武尊民教授、郭乙瑶教授、林敦来副教授和中央财经大学高淼副教授,从基于标准的学业质量测评、本科及研究生校本学业测评、大学英语口语测评、语言教师测评素养等方面入手,与来自全国29个省、市、自治区的243位教师分享了外语测评的理论与实践经验。

研修现场

 

理念篇——明确构念,科学评测

武尊民教授首先简要介绍了测评素养的内涵及教师在测评方面应具备的七项能力,从中国英语能力等级量表的功能、理论参照及构念出发,指出基于标准的学业质量测评可以满足教学管理、教学研究、教师决策及学生学习策略调整等需求。基于不同的测试目的,测试可分为学业测试、分级测试、诊断测试及水平测试,应针对测试目的设计不同的测试内容和任务要求。在设计测试任务时,武尊民教授比较了客观题(selected-response)和主观性试题(unstructured-response)各自的优缺点及这两种题型的适用条件,特别强调在测试的信度之前,要确保测试的效度,对于一项没有效度的考试来说,信度再好也不能拿来所用。在测试结果的解读上,可采取原始分、百分位或标准分三种不同的计分方式。最后,武尊民教授结合听力理解、看图写作和连词成句三个案例探讨了针对不同群体的反馈需求,分数解释具有的不同意义。

武尊民教授

 

实践篇——突破传统,优化设计

武尊民教授以概要写作的定义和重要性为基础,概述了概要写作的理论支撑及任务构念,重点讲解了最常见的概要写作类型——复述(restatement),指出复述类概要写作的三大要求:准确(accurate)、完整(complete)和客观(objective)。随后武教授向老师们分享了四种概要写作任务形式,即直接进行概要写作、选择最佳概要、填空补充概要及概括文章或段落大意等。概要写作的评价应采取分项评分标准,以求更高的信度。在概要写作教学时,应要求学生首先理解语篇主旨和支持要点,然后练习用自己的话释义(paraphrasing),强调概要写作的关键在于“对原文的理解和要点重组”。

 

随后,林敦来副教授和郭乙瑶教授分别对北京师范大学的校本测评实践进行了分享。林老师首先分析了校本测评的特征、优势和理据,介绍了北京师范大学《综合英语阅读》的校本测评设计。结合《综合英语阅读》课程目标,该课程评价体系包括课堂作业与课外活动、小组展示、学业测试及年级水平测试四部分。林老师重点分享了阅读圈(reading circles)这一课堂作业形式,将全班学生进行分组,组内成员分别担任组织讨论者(discussion leader),单词大师(word master),总结者(summarizer),段落分析者(passage person)及生活联系者(connector)等角色,各自负责语篇学习的某一个维度,而后课堂上进行讨论。对阅读圈活动的评价可采取档案袋评价的方法,从五个维度对阅读圈活动分别进行评价和记录。

林敦来副教授

 

郭乙瑶教授以北京师范大学《研究生学术英语》校本测试的迫切性为出发点,针对非英语专业学术型研究生英语“硕博一体”课程设计体系,重点探讨了校本测评的反拨作用。郭教授首先介绍了本校的“多轨制”测评体系,在分享研究生通用学术英语校本测试笔口试设计的基础上,以《实用英语视听》、《学术文本品鉴》、《学术英语读译》等课程为例,介绍了形成性评估和终结性评估在校本测试中的应用,通过丰富的案例带领老师们了解了考试对教学的积极反拨作用。

郭乙瑶教授

 

高淼副教授基于口语测试任务的构念,分别介绍了口语测试任务的设计、评分标准及同伴互评在口语课堂评价中的运用。依据目前流行的互动能力视角下的口语能力模型,口语能力包括话题管理、话轮管理、互动听力、会话中断修复、非语言行为等能力要素。口语测试任务应遵循任务真实性、话题使学生有话可说、指令清楚、作答时间合理、图片质量清晰、难度适宜等六项总体原则。作为测试构念的可操作化的体现,口语评分标准的描述语应简短、清楚、确切和独立。高老师还重点介绍了适用于教学情境下基于任务的评价标准(EBB),并分享了评分标准的制定过程。最后,高老师以所教的《思辨阅读》课程为例,探讨了口头汇报任务的同伴互评教学实践任务,指出评价任务即学习任务本身。

高淼副教授

 

研究篇——助力科研,聚焦发展

林敦来副教授通过对语言评价素养概念的质性分析,梳理了素养、评价素养、语言评价素养等概念的定义及高质量课堂评价的教师行为指标,包括清晰的目的、明确的目标、良好的设计、有效的传达及学生参与等五个要素。在语言测评快速发展、关注度不断提高的大背景下,语言学习者、语言教师、教学管理者、政策制定者等不同的利益相关者都应具备不同维度、不同等级的测评素养。此外,林老师还总结了语言测评素养的研究现状并指出其研究空白,鼓励参班教师们积极阅读相关文献,提升测评素养,加入到语言测评的研究队伍中来。

 

交流篇——碰撞思维,群策群力

为鼓励参班教师深入交流,学以致用,本期研修班特别设计了小组实践活动与大班汇报环节,要求参班教师根据一篇学术英语讲座音频材料设计听力试题,制定详细的考试规范,并反思试题设计思路和过程中遇到的问题。参班教师们热情高涨,积极讨论,在有限的时间里呈现了精彩的汇报,专家们从文本映射(text mapping)、试题难度判断、指令语、评分标准、格式等方面进行点评并提出了切实可行的建议。

小组实践

 

大班汇报

 

经过两天的研修,参班教师不仅对语言测评相关理念有了深入的理解,而且对如何设计测试任务有了全面的认识。相信老师们一定会带着研修班收获的启发和鼓舞,投身到日常教学及测评中去,真正做到融教学评为一体,以测促教,以评促学。

 

反思日志摘抄

7-28

作为一线教师,测评渗透到我们工作的各个环节,无论是assessment of learning,还是assessment for/as learning,既体现了教师对于teaching和testing的belief,也是促进teaching和learning的有效手段。今天的讲座对于平时自己在课程中用到的测评方式有了系统的梳理和指导,也提供了一些可操作性的教、评方法。

 

2-23

在以前的教学实践中,绝大部分精力集中在教学部分,而很少集中思考测评。测评部分都是基于个人零碎而不成系统的认识来设计的。此次学习让我明白了在开展测评之前,要回到目标设定,进而思考测试设计,最后要有反思,从而保证测试质量,提高测试效度。

 

4-21

讲座中有很多的实践活动让我大开眼界。虽然有着高度的责任感,有教书育人的使命感,我一直困惑于课堂教学任务设计是否有效,或可以怎样设计任务让学生受益更多。现在我知道,评估方式可以反复多样化地使用,及时获得反馈调整。目标、任务与测试一条龙连贯实施,教学效果才可以保障。

 

4-28

在今后的出题中,可以结合今天所学,更为科学地组题出卷,更加注重测试题目的信度和效度,注意测试题目对于教学的反拨作用,使测试题目与课程能够紧密匹配,更好地促进与检测学生的学习。

 

7-12

Reading circles这种模式可以有效解决读写课相比较听说课学生参与度低的问题,也改变了教师让学生笼统做presentation时学生分工不明确的问题。