- 罗凯洲,2019,评Kunnan基于道德准则的测试评价模式[J],《现代外语》,42(4):575-585。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:
"基于道德准则的测试评价模式"是国际语言测试协会前主席Antony John Kunnan教授针对语言测试评价提出的新模式。该模式建立在测试公平框架的基础之上,以Rawls和Sen的道德哲学思想以及Toulmin的论证模型为理论基础,专从公平与正义视角探讨如何进行测试评价。然而,该模式并未明确界定"公平"与"正义"这两个关键概念,且对Rawls、Sen和Toulmin三位哲学家思想的应用可能存在一些疏漏,模式的具体主张和理据与测试公平框架及效度论证模式也存在诸多相似之处,有新瓶装旧酒之嫌。尽管如此,该模式对从业者理清效度与公平的关系、区分测试利益攸关者责任、开展系统性测试评价研究等方面有一定的启示意义。
关键词:准则评价模式; 公平; 正义; 效度; 效度论证模式;
- 李清华,2016,语言测试的公平性检验框架[J],《现代外语》,39(4):549-560。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:
本文参照BachmanPalmer(2010)的语言测评使用论证理论,提出了语言测试公平性检验框架。我们认为,基于技术属性和社会属性,公平性可以分为"测量公平性"和"社会公平性"两部分,前者是效度的一部分,其检验属于开发者的效度验证;后者是社会问题,其检验应由测试使用者负责。本框架厘清了公平性与效度的关系,明确了公平性检验的具体步骤、操作化研究问题以及公平性检验的主体,适用于大规模、高风险语言测试的公平性检验,也可以供教育测量的其它领域借鉴。
关键词:公平性; 公平性检验; 公正性; 效度; 语言测试;
- 李清华、孔文,2015,外语形成性评估的效度验证框架[J],《外语教学理论与实践》,34(1):24-31。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:
本文基于国外学者对形成性评估效度和信度理论的研究,提出适用于形成性评估的效度验证框架。本框架采用Messick(1989)的"整体效度观",把形成性评估的效度界定为,评估结果的解释和使用是否和在多大程度上真正促进了学生学习的进步?效度验证应当从评估的构念、任务、过程、结果的解释和使用、后果和课堂环境等方面收集证据。参照Bachman&Palmer(2010)的AUA模式,本框架明确了效度验证所要回答的问题及其研究方法。
关键词:形成性评估; 效度验证框架; 效度; 外语教学;
- 刘凤阁,2015,“二语动机自我系统”理论模型在中国不同英语学习者群体中的效度分析[J],《外语教学理论与实践》,34(1):19-23。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:
本文在Drnyei的"二语动机自我系统"理论研究框架下,以中国不同英语学习者群体为研究对象,通过一项实证研究,对"二语动机自我系统"理论模型进行了一次效度验证。实证调查工具为两份调查问卷,共收集了956名被试的调查数据。结构方程模型分析显示模型的拟合指数达到了拟合标准;路径分析统计结果也显示模型的绝大部分路径是显著的。研究结果表明,在不同中国英语学习者群体中,"二语动机自我系统"理论模型的效度都是可以接受的。
关键词:二语动机自我系统; 效度; 动机; 英语学习; 中国不同英语学习者群体;
- 王玉萍,2015,二语测试和评估中的口语区别性特征研究[J],《解放军外国语学院学报》,38(2):102-108。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:
本文通过综述和分析二语口语测试和评估中口语语篇区别性特征研究,发现该领域存在4方面问题:1)口语能力定义模糊且过于宽泛,导致口语区别性特征研究缺乏统一的理论框架;2)口语能力同一维度中,口语语篇区别性特征指标标注缺乏理论指导,指标选取随意性较强;3)同一区别性特征定义以及测量方式不尽相同,导致不同研究无法比较;4)选用的区别性特征缺乏效度验证。在讨论了口语语篇区别性特征研究的最新发展趋势后,本文指出今后我国口语语篇区别性特征研究要从3个方面予以加强。 更多还原
关键词:口语区别性特征; 流利性; 效度; 语音语调;
- 王玉萍,2015,二语测试和评估中的口语区别性特征研究[J],《解放军外国语学院学报》,38(2):102-108。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:
本文通过综述和分析二语口语测试和评估中口语语篇区别性特征研究,发现该领域存在4方面问题:1)口语能力定义模糊且过于宽泛,导致口语区别性特征研究缺乏统一的理论框架;2)口语能力同一维度中,口语语篇区别性特征指标标注缺乏理论指导,指标选取随意性较强;3)同一区别性特征定义以及测量方式不尽相同,导致不同研究无法比较;4)选用的区别性特征缺乏效度验证。在讨论了口语语篇区别性特征研究的最新发展趋势后,本文指出今后我国口语语篇区别性特征研究要从3个方面予以加强。
关键词:口语区别性特征; 流利性; 效度; 语音语调;
- 杨惠中,2015,有效测试、有效教学、有效使用[J],《外国语》,38(01):2-26。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:
中国是考试大国,各种考试难计其数。但是,人们对考试的现状并不满意,因此对"测试反拨作用"、"测试后效"的讨论成为人们关注的话题;但在讨论中也存在一种泛化的倾向。无疑,正面反拨作用和正面后效是一项好的考试的必要条件。语言测试工作者在设计一个考试项目时必须力求做到考试能够正确地引导教学,并且能够对社会产生良好的后效。同时应当清醒地看到,考试的作用实际上是有限的,考试即使能够对教学产生正面反拨作用,也是一种长效作用;另一方面,考试是在一定的社会环境中进行的。所谓后效,只有当考试结果被实际使用以后才会发生,而考试结果的使用本身是一种社会性决策,不是单纯的测试学术问题,并不在语言测试工作者能够控制的范围之内。因此必须全面看待考试、教学和考试结果的使用三者之间的关系。事实上考试有好坏之分,教学也有好坏之分,考试结果的使用还有正确与否、恰当与否的区别,不能一概而论。这里有学术问题,有社会问题;有测试问题,有教学问题;有测试的内容问题,有测试的形式问题;纠结在一起,需要擘肌分理,一一澄清,否则无法得出正确的结论。笔者认为,考试、教学和考试结果的使用,三者构成一个系统,要发挥系统的作用,三者必须协调。实际上三者是不同的过程,虽然密切相关,但毕竟不是同一回事,应当区分开来,各司其职、各尽其责。只有各方正确处理好各自的关系,做到有效测试、有效教学、有效使用,才有可能找到正确的解决之道,取得整个系统的最佳效果。
关键词:语言测试, 有效教学, 效度, 反拨作用, 后效, 语言测试社会学
- 陆芸、鲍贵、崔北亮,2013,英语学习者词汇复杂度三种测量方法对比研究[J],《解放军外国语学院学报》(05):44-48。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:本文设计了传统的词频分布(Lexical Frequency Profile,LFP)、改进的P_Lex和随机取样等三种词汇复杂度测量方法的计算机程序,通过分析三种方法的信度和效度并进行比较,试图找出测量词汇复杂度的最佳方法。研究发现,虽然三种方法都表现出一定程度的信度和效度,但是LFP明显受长度影响,改进的P_Lex方法和随机取样方法受文本长度影响小,特别是随机取样方法可以用于分析较短文本和比较不同长度的文本,因此更适用于分析二语学习者的产出性文本。
关键词:词汇复杂度, 词频分布, 随机取样法, 改进的P_Lex法, 信度, 效度
- 王初明、亓鲁霞,2013,读后续写题型研究[J],《外语教学与研究》(05):707-718。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:本文报道一项开发考试新题型的研究,探讨促学优势明显的"读后续写"任务能否用于外语水平考试。调查在高中生中取样,运用Rasch模式等统计方法分析。结果显示:从效度方面看,读后续写分数与高考难度相当的英语阅读理解和书面表达分数显著相关,还与教师给学生英语水平的排名显著相关,说明该题型能够有效测量学生的阅读与写作水平;从信度方面看,续写题型的可靠性在很大程度上取决于评分工具的质量、评分员的培训以及评分的操作,而非题型本身。依据本次调查的评分量表打分,能够较好地将各能力段的学生区分开来。
关键词:读后续写, 阅读, 写作, 效度, 信度
- 彭康洲、张艳莉,2013,文本可听性对听力理解的影响[J],《外语教学》(3):50-53。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:可听性是语言口语性的外在表现。本研究探讨文本的可听性对听力理解的影响。以TEM4听力理解为研究对象,采用线性回归分析和ANOVA方差分析方法,调查了影响不同体裁项目难度的可听性文本特征,以及各体裁项目的难度差异。研究发现,仅文本的可听性变量如词汇、语音、句法和语篇知识很难精确地预测题目难度。因此语言测试效度需要多方面多角度进行研究。
关键词:效度, 体裁, 文本, 可听性
- 韩宝成、罗凯洲,2013,语言测试效度及其验证模式的嬗变[J],《外语教学与研究》(3):411-425。
[ 详情
摘要
关键词
收藏
取消收藏
]
江进林推荐: 本文以教育测量领域中效度观念的演变为线索,评析基于论证的效度验证模式的优势与不足,给读者提供了效度研究的概貌。
摘要:
效度向来是评价测试质量的重要标准,语言测试也不例外。语言测试的效度及验证模式几乎完全遵从了教育测量理论的发展。本文以教育测量领域中效度观念的演变为线索,从分类、整体、论证三个视角探讨近60年来效度及其验证模式在语言测试领域的应用与创新,并以测试使用论证(AUA)为例,评析基于论证的效度验证模式的优势与不足。
关键词:效度,效度验证,解释性论证,效度论证,AUA
- 杜默君、纪蓉琴,2013,网络环境下任务型语言测试效度的实证研究[J],《外语电化教学》(1):53-56。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:本研究采用调查问卷与实证性语言测试的研究方法,专门针对网络环境下的任务型测试效度问题进行探讨。通过SPSS13.0对测试结果的分析表明,在网络环境下进行任务型测试,测试效度达到较高标准,具有统计学意义;与全国大学英语四级考试(CET4)相关性较高,属于可靠范围,任务型测试表现出与CET4较高的一致性。
关键词:网络环境, 任务型测试, 效度
- 江进林、王立非、王志敏,2012,学生英译汉分析性评分标准的研制[J],《外语与外语教学》(6):56-60。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:本研究针对中国学生英译汉的特点,从语义和形式两方面制定了一套分析性评分标准,并邀请三位评分员以此标准对300多篇译文进行了评分。数据显示,单句译文的语义-总分相关系数都在0.9以上,形式-总分相关系数基本上在0.7以上,显示出良好的构念效度。单句译文分析性评分与整体性评分的相关系数都高于0.7,表明分析性评分具有较高的外部效度。并且,三位评分员对语义、形式总评分之间的相关度都在0.8以上,没有显著差异,表明评分员之间的一致性良好。综合各方面的数据可以发现,本研究提出的评分方法具有良好的信度和效度。
关键词:英译汉, 分析性评分, 信度, 效度
- 徐柳明、刘振前,2013,英语词汇量测试卷的编制及其信度与效度检验[J],《外语教学理论与实践》(1):79-85。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:本研究依据有关词汇测试的设计原理及模式,编制了词汇量测试卷,先后进行了两轮试测,运用SPSS18.0,对试卷项目进行筛选及修订,最终形成含104个题目的词汇量测试卷。信度、效度检验结果显示,试卷内在一致性信度Cronbach系数(0.918)、重测信度(0.644,p=0.000)以及效标区分法效度(t=6.358,p=0.000)、结构效度各level得分之间及与总得分之间的相关性系数分别在(0.068~0.496和0.294~0.812)均达到测试学要求,本测试卷可作为新课改下非英语专业大学生的词汇量测评的有效工具。
关键词:英语词汇量测试, 项目筛选, 信度, 效度
- 赵南、董燕萍,2013,基于多面Rasch模型的交替传译测试效度验证[J],《解放军外国语学院学报》,36(1):86-90。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:本研究对一次交替传译测试结果进行多面Rasch模型检验,从评分标准、评分员、被试和任务4个方面验证了测试的效度,并用偏差分析发现了影响测试结果的因素。检验结果显示:1)所用分项评分标准和任务设计能够显著体现和区分被试口译水平,适合用于口译教学测试的评分;2)评分标准中的"口译技巧与素质"子项对测试结果的整体效度略有影响,可做进一步改善。
关键词:多面Rasch模型, 效度, 交替传译测试, 分项评分标准
- 江进林、王立非、王志敏,2012,学生英译汉分析性评分标准的研制[J],《外语与外语教学》(6):56-60。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:本研究针对中国学生英译汉的特点,从语义和形式两方面制定了一套分析性评分标准,并邀请三位评分员以此标准对300多篇译文进行了评分。数据显示,单句译文的语义-总分相关系数都在0.9以上,形式-总分相关系数基本上在0.7以上,显示出良好的构念效度。单句译文分析性评分与整体性评分的相关系数都高于0.7,表明分析性评分具有较高的外部效度。并且,三位评分员对语义、形式总评分之间的相关度都在0.8以上,没有显著差异,表明评分员之间的一致性良好。综合各方面的数据可以发现,本研究提出的评分方法具有良好的信度和效度。
关键词:英译汉, 分析性评分, 信度, 效度
- 黄纪针,2012,国外档案袋评价应用和研究述评[J],《解放军外国语学院学报》,35(6):46-52。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:档案袋评价是指通过有目的地、系统地收集学生作品,记录和评价学生学习进步的过程和取得的学习成就。它是一种动态的、以学习者为中心的促进学习的评价,是可选评价文化的典范。外语教育可参照的档案袋评价可分为外语课堂档案袋、欧洲语言档案袋和世界语言档案袋等。本文概述国外档案袋评价,介绍上述三类档案袋的特点及其应用,评析这一评价形式的信度、效度和可行性问题,最后对其未来发展和研究趋势进行展望。
关键词:档案袋评价, 外语课堂, 信度, 效度
- 鲍贵,2011,英语学习者词汇复杂度的最新测量及验证[J],《山东外语教学》,32(6):44-52。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:本研究介绍一种不受文本长度影响的英语学习者词汇复杂度测量方法———高级词汇多样性,论证该方法既测量学习者作文高级词型的使用量,又测量高级词型的使用频数。对模拟数据的描述性分析为高级词汇多样性的构念效度提供了有力的证据。方差分析表明,高级词汇多样性能够很好地区分不同英语水平组。高级词汇多样性与学习者英语作文质量、词汇多样性呈正相关,且在控制文本长度的条件下,和传统的高级词型与标记比率呈中高度正相关,说明高级词汇多样性有良好的共现效度。配对样本T检验发现,在短间隔的学习者两组作文中,高级词汇多样性测量具有稳定性。
关键词:词汇复杂度, 高级词汇多样性, 参数D, 效度, 信度.
- 杨琪,2012,计算机辅助大规模英语口语测试的实践与反思[J],《外语电化教学》(2):15-19。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:口语测试是语言测试不可缺少的组成部分。在传统的口语测试环境下;由于测试时间和教师人数与能力的限制;口语教学和测试的机会不能提供给非英语专业的学生。计算机辅助大规模口语测试是大学英语教学改革中的一个新生事物;与传统的口语测试相比较;有多方面的优势。文中详细介绍了计算机辅助大规模英语口语测试的实践过程及反思;为其他院校开展大规模英语口语测试、更好地提高大学生英语口语能力提供一些建设性意见。
关键词:口语测试, 计算机辅助, 信度, 效度
- 穆惠峰,2011,基于语料库的大学英语四级完型填空测试内容效度验证研究[J],《外语电化教学》(4):66-70。
[ 详情
摘要
关键词
收藏
取消收藏
]
摘要:本文运用自建语料库、中国学生英语口笔语语料库(SWECCL)、布朗语料库(BROWN)和英语国家语料库(BNC);以大学英语四级考试的完型填空测试项目为研究对象;对基于测试内容的效度证据进行实证研究;探讨语料库在该研究领域的实际运用;目的在于将先进的计算机信息技术应用于语言测试研究中;从而提高我们语言测试试题的命题工作质量和语言测试的真实性。
关键词:效度, 语言测试, 完型填空, 语料库