简介:本研究以"中国学习者英语语料库"中的大学英语四、六级考试作文为研究样本,比较300篇作文的人工评分和国内某自动评分系统结果的差异;同时利用人工和软件结合的方法,分析作文的词汇、句法、语篇和错误等四类语言类定量特征对人工和机器评分的影响,揭示人机评分差异的成因。结果显示,自动批改系统整体评分效度有待提高;机器所依赖的语言类量化特征在人工批改中的作用有限,评分依据的不同造成两者结果的差异。
简介:大规模语言运用测试(performanceassessment)中评分员的评分质量直接关系到考生的命运和考试成绩的信效度及公平性,因此如何通过有效的评分员培训最小化评分误差是确保考试成绩有效性的重要问题。本研究运用多层面Rasch模型(MFRM)中所提供的丰富的统计信息对评分员的评分数据进行诊断分析,研究表明,MFRM输出的统计结果可以较为全面地诊断评分员在评分中所存在的问题,为评分员培训提供更加具有针对性的反馈信息,也可以作为区分评分员准确度高低的依据,为更多评分员误差研究提供有效的测量工具。