【全国公共英语等级考试口语测试的信度和效度研究】信度和效度

　　摘要: 本文作者通过测试理论研究和数据分析,探讨了全国公共英语等级考试口语测试的信度和效度。就测试的信度而言,要侧重施测(准备形式和测试过程)、测试内容(长度、难易程度)和评分(评分标准、评分依据、评分者)等方面的可靠性。测试的效度则应检验该测试是否具有内容效度、表面效度、标准效度(预示效度和共时效度)和理论效度,同时利用可靠系数检验该测试的信度。
　　关键词: 全国公共英语等级考试口语测试信度效度
　　
　　口语测试理论是语言测试学的一个重要组成部分,同时也是应用语言学研究的一个领域,即外语口语理论在外语口语教学测试方面的实际应用。国内对于口语考试的效度和信度的研究很少,对于公共英语等级考试口语测试的效度和信度的研究更是寥寥无几。由教育部考试中心推出的全国公共英语等级考试(PETS),是一种非学历性的英语等级考试,包括笔试和口试两部分。其口试的目的是测试考生的口头表达能力,属主观性测试。口语考试正是由于其主观性,评分的最大难度在于其公正性和一致性。PETS口试近十年来,是否真实地反映了考生的口语水平呢?其效度和信度如何?笔者以语言测试学和口语语言学理论为指导,根据多年的口语教学和测试经验,以山东某高校考点2008年下半年PETS口试结果进行研究,从信度和效度两个方面来分析该口语测试的质量。
　　
　　1.全国英语等级考试口语测试简介
　　
　　PETS口试通常包括三部分,旨在考查考生的口头交际能力:
　　A节:考查考生提供个人信息、回答有关他们日常生活、家乡、家庭、工作、学习等问题的能力。
　　B节:考查考生就信息卡上的图片或文字讨论有关问题的能力。
　　C节:要求考生就信息卡上的图片或文字作简短描述,之后与另一考生就同一话题阐述个人观点。口试按5分制计分,3分以上为合格。
　　
　　2.全国英语等级考试口语测试的信度
　　
　　信度指测试的稳定性。信度和效度有密切的关系,但这种关系却是单方面的。Alderson等认为,作为科学的语言测试,最关键的就是信度和效度,尤其是信度,没有信度就谈不上效度。[1]信度差则效度差,但效度差不一定信度也差。[2]因此可以得出结论:只有PETS口试具有高信度,才能为它的高效度提供保障。
　　
　　2.1施测信度
　　所谓施测信度,是指测试的准备形式和测试过程是否具有可靠性。在这方面,PETS口试具有很高的信度。首先,该测试在统一时间进行,考生在语言实验室同时考,同时录音,保证了测试的公平与保密。其次,每个考点的口语考官都要接受培训,保证考试的顺利进行。
　　
　　2.2内容信度
　　影响内容信度的因素主要有三方面:内容的长度、难度与区分度。[3]就长度而言,从理论上来讲,测试的内容题目越多,覆盖面越大,长度越长,其信度越高。有一定长度的口语测试不仅提供了充足的语言使用范例,还有助于尽量减少评卷人偏见的影响。从这一点来看,PETS口试的信度值得信赖。该测试的时间(不包括说明及监考人员分发、收回磁带的时间)大约是15分钟,基本满足了长度要求。当然,如果时间能达到20~30分钟,其信度会更高。就难度与区分度而言,无论测试是过易还是过难,都会影响区分度。所以高信度的测试应该是有难有易,先易后难。而PETS口试的难度和区分度掌握得很好。前边两部分的内容简单些,第三项内容则稍难,而且从学生成绩的分布也体现了区分度。
　　
　　2.3评分信度
　　首先,评分信度取决于评分标准。评分标准是否具体、准确、便于操作,直接决定了评分的信度。PETS口试的评分标准非常具体。PETS的口试评分采用分项评分法(Analytic scoring)和总体评分法(Global scoring)相结合的标准,保证了其标准信度有很高的可靠性。PETS口试采取两名口试教师和两名考生的形式。一名口试教师(assessor)不参与交谈,专事判分,负责打出各分项分;另一名口试教师(interlocutor)主持口试,同时与考生交谈并负责评定总体印象分(Impression-based score)。PETS一级和二级的能力分项包括语法与词汇、语音语调和交际互动三方面。PETS三级至五级的能力分项则包括语法与词汇、话语运用、语音语调和交际互动四方面。每分项有五个等级,每个等级都有详细的文字描述。总体分和分项分各有0-5分六个等级,3分为及格。考生分数由总体分和分项分组成,按照以下公式合成口试成绩:考生实际得分=(interlocutor给分×2+accessor给分)÷6。
　　其次,评分信度取决于评分依据。为防止考官对考生先入为主的印象,或者由于疲劳忽略部分内容,评分先松后紧或先紧后松等现象的发生,该考点对PETS口试采用录音的方式。为考生的复议和今后的复查提供了客观依据,同时这对考官也可以起到监督作用,保持考官自身评分的一致性(intra-rater consistency),提高评分效度。
　　再次,评分信度取决于评分人。要实现评分人的客观评分,必须做到以下两点:1)评分人要用分析法;2)评分人应该经过训练。[2]PETS口试在评分过程中的确采用了分析法。例如,第二部分的看图说话和第三部分的个人陈述,评分者从语音、语法、用词、交际能力等方面进行评定。PETS口试由两位评分人同时评分后进行合成计算。而且评分人在评分前都接受了培训,这就保证了评分人之间的评分一致性(inter-rater consistency)。
　　综上所述,PETS口试具有很高的评分信度。
　　
　　2.4公式法对PETS口试信度的检验
　　检验测试的信度,可以利用重测法、重评法等。但是因为学生只参加一次考试,所以采用重测法是不实际的。而重评法也只能在评卷中心进行。因此,本文采用公式法。公式法利用公式求出试题的可靠系数,如果可靠系数小于0.4,则试题的信度偏低。
　　利用上面的公式,通过对2008年下半年PETS考生口语测试成绩进行分析,1-5级口试的可靠系数为2.33、2.12、1.65、2.21、2.31,均超过了可靠系数最低值0.4。这一数据表明,PETS口试具有高信度。
　　
　　3.PETS口语测试的效度
　　
　　所谓效度,是指根据测试成绩得出的具体推断是否合理、有意义、有作用[5]。根据Bachman和刘润清的著述,笔者将效度分为内容效度、表面效度、标准效度(预示效度和共时效度)和理论效度。[2][3]
　　
　　3.1内容效度
　　内容效度是最重要的一项。它包括两方面:内容的相关性和覆盖面。
　　在内容的相关性方面,Popham(1978)指出应包含三个因素:测试的目的是什么;赋予应试者的刺激的属性;应试者可能提出的答案的性质。[6]
　　PETS各级口试评价目标如下:
　　PETS 1该级考生应能在熟悉的情景中进行简单信息交流,例如询问或传递基本的事实性信息,能适当运用基础的语法知识。
　　PETS 2该级考生应能在熟悉的情景中进行简单对话,例如询问或传递基本的事实性信息,应能提供或是要求得到更清楚的阐述,同时口才也能表达简单的观点和态度,能适当运用基本的语法知识。
　　PETS 3该级考生应能在生活和工作的多数情景中进行对话,不仅能够询问事实,还能询问抽象的信息,应能提供或是要求得到更清楚的阐述,同时口才也能表达简单的观点和态度,能适当运用基本的语法知识。
本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文　　PETS 4该级考生应能参与一般性或专业学术话题的讨论,不仅能够询问事实,还能询问抽象的信息,能够就某一观点的正确与否进行争论,详细说明一个问题、一个过程或一个事件。此外还能就某个一般性问题或所熟悉领域的问题进行阐述,能适当运用基本的语法知识。
　　PETS 5该水平的英语也能满足他们在国内外从事专业和管理工作的基本需要。该级考生应能就各种话题自如地进行对话与讨论。能就其工作的多方面与他人进行深入广泛的交流,并能进行有效辩论,清楚地阐述自己的需求,能适当运用基本的语法知识。[7]
　　PETS口语测试就是依据该目标要求设计了三项测试内容。从测试目的上看,该测试体现了对正确表达思想,语音、语调自然,无重大语法错误,语言基本得体等方面的考查。在刺激的属性方面,PETS口试的测试内容都与学生的生活和学习有关,而且绝大多数题目的选材范围合理。
　　在内容的覆盖面方面,PETS口试采用了多个题目以期真实地反映学生的口语水平,并能考虑到语言的文化因素。另外,在语言的得体性方面,PETS口试的设计应该更完善。语言要得体,应试者就要注意符合场景中的角色、身份、话题的要求,注意和自己的工作和学习实际相结合。
　　
　　3.2表面效度
　　表面效度是指一个测试至少要从表面上看来是合适的。第一部分日常会话,目的是给考生创造一个友好的考生气氛,降低其考试焦虑,使考生的口语水平发挥更有保障。另外两部分都是按照考试要求,模拟现实生活会话,能够很好地检测考生在实际生活中运用英语进行沟通交流的能力。因此,PETS口试具有很好的表面效度。
　　
　　3.3标准效度
　　标准效度包括预示效度和共时效度。预示效度是指一次测试与后来的测试相比较所得的系数;共时效度是指一次测试与另一次时间较为接近的测试结果比较得出的系数。通过实践,笔者得出PETS各级别的口试的两个系数都在+1.00和-1.00之间,由此可以得出结论:PETS口试具有标准效度。
　　
　　3.4理论效度
　　理论效度是指测试是否有理论依据。在这方面,笔者认为关于“口语”的概念值得考虑。早在19世纪英国语言学家H.Sweet 就开始了对口语的研究。他在1890年出版的《英语口语初步》(A Primer of Spoken English) 中提出英语口语是“受过教育的英国人的口语”这一概念。20世纪50年代英国语言学家H.Palmer撰写了许多关于口语和口语教学的书籍,在《英语口语语法》中提出“英语口语是受过教育的人(特别在英国的南部)在日常会话或给亲密的朋友的信件中所使用的那种英语”。[8]综上所述,“口语是操标准语的人,主要用口头形式(对话或独白),在非正式场合使用的、无准备、无拘束的言语”。[8]
　　基于这一概念,PETS口试中有几个问题仍值得商榷:1)口试的内容是否体现了口语概念的界定?真正的口语水平应该是在无准备的状态下体现的。在PETS口试符合这个条件,可以被称作是在自然的交际状态下进行的。但是在第一部分中,虽然没有准备时间,但所考内容考生完全可以凭经验,就所考查的话题提前准备好,这在一定程度上就降低了考试的效度。所以,在PETS口试中,命题者应该对该部分进行必要的改革。2)考生应该使用什么样的词汇;口语化的、不正式的还是书面语化的、正式的?PETS口试在这方面没有明确的要求和说明,因此,考生所用的语言没有明显地体现出口语与书面语体的不同。3)有关言语的其它理论如合作原则、礼貌原则在最后一部分对话任务中有所体现,但是汉语和英语在这方面的差异,如量的准则、赞扬准则、谦虚准则等方面的文化差异,应该被考虑进来。
　　
　　4.结语
　　
　　综上所述,PETS口试无论是在内容、施测还是评分方面都具有很高的信度,这一点已得到了公式法的检验。这反映了出题者的精心设计。从效度来看,PETS口试具有很高的标准效度;在内容效度和表面效度方面有很多值得肯定的方面,当然也有许多地方有待进一步提高,在理论效度方面还需加强。
　　另外,还有三方面的问题需要引起注意。
　　其一,PETS口试的第一项,虽然在评分时强调如果是背诵现成的文章即扣分,但这个尺度毕竟不好把握。因此,PETS口试可以考虑把文化知识揉和进去,这样考生的口语水平会得到更真实的体现。
　　其二,PETS口试采用交换评分人的做法,这在一定程度上降低了评分信度。同一名考生在不同的评分人评分时会造成很大的差异。例如:对于考生C,考官A给他2分,考官B给他3分,如果轮换评分,则该生成绩分别为:(2×2+3×4)/6=2.67;(3×2+2×4)/6=2.33。如果采用四舍五入的方法,仅仅因为轮换考官就会造成考生一次合格、一次不合格的巨大差异。
　　其三,PETS口试采取直接面试的形式,考官培训及与逐个考生进行交流费时费力;另外,考官对考生来讲,也会形成一定的心理压力,影响考生的正常发挥。
　　PETS口试推广近十年来,比较客观地反映了学生的口语水平,在信度和效度上达到了较好的平衡。但对于如何提高PETS口试的效度和信度仍旧有必要进行进一步研究,是其真正成为高水平的口语测试。
　　
　　参考文献:
　　[1]Alderson,J.C.,Clapham,C.,Wall.,D.LanguageTest Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.
　　[2]刘润清.语言测试和它的方法[M].北京:外语教学与研究出版社,1991.
　　[3]Bachman,L.F.Fundamental Considerations in Language Testing[M].上海:上海外语教育出版社,1999.
　　[4]蔡整莹.口语课程测试的可靠性与有效性[C]∥语言文化教学研究集刊(第三辑).北京:华语教学出版社,1999.
　　[5]American Psychological Association.Standards for Educational and Psychological Testing[M].Washington, D.C. American Psychological Association,1985.
　　[6]Popham,W.J.Criterion-Referenced Measurement[M]. Englewood Cliffs,NJ:Prentice Hall,1978.
　　[7]全国公共英语等级考试指南――评价目标[DB/OL]http://www.省略/exam/dt_3307.asp
　　[8]徐翁宇.现代俄语口语概论[M].上海:上海外语教育出版社,2000.
本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文

推荐访问:口语英语等级考试测试研究