- 相關(guān)推薦
閱卷管理與監(jiān)測系統(tǒng)
——大規(guī)模考試作文評分研究系列之六
上文說過,大規(guī)模考試中作文評分的誤差控制包括三個(gè)不可缺少的基本環(huán)節(jié),這就是評分標(biāo)準(zhǔn)、評分方法 和閱卷管理。監(jiān)測系統(tǒng)是閱卷管理系統(tǒng)中一個(gè)有特殊意義的組成部分。一次大規(guī)模作文考試,如果沒有一套完 善的管理制度,沒有一個(gè)有效的監(jiān)測系統(tǒng),則任何評分標(biāo)準(zhǔn)的厘定、評分方法的改進(jìn)都只是一句空話。
在測試研究中,考務(wù)管理是一個(gè)專門的領(lǐng)域;在測試機(jī)構(gòu)中,考務(wù)管理是一個(gè)有特定職能的分支機(jī)構(gòu)? 慮到本刊的讀者對象,以下只作約略的概述。
1.大規(guī)模作文考試的閱卷管理系統(tǒng)
大規(guī)模作文考試的閱卷管理系統(tǒng)應(yīng)承擔(dān)以下三個(gè)方面的職責(zé):a.閱卷的業(yè)務(wù)領(lǐng)導(dǎo),b.閱卷人員的行政 管理,c.閱卷質(zhì)量的監(jiān)測。在現(xiàn)階段,我國比較完善的閱卷管理程度可以示意如下:
作文閱卷管理示意圖
(附圖 {圖})
現(xiàn)代科技的發(fā)展,為作文閱卷的管理提供了重要的輔助手段。借助這種手段,閱卷管理的主要工作有:
①試卷的隨機(jī)編排
試卷的隨機(jī)編排就是把不同學(xué)校的考生打亂混合排列。有了電腦,這項(xiàng)工作在技術(shù)上是不難解決的。重點(diǎn) 學(xué)校與非重點(diǎn)學(xué)校之間,水平可以相差很大,如果不解決隨機(jī)編排問題,則監(jiān)測系統(tǒng)的數(shù)據(jù)將失去代表性,既 使得這些數(shù)據(jù)缺乏應(yīng)有的說服力,也容易出現(xiàn)盲目的調(diào)控。有了隨機(jī)編排,不但閱卷員的評分狀況能夠得到比 較客觀的反映,而且就閱卷員本人來說,由于一本試卷(即同一考場中)兼有各類學(xué)校的考生作文,可以大大 減弱評分心理的位置效應(yīng)(參閱《系列之一》)。此舉可以消除評分的系統(tǒng)誤差,即各校的平均成績與其實(shí)際 水平大體接近,但還不能遏制評分的隨機(jī)誤差(參閱《系列之一》文末注釋)。
②閱卷員的選擇與培訓(xùn)
《系列之三》所披露的數(shù)字表明,閱卷人員決不是“年齡大、職稱高”才好。閱卷隊(duì)伍的形成應(yīng)該是一個(gè) 選擇的過程,由于大規(guī)?荚囎魑脑u分的特點(diǎn)與困難,閱卷者應(yīng)該是一支半專業(yè)化的隊(duì)伍,為此,需要逐步建 立閱卷人員檔案!案呖甲魑脑u分誤差控制”課題組的試驗(yàn)省分有的正考慮實(shí)行“閱卷員證書”制度(國外已 有),這是條很有價(jià)值的措施。
在選擇閱卷人員的基礎(chǔ)上還要進(jìn)行培訓(xùn)。以下兩項(xiàng)調(diào)查反映了短期培訓(xùn)的效果。
調(diào)查A
取各類作文10篇,15名閱卷員在培訓(xùn)前后兩次重評。結(jié)果如下:
培訓(xùn)前 培訓(xùn)后 篇平均標(biāo)準(zhǔn)差 4.84 3.97 總體標(biāo)準(zhǔn)差 3.97 4.63
可見經(jīng)過培訓(xùn),閱卷員評分的一致性有所提高,在拉開分?jǐn)?shù)距離方面情況有所改善。
調(diào)查B
取各類作文60篇,分成對等兩組,16名閱卷員先評第一組(作為培訓(xùn)材料),相隔3日再評第二組, 結(jié)果如下:
第一次 第二次 篇平均標(biāo)準(zhǔn)差 3.467 3.105
觀測結(jié)果與調(diào)查A相近。
培訓(xùn)可以有兩種方式:a.短期集中培訓(xùn),b.結(jié)合閱卷過程進(jìn)行。后者一般都與樣本卷討論和典型卷討 論合并進(jìn)行,將在下面專門介紹。
③樣本卷的選定及其策略
即使有了比較完備的評分參照量表(參閱上期),每次大規(guī)模考試的樣本卷仍是不可少的。這是因?yàn)槊磕?的試題都有其個(gè)性,有其需要特殊處理的矛盾,需要根據(jù)當(dāng)年試題情況編制樣本卷系列予以解決。
樣本卷的功能,一是使評分標(biāo)準(zhǔn)明確化、具體化,二是針對影響閱卷穩(wěn)定的心理因素予以盡可能的控制。 因此編制樣本卷系列,在著眼點(diǎn)方面,在策略方面,和參照量表的編制可以有所不同。參照量表的編制要遵循 “等距性”原則,即各典型例卷之間,如果按百分制計(jì)算,其分距大體上是相等的;樣本卷系列的制訂,則可 以進(jìn)一步著眼于“分界線”和“分歧點(diǎn)”。
例如:“趨中傾向”(參閱《系列之一》)是大規(guī)?荚囋u分中一個(gè)比較突出的問題,針對這種情況,1 991年江西省在高考作文評分選定樣本卷時(shí)采取了以下對策:a.一、二類樣本卷取下限,b.三類卷取上 、下限。采取上述措施的結(jié)果,各類試卷的分布狀況有所改善: 類別 一 二 三 四 五 百分比 2 22 43 27 5
高考作文每年分值不同,為了便于比較,重新劃分分?jǐn)?shù)段使之能與1990年相對應(yīng),結(jié)果如下:
(91)29---35 (91)20---28 (91)12---19 (91)1---11
(90)33---40 (90)23---32 (90)14---22 (90)1---13
1991 10% 46% 36% 8%
90(綜) 6% 58% 27% 9%
90(綜) 11% 62% 22% 5%
從表中的數(shù)據(jù)可以看出,高分?jǐn)?shù)段的情況沒有顯著變化,而第二檔次的人數(shù)有大幅度下降,第三檔的數(shù)字 有明顯上升。從整體上看,打保險(xiǎn)分,送“及格”分的傾向有所抑制。
再取同是采用分項(xiàng)評分法的90年文科考生分與91年全省考生抽樣統(tǒng)計(jì)的平均數(shù)、標(biāo)準(zhǔn)差、變差系數(shù)( 標(biāo)準(zhǔn)差/平均分)相比,結(jié)果如下:
平均分 標(biāo)準(zhǔn)差 變差系數(shù) 90年(滿分40分)24.65 6.65 26.98% 91(滿分35分) 20.17 6.41 31.78%
統(tǒng)計(jì)表明,變差系數(shù)有所增加,即分?jǐn)?shù)離散狀況好于前一年。
“分歧點(diǎn)”就是容易引起分歧的問題。每年閱卷,都可以發(fā)現(xiàn)“有的作文好評,有的作文難評”現(xiàn)象。對 于某些作文,評分比較容易趨于一致,對于另一些作文,看法往往分歧。歸納、分析、研究這些評分差別較大 的試卷,及時(shí)提出來討論,統(tǒng)一認(rèn)識(shí),納入樣本系列,是極其重要的。
④閱卷流程管理
根據(jù)我國慣例,大規(guī)模作文考試通常在暑期或接近暑期進(jìn)行。在高溫、大兵團(tuán)突擊作戰(zhàn)的閱卷?xiàng)l件下,應(yīng) 該特別注意閱卷人員的生活安排和保健措施。就閱卷流程管理而言,要特別注意以下兩項(xiàng)工作:
a.均衡投卷,控制速度
閱卷速度必須均勻,前松后緊之類都必然擴(kuò)大誤差?紤]到閱卷員熟練程度不斷提高,可以先略慢后稍快 ,但各組之間必須同步前進(jìn)。要嚴(yán)禁各組攀比速度,領(lǐng)導(dǎo)小組要掌握進(jìn)度,但決不應(yīng)公布進(jìn)度,一公布必然對 較慢的組產(chǎn)生壓力而滋生誤差。此外,如果閱卷人員之間存在著利害關(guān)系(相互競爭的學(xué)校、區(qū)縣等),試卷 的投放還要注意流向,以免人為因素干擾。
閱卷的速度與質(zhì)量有直接關(guān)系,速度過快必然評估粗糙。由于目前實(shí)行的承包制以及閱卷數(shù)量與報(bào)酬掛鉤 的原因,閱卷速度不斷加快。據(jù)了解,高考作文有的地區(qū)個(gè)別閱卷員的速度竟達(dá)到日300份以上,在這種情 況下,閱卷質(zhì)量是無法得到保證的。承包制不適用于作文閱卷,必須予以解決。
b.制訂行為準(zhǔn)則
“多元評定法”是減小各評閱者評分誤差的重要措施。根據(jù)賽蒙茲(Symonds)的研究,一組作文若由兩人 評定,其相關(guān)系數(shù)為0.55,經(jīng)四人評定后再由另四人評定,則相關(guān)系數(shù)可達(dá)0.82,若經(jīng)八人評定后再 評定,相關(guān)系數(shù)可以增加到0.90。目前,美國威斯曼的“快速印象法”和英國倫敦教育研究所的實(shí)驗(yàn)都要 求一份試卷經(jīng)四人評定。在我國,一般原則上規(guī)定一份試卷應(yīng)由兩人共評,要求已經(jīng)很低,但實(shí)際上仍無法做 到。在這種情況下,應(yīng)該就“對子”行為作出一些規(guī)定,例如至少要求兩人先共評若干份,分評后每天必須相 互抽查各等級(jí)的作文若干篇,發(fā)現(xiàn)問題及時(shí)磋商,并有相應(yīng)的檢查措施,等等。這已經(jīng)是最低限度的要求。
紀(jì)律渙散、工作態(tài)度不嚴(yán)肅,是無法保證閱卷質(zhì)量的。因此,還應(yīng)當(dāng)制訂《閱卷員守則》,并且有相應(yīng)的 獎(jiǎng)懲制度。對于不合格的閱卷人員必須堅(jiān)決汰除。課題組各試驗(yàn)省份都有被判“紅牌”者,對維護(hù)閱卷的嚴(yán)肅 性有良好的作用。
⑤監(jiān)測及復(fù)查
由于這個(gè)問題的重要性,將在下文專門介紹。
2.建立、健全監(jiān)測系統(tǒng)
大規(guī)模作文考試如果沒有一個(gè)有效的監(jiān)測系統(tǒng),則任何研究、條例和改進(jìn)措施將毫無意義。我國長期慣用 的“復(fù)查”就是一種監(jiān)測方法,不過隨著科技手段的進(jìn)步,監(jiān)測手段日益豐富,怎樣借助科技手段來發(fā)展監(jiān)測 系統(tǒng)就成為人們研究的一個(gè)課題。
科技手段應(yīng)用于評分監(jiān)測,有“隱形筆”等[注],不過目前主要是電腦。國外有利用電腦直接進(jìn)行調(diào)控 的,即以試卷中某些客觀性較強(qiáng)試題的得分為參照系,如果發(fā)現(xiàn)某地區(qū)或某閱卷員的主觀題給分與其它地區(qū)或 其他閱卷員的評分平均值相比明顯偏低或偏高,可以通過數(shù)學(xué)方法加以調(diào)整。我國英語高考也曾采用過這種方 法。但語文是一門綜合性很強(qiáng)的學(xué)科,其測試也屬于異質(zhì)性測試,經(jīng)過多次測算,各試題(包括作文)的得分 之間沒有必然聯(lián)系。即以寫作能力而論,母語和外語不同,母語作文的能力層次要求大大高于外語,高層次能 力(如立意)與低層次能力(如書寫)之間,得分也沒有必然聯(lián)系。因此用其它試題作參照系的方法就作文評 分而論是不科學(xué)的,也是不可取的。再就各閱卷員之間的評分來說,由于評分對象的差別(例如一市集中閱卷 ,各區(qū)之間的水平就會(huì)有所不同),很難據(jù)此就作出“偏嚴(yán)”、“偏松”的判斷,如果驟然利用電腦直接調(diào)整 ,很難避免盲目調(diào)控。因此,至少就作文評分而言,機(jī)器只能及時(shí)發(fā)現(xiàn)問題,最后的裁斷還必須由人工(專家 )來做出。
當(dāng)前,利用電腦監(jiān)測主要有以下幾種方法:
①指標(biāo)監(jiān)測
用以監(jiān)測的指標(biāo)主要有“平均分”和“標(biāo)準(zhǔn)差”。平均分可以顯示出閱卷者給分有沒有偏高或偏低的問題 ;標(biāo)準(zhǔn)差顯示給分的離散程度,顯示出有沒有“打保險(xiǎn)分”的趨向。將閱卷員每日每份試卷的給分及時(shí)輸入電 腦,如有問題,就可以及時(shí)發(fā)現(xiàn)。
②參照系監(jiān)測
由核心組先隨機(jī)抽閱一批試卷,將數(shù)據(jù)輸入電腦,以所形成的曲線作為參照系。參照系有允許浮動(dòng)的一定 幅度。閱卷員每日評分結(jié)果在圖形顯示上如果超越了幅度,電腦就能及時(shí)檢出以備復(fù)查。
③“暗點(diǎn)”監(jiān)測
即由核心組隨機(jī)抽閱一批試卷,秘密輸入電腦,閱卷員評此卷時(shí),如果給分差距過大,就能及時(shí)發(fā)現(xiàn)檢出 ,顯示該閱卷員所評其它試卷也可能存在問題。本方法原理雖然簡單,但頗為有效。
④內(nèi)部相關(guān)監(jiān)測
這是我國試驗(yàn)分項(xiàng)評分時(shí)所創(chuàng)造的一種方法。其原理是各分項(xiàng)得分之間往往具有一定的相關(guān)性,由此設(shè)計(jì) 了數(shù)學(xué)模型,把測算結(jié)果稱為U值。U值過大或過小,都可以提供信息供復(fù)查組審核、裁奪。此方法1992年 在河北省試驗(yàn)與指標(biāo)監(jiān)測法同時(shí)采用,當(dāng)年結(jié)果如下(X撥為平均分S為標(biāo)準(zhǔn)差):
試卷 增加分 減少分 增加分 減少分 平均每
袋數(shù) 數(shù)篇數(shù) 數(shù)篇數(shù) 數(shù)總和 數(shù)總和 袋改動(dòng) X撥出線 14 77 29 209 127 24 S出線 9 26 15 73 26 11 U值小 13 50 53 166 119 21.9 U值大 8 61 18 200 51 31.4
說明:平均分低于控制線的11袋,經(jīng)復(fù)查,分?jǐn)?shù)變動(dòng)269,平均每袋24.5分;高于控制的3袋, 分?jǐn)?shù)變動(dòng)67分,平均每袋22.3分。
U值方法尚在進(jìn)一步完善和論證的過程之中,但實(shí)踐證明它在發(fā)現(xiàn)問題方面是有效的。由此也可以看出,在 平均分、標(biāo)準(zhǔn)差均未出線的范圍內(nèi)還存在著大量誤差,需要研究對策。這也正是作文評分監(jiān)測系統(tǒng)科研的任務(wù) 。[注]該筆書寫的符號(hào),只有借助特定燈具才能顯示。這樣,共評者彼此不知道對方所給的成績,而由監(jiān)測 者(或組長)裁奪。如果差別過大,則需重評。
—一全文完—一