對(duì)話 | 劍橋?qū)<覟槟阋绘I解鎖計(jì)算機(jī)自適應(yīng)考試
點(diǎn)擊領(lǐng)取>>>KET/PET官方真題匯總、官網(wǎng)樣卷試題、聽(tīng)力閱讀答題卡、高頻必備單詞表
“人工智能賦能英語(yǔ)學(xué)習(xí)”在線系列講座是2020劍橋英語(yǔ)節(jié)的重要主題之一,由劍橋大學(xué)英語(yǔ)考評(píng)部首席研究經(jīng)理徐兢博士作為主講嘉賓,為大家深度解讀英語(yǔ)測(cè)評(píng)的基本概念和人工智能在英語(yǔ)測(cè)評(píng)領(lǐng)域中的應(yīng)用。
本期文章將回顧該系列講座的第三講:“自適應(yīng)測(cè)試:讓定制化測(cè)試成為現(xiàn)實(shí)”(Building personalised assessment via Computer Adaptive Testing )。
本文包括:第三講的講座回放、要點(diǎn)總結(jié)、專家問(wèn)答和知識(shí)小測(cè)。文末我們將公布上期三道小測(cè)驗(yàn)的答案及幸運(yùn)讀者名單,趕緊閱讀文章看看你有做對(duì)嗎?
視頻回顧
錯(cuò)過(guò)了直播或者想要溫故知新的觀眾們,以下是徐兢博士第三講的精彩內(nèi)容!同樣,看完視頻,記得完成文末的三道小測(cè)驗(yàn)。我們將隨機(jī)抽選答對(duì)的幸運(yùn)讀者,送上Write&Improve專屬福利!上期沒(méi)有被選中的讀者請(qǐng)繼續(xù)加油,我們期待你的答案!
要點(diǎn)總結(jié)
本講主要包括五部分:
計(jì)算機(jī)自適應(yīng)考試(CAT)是什么
自適應(yīng)英語(yǔ)測(cè)試的優(yōu)勢(shì)
計(jì)算機(jī)自適應(yīng)考試如何衡量考生的英語(yǔ)水平
解析劍橋領(lǐng)思的閱讀與聽(tīng)力試題
劍橋領(lǐng)思的試題總覽(見(jiàn)視頻)
計(jì)算機(jī)自適應(yīng)考試(CAT)是什么?
計(jì)算機(jī)自適應(yīng)考試(CAT, Computer Adaptive Test)的特點(diǎn)在于“自適應(yīng)”,意為“自動(dòng)調(diào)整試題難度來(lái)適應(yīng)考生在做題過(guò)程中的實(shí)時(shí)表現(xiàn)”。傳統(tǒng)考試中的試題題目是提前設(shè)置的,是靜態(tài)的,而計(jì)算機(jī)自適應(yīng)考試可以根據(jù)考生在考場(chǎng)中的實(shí)時(shí)答題情況,在試題庫(kù)中抽取測(cè)試題目難度值與考生能力水平相對(duì)應(yīng)的下一道測(cè)試題目,直到最終得到反映考生真實(shí)能力水平的結(jié)果,其出題和評(píng)分過(guò)程是動(dòng)態(tài)的。因此,計(jì)算機(jī)自適應(yīng)測(cè)試可以實(shí)現(xiàn)為每位考生實(shí)時(shí)“量身定制”試卷。
劍橋領(lǐng)思考試中的考生test journey樣本
自適應(yīng)英語(yǔ)測(cè)試的優(yōu)勢(shì)?
“自適應(yīng)”是劍橋領(lǐng)思考試的一大特點(diǎn),其具有以下優(yōu)勢(shì):
高效精準(zhǔn):水平高的考生無(wú)需回答過(guò)多簡(jiǎn)單試題,水平有限的考生也不會(huì)遇到太多難題,從而可以確保在短時(shí)間內(nèi)獲得較為精確的測(cè)評(píng)結(jié)果。
安全便捷:由人工智能加持,通過(guò)遠(yuǎn)程監(jiān)考,并配合計(jì)算機(jī)自動(dòng)評(píng)分,可以實(shí)現(xiàn)隨時(shí)隨地進(jìn)行考試。
降低考生焦慮情緒:每位考生遇到的題目難度不會(huì)超出其承受水平,這可以有效降低考生的焦慮情緒,讓考生在考試中充分發(fā)揮其語(yǔ)言水平。
計(jì)算機(jī)自適應(yīng)考試如何預(yù)測(cè)考生水平?
語(yǔ)言能力是大腦的隱性特征,無(wú)法通過(guò)物理方法進(jìn)行測(cè)量,因此我們需要通過(guò)合理的試題設(shè)計(jì)引導(dǎo)學(xué)生展現(xiàn)相應(yīng)的語(yǔ)言能力,再通過(guò)計(jì)算機(jī)算法量化預(yù)測(cè)其語(yǔ)言水平。劍橋領(lǐng)思的測(cè)評(píng)算法是基于項(xiàng)目反應(yīng)理論(Item Response Theory, 簡(jiǎn)稱 IRT),又稱為隱性特征理論。該理論構(gòu)建了一整套數(shù)學(xué)模型來(lái)描述考生能力(test taker ability) 、題目特性 (task difficulty) 與考生答對(duì)率 (probability of correct answer)之間的關(guān)系。
其中,作為項(xiàng)目反應(yīng)理論模型中的一種 - Rasch模型規(guī)定,當(dāng)某個(gè)題目的難度和考生的能力相當(dāng),那么考生能夠答對(duì)該題的概率為50%。這個(gè)數(shù)值也可以通過(guò)以下公式推導(dǎo)得出:
Rasch模型基本公式
在Rasch模型中,當(dāng)一道題目難度中等,我們將該題賦值為0;當(dāng)某位考生水平中等,則該考生水平也賦值為0,那通過(guò)以上公式可推導(dǎo)出該考生答對(duì)該題概率為50%。計(jì)算過(guò)程見(jiàn)下圖。
該結(jié)果若通過(guò)指數(shù)函數(shù)表現(xiàn)出來(lái)則更為直觀(如下圖),中間的實(shí)線曲線b即為以上公式體現(xiàn)的函數(shù)曲線??梢钥吹?黃線標(biāo)明處),當(dāng)題目難度適中、考生水平適中時(shí)(橫坐標(biāo)為0),該考生答對(duì)該題的概率為50%(縱坐標(biāo)數(shù)值0)。
依此類推,當(dāng)同位考生遇到題目a時(shí)(下圖中的虛線曲線a),由于a題目更為簡(jiǎn)單,所以該考生的答對(duì)率在87%左右(縱坐標(biāo)0.87)。
由此可見(jiàn),以上公式可以通過(guò)題目難度和考生能力,計(jì)算出考生答對(duì)題目的概率。但在計(jì)算機(jī)自適應(yīng)考試中,計(jì)算機(jī)能夠?qū)崟r(shí)獲取考生的答題結(jié)果。因此通過(guò)將該公式反向推導(dǎo),計(jì)算機(jī)可以根據(jù)每位考生對(duì)一系列考題的答題對(duì)錯(cuò)與否和相應(yīng)考題的難易程度,反向估算出考生最有可能的語(yǔ)言能力水平。考生答題越多,能力估算就越精確??荚囋谶_(dá)到預(yù)設(shè)的精確度后就會(huì)自動(dòng)停止,給出最終結(jié)果。
在經(jīng)典測(cè)試?yán)碚?Classic Testing Theory)中,對(duì)于一整份考卷,每個(gè)考生的答題表現(xiàn)可以總結(jié)到一個(gè)表格中(如下圖)。其中,頂部橫項(xiàng)為題目,左側(cè)縱向?yàn)榭忌郑ɑ瑪?shù)字1代表考生答對(duì)該題,數(shù)字0代表考生答錯(cuò)該題。經(jīng)典測(cè)試?yán)碚撏ㄟ^(guò)累計(jì)考生答對(duì)題目的總數(shù)量來(lái)計(jì)算考生的水平。但這樣做有一個(gè)缺點(diǎn),因?yàn)榇饘?duì)一道簡(jiǎn)易題和答對(duì)一道難題所獲得的分值是一樣的,這樣不利于有效區(qū)分考生之間的水平差異。例如:在此表中題目11的難度系數(shù)一定會(huì)比題目3要大,因?yàn)榇饘?duì)題目11的考生人數(shù)要比答對(duì)題目3的考生人數(shù)少得多。理所當(dāng)然,答對(duì)題目11的考生更有可能是高水平考生。相比之下,由項(xiàng)目反應(yīng)理論加持的計(jì)算機(jī)自適應(yīng)考試會(huì)把試題難度作為預(yù)估考生能力的一個(gè)變量,從而能夠通過(guò)更少的試題來(lái)精確衡量一個(gè)考生的能力水平,因此考試也會(huì)變得更高效。
Ockey, G. J. (2012). Item response theory. In G. Fulcher & F. Davidson (Eds.), The Routledge handbook of language testing (pp. 336-349). London: Routledge.
解析劍橋領(lǐng)思考試的閱讀與聽(tīng)力試題
劍橋領(lǐng)思考試中的所有閱讀和聽(tīng)力試題的研發(fā)均以歐洲共同語(yǔ)言參考框架(CEFR)中的能力描述為基礎(chǔ),這使我們可以對(duì)通過(guò)計(jì)算機(jī)算出的考生分?jǐn)?shù)解讀和預(yù)測(cè)考生的英語(yǔ)語(yǔ)言能力。
下面為劍橋領(lǐng)思聽(tīng)力B1級(jí)別的一個(gè)例題,聽(tīng)力對(duì)話中兩個(gè)人在討論決定旅游出行的酒店地點(diǎn)。選項(xiàng)有三個(gè),酒店分別在山間度假村、港口旁和海邊沙灘上。
劍橋領(lǐng)思B1級(jí)別聽(tīng)力例題
這個(gè)題目旨在測(cè)試考生能夠聽(tīng)懂有關(guān)旅游和住宿的基本對(duì)話的能力(can understand basic dialogues about accommodation and travel),符合CEFR中的B1級(jí)別。若考生答對(duì)該題,則計(jì)算機(jī)在下一題很有可能會(huì)分配一個(gè)B2級(jí)別的題目給考生,通過(guò)多次測(cè)試,以最終確定考生的聽(tīng)力水平。
根據(jù)徐兢博士在2016年的試測(cè)研究(Pretesting),在劍橋領(lǐng)思考試中,考生完成閱讀測(cè)試的平均時(shí)長(zhǎng)為26分鐘,聽(tīng)力部分為22分鐘,閱讀評(píng)分的人機(jī)信度達(dá)到0.94,聽(tīng)力為0.92??梢?jiàn),劍橋領(lǐng)思考試在保證評(píng)分準(zhǔn)確性的同時(shí),有效地縮短了傳統(tǒng)線性考試所需的時(shí)長(zhǎng)。
專家問(wèn)答
徐博士有哪些關(guān)于項(xiàng)目反應(yīng)理論(IRT)的參考資料推薦?
如果你對(duì)項(xiàng)目反應(yīng)理論感興趣,可以參考以下文獻(xiàn)。
章節(jié)(對(duì)項(xiàng)目反應(yīng)理論的簡(jiǎn)要介紹)
· Ellis, D. P., & Ross, S. J. (2014). Item response theory in language testing. In A. J. Kunnan (Ed.), The companion to language assessment (Vol. III, pp. 1262-1281). Chichester, West Sussex: John Wiley & Sons.
· Ockey, G. J. (2012). Item response theory. In G. Fulcher & F. Davidson (Eds.), The Routledge handbook of language testing (pp. 336-349). London: Routledge.
教科書(shū)(對(duì)項(xiàng)目反應(yīng)理論的系統(tǒng)介紹)
·de Ayala, R. J. (2009). The theory and practice of item response theory. New York, NY: Guilford.
·Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologist. Mahwah, NJ: Lawrence Erlbaum Associates.
·Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Norwell, MA: Kluwer Academic Publishers.
·Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Erlbaum.
IRT可以運(yùn)用到Speaking嗎?
到目前為止,基于項(xiàng)目反應(yīng)理論的自適應(yīng)考試還沒(méi)有被應(yīng)用到口語(yǔ)測(cè)試上。那是因?yàn)榭谡Z(yǔ)測(cè)試的評(píng)分并不是非對(duì)即錯(cuò)和有標(biāo)準(zhǔn)答案,而是由考官依據(jù)一個(gè)詳細(xì)的打分標(biāo)準(zhǔn)(rating scale)對(duì)語(yǔ)言表現(xiàn)進(jìn)行主觀評(píng)分。
但是項(xiàng)目反應(yīng)理論中的單一參數(shù)模型(One-Parameter Model)也叫Rasch模型,自上世紀(jì)九十年代開(kāi)始已經(jīng)被應(yīng)用于口語(yǔ)測(cè)試的效度和信度的研究上。這些研究包括對(duì)考官打分嚴(yán)厲程度的比較,考題難度的比較,以及考試環(huán)境對(duì)考分的影響等等。大家有興趣的話可以閱讀以下參考文獻(xiàn)。
McNamara, T. F. (1990). Item response theory and the validation of an ESP test for health professionals. Language Testing, 7(1), 52-75.
McNamara, T. F. (1996). Measuring second language performance. London: Longman.
McNamara, T. F., & Knoch, U. (2012). The Rasch wars: The emergence of Rasch measurement in language testing. Language Testing, 29(4), 555-576.
Yan, X. (2014). An examination of rater performance on a local oral English proficiency test: A mixed-methods approach. Language Testing, 31(4), 501-527.
劍橋領(lǐng)思考試適合K12學(xué)生嗎?會(huì)取代MSE系列考試嗎?
劍橋領(lǐng)思考試是針對(duì)16歲及以上的青年和成年考生設(shè)計(jì)的,并不適合年幼的少年英語(yǔ)學(xué)習(xí)者。劍橋領(lǐng)思的考題內(nèi)容(比如閱讀理解)涵蓋超出年幼考生認(rèn)知范圍和語(yǔ)言使用范圍的話題,因此并不適合這個(gè)人群。同時(shí)少年考生對(duì)計(jì)算機(jī)的使用(比如在計(jì)算機(jī)上快速寫(xiě)作)還沒(méi)有駕輕就熟,所以他們或許并不能在計(jì)算機(jī)化考試中發(fā)揮出自己應(yīng)有的水平。對(duì)于少年英語(yǔ)學(xué)習(xí)者,劍橋大學(xué)英語(yǔ)考評(píng)部有推出量身定做的考試,叫做Young Learners English Tests (YLE),即劍橋少兒英語(yǔ)。同時(shí),青少年學(xué)習(xí)者還可以根據(jù)自身實(shí)際情況選擇參加劍橋通用英語(yǔ)五級(jí)系列考試。
掃碼添加“家長(zhǎng)論壇”微信好友(微信號(hào) 16619908263)
獲取KET/PET官方真題匯總、官網(wǎng)樣卷試題、聽(tīng)力閱讀答題卡、高頻必備單詞表
咨詢北京KET PET相關(guān)課程請(qǐng)撥打電話 16619908263 (同微信號(hào))
沒(méi)有找到相關(guān)結(jié)果
0 個(gè)回復(fù)