introductie werkbijeenkomst over ontwerpen van toetsvragen
Ben Wilbrink www.benwilbrink.nl Leiden
De bespreking van toetsvragen gaat over de vormaspecten van die vragen, dat zijn de zaken waar veel boeken over toetsen mee gevuld zijn, maar vooral over het ontwerp in inhoudelijke zin. Gegeven de stof, is het ontwerp van de toetsvraag adequaat? Ik zal proberen die leerstof te schematiseren, er een visueel plaatje van te maken. Als het goed is, bevat zo'n schema alle zaken waarover zinvol vragen zijn te ontwerpen.
De software voor het maken van schema's over leerstof, waarmee ook bovenstaande figuur is gemaakt, is vrij te downloaden en gebruiken:
http://cmap.ihmc.us/
Ben Wilbrink (2006). Toetsvragen ontwerpen.
http://www.benwilbrink.nl/projecten/06aToetsvragen1.htm
Dit online-boek is een herziening van 'Toetsvragen schrijven' uit 1983, Aula 809, in de onderwijskundige reeks voor het hoger onderwijs. De literatuur bij ieder hoofdstuk is tevens een startpagina voor bronnen die op internet beschikbaar zijn.
Toetswijzer startpagina op de Cito-site
http://toetswijzer.kennisnet.nl/main.asp?Browser=NN
De software voor het maken van schema's over leerstof is vrij te downloaden en gebruiken:
http://cmap.ihmc.us/
thuis 1983 Aula 809 pdf 1.4Mb 2006 hfdst 1 2 3 4 5 6 7 8
raadkansen
Keuzevragen geven de leerling die niets weet een kans om goed te gokken. Een klas met honderd apen die een toets met driekeuzevragen invult, zal er gemiddeld een derde van 'goed' gokken. Zo'n toetsresultaat is hier afgebeeld, 5 van de 100 apen scoren 6 of 7 van de 10 vragen goed. Experimenteer hier zelf met andere getallen. Er nemen wel eens apen aan toetsen deel, bijvoorbeeld studenten die eerst eens willen verkennen hoe een toets gaat; de vraag is dan of die aan hun scores zijn te herkennen: individuele gevallen niet. Het vervelende is namelijk dat studenten die zich redelijk voorbereiden, toch pech kunnen hebben en scores halen die met een beetje geluk ook door raden zijn te krijgen.
Leerlingen moeten op keuzevragen altijd antwoorden, desnoods door raden, omdat ze zichzelf anders zouden benadelen. Dat levert een maatschappelijk probleem op, omdat het onderwijs leert dat het OK is, als je iets niet weet, om dan maar wat te roepen. Dat is een wonderlijke en ongewenste stand van zaken. De reden is historisch. In het begin van de 20e eeuw was het gewoon om keuzevragen die je niet wist, open te laten. Zo ontdekten kandidaten bij de Amerikaanse dienstkeuring in WO II (of was het WO I? moet ik nakijken!) dat ze hun kansen op inlijving konden vergroten door altijd iets aan te strepen, dus door te raden als je het niet weet of geen tijd meer hebt erover na te denken. Omdat anderen daardoor in het nadeel komen, is het probleem opgelost door iedereen te instrueren altijd een antwoord aan te kruisen, desnoods door te raden. Betere oplossingen zijn denkbaar, zoals het toekennen van een kleine bonus bij onbeantwoorde vragen, gelijk aan of een fractie groter dan de raadkans zou zijn. Apen kun je zo niet instrueren, studenten gelukkig wel.
Nu bestaan er formules die toetsresultaten zouden corrigeren voor raden. Voor de evaluatie van het onderwijs mag dat zinvol zijn, niet voor de score van Jan, Piet of Klaas. Het is wel te zien welke vragen fout zijn geraden, maar niet welke goed zijn geraden.
Voor Jan, Piet en Klaas maakt het raden geen verschil als hun beheersing van de stof op de grens van voldoende ligt, maar daarboven maakt raden hun slaagkans kleiner, daarbeneden juist groter, en geen van beide effecten zijn gewenst. In de afgebeelde situatie zou voor keuzevragen een bonusregeling die 1/3e punt oplevert voor iedere niet beantwoorde vraag, de slaagkans bij beheersing 70% weer op 88,5% brengen. Voor leerlingen die de stof onvoldoende beheersen is gebruik maken van de bonuspunten evenwel nadelig; omdat gebruik van bonuspunten niet afdwingbaar is, is een bonusregeling dus geen oplossing voor alle raadproblemen. Voor leerlingen die van zichzelf niet zeker weten of ze aan de onvoldoende of juist van de voldoende grens zitten, maakt het strategisch geen verschil te raden, danwel vragen open te laten.
Experimenteer hier zelf met andere getallen.
Een volgende storende punt is natuurlijk dat goede leerlingen die vragen niet weten, vaak een of twee van de foute alternatieven kunnen uitsluiten. Dan zouden zij zich door het open laten van de vraag tekort doen. Dan maar dubben, en kiezen tussen de vaste bonus of de hogere verwachte score door tussen, zeg, maar twee alternatieven te raden. Hier is het mogelijk toe te staan meerdere alternatieven aan te kruisen, en zo de deelkennis gehonoreerd te krijgen. Zo'n maatregel maakt het dan weer gecompliceerd, wat op zich ongewenst is. Toch zou de scoring een goede afbeelding moeten zijn van wat de student weet en niet weet, en dat pleit voor toepassen van deze wijze van scoren. Een eenvoudiger alternatief is een bonus van 1/2 bij driekeuzevragen, of 1/3 bij vierkeuzevragen. Hieronder een paar varianten van toetsinstructie, waar overigens echt complexe methoden zoals zekerheidsscoring niet bij zijn.
De laatste bewering van De Groot, dat het voordeliger is altijd te raden, is met de analyse in figuur 2 hierboven overigens gelogenstraft.
Die analyse is nieuw, april 2006, en bij mijn weten nooit eerder zo gedaan. Het nadelige effect van raden voor studenten met een redelijke tot goede beheersing lijkt in de literatuur niet beschreven te zijn. Lord en Novick (1968, p. 304) waarschuwen dat dwingen om te raden leidt tot een aanzienlijke toename van willekeur - error - in testscores; dan is hun voorkeur toch ook om voor open gelaten vragen - omits - een bonus toe te kennen, ondanks de verschillen tussen leerlingen in geneigdheid om van dit open laten van vragen gebruik te maken.
De belangen die op het spel staan zijn behoorlijk, er kan een kleine doelmatigheids- en kwaliteitsslag worden gemaakt op dit punt. Het zal de aanpassing vergen van programmatuur voor het automatisch scoren van toetsen, maar dat had toch al veel eerder moeten gebeuren.
Voor de Cito-toets in groep 8 lijkt het probleem voor de meeste leerlingen alleen te spelen in de door Lord en Novick aangegeven zin, verlies aan geldigheid. De fouten kunnen zowel naar boven als naar beneden zijn. Maar voor de beste leerlingen die hun zinnen hebben gezet op het gymnasium, zijn de 'verplichte raadkansen' onnodig nadelig. Protesteren en procederen.
Ga verstandig om met dat raden. Trek een eigen lijn. Een helder voorbeeld zijn proeftoetsen waar studenten kunnen testen of ze al goed voorbereid zijn: de student die maar een beetje gaat raden op niet geweten vragen bedriegt zichzelf. Gebruik geen ingewikkelde formules voor scores, of rare methoden zoals bij De Grote Geschiedenis Quiz de mogelijkheid aan te geven 'zeker' van een antwoord te zijn - voor een quiz trekt dat de deelnemers lekker uit elkaar, voor een toets is benadeelt het sommige leerlingen. Van Naerssen (1969) is nog steeds een goed overzicht van dergelijke meer complexe methoden, en hij beveelt aan (p. 270) deze voor serieuze toetsen niet te gebruiken. Voor een recent stuk, zie Paul (zj, 1994?).
A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Den Haag, Mouton
Frederick M. Lord (1964). The effect of random guessing on test validity. Educational and Psychological Measurement, 24, 745-747. [Deze jaargang in Leiden niet aanwezig. Ik zoek nog een kopie]
Frederick M. Lord and Melvin R. Novick (1968). Statistical theories of mental test scores. Addison-Wesley.
Ben Wilbrink (1983/2006). Toetsvragen ontwerpen. Hoofdstukgewijs op te halen, samen ca 600k in html
www.benwilbrink.nl/projecten/toetsvragenintro.htm