introductie werkbijeenkomst over ontwerpen van toetsvragen
Ben Wilbrink www.benwilbrink.nl Leiden


Introductie


De volgende thema's zijn hier met korte statements uitgewerkt, misschien meer om de nieuwsgierigheid te prikkelen, dan volledige informatie te bieden. Dat iedere toets een steekproef is, en dat zoiets dus bijzondere gevolgen heeft, is een absoluut cruciaal inzicht. Dat raden een pain in the ass is, dat is geen verrassing, maar mogelijk wel dat raden bij keuzevragen best te vermijden is, waardoor een betere toets ontstaat. Met stip de beste tip voor ontwerpers van keuzevragen is om het telaten bij tweekeuzevragen, dat scheelt ongelooflijk veel tijd, maar ook veel kwaliteitsverlies dat bij vierkeuzevragen optreedt.

Steekproef

Raden

Keuzevragen

p.m.: gevalsbesprekingen, a.d.h.v. ingediende toetsvragen

De bespreking van toetsvragen gaat over de vormaspecten van die vragen, dat zijn de zaken waar veel boeken over toetsen mee gevuld zijn, maar vooral over het ontwerp in inhoudelijke zin. Gegeven de stof, is het ontwerp van de toetsvraag adequaat? Ik zal proberen die leerstof te schematiseren, er een visueel plaatje van te maken. Als het goed is, bevat zo'n schema alle zaken waarover zinvol vragen zijn te ontwerpen.

De software voor het maken van schema's over leerstof, waarmee ook bovenstaande figuur is gemaakt, is vrij te downloaden en gebruiken:
http://cmap.ihmc.us/

Literatuur

Ben Wilbrink (2006). Toetsvragen ontwerpen.
http://www.benwilbrink.nl/projecten/06aToetsvragen1.htm

Dit online-boek is een herziening van 'Toetsvragen schrijven' uit 1983, Aula 809, in de onderwijskundige reeks voor het hoger onderwijs. De literatuur bij ieder hoofdstuk is tevens een startpagina voor bronnen die op internet beschikbaar zijn.

Toetswijzer startpagina op de Cito-site
http://toetswijzer.kennisnet.nl/main.asp?Browser=NN

De software voor het maken van schema's over leerstof is vrij te downloaden en gebruiken:
http://cmap.ihmc.us/
 

 





Bijlage


thuis         1983 Aula 809 pdf 1.4Mb     2006 hfdst 1 2 3 4 5 6 7 8


Publiek domein, auteursrechten B. Wilbrink. Oorspronkelijke uitgave 'Toetsvragen schrijven' 1983 Utrecht: Het Spectrum, Aula 809, Onderwijskundige Reeks voor het Hoger Onderwijs ISBN 90-274-6674-0. Dit bestand is een in 2006 herziene versie. Voor de oorspronkelijke 1983 tekst zie www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf.



raden

Figuur 1. Honderd apen doen een toets van 10 driekeuzevragen.



raadkansen

Keuzevragen geven de leerling die niets weet een kans om goed te gokken. Een klas met honderd apen die een toets met driekeuzevragen invult, zal er gemiddeld een derde van 'goed' gokken. Zo'n toetsresultaat is hier afgebeeld, 5 van de 100 apen scoren 6 of 7 van de 10 vragen goed. Experimenteer hier zelf met andere getallen. Er nemen wel eens apen aan toetsen deel, bijvoorbeeld studenten die eerst eens willen verkennen hoe een toets gaat; de vraag is dan of die aan hun scores zijn te herkennen: individuele gevallen niet. Het vervelende is namelijk dat studenten die zich redelijk voorbereiden, toch pech kunnen hebben en scores halen die met een beetje geluk ook door raden zijn te krijgen.

Leerlingen moeten op keuzevragen altijd antwoorden, desnoods door raden, omdat ze zichzelf anders zouden benadelen. Dat levert een maatschappelijk probleem op, omdat het onderwijs leert dat het OK is, als je iets niet weet, om dan maar wat te roepen. Dat is een wonderlijke en ongewenste stand van zaken. De reden is historisch. In het begin van de 20e eeuw was het gewoon om keuzevragen die je niet wist, open te laten. Zo ontdekten kandidaten bij de Amerikaanse dienstkeuring in WO II (of was het WO I? moet ik nakijken!) dat ze hun kansen op inlijving konden vergroten door altijd iets aan te strepen, dus door te raden als je het niet weet of geen tijd meer hebt erover na te denken. Omdat anderen daardoor in het nadeel komen, is het probleem opgelost door iedereen te instrueren altijd een antwoord aan te kruisen, desnoods door te raden. Betere oplossingen zijn denkbaar, zoals het toekennen van een kleine bonus bij onbeantwoorde vragen, gelijk aan of een fractie groter dan de raadkans zou zijn. Apen kun je zo niet instrueren, studenten gelukkig wel.

Nu bestaan er formules die toetsresultaten zouden corrigeren voor raden. Voor de evaluatie van het onderwijs mag dat zinvol zijn, niet voor de score van Jan, Piet of Klaas. Het is wel te zien welke vragen fout zijn geraden, maar niet welke goed zijn geraden.

gif/06tvr2.2.648326.gif

Figuur 2. Raadkansen maken de toets onnauwkeuriger. Links: toets 40 vragen, voldoende is 25 vragen (verticale grijze lijn geeft dat aan), beheersing 70%, slaagkans 88,5%. Rechts: met raadkans 33% is 30 vragen voldoende, bij beheersing 70% is de slaagkans 83,5%, aanzienlijk minder. De blauwe lijn geeft theoretische kansen, de solide figuur is een simulatie van 1000 'leerlingen.' Klik op de figuur voor brede afbeelding op ware grootte van de twee analyses.

Voor Jan, Piet en Klaas maakt het raden geen verschil als hun beheersing van de stof op de grens van voldoende ligt, maar daarboven maakt raden hun slaagkans kleiner, daarbeneden juist groter, en geen van beide effecten zijn gewenst. In de afgebeelde situatie zou voor keuzevragen een bonusregeling die 1/3e punt oplevert voor iedere niet beantwoorde vraag, de slaagkans bij beheersing 70% weer op 88,5% brengen. Voor leerlingen die de stof onvoldoende beheersen is gebruik maken van de bonuspunten evenwel nadelig; omdat gebruik van bonuspunten niet afdwingbaar is, is een bonusregeling dus geen oplossing voor alle raadproblemen. Voor leerlingen die van zichzelf niet zeker weten of ze aan de onvoldoende of juist van de voldoende grens zitten, maakt het strategisch geen verschil te raden, danwel vragen open te laten.
Experimenteer hier zelf met andere getallen.
Een volgende storende punt is natuurlijk dat goede leerlingen die vragen niet weten, vaak een of twee van de foute alternatieven kunnen uitsluiten. Dan zouden zij zich door het open laten van de vraag tekort doen. Dan maar dubben, en kiezen tussen de vaste bonus of de hogere verwachte score door tussen, zeg, maar twee alternatieven te raden. Hier is het mogelijk toe te staan meerdere alternatieven aan te kruisen, en zo de deelkennis gehonoreerd te krijgen. Zo'n maatregel maakt het dan weer gecompliceerd, wat op zich ongewenst is. Toch zou de scoring een goede afbeelding moeten zijn van wat de student weet en niet weet, en dat pleit voor toepassen van deze wijze van scoren. Een eenvoudiger alternatief is een bonus van 1/2 bij driekeuzevragen, of 1/3 bij vierkeuzevragen. Hieronder een paar varianten van toetsinstructie, waar overigens echt complexe methoden zoals zekerheidsscoring niet bij zijn.

Instructie (eenvoudig, maar unfair; aanvechtbaar)

Instructie (eenvoudig, fair genoeg)

Instructie (fair, tikje ingewikkeld, daardoor niet gewenst)

Interessant is in dit verband dat De Groot en Van Naerssen (1969 p. 17) aanbevelen om altijd voor open gelaten vragen een bonus toe te kennen.
"... alleen indien 'niet-invullen' in het algemeen zéér zelden voorkomt is deze scoringswijze [niet-ingvuld = fout] verantwoord. Is dit niet het geval, dan moet men een 'bonus' van één vierde maal het aantal niet-ingevulde items aan de score toevoegen (...) [bij vierkeuzevragen, de enige die zij aanbevelen]. Ook deze scoringswijze moet dan natuurlijk vooraf aan de proefpersonen worden bekend gemaakt; ook dan blijft het trouwens voordeliger niets over te slaan."

De laatste bewering van De Groot, dat het voordeliger is altijd te raden, is met de analyse in figuur 2 hierboven overigens gelogenstraft.
Die analyse is nieuw, april 2006, en bij mijn weten nooit eerder zo gedaan. Het nadelige effect van raden voor studenten met een redelijke tot goede beheersing lijkt in de literatuur niet beschreven te zijn. Lord en Novick (1968, p. 304) waarschuwen dat dwingen om te raden leidt tot een aanzienlijke toename van willekeur - error - in testscores; dan is hun voorkeur toch ook om voor open gelaten vragen - omits - een bonus toe te kennen, ondanks de verschillen tussen leerlingen in geneigdheid om van dit open laten van vragen gebruik te maken.
De belangen die op het spel staan zijn behoorlijk, er kan een kleine doelmatigheids- en kwaliteitsslag worden gemaakt op dit punt. Het zal de aanpassing vergen van programmatuur voor het automatisch scoren van toetsen, maar dat had toch al veel eerder moeten gebeuren.
Voor de Cito-toets in groep 8 lijkt het probleem voor de meeste leerlingen alleen te spelen in de door Lord en Novick aangegeven zin, verlies aan geldigheid. De fouten kunnen zowel naar boven als naar beneden zijn. Maar voor de beste leerlingen die hun zinnen hebben gezet op het gymnasium, zijn de 'verplichte raadkansen' onnodig nadelig. Protesteren en procederen.


Ga verstandig om met dat raden. Trek een eigen lijn. Een helder voorbeeld zijn proeftoetsen waar studenten kunnen testen of ze al goed voorbereid zijn: de student die maar een beetje gaat raden op niet geweten vragen bedriegt zichzelf. Gebruik geen ingewikkelde formules voor scores, of rare methoden zoals bij De Grote Geschiedenis Quiz de mogelijkheid aan te geven 'zeker' van een antwoord te zijn - voor een quiz trekt dat de deelnemers lekker uit elkaar, voor een toets is benadeelt het sommige leerlingen. Van Naerssen (1969) is nog steeds een goed overzicht van dergelijke meer complexe methoden, en hij beveelt aan (p. 270) deze voor serieuze toetsen niet te gebruiken. Voor een recent stuk, zie Paul (zj, 1994?).

A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Den Haag, Mouton

Frederick M. Lord (1964). The effect of random guessing on test validity. Educational and Psychological Measurement, 24, 745-747. [Deze jaargang in Leiden niet aanwezig. Ik zoek nog een kopie]

Frederick M. Lord and Melvin R. Novick (1968). Statistical theories of mental test scores. Addison-Wesley.


27-4-2006 \ contact ben apenstaartje benwilbrink.nl

Ben Wilbrink (1983/2006). Toetsvragen ontwerpen. Hoofdstukgewijs op te halen, samen ca 600k in html



      Valid HTML 4.01!       www.benwilbrink.nl/projecten/toetsvragenintro.htm