Ben Wilbrink (1983/2006). Toetsvragen ontwerpen: 2. Vraagsoorten

Dit hoofdstuk behandelt in algemene zin de vorm en inhoud van toetsvragen. De mate waarin een toetsvraag inhoudelijk adequaat is, is zijn validiteit. Validiteit is boeiend, absoluut essentieel, en tegelijk verdraaid lastig. Omdat die validiteit niet altijd even bekend terrein bestrijkt, is het als laatste onderwerp in dit hoofdstuk geplaatst. De mogelijke vormen voor toetsvragen zijn vanzelfsprekend de drie typen van korte open vragen, keuzevragen en open vragen; het is bekend terrein, zeker, maar hoe gaat de ontwerper met deze vormen om? Welke vorm wanneer de voorkeur heeft, hangt af van wat er didactisch gezien valt te vragen over hoe de leerling de stof beheerst, is dus ondergeschikt aan de stof en de context van het onderwijs, en niet op voorhand uitgemaakt. Praktische overwegingen kunnen dat nog veranderen, en dan gaat er iets wringen dat het ontwerp van de vragen moet zien op te vangen. Er valt dus iets te kiezen, en dat is een iets andere insteek dan die van De Groot en Van Naerssen (1969), waar eigenlijk alleen toetsen met vierkeuzevragen goed genoeg zijn, een opvatting die in Nederland nog steeds doorwerkt in gangbare opvattingen over toetsen. In de VS is dat niet echt anders, ook al is daar het uitstekende boek van Haladyna (2004) beschikbaar.

Drie vormen van toetsvragen komen aan de orde: korte open vragen, keuzevragen, en open vragen. Dus niet het meesterstuk, de master class, de disputatie, het assessment center, of het goede gesprek. Deze kunnen ook goede vormen zijn, waarvan de kritische onderdelen waarschijnlijk toch verwantschap hebben met de korte open vraag, de keuzevraag, of de open vraag. Drie proto-typische vormen dus, die in eigen paragrafen aan de orde komen. Iedere paragraaf behandelt dan voor een gegeven vraagvorm onder welke omstandigheden deze adequaat kan zijn. De eigen kenmerken van iedere vraagvorm maken deze meer of minder geschikt voor bepaalde doeleinden, bij bepaalde leerstof, bij een beperkt financieel budget, etcetera. Het is niet echt zinvol om een tabel te maken met welke vraagvorm onder welke omstandigheden het meest adequaat is: de omvang loopt dan uit de hand, of het simplificeert te ver. Zelfs in situaties die nog helemaal open zijn, omdat het een nieuwe opleiding is waar alles nog vorm moet krijgen, zal het nog lastig zijn om de voor- en nadelen van mogelijke vormen goed te voorspellen. In bestaande situaties is het riskant om drastische veranderingen door te voeren, om van het ene moment op het andere over te gaan van open vragen op keuzevragen, bijvoorbeeld. Dit hoofdstuk wil dan ook geen argumenten leveren voor drastische koerswijzingen, maar voor kwaliteitsverbeteringen die meer langs de wegen der geleidelijkheid zijn te realiseren. Daarbij is het van belang dat betrokkenen beter gaan begrijpen wat de mogelijkheden en wat de beperkingen zijn van deze of gene vraagvorm. Om dat begrip gaat het, het zicht op mogelijke verbeteringen in een bestaande toetspraktijk komt dan vanzelf wel.

Figuur 1. De natuurlijke inhoud van de vraag tegenover de vorm van de vraag. Het is riskant om over een van nature open inhoud een keuzevraag te stellen.

een streng en algemeen paradigma

Het beeld in Figuur 1 is simpel en specifiek. Het kan ook anders: streng en algemeen. Maar dat schurkt aan tegen een filosofie van vragen en antwoorden, zoals die van Jaakko Hintikka en zijn collega’s.

Er valt toch wel in kort bestek iets over te zeggen dat de ontwerper meteen houvast kan geven. Laten we zeggen dat T staat voor de wetenschappelijke theorie, of voor de lesstof (als uittreksel uit zo’n theorie). En spreek af dat S staat voor een Stelling, een nieuw gegeven, een nieuwe observatie, of een nog onbekende oplossing. Dan hebben de meeste vragen in toetsen en examens de basisvorm: volgt deze S uit T? Of: bewijs S; leg uit dat S; los op (en bewijs daarmee door constructie dat S). Een gedegenereerde vorm van vragen is die waarbij de ‘uitleg dat S’ is verschrompeld tot de vraag ‘behoort S tot T’ of ‘Is het in T het geval dat S? zonder uitleg te vragen, maar alleen of het bekend is dat wel/niet S. Is een roos een bloem? Meestal is dit een vraag naar een weetje, terwijl vragen naar de reden waarom een roos wel of geen bloem is de vorm heeft van: gegeven S en T, leg uit dat S behoort tot T (of niet).

Carl Hempel zou zeggen dat voor een verklaring van S tenminste een wetmatige zin uit een theorie T nodig is (Fetzer, 2000).

James H. Fetzer (Ed.) (2001). The philosophy of Carl G. Hempel. Studies in science, explanation, and rationality. Oxford University Press.

Jaakko Hintikka (2007). Socratic epistemology. Explorations of knowledge-seeking by questioning. Cambridge University Press.

Rekenen met getallen onder de tien bestaat eigenlijk maar heel kort, voor de hele kleintjes die de eerste rekenstappen leren zetten. De oudere scholier moet geautomatiseerd hebben wat drie maal vier is. Faalt dat automatisch weten, dan valt de leerling even terug op tellen op de vingers. Het zou zwakzinnig zijn om voor dit rekenen onder de tien meerkeuzevragen te gebruiken, een didactische kunstfout ook, omdat die keuzevragen het automatiseren van deze rekenkennis in de weg gaan zitten.

Dit voorbeeld illustreert een paar hoofdzaken bij het ontwerpen van toetsvragen. Het is mogelijk de verkeerde vraagvorm te kiezen, wat vragen oplevert die niet valide zijn (par. 2.6). Vragen die niet valide zijn, zetten het leren op zijn kop: de leerlingen doen de verkeerde kennis op. Al was het maar dat leerlingen de ongelukkige foute alternatieven in keuzevragen lezen, en daardoor ook leren! De ontwerper moet wel — in redelijkheid — investeren in wat wetenschappelijk onderzoek aan relevante kennis heeft opgeleverd, voor rekenen bijvoorbeeld Lebeure en Anderson (2000), daar is deze ontwerper professioneel op aan te spreken. De docent die zelf opgaven maakt of leerlingen vragen stelt is afhankelijk van de gebruikte methode, maar dat is geen excuus om maar mee te gaan met onhandige of absurde vragen.

Er is een nauwe wederkerige band tussen onderwijs en toets. De toetsvragen maken duidelijk waar het echt om gaat in het onderwijs. Daar zitten twee kanten aan. Leerlingen en studenten letten vooral op de dingen die de toets vraagt, een kwestie van verstandige strategie (Van Naerssen, 1970 html). Docenten doen er goed aan glashelder — transparant, doorzichtig (De Groot, 1970 html) — te zijn over de vragen die mogelijk zijn. Ook de gekozen vraagvorm stuurt de manier van studeren. Zo maakt het verschil of de student (denkt) alleen maar zaken te hoeven herkennen, of zelf antwoorden te moeten formuleren. Let op: dit is niet hetzelfde als het onderscheid tussen open vragen en keuzevragen, omdat de eerste om herkenning kunnen vragen, en de laatste om een redenering of berekening.

Dit boek geeft bijzondere aandacht aan het abstractieniveau van vragen. Het prototype van de abstracte vraag is die naar de reproductie van definities; met dat type vragen — grote stappen, snel thuis — is de stof met een handvol vragen al gedekt, vaak met als gevolg dat al die extra vragen die nog nodig zijn, over de marges en de details gaan in plaats van over de kern van de stof. Meestal is het goed mogelijk om in plaats van abstracte vragen juist met concrete voorbeelden van het abstracte begrip te werken. Praktisch mondt dat uit in het gebruiken van de rompvraag: een kwalitatief goede vraag die draait om een voorbeeld, en daarom als sjabloon is te gebruiken met andere geschikte voorbeelden zodat telkens ‘nieuwe’ vragen ontstaan. Het belang van concrete beheersing — niet alleen door Dewey, maar in het algemeen benadrukt in de cognitieve psychologie — is hier gekoppeld aan technologie van de rompvragen , ook wel vraagvormen genoemd — item forms. Het anglicisme ‘vraagvormen’ is een tikje verwarrend naast het Nederlandse ‘vraagvormen’ die toch een nuance anders van betekenis is.

De volgende paragrafen zijn ingedeeld naar verschillende typen vragen, wat niet wegneemt dat bijvoorbeeld bij de korte open vragen ook algemene zaken zoals taalgebruik en het gebruik van afbeeldingen aan de orde komen, zaken die evenzeer van belang zijn bij keuze- en open vragen. Bekijk dus ook even de paragrafen die niet direct voor uw eigen situatie van belang lijken. Dat geldt ook voor zoiets als raden, dat op het eerste gezicht alleen bij keuzevragen lijkt te spelen, maar natuurlijk kan dat ook bij korte open vragen voorkomen, en zelfs bij open vragen waar handige leerlingen ruimte krijgen hun onkunde te verbergen door op te lepelen wat ze wèl weten maar wat nìet is gevraagd.

2.1 Korte open vragen

Korte open vragen, zijn die niet achterhaald, want subjectief? Dat is een misvatting. Bij de keuzevragen komt aan de orde waarom ook keuzevragen gewoon subjectief zijn. Dat mysterie even het mysterie latend, nu terzake. De voorbeelden in de box tonen enkele grondvormen van de kortantwoordvraag, die ik liever de ‘korte open vraag’ noem, ter onderscheiding van open vragen die langere antwoorden vergen, en van de gesloten keuzevragen.

algemene vorm

De algemene vorm [zie de box aan het begin van dit hoofdstuk] van de (korte) open vraag is: gegeven T en S, bewijs of leg uit dat S. Meestal is T impliciet: het is de lesstof waarover de toets gaat. S is een nieuw gegeven, of een nieuwe observatie. Gedegenereerde vragen gebruiken geen nieuwe S, maar een uit de stof bekende S, en vragen daarmee niet naar een nieuwe uitleg, maar naar hoe S is uitgelegd in de stof. Bijvoorbeeld: S = ‘de ontdekker van Amerika,’ een deel van de uitleg van S is de naam van deze persoon. Let op: de concrete toetsvraag ziet eruit alsof de vraag over de stof gaat, maar de eigenlijke vraag is of en zo ja hoe de kandidaat zich deze stof heeft eigen gemaakt; iedere toetsvraag is, als het goed is, een vraag met een dubbele bodem.
Een tegenwerping kan zijn: bij veel opgaven is toch helemaal geen sprake van bewijzen of uitleggen? Dat is ongetwijfeld vaak het geval, maar dat hoeft niet strijdig te zijn met het beginsel dat er altijd sprake is van een bewijs of uitleg. Als de uitleg vanzelfsprekend is, is het overdreven om ernaar te vragen, en is hij alleen impliciet aan de orde. Dit is niet anders dan bij wiskundige bewijzen die de vanzelfsprekende bewijsstappen overslaan: als dat niet zou mogen, is het praktisch onmogelijk ooit iets van enig belang te bewijzen.
De kortheid van de verlangde antwoorden op de korte open vragen hoeft dus niet op gespannen voet te staan met gewenste moeilijkheid of complexiteit van de vragen.

Deze vraagvormen hebben een aantrekkelijke eenvoud. Ze drukken direct uit wat de docent van de student wil horen. Ook wie keuzevragen gaat ontwerpen, kan dat vaak het best doen door eerst korte open vragen te ontwerpen, en ze pas daarna tot keuzevragen uit te bouwen.

Invulvragen zijn bedrieglijk eenvoudig: ze moeten twee keer worden gelezen: eerst om de betekenis van de vraag te doorgronden, en dan nog eens bij het passen van het antwoord. Dit probleem is erger bij tweekeuzevragen. Ook de aanvulvraag is een tikje gekunsteld, en niet echt fijn om leerlingen voor te leggen.

De vraagvorm zelf kan het denken van de leerling onbedoeld in een knoop leggen: een vraag twee keer moeten lezen leidt maar tot fouten, en dat zijn fouten die direct afbreuk doen aan de kwaliteit van de toetsvraag. Onhandigheden in de formulering van de vraag zelf kunnen hetzelfde effect hebben, en zijn dus vormgebreken zoals in hoofdstuk 8 behandeld. Een berucht gebrek is de ontkennende vorm: ‘Welk dier is GEEN zoogdier.’ Dat moet toch na te voelen zijn: de leerling wordt op een zoektocht gezet naar ongeveer het hele dierenrijk BEHALVE de zoogdieren, zij kan dat alleen oplossen door de alternatieven te bestuderen, en dan voor de zekerheid de vraag nog eens over te lezen. Dat alles vraagt zenuwen, naast biologische kennis.

Stel zo mogelijk altijd een volledige vraag. De vorm van de korte open vraag is dan wel eenvoudig, maar eenvoudig gestelde vragen zijn niet meteen ook goede vragen. Bedenk eens welke goede — maar mogelijk niet bedoelde — antwoorden er op de vraag naar Columbus mogelijk zijn.

Zoals de korte open vraag is gesteld, sluit hij geen van de onbedoelde antwoorden uit. Bovendien zit er een zeker cultureel vooroordeel in de Columbusvraag, en is het niet uitgesloten dat sommige studenten erop antwoorden met een uiteenzetting dat Columbus een land ontdekte dat al bewoond was ... .

Onbedoelde antwoorden die niet evident fout zijn, moeten goed worden gerekend. Dat kan wel eens problemen geven, bijvoorbeeld wanneer de beoordelaar zich niet realiseert dat Columbus een Italiaan was, of bij twijfelachtige antwoorden, zoals ‘zeevaarders.’ Ontwerp de vraag dan zo, dat de meeste onbedoelde antwoorden uitgesloten zijn. Geef extra informatie. Die extra informatie, hier ‘in 1492,’ is niet hetzelfde als het geven van een hint: de vraag hoeft er niet makkelijker door te worden.

De opgave in bovenstaande box behoort tot een type vraag dat nogal eens voorkomt. Ook dit is een onvolledige vraagstelling. De vraag hoort te zijn, volgens Milgram (2007): welke reeks, een veelterm van ten hoogste de tweede graad, dit is. Milgram legt uit dat het niet duidelijk is wat ‘de volgende term’ hier betekent, zodat de leerling daarnaar moet gissen. Dat maakt de vraag op zijn best tot een analogie, en dat hoort niet tot de wiskunde maar in een intelligentietest. Milgram licht het probleem uitvoerig toe (p. 39 pdf); het is nog niet eens het punt dat er een oneindig aantal goede antwoorden is, het gaat er juist om dat zo’n slordige vraag strijdig is met het precieze karakter van wiskunde. Wiskundige Milgram maakt in zijn (2007) gebruik van zijn ervaring bij een massale doorlichting van de toetsen wiskunde die Amerikaanse staten in het BO en VO laten afleggen; heel bijzonder, er blijkt veel aan de toetsen en toetsvragen te mankeren.

Korte open vragen zijn vrijwel universeel bruikbaar. Dat is handig, omdat ze meestal goed als eerste stap in een meer complex ontwerp zijn te gebruiken.

Korte open vragen zijn er in soorten. De Columbusvraag is een voorbeeld van de quiz-vraag: een korte vraag, een snel en kort antwoord. Quiz-vragen zijn doeltreffend wanneer beperkte stof vrijwel perfect moet worden beheerst, ze zijn de pest wanneer ze in feite vooral over trivia gaan. Rekenopgaven vragen al gauw meer tijd, ook als ze kort zijn. Binnen het genre van de rekenopgaven valt er eindeloos te variëren door accenten anders te leggen, complexe berekeningen te laten uitvoeren, of alleen de oplosmethode te laten benoemen. Soms is er veel tekst nodig alleen al om de vraag te stellen, terwijl het antwoord toch met een enkel woord is te geven, en dat is niet altijd doelmatig.

Korte open vragen kunnen altijd onvoorziene goede antwoorden opleveren, zoals de Columbusvraag al liet zien. Het is vaak maar al te gemakkelijk om een opgave of vraag anders te interpreteren dan de vragensteller bedoelt. Wie wel eens programmeert, weet hoe lastig het is om opdrachten aan een computer eenduidig te laten zijn. Voor vragenderwijs communiceren met computers zie Belnap en Steel (1976) The logic of questions and answers. Gelukkig begrijpen leerlingen al snel wat voor antwoorden ze moeten geven, terwijl een computerprogramma het bij de minste dubbelzinnigheid laat afweten. De leerling heeft onderwijs gevolgd en stof bestudeerd, en weet dus wat de context is van de gestelde vragen, en wat telt als een adequaat antwoord en wat niet. De ontwerper benut die impliciete context om tot doeltreffende vragen te komen met weinig omhaal van woorden. Is er achteraf discussie, dan kan het context-argument helpen afbakenen wat nog een redelijke interpretatie is en wat niet meer.

Het onderscheid tussen korte open vragen en keuzevragen lijkt dat tussen het antwoord herinneren of het herkennen. Dat is een te simpele typering, denk aan wiskundeopgaven in meerkeuzevorm, waarbij het goede antwoord alleen valt te berekenen. Zie voor het verschil tussen herkennen en herinneren, breed opgevat, Bennett en Ward (1993). Ook het idee dat korte open vragen nakijkwerk opleveren terwijl keuzevragen met de computer zijn te scoren, is net iets te simpel. Keuzevragen zijn handig handmatig na te kijken, terwijl voor het scoren van open vragen gebruik valt te maken van karakterherkenning, of — bij rekenvragen — van schrapkaarttechnieken zoals de grid-techniek bij de Amerikaanse SAT — Scholastic Aptitude Test voor selectie-aan-de-poort (Braswell en Kupin, 1993).

Mogelijk leest u er overheen, net als de ontwerper moet hebben gedaan, maar de betekenis van het bovenstaande gegeven is dat er, althans in 1985, iedere seconde ergens ter wereld een vierling werd geboren met hulp van een keizersnede-goochelaar. Daar kunnen we hartelijk om lachen, maar zo’n blunder kan zeker voor leerlingen met Nederlands als tweede taal een echt struikelblok zijn. Het tweede probleem is dat het gegeven onzinnig is, ook als ‘ergens op de aardbol’ is veranderd in ‘op aarde': geboorten vinden niet met de regelmaat van een tikkend metronoom plaats. Er hoort ‘ongeveer vier’ te staan, wat van de opgave een schattende opgave maakt.

Voor het goed formuleren van korte open vragen zijn er enkele eenvoudige stelregels. Wie dat wil, kan ze zien als afgeleide van de richtlijnen voor het schrijven van adequate keuzevragen (volgende paragraaf). De stelregels in de volgende box zijn samen te vatten als: formuleer de vraag helder en duidelijk.

Stelregels voor korte open vragen

Het taalgebruik is eenvoudig, passend bij het niveau van de leerlingen etc. die de toets maken.

Spelling, grammatica, interpunctie, hoofdletters, etc. moeten correct zijn.

De omvang van de te lezen gegevens is zo klein mogelijk.

Zorg er voor dat de vraagstelling ondubbelzinnig is.

Formuleer altijd positief, tenzij het echt niet anders kan, dan woorden als NIET, BEHALVE, etc. vet kapitaal afdrukken.

Zie ook Haladyna, Downing and Rodriguez (2002), guidelines 8, 12-14, 17

Bijzondere zorg is nodig daar waar een toets ook is bedoeld voor leerlingen of studenten die Nederlands als tweede taal hebben of anderszins tot een culturele minderheidsgroep behoren. Zie Bügel en Sanders (1998 pdf) voor richtlijnen en tips bij het ontwerpen van toetsvragen die aan deze eisen kunnen voldoen.

Afbeeldingen bij toetsvragen zijn een zorg apart. Tabellen zijn ook afbeeldingen, wat de zorg groter maakt. Allereerst geldt ook hier alles wat voor tekst vereist of gewenst is: helderheid etcetera. Plus allerlei speciale aandachtspunten, denk aan veel voorkomende vormen van kleurenblindheid, en natuurlijk de relatie tussen tekst en beeld. Kan de vraag ook zonder die extra afbeelding, dan moet hij echt weg. Een aardige introductie in algemene zin is Barlow, Blakemore en Weston-Smith (1990), en voor het eigen vakgebied is er ongetwijfeld specialistische literatuur te vinden, zoals Wainer’ (2009) ‘Picturing the uncertain world’. Afbeeldingen kunnen overigens ook in didactische zin een eigen bijdrage hebben, zie bijvoorbeeld Glasgow, Narayanan en Chandrasekaran (1995). Genoemd boek, over diagrammatisch redeneren, maakt nog niet echt gebruik van recente ontwikkelingen in de cognitieve psychologie die erop wijzen dat het denken een proces is dat deels in de hersenen, deels in de afbeeldingen zelf plaatsvindt. Dat laatste klinkt wat wonderlijk, maar is een wat dwarse opvatting over wat denken is. Meer hierover in de laatste paragraaf over validiteit, zie ook Giere (2006, hoofdstuk 5).

Een belangrijk punt bij het gebruik van afbeeldingen is de relatie tussen afbeelding en tekst. Hoe dat bij toetsvragen problematisch kan zijn, valt af te leiden uit onderzoek naar hoe dat in het leerproces problematisch kan zijn. Wie weet dat visuele en tekstuele informatie op een andere manier door de hersenen wordt opgenomen en bewerkt, vermoedt al dat er dan dus een extra probleem ontstaat wanneer de lezer verband tussen de twee moet leggen, wat meestal het geval is. Het gaat om mentale belasting (cognitive load), zie bijvoorbeeld Cook, Zheng en Blaz (2009). Als voorbeeld:

Het split attention principle

“Studenten leren beter wanneer het instructiemateriaal niet van ze vraagt hun aandacht te verdelen over meerdere bronnen van naar elkaar verwijzende informatie.“

Dan is onmiddellijk in te zien dat overbodige plaatjes bij toetsvragen doodzonden zijn voor de ontwerper. Dus ook wanneer met een kleine ingreep in de tekst het plaatje overbodig is te maken. Zie voor meer van dergelijke principes, en als ingang tot de onderzoekliteratuur Moreno & Mayer (2000). Recent Nederlands onderzoek met jonge leerlingen;: Van Lieshout en Berends (2009).

citaat vertaald uit Moreno & Mayer (2000).

Koppel het gegeven van afzonderlijke korte-termijn geheugens voor visuele en verbale informatie aan het bestaan van belangrijke individuele verschillen in ruimtelijk inzicht, en het vermoeden rijst van een mogelijk belangrijk probleem voor grote groepen leerlingen bij toetsvragen met zowel belangrijke verbale als visuele informatie. Specifiek voor toetsvragen en zeker voor examenvragen is dat daar vaak de grenzen van de intellectuele vermogens van leerlingen worden opgezocht. Combineer een en twee, en er ontstaat een in beginsel explosief mengsel. Waarom weten we daar eigenlijk zo weinig van? Het is gewoon nog weinig onderzocht, althans niet in deze combinatie van ingrediënten. Voor een begin, zie Spatial visualization in physics problem solving, een artikel van Kozhevnikov, Motes en Hegarty in Cognitive Science (2007, 549-579). Gagatsis en Elia (2004) geeft recente literatuur, in het bijzonder voor rekenonderwijs. In de tussentijd: wees in het bijzonder bedacht op het risico van overladen met informatie van verschillende soort, verwijs bij twijfel het ontwerp naar de prullenbak, en ga in andere gevallen na of er in het verleden signalen zijn geweest van kenmerkende moeilijkheden die sommige leerlingen bij vergelijkbare vragen hebben.

Ook al is ruimtelijk inzicht onmisbaar voor het begrijpen van bijvoorbeeld natuurkunde, dan is dat nog geen vrijbrief om toetsvragen te ontwerpen die verschillen in ruimtelijk inzicht meten. De vragen over natuurkundige verschijnselen moeten immers zo zijn ontworpen dat blote verschillen in ruimtelijk inzicht niet mede verschillen in toetsscores tussen leerlingen bepalen. Dat laat onverlet dat leerlingen die minder sterk zijn in ruimtelijk inzicht, dat moeten compenseren door meer tijd in de studie te investeren dan anders nodig zou zijn geweest. Voor dat laatste moeten ze dan wel, in redelijkheid, goede gelegenheid en ondersteuning krijgen. Voor meer over eisen van transparantie, zie De Groot (1970 html).

2.2 Keuzevragen

Willem Willink helpt de juiste toon voor deze paragraaf te zetten. Wees gewaarschuwd:

De keuzevraag stamt uit de wereld van psychologische tests, waar de techniek van keuzevragen de automatisering van het nakijken mogelijk maakte. De voorwaarde voor deze automatisering is dat het beantwoorden van vragen een logisch spel is: een alternatief is ofwel fout, ofwel goed (of driewaardig: ik weet het niet, ik laat het open). Een handige jongen heeft ooit bedacht dat daaraan valt te ontsnappen door de student de alternatieven te laten ordenen, en bijvoorbeeld ‘het beste’ antwoord als het juiste antwoord aan te laten merken, maar ook dan blijft de basis een zaak van logica (dit alternatief is ofwel het beste, ofwel het is dat niet). Die logica is alleen maar nodig omdat rekenautomaten logische machines zijn, en het is dus de vraag of deze injectie van logica in toetsvragen niet onnodig veel schade berokkent aan waar het in het onderwijs uiteindelijk om gaat. We zijn ondertussen aan het gif gewend, maar het is nog steeds gif. Be careful. Logica heeft zijn verdiensten en toepassingen, sommige ook heel handig voor de ontwerper van toetsvragen, maar de modale keuzevraag is een onhandig compromis tussen droom en werkelijkheid.

Nog een opmerking op voorhand. De stelling dat alle toetsvragen vragen om uitleg, leidt onmiddellijk tot de conclusie dat veel keuzevragen gedegenereerde toetsvragen zijn omdat het alleen om de uitkomst van de uitleg (berekening, gedachtengang, etc) gaat, niet om de uitleg zelf. Het probleem wordt er niet beter op door het vaak expliciete verbod aan studenten om bij hun antwoorden een uitleg te geven; dat zou juist omgekeerd moeten zijn: geef altijd ook een uitleg, ook bij antwoorden op keuzevragen. Een cultuuromslag?

Keuzevragen altijd over feitjes?

Een wijd verbreide opvatting is dat keuzevragen als vraagtechniek uitlokken dat vragen vooral over eenvoudige feiten gaan. Ik zet daar graag een stelling tegenover, dat het de ontwerper van de toetsvragen is die om te beginnen vooral denkt in termen van weetjes en feiten, dat is haar naïeve theorie over wat het is om een onderwerp, een hoofdstuk of een vak te ‘kennen.’ Ik kan dat meteen bewijzen door naar een publieke toets te wijzen, bijvoorbeeld De Grote Geschiedenis Quiz 2007. Niemand heeft de ontwerpers van de 25 vragen in die quiz gedwongen om naar triviale kennis, feiten of gebeurtenissen te vragen, toch doen ze dat met gretigheid. Terwijl er achter die triviale feitjes soms (altijd?) werelden van historisch begrip en belang liggen. Grijp dat historisch begrip aan voor het ontwerp van de vragen, dat lijkt me een redelijke aansporing. Zie voor een commentaar op het ontwerp van de vragen in deze quiz hier

Bij keuzevragen zijn een aantal mogelijke antwoorden voorgedrukt, dat is het opvallende verschil met de korte open vragen in 2.1. Andere algemene kenmerken van keuzevragen zijn er niet. Dat hier alleen maar het beste antwoord herkend hoeft te worden, is geen algemeen kenmerk; voor rekenopgaven, bijvoorbeeld, gaat dat herkennen al niet meer op. Zo is het ook met het idee dat er naast een juist alternatief alleen onjuiste alternatieven mogen zijn. Het aantal juiste alternatieven hoeft niet tot één beperkt te zijn. En in plaats van juist of onjuist is het vaak beter om een enkel beste alternatief te hebben naast een aantal die een minder goed antwoord op de vraag geven. Kortom: de ontwerper heeft alle ruimte om kwalitatief hoogwaardige keuzevragen te maken, en veel kansen om daarin te mislukken.

Het eerste voorbeeld laat ook een typisch gebrek in het ontwerp zien: als de ontwerper wil weten of de leerling weet dat kikkers eieren in het water leggen, wat doen die andere dieren er dan bij? Het ei van Columbus zou hier toch zijn een gewone korte open vraag te stellen. De antwoorden nakijken is een fluitje van een cent, en als ook dat echt bezwaarlijk is: maak er een tweekeuzevraag van.

Voor de ontwerper zit het probleem in het bedenken van de foute antwoorden. Die heten ook wel afleiders, maar het is een didactisch verwerpelijk idee om bij toetsen te proberen studenten op het verkeerde been te zetten. Historisch is de gedachte geweest dat het slim kan zijn foute alternatieven te ontwerpen die juist aantrekkelijk zijn voor de student die zijn huiswerk niet heeft gedaan. Dit soort slimheid is niet professioneel, weg ermee. Probeer niet te denken in termen van ‘afleiders,’ maar wees eerlijk en ontwerp adequate foute antwoorden. Alternatieven die berusten op een bekende misvatting kunnen adequaat zijn wanneer leerlingen dat ook moeten weten (meta-kennis).

Thorndike wijst er in 1920 (o.a. p. 91) op dat de leerling onjuiste informatie in toetsvragen zal leren: zij vormt associaties — bonds — met die onzin. Op dezelfde manier kunnen onjuiste alternatieven ertoe leiden dat de leerling de combinatie van die onzinalternatieven en de stam van de vraag leert. Dat is precies wat Roediger en Marsh (2005) nog eens empirisch hebben aangetoond. Zij onderzochten de effecten van het maken van een keuzetoets op resultaten op een latere keuzetoets. Eerder getoetste feiten bleken beter onthouden te zijn. Maar de eerder gelezen onjuiste alternatieven leidden ook tot meer foute antwoorden op die latere toets. Haal hier niet de schouders over op want leerlingen brengen in hun onderwijsloopbaan heel veel tijd door met het bestuderen van onjuiste alternatieven op keuzetoetsjes. De conclusie is niet lijnrecht dat onjuiste alternatieven altijd ontwerpfouten zijn, maar sommige zijn dat wel, andere niet. Het kunnen weten dat en waarom foute alternatieven fout zijn, moet tot de stof horen, anders is de vragenontwerper niet echt goed bezig geweest. Het fenomeen hoeft overigens niet beperkt te zijn tot opties bij keuzevragen: Perfetto, Bransford en Franks (1983) laten experimenteel zien dat eigen onhandige oplossingen van problemen kunnen verhinderen dat studenten na een hint over mogelijk relevante informatie alsnog een goede koppeling tussen die informatie en het probleem kunnen ‘zien.’ Met andere woorden: studenten die verkeerde oplossingen proberen kunnen die oplossingen niet zomaar vergeten, en dat hindert transfer van informatie die nodig of handig is voor een goede oplossing.

Een intrigerende kwestie is of voor het herkennen van ‘foute’ alternatieven juist een hoger niveau van kennis nodig is, meta-kennis. Ik zoek onderzoek dat daar antwoord op zou kunnen geven, bijvoorbeeld onderzoek naar meta-linguïstische vaardigheden. Het is niet ondenkbaar dat een bevestigend antwoord op deze vraag betekent dat keuzevragen die onbedoeld een beroep doen op meta-kennis, in die mate niet valide (zie paragraag 2.6) zijn. Als dat beroep op meta-kennis wel degelijk bedoeld is, kan de vraag meta-valide zijn , en dat kan ook de vraagstelling zelf betreffen, dus niet alleen de foute alternatieven (ook par. 2.6).
Hampton, J. A., Aina, B., Andersson, J. M., Mirza, H. Z., & Parmar, S. (2011, September 12). The Rumsfeld Effect: The Unknown Unknown. Journal of Experimental Psychology: Learning, Memory, and Cognition. Advance online publication. doi: 10.1037/a0025376
Fischhoff, B., Slovic, P., & Lichtenstein, S. (1977). Knowing with certainty: The appropriateness of extreme confidence. Journal of Experimental Psychology: Human Perception and Performance, [reprinted in Arkes & Hammond 1986, 397-417]

Aan de overkant van de grote plas denkt men over ‘afleiders’ heel anders: “ ... the main idea is that distractors should appeal to low-scoring test-takers and not appeal to high scoring test-takers. Any contradiction to this state of affairs signals an ineffective distractor.”
Toch is het eenvoudig in te zien dat deze zienswijze niet klopt. Dezelfde redenering kan immers worden toegepast op constructed response vragen — korte open vragen — die dan in de vraagstelling een valkuil voor de minder goed voorbereide studenten zouden moeten hebben, een valkuil die goede studenten vanzelfsprekend mijden. Is dit wat we met onderwijs willen, studenten in valkuilen lokken? Dat heet — in gewoon Nederlands — kwade trouw.
Deze afleider-filosofie is ook armzalig als ontwerp omdat het miskent dat voor keuzevragen de stam en de alternatieven als geheel een bij de mogelijk gebrekkige beheersing van de leerling passende — authentieke zo men wil — opgave moeten vormen.

citaat uit: Thomas Haladyna (1999)

De verleiding is nu om te snel tevreden te zijn met de eerste de beste foute alternatieven die langskomen, zie bijvoorbeeld de in dit opzicht slordige vragen in de Wetenschapsquiz 2008 hier. En dat terwijl het er bij keuzevragen juist om gaat die foute alternatieven weloverwogen te kiezen: dat kan leiden tot briljante vragen, en bij verzuim tot mislukte vragen.

Hier een eenvoudig voorbeeld hoe zoiets aan te pakken, het juiste antwoord is 3/2. Voor een driekeuzevraag zijn twee foute alternatieven nodig, dat moeten getallen zijn, maar welke? Zomaar een paar getallen — 12, -8/3, 21 — zijn op afstand al herkenbaar als fout. Getallen die lijken op het juiste antwoord — zoals -1/2, 2/3, en 3/4 — zijn bruikbaar; de student die de opgave niet kan berekenen, en ook niet kan terugrekenen vanuit de alternatieven, zal dan moeten raden. Soms is het goed om getallen te nemen die volgen uit fouten bij het berekenen: uit de foute stap x = 3x - 1 volgt zo het antwoord x = 1/2. zo’n vraag toetst ook of de student heeft geleerd dit type fout niet (meer) te maken, dat moet dan wel in het onderwijs zo zijn behandeld. Met dergelijke alternatieven is er geen sprake van dat het juiste antwoord valt te herkennen, het is de uitkomst van een berekening die de student moet maken. O ja, geef leerlingen de gelegenheid hun kladpapier samen met de toets in te leveren; dat is niet alleen nuttig wanneer de leerling achteraf claimt via een goede berekening tot een ‘verkeerd’ antwoord te zijn gekomen, maar geeft ook inzicht in hoe leerlingen de opdrachten aanpakken.

Wat nu als het geen rekenopgaven zijn? Ontwerp de vraag inclusief de foute alternatieven dan zo dat de student het juiste antwoord moet weten of beredeneren (= berekenen), eventueel vanuit de alternatieven weten of beredeneren welke fout zijn (= terugrekenen). Kortom, laat de student het gegeven antwoord motiveren — het kladpapier met de berekening inleveren is ook goed. In beginsel is dit de hele aanpak voor het ontwerpen van keuzevragen, uitgaande van open-eind vragen.

Welke getallen ook als alternatieven zijn gekozen, het blijft bij deze keuzevragen altijd mogelijk om het juiste antwoord op averechtse wijze te vinden door vanuit de genoemde alternatieven terug te redeneren of terug te rekenen: bij het goede alternatief lukt dat immers in beginsel. Hier heeft de keuzevraag toegevoegde waarde ten opzichte van de open vraag. Bij rekenopgaven is overigens dat terugrekenen te ontmoedigen door geen getallen als alternatieven te nemen, maar intervallen waarin het juiste antwoord ligt. Als zoiets gekunsteld is, zoals hieronder, doe het dan niet.

Uitzonderingen daargelaten, zijn de alternatieven altijd belangrijk genoeg om er in het ontwerp ruimschoots aandacht aan te geven. Het is echt niet zo dat de keuzevraag eigenlijk net een open vraag is, zelfs niet voor de student die het juiste antwoord zeker weet. Door de toegevoegde alternatieven verandert de vraagstelling ten principale, omdat de spelregel is dat alleen het aangestreepte juiste of het beste alternatief telt. Meer of minder nadrukkelijk moet de student altijd nagaan of er misschien een beter alternatief is dan wat zij aanvankelijk dacht dat het juiste antwoord was. En ook hier geldt: verre van een nadeel, kan dit juist een sterk punt zijn waar het ontwerp op in kan spelen.

Overal waar de student ook op een open vraag al kiest uit een klein aantal mogelijkheden, laat op soepele wijze het ontwerp van de keuzevraag toe om hetzelfde doen. De stam van de vraag geeft die mogelijkheden door het noemen van een categorie: eilanden, hoofdsteden, kabinetten, eigenschappen, scheikundige stoffen.

Door van deze open vragen keuzevragen te maken krijgt de goed voorbereide student geen informatie cadeau. Waarom dan keuzevragen maken? Als automatisch scoren van belang is. Studenten die niets van de stof weten krijgen nu een raadkans, wat geen geweldig probleem is. Raadkansen komen nog apart aan de orde.

De stam van de vraag hoeft niet te zeggen dat het om waddeneilanden gaat, en kan dus kort blijven. De keuzevraag maakt het zo mogelijk om de abstracte categorie — waddeneilanden — te vervangen door een goed gekozen — in logische want geografische volgorde — aantal voorbeelden uit die categorie. De keuzevraag geeft meer ruimte om te spelen met de spanning tussen abstract en concreet. Hoeven leerlingen niet te weten dat dit waddeneilanden heten, dan biedt de keuzevraag de mogelijkheid met concrete voorbeelden te werken uit een categorie die als abstractie niet tot de stof hoort. Hetzelfde geldt waar er voor een complexe categorie geen eigen naam beschikbaar is. Als het maar geen heterogeen — samengeraapt, creatief bedacht — stel alternatieven is, dat heeft niets met behoorlijk ontwerpen te maken.

Bij keuzevragen moet de student altijd alert zijn op de mogelijkheid dat toch een ander alternatief ‘beter’ is. Niet zeker weten dat Nes op Ameland ligt, zet een ingewikkelde afweging in gang welk antwoord de beste kans biedt. Maar dan moet het ook zo zijn dat keuzevragen bij uitstek een goede ontwerpkeuze zijn bij het toetsen van onderscheidend vermogen, van onderscheidende kennis, zoals ‘welke van deze dieren zijn zoogdieren?’ Die vraag past niet goed in de standaardvorm dat maar één alternatief correct is. Het is ondoelmatig om het ene zoogdier van de vier genoemde dieren te vragen. Beter is om aan te geven dat meerdere alternatieven goed kunnen zijn (tenminste één is goed), of er een meervoudige ja-neevraag van te maken.

Bij onhandige ontwerpen kan een student die de open vraag weet, de keuzevraag toch fout maken omdat alternatieven haar op het verkeerde been zetten. De ontwerper moet oppassen voor de nonchalante opvatting dat de student gewoon het correcte antwoord moet weten, en dat het voor deze student ‘dus’ niet uitmaakt wat als onjuiste of minder juiste alternatieven is opgevoerd. Bijvoorbeeld zijn het juist de studenten die naast de opgegeven stof nog een stapel boeken hebben verslonden, die dan voor de bijl gaan, een fenomeen dat in onderwijsonderzoek telkens weer blijkt, vaak tot verrassing van de onderzoekers (bijvoorbeeld Furnham, Monsen & Ahmetoglu, 2009, p. 780).

Crombag, Gaff en Chang (1975, p. 3) publiceerden in de eerste bladzijden van het kersverse Tijdschrift voor Onderwijsresearch hun onderzoek over studeergedrag en prestaties. Het enige statistisch aangetoonde verband was dat het in eigen woorden verwerken van de leerstof een gevaarlijke gewoonte is, want bij de onderzochte studies rechten, psychologie, geneeskunde en scheikunde voorspelt dat lagere cijfers. De ontwerpers van die tentamens hebben een enorm probleem: het valt niet vol te houden dat juist studenten die er geen bal van begrijpen, proberen de stof diep te verwerken.

richtlijnen voor het schrijven van keuzevragen
Naast de hierboven al genoemde richtlijnen voor het schrijven van adequate kort-antwoordvragen, komen er voor het schrijven van keuzevragen nog een aantal bij.

Richtlijn voor de formulering van alternatieven

Twee of drie keuzealternatieven is vrijwel altijd het maximaal zinvolle.

Zorg ervoor dat één alternatief het correcte antwoord is.

Rangschik de alternatieven in logische of alfabetische volgorde.
De alternatieven zijn onafhankelijk van elkaar (geen overlappende betekenis etc.)

De alternatieven zijn homogeen van inhoud (geen ratjetoe) en gelijk geformuleerd.

De alternatieven zijn ongeveer even lang.

Haladyna, Downing and Rodriguez (2002) http://depts.washington.edu/currmang/Toolsforteaching/MCItemWritingGuidelinesJAME.pdf [dode link? 7-2009], p. 312.

Aanbevelingen voor afleiders zijn in bovenstaande box weggelaten, evenals dingen die men beter kan vermijden — dat ene correcte alternatief is een randgeval, de ratjetoe maakt duidelijk wat met ‘homogeen’ is bedoeld — zie daarvoor hoofdstuk acht.

Haladyna e.a. noemen ook nog dat de plaats van het juiste alternatief in de toets gebalanceerd moet zijn, dus ongeveer even vaak op de eerste, als op de laatste plaats. Maar dat is meer een zaak van samenstellen van de toets, dan van ontwerpen van afzonderlijke vragen.

Het ontwerpen van keuzealternatieven is ten principale niet verschillend van dat van het ontwerpen van de vragen zelf. Het gaat dus niet aan om allerlei creatieve wegen te bewandelen om aan foute alternatieven te komen. Wie ondanks dat toch bijvoorbeeld Haladyna’s guideline #29 wil volgen — use typical errors of students to write your distractors — moet klip en klaar duidelijk maken wat in specifieke gevallen de didactische grondslag precies is. In het geval van typische fouten van studenten is de zaak natuurlijk deze: als ze geleerd is deze fouten niet meer te maken, of ze moeten dat leren (formatief toetsen), is dat op zich een leerdoel dat voor de toets relevant is; maar als dat niet zo is dan beweegt de ontwerper zich in een schemergebied van misleiding.

matchingvragen
Varianten in het domein van de keuzevragen zijn de matchingvraag en de ja-neevraag. De matchingvraag is bruikbaar wanneer de leerstof reeksen gepaarde zaken bevat.

Bij een match tussen vier boeken en auteurs, zijn er vier goed te maken door er drie te weten, dat levert maar gepuzzel op. Een opzet zoals hierboven vermijdt dat.

ja-neevragen
Het bijzondere van zowel ja-neevragen als juist-onjuistvragen (hierbeneden) is dat ze alleen mogelijk zijn wanneer ongeveer de helft van de vragen inderdaad als ‘nee,’ respectievelijk ‘onjuist’ zijn gesleuteld: anders kunnen kandidaten blind altijd bevestigend antwoorden. Voor de kwaliteit van dit type keuzevragen is dus het springende punt of die negatieve vormen valide zijn (paragraaf 2.6. De argumenten zijn hier verdeeld over twee paragrafen, maar ja-neevragen zijn ook kwetsbaar voor specifieke problemen bij onjuiste stellingen, en omgekeerd.

ja-neevragen over auteurs en hun boeken zijn af te raden, dat bedelft de leerling onder een hoop onzin omdat er onvermijdelijk ongeveer de helft als nee moet zijn gesleuteld. Dat gaat in tegen de draad van onderwijs. ‘Wat niet het geval is,’ bijvoorbeeld dat Mulisch Onder professoren schreef, valt in de regel buiten de leerstof.

Waar het nonsens is te eisen dat leerlingen weten wat Mulisch niet heeft geschreven, zijn er toch veel zaken waar leerlingen een bepaald onderscheid moeten kennen, daar kunnen ja-neevragen ook in hun ontkennende vorm bij passen.

Het is goed — maar ik moet hier nog onderzoek naar doen — om altijd de vragende vorm te gebruiken zoals ‘Is een walvis een vis?,’ in plaats van de stellende ‘Een walvis is een vis.’ Een onjuiste uitspraak die in het geheugen blijft hangen, is hinderlijk. Een vraag naar een stand van zaken is gewoon een vraag.

Er zijn maar weinig korte uitspraken die ongeclausuleerd juist of onjuist zijn. Studenten komen in moeilijkheden wanneer zij zelf omstandigheden kunnen bedenken die de uitspraak waar of onwaar maken. Ze moeten dan gissen of de ontwerper van de vragen dezelfde omstandigheden in gedachten had, of juist niet. De Wetenschapsquiz kent heel wat vragen die in dit opzicht niet ideaal zijn, terwijl door het algemene karakter van de quiz — de wetenschap, dat is nogal wat — de context toch al verre van vanzelfsprekend is. Een eenvoudig voorbeeld is de baan van de aarde om de zon, die zeker geen perfecte cirkel is. Geen cirkel dus, maar een perfecte ellips is het al evenmin. Misschien bedoelt de ontwerper te vragen of de aarde om de zon draait? Maar ook dat is te absoluut gevraagd, op dezelfde wijze draait de zon ook om de aarde, omdat zij beide draaien om hun gezamenlijke zwaartepunt.

De tweekeuzevraag, met de instructie het beste alternatief aan te strepen, kan de moeilijkheid vermijden. Als het de bedoeling is dat de student weet dat de baan geen cirkel maar een ellips is, vraag daar dan direct naar.

Het gebruik van ja-neevragen impliceert dat ongeveer de helft ervan ‘nee’ is gesleuteld, anders zouden onvoorbereide studenten een hoge score kunnen behalen door alle vragen met ‘ja’ te beantwoorden. Die negatieve ja-neevragen passen niet altijd naadloos bij het gegeven onderwijs. Het werkt dus niet om zinnen uit het studieboek te knippen, en daar ‘ja/nee’ achter te plakken, als zulk knip- en plakwerk zelf al zou deugen. Een ander probleem met dit type vragen is dat mensen verschillen in hun neiging om ‘ja’ te antwoorden als ze in feite raden. Opsommend is het advies om waar mogelijk ja-neevragen te vermijden, en in plaats daarvan tweekeuzevragen te ontwerpen.

waarschuwing: culturele gevoeligheid

“... in conversation Africans and Europeans intuitively answer negative questions differently. If you ask a European patient ‘Are you not well’ he would answer ‘Yes’, meaning ‘you are right, I am not well.’ A sick African patient asked ‘Are you not well?’ would answer ‘No’, because he feels sick. One African student, before we became aware of the problem, scored 43% in a paper where thirteen questions were phrased negatively.”

W. M. CASTLE (1976), Multiple choice examinations: lessons learnt. Medical Education, 10. 97-104. (p. 104)

Ik wijs er voor de zekerheid ook maar even op dat eenzelfde type verschil bestaat in autochtoon Nederland: in het Oosten antwoord men op negatief gestelde vragen nogal eens negatief als bedoeld wordt dat de ontkenning juist is.

Ik vermoed dat bij dit cultureel bepaalde probleem het voor een slachtoffer moeilijk is om te ontdekken dat een antwoord onjuist is gescoord.

Het lijkt zo simpel: feitenkennis toetsen door uitspraken uit de leerstof te nemen, en de helft daarvan te verdraaien tot onzin. Heel pesterig laat ik daarom een afrader zien waarvan hopelijk niemand het in zijn hoofd zal halen deze ooit in een toets te gebruiken: ‘3 + 4 = 8.’ Als dit evident didactisch vergif is, waarom zouden andere onjuist gesleutelde stellingen dan wèl valide vragen kunnen zijn? Precies, dit is een ja-neevraag waarop u uw antwoord moet onderbouwen.

Er zijn tal van problemen met onjuiste stellingen in studietoetsen. Er is hierboven al op gewezen dat kandidaten de onzin kunnen leren, en dat kan niet de bedoeling van onderwijs zijn. Een enorm probleem is dat de onjuiste stelling als zodanig niet geleerd is, dus niet in het geheugen opgeslagen: de onjuiste stelling zet de kandidaat dus aan het zoeken naar iets dat er niet is. Reder (1988 pdf) meldt uit empirisch onderzoek dat juist kandidaten die de stof goed kennen — wat op het moment van toetsen het geval pleegt te zijn — er lang over doen voordat zij concluderen dat zij de onjuiste stelling niet kennen en dat hij daarom onjuist moet zijn.

Het is een goed idee om nooit juist-onjuistvragen te gebruiken. Omzetten naar ja-neevragen haalt iets van de scherpte af, maar lost het onderliggende probleem niet op. Het vragen om een onderbouwing van het antwoord ‘onjuist’ helpt wel: het dwingt de ontwerper alleen die onjuiste stellingen te gebruiken die een onderbouwing hebben die zinvol is, gegeven de stof. Laat de ontwerper zich afvragen wat zij graag van de kandidaat wil weten, en daar rechtstreeks een vraag op te ontwerpen: ‘Is de baan van de aarde om de zon cirkelvormig of ellipsvormig?’

De juist-onjuistvraag is een typisch voorbeeld van pseudo-logisch denken van de ontwerper van de toetsvraag. Alsof kennis tweewaardig is: ofwel waar, ofwel niet waar. De logica (Beth, 1969: semantische tableaus) kan met de onjuiste stelling natuurlijk goed uit de voeten: de kandidaat neemt aan dat de stelling juist is, en leidt vervolgens een tegenspraak af, zodat de conclusie is dat de stelling inderdaad ‘onjuist’ is.

Als tot de doelen van het onderwijs hoort onjuiste beweringen te kunnen weerleggen, dan passen juist-onjuistvragen. Maar dan gaat het altijd om de rechtvaardiging van het antwoord ‘onjuist‘, niet om dat antwoord als zodanig. Dan is het een goed idee gewoon mee te delen dat de stelling onjuist is: ‘Leg uit dat de baan van de aarde om de zon niet cirkelvormig is.

Kortom, de ontwerper die vraagt naar dingen die er niet zijn of die niet zo zijn, moet daar heel goede redenen voor hebben. Anders zijn de vragen een vorm van pesterij. Er is uit empirisch onderzoek veel bekend over dit type vragen, bijvoorbeeld Anderson en Lebiere (1998, p. 87 e.v., Reder 1988 pdf); die literatuur is één klik van u verwijderd, neem er kennis van, voordat u de volgende juist-onjuistvraag ontwerpt.

aantal alternatieven
In Nederland is eind zestiger jaren het idee gevestigd dat keuzevragen vier alternatieven zouden moeten hebben. Dat idee bestaat nog steeds, ook nu het Cito niet alleen meer vierkeuzetoetsen maakt, en een spectaculaire Wetenschapsquiz driekeuzevragen heeft. De ervaring wijst keer op keer uit dat bij de meeste vierkeuzevragen, zeker de door docenten voor eigen gebruik ontworpen vragen, er vaak een alternatief is dat door vrijwel geen enkele student is gekozen. Dat is vaak ook het alternatief dat de meeste moeite heeft gekost om nog te bedenken. Weglaten dat vierde alternatief, dat levert een veel betere toets op, de vrijgekomen ruimte en leestijd maakt het mogelijk meer vragen in de toets op te nemen. Hier is minder meer, altijd doen. Wie nog een stap verder wil zetten, en met tweekeuzevragen — alternate-choice vragen — wil werken: prima.

Computerprogramma’s die zijn ingesteld op vier keuzen per vraag, verwerken twee- en driekeuzevragen ook goed. De computer hoeft niet te weten of er in feite een alternatief minder is. Dat is anders wanneer bij vijf alternatieven er een alternatief extra is, dan is een aanpassing van de programmatuur nodig. Voor antwoordformulieren geldt hetzelfde, al is het eleganter een antwoordformulier te hebben met precies het juiste aantal alternatieven per vraag.

De afrader toont een geforceerde manier om vier keuzen te maken. Als iets de indruk geeft geforceerd te zijn, kies dan een ander ontwerp. In dit geval is een klein probleem dat de tekst van de stam niet logisch doorloopt in die van de alternatieven; dat kan ook niet, er staat een tweede vraag tussen. En een groot probleem is dat de student heel goed op moet letten om geen vergissing bij het aankruisen te maken, en dat moet ze doen tegelijk met het nagaan van de juistheid van de vragen. Dat levert mentale overbelasting op. De student die net goed bezig is een serie vragen te beantwoorden, stuit hier op een hobbel, raakt uit haar ritme, moet goochelen met informatie. Een nogal eens gebruikte variant is die van de dubbele juist-onjuistvraag, gestoord kan een leerling ervan raken. Dit is een ernstige ontwerpfout, deze vragen meten mogelijk meer koelbloedigheid en intelligentie dan kennis.

Een variant die in de praktijk ook nogal eens voorkomt stapelt ontwerpfout op ontwerpfout door een vierkeuzevraag te construeren waarbij de alternatieven bestaan uit verwante uitspraken met telkens twee of meer onderdelen die juist of onjuist zouden kunnen zijn: dit is de leerlingenhel op aarde. Breng zo’n vraag allereerst terug tot een of meer rechtlijnige juist-onjuistvragen, en maak dan een herontwerp in de vorm van bijvoorbeeld tweekeuzevragen.

Figuur 1. Honderd apen doen een toets van 10 driekeuzevragen.

raadkansen
Keuzevragen geven de leerling die niets weet een kans om goed te gokken. Een klas met honderd apen die een toets met driekeuzevragen invult, zal er gemiddeld een derde van ‘goed’ gokken. zo’n toetsresultaat is hier afgebeeld, 5 van de 100 apen scoren 6 of 7 van de 10 vragen goed. Experimenteer hier zelf met andere getallen. Er nemen wel eens apen aan toetsen deel, bijvoorbeeld studenten die eerst eens willen verkennen hoe een toets gaat; de vraag is dan of die aan hun scores zijn te herkennen, maar helaas kan dat voor een concrete Marie of Kees niet zomaar. Het vervelende is namelijk dat studenten die zich redelijk voorbereiden, toch pech kunnen hebben en scores halen die met een beetje geluk ook door raden zijn te krijgen.

In Nederland is het nog steeds gebruikelijk dat leerlingen op keuzevragen altijd moeten antwoorden, desnoods door raden, omdat ze zichzelf anders zouden benadelen. Bijvoorbeeld bij de keuzevragen in de eindexamens VO anno 2009. Dit gedwongen raden levert een maatschappelijk probleem op, omdat het onderwijs leert dat het oké is om, als je iets niet weet, dan maar wat te roepen. Dat is een wonderlijke en ongewenste stand van zaken. De reden is historisch. In het begin van de 20e eeuw was het gewoon om keuzevragen die je niet wist, open te laten. Zo ontdekten kandidaten bij de Amerikaanse dienstkeuring in WO I dat ze hun kansen op inlijving konden vergroten door altijd iets aan te strepen, dus door te raden als je het niet weet of geen tijd meer hebt erover na te denken. Omdat anderen daardoor in het nadeel komen, is het probleem opgelost door iedereen te instrueren altijd een antwoord aan te kruisen, desnoods door te raden. Betere oplossingen zijn denkbaar, zoals het toekennen van een kleine bonus bij onbeantwoorde vragen, gelijk aan of een fractie groter dan de raadkans zou zijn. Apen kun je zo niet instrueren, studenten gelukkig wel. Als foute antwoorden op keuzevragen ‘strafpunten’ opleveren, dan kunnen niet-geweten vragen gewoon onbeantwoord blijven. Bij meerkeuzevragen is dat toch iets ingewikkelder: kan de student een alternatief als onjuist afstrepen, dan is raden op de overgebleven alternatieven nog steeds voordeliger dan de vraag open laten. Op belangrijke tests als de SAT, in de VS, die merendeels uit vijfkeuzevragen bestaan, levert een fout een kwart strafpunt op, en kunnen niet-geweten vragen dus ook gewoon onbeantwoord worden gelaten. “Omit questions that you really have no idea how to answer.” SAT Test-Taking Approaches.

Nu bestaan er formules die toetsresultaten zouden corrigeren voor raden. Voor de evaluatie van het onderwijs mag dat zinvol zijn, niet voor de score van Jan, Piet of Klaas. Niet alleen is het echt onbekend welke van de vragen ‘goed’ zijn geraden, het is bovendien een volslagen gok welke van de ‘foute’ fout zijn geraden, of fout zijn gemaakt. Toetsdeskundigen gaan er vaak stilzwijgend vanuit dat ‘foute’ vragen fout zijn geraden, maar dat is een slag in de lucht omdat leerlingen echt veel vragen met overtuiging fout kunnen maken. Dat betekent dat formules die op groepsniveau zouden kunnen corrigeren voor raden, daarin in feite jammerlijk falen.

Fischhoff, B., Slovic, P., & Lichtenstein, S. (1977). Knowing with certainty: The appropriateness of extreme confidence. Journal of Experimental Psychology: Human Perception and Performance, [nog niet gezien]

Figuur 2. Raadkansen maken de toets onnauwkeuriger. Links: toets 40 vragen, voldoende is 25 vragen (verticale grijze lijn geeft dat aan), beheersing 70%, slaagkans 88,5%. Rechts: met raadkans 33% is 30 vragen voldoende, bij beheersing 70% is de slaagkans 83,5%, aanzienlijk minder. De blauwe lijn geeft theoretische kansen, de solide figuur is een simulatie van 1000 ‘leerlingen.’ Klik op de figuur voor brede afbeelding op ware grootte van de twee analyses. Let op: de aanname is hier dat een vraag ofwel correct wordt beantwoord, ofwel wordt geraden; foute antwoorden bestaan hier niet, alleen fout geraden antwoorden.

13 mei 2009. Helaas moet ik bekennen dat de gesimuleerde resultaten in Figuur 2 ook berusten op mijn stilzwijgende veronderstelling dat leerlingen die een vraag ‘weten’ dus het goede antwoord geven, en dat ze anders raden. In feite kunnen leerlingen natuurlijk ten onrechte menen dat ze een goed antwoord geven. Ik moet het SPA-model waarmee de berekeningen in Figuur 2 zijn gemaakt, in dit opzicht nog verbeteren (al geïmplementeerd in de ‘oude’ versie van applet 1). Ook de tekst van ‘Toetsvragen ontwerpen’ moet ik nog van voor naar achter controleren op deze misvatting. De definitie van wat beheersing van de stof is, moet scherper aangeven dat het gaat om ‘goed weten’, waartegenover zowel ‘niet weten’ als ‘fout weten’ kunnen staan. De box geeft een extreem voorbeeld van ‘fout weten’.

‘fout weten’

Een bus heeft 36 zitplaatsen voor passagiers. Als 1128 leerlingen een excursie gaan maken, hoeveel bussen zijn dan nodig?

Op een Amerikaanse nationale toets (NAEP) maakten 45.000 leerlingen deze vraag. Zij antwoordden zo:

29%: ‘31 rest 12’
18% ‘31’
23% ‘32’
30% maakte de berekening fout (47% maakte dus wel de berekening goed, maar gaf een fout antwoord op de vraag)

Alan H. Schoenfeld (2007). What Is Mathematical Proficiency and How Can It Be Assessed? In Alan H. Schoenfeld (Ed.) (2007). Assessing mathematical proficiency (59-73). Cambridge University Press. p. 69-70. pdf gezien 8-2009

Schoenfeld haalt dit voorbeeld uit Thomas P. Carpenter, Mary M. Lindquist, Westina Matthews & Edward A. Silver (1983). Results of the third NAEP mathematics assessment: Secondary school. Mathematics Teacher, 76, 652-659. JSTOR read online

De ‘busvraag’ in bovenstaande box is een beroemd casus, ook in onderzoek naar woordproblemen. Er zijn 47% ‘foute’ antwoorden gegeven op basis van correcte berekeningen. Dan zijn er nog 30% die hun berekening fout hebben. Dus 77% van de leerlingen komt tot een fout antwoord, en hoewel sommigen vermoed kunnen hebben dat ze verkeerd zaten, zal het merendeel toch met overtuiging een fout antwoord hebben gegeven. Zou de ‘busvraag’ een meerkeuzevraag zijn, dan zou het merendeel van de foute antwoorden niet fout zijn geraden, maar fout zijn gemaakt. Het is een wonderlijke ervaring om het hoofdstuk van Van Naerssen (1969) over raden er nog eens op na te lezen, en te moeten concluderen dat Van Naerssen alleen maar fout geraden alternatieven op keuzevragen kent. Hier maakt Van Naerssen een fout in commissie met de meeste psychometrici (o.a. Lord & Novick, 1968).

47% ‘foute’ antwoorden: daar is het laatste woord nog niet over gesproken, want hier wordt een norm van buiten de wiskunde opgelegd aan deze 14-jarigen. Zij doen de wiskunde correct, maar maken de verhaaltjessom vervolgens niet af. Is dat een wiskundige doodzonde? Is dat collateral damage van de schoolse situatie waarin de NAEP wordt afgenomen? Veronderstellen deze leerlingen dat, als je de telefoon pakt om die bussen te bestellen, je natuurlijk wel even naar boven afrondt?

Voor Jan, Piet en Klaas maakt het raden geen verschil als hun beheersing van de stof op de grens van voldoende ligt, maar daarboven maakt raden hun slaagkans kleiner, daarbeneden juist groter, en geen van beide effecten zijn gewenst. In de in figuur twee afgebeelde situatie zou voor keuzevragen een bonusregeling die 1/3e punt oplevert voor iedere niet beantwoorde vraag, de slaagkans bij beheersing 70% weer op 88,5% brengen. Voor leerlingen die de stof onvoldoende beheersen is gebruik maken van de bonuspunten evenwel nadelig; omdat gebruik van bonuspunten niet afdwingbaar is, is een bonusregeling dus geen oplossing voor alle raadproblemen. Voor leerlingen die van zichzelf niet zeker weten of ze aan de onvoldoende of juist aan de voldoende kant van de zak-slaaggrens zitten, maakt het strategisch geen verschil te raden, danwel vragen open te laten. Experimenteer hier zelf met andere getallen. Let op: de aanname bij deze modelberekeningen is dat een vraag weten gelijk is aan de vraag ‘goed’ weten; ‘fout’ weten heeft ten onrechte nog geen plek gekregen in dit ideaalmodel. Maar omdat ‘fout’ weten het aantal ‘niet geweten’ vragen vermindert, vermindert dat ook het aantal vragen waarbij raden een rol speelt voor deze individuele kandidaat. Dat lijkt goed, maar dat is het helemaal niet: u, docent, kunt niet zien welke vragen fout zijn gemaakt, fout zijn geraden, en al evenmin welke vragen goed zijn gemaakt, welke goed zijn geraden. Doe iets aan dat probleem, door een redelijke bonus toe te kennen voor open gelaten keuzevragen, door een motivering te vragen van gegeven antwoorden, of andere maatregelen (en laat mij dan weten welke andere oplossingen er nog zijn, anders dan de door Van Naerssen (1969) al genoemde, en door hem en mij niet aanbevolen mogelijkheden).

Een volgende storende punt is natuurlijk dat goede leerlingen die vragen niet weten, vaak een of twee van de foute alternatieven kunnen uitsluiten. Dan zouden zij zich door het open laten van de vraag tekort doen. Dan maar dubben, en kiezen tussen de vaste bonus of de hogere verwachte score bij raden tussen twee van de vier alternatieven. Hier is het mogelijk toe te staan meerdere alternatieven aan te kruisen, en zo de deelkennis gehonoreerd te krijgen. Zo’n maatregel maakt het dan weer gecompliceerd, wat op zich ongewenst is. Toch zou de scoring een goede afbeelding moeten zijn van wat de student weet en niet weet, en dat pleit voor toepassen van deze wijze van scoren. Een eenvoudiger alternatief is een bonus van 1/2, in plaats van 1/3, bij vierkeuzevragen. Hieronder een paar varianten van toetsinstructie, waar overigens echt complexe methoden zoals zekerheidsscoring niet bij zijn (gebruik nooit complexe methoden!).

Interessant is in dit verband dat De Groot en Van Naerssen (1969 p. 17) aanbevelen om altijd voor open gelaten vragen een bonus toe te kennen. “... alleen indien ‘niet-invullen’ in het algemeen zéér zelden voorkomt is deze scoringswijze [niet-ingevuld = fout] verantwoord. Is dit niet het geval, dan moet men een ‘bonus’ van één vierde maal het aantal niet-ingevulde items aan de score toevoegen (...) [bij vierkeuzevragen, de enige die zij aanbevelen]. Ook deze scoringswijze moet dan natuurlijk vooraf aan de proefpersonen worden bekend gemaakt; ook dan blijft het trouwens voordeliger niets over te slaan.”

De laatste bewering van De Groot, dat het voordeliger is altijd te raden (dus ook zonder deelkennis), is met de analyse in figuur 2 hierboven overigens gelogenstraft. Die analyse is nieuw, april 2006, en bij mijn weten nooit eerder zo gedaan.
Het nadelige effect van raden voor studenten met een redelijke tot goede beheersing lijkt in de literatuur niet beschreven te zijn. Lord en Novick (1968, p. 304) waarschuwen dat dwingen om te raden leidt tot een aanzienlijke toename van willekeur — error — in testscores; dan is hun voorkeur toch ook om voor open gelaten vragen — omits — een bonus toe te kennen, ondanks de verschillen tussen leerlingen in geneigdheid om gebruik te maken van dit open laten van vragen. De belangen die op het spel staan zijn behoorlijk, er kan een kleine doelmatigheids- en kwaliteitsslag worden gemaakt op dit punt. Het zal de aanpassing vergen van programmatuur voor het automatisch scoren van toetsen, maar dat had toch al veel eerder moeten gebeuren.Voor de Cito-toets in groep acht lijkt het probleem voor de meeste leerlingen alleen te spelen in de door Lord en Novick aangegeven zin van verlies aan validiteit. De fouten kunnen zowel naar boven als naar beneden zijn. Maar voor de beste leerlingen die hun zinnen hebben gezet op het gymnasium, zijn de ‘verplichte raadkansen’ onnodig nadelig.

Ga verstandig om met dat raden. Trek een eigen lijn. Een helder voorbeeld zijn proeftoetsen waar studenten kunnen testen of ze al goed voorbereid zijn: de student die maar een beetje gaat raden op niet geweten vragen bedriegt zichzelf. Gebruik geen ingewikkelde formules voor scores, of rare methoden zoals bij De Grote Geschiedenis Quiz de mogelijkheid aan te geven ‘zeker’ van een antwoord te zijn — voor een quiz trekt dat de scores van deelnemers lekker uit elkaar, voor een toets benadeelt het sommige leerlingen. Van Naerssen (1969) is nog steeds een goed overzicht van dergelijke meer complexe methoden, en hij beveelt aan (p. 270) deze voor serieuze toetsen niet te gebruiken. Voor een recent stuk, zie Paul (zj, 1994?).

Een met raden vergelijkbaar probleem is dat van het maken van fouten. Traditioneel zien docenten fouten als fouten, daarom heten ze ook zo. Nader onderzoek laat nogal eens zien dat in het denken van de student de fouten geen vergissingen, slordigheden of verwardheden zijn, maar consistent met wat er is geleerd. Zie voor een ingang tot de literatuur bijvoorbeeld Talia Ben-Zeev and Jon Star (2001). De betekenis hiervan is moeilijk te overschatten: iedere toetsontwikkelaar die makkelijk roept dat onjuiste alternatieven voor keuzevragen zijn te ontwikkelen door te bedenken wat typische ‘fouten’ van studenten zijn, moet zich wel realiseren dat mogelijk veel van deze ‘fouten’ berusten op falend onderricht, omdat door een onhandige keuze van uitgewerkte voorbeelden in de leerstof de studenten niet in staat zijn geweest om zich het juiste begrip te vormen. Hier dreigt een omdraaiing van de beoordeling: waar het de bedoeling is het begrip van de student te toetsen, staat in feite de kwaliteit van het gegeven onderwijs ter beoordeling. Reken daar dan niet de student op af, maar het onderwijs, en verbeter dat onderwijs dan.

Wie de bui al ziet hangen: studenten die oprecht consistent redenerend tot verkeerde antwoorden komen, die hen vervolgens als ‘fout’ worden aangerekend, kunnen mogelijk met succes hiertegen in beroep gaan. Dit speelt natuurlijk ook bij open vragen, en is in die zin een algemeen punt. Dat algemene punt is ook zo te formuleren: toetsen is geen afrekening met studenten, maar een gelegenheid voor betekenisvolle terugkoppeling op hun leren. Wie anders denkt, mag zich realiseren dat er theorieën zijn die het hele onderwijs opvatten als een maatschappelijk proces van selectie, en daar zit ook een hele dikke kern van waarheid in, maar het is niet direct een aansporing om iets van het onderwijs zèlf te maken.

Er is in de literatuur zelden sprake van docenten die fouten maken, laat staan van onderzoek waarbij het juist gaat om fouten van leerkrachten. Hill, Blunk, Charalambous, Lewis, Phelps, Sleep en Ball (2008) observeerden rekenlessen, met bijzondere aandacht voor rekenfouten (zie hun appendix voor een beschrijving van mogelijke fouten) (voorbeelden van toetsvragen voor Mathematical Knowledge for Teaching zie Learning Mathematics for Teaching 2005 html). In de Amerikaanse situatie blijken fouten bepaald niet incidenteel zijn, sommige leerkrachten lijken niet anders te doen dan fouten te maken. Eigenlijk sensationeel, dit onderzoek. Het suggereert dat fouten en slordigheden van docenten schering en inslag zijn in het onderwijs. Koppel dat vermoeden aan het gestelde in de voorgaande alinea’s, en het vermoeden groeit dat het best zou kunnen dat leerlingen inderdaad uit onhandige instructie het ‘verkeerde’ leren. Wat bij uitleg en bij vragen en antwoorden in de klas fout kan gaan, kan dat natuurlijk ook bij toetsopgaven die leerkrachten zelf ontwerpen, of zelf moeten nakijken. Ik ben wel verrast door dit onderzoek van Hill en anderen, het wijst op het bestaan van een onvoldoende bekend probleem in het onderwijs. Achterblijvende resultaten van het reken- en taalonderwijs in de basisscholen van Nederland zouden ook met dit probleem te maken kunnen hebben.

‘fouten’ beoordelen
Er is in het onderwijs, door de eeuwen heen, een zekere gretigheid om bij het beoordelen van studieprestaties vooral te letten op gemaakte fouten (Wilbrink, 1997 html). In deze naïeve filosofie zijn goede toetsvragen dan vragen waar veel studenten veel fouten op kunnen maken. En het is ook de makkelijkste weg, als er studenten moeten afvallen, of op rangorde gezet. Er zit een aardige analogie in met het beoordelen van wetenschappelijke theorieën: proberen te falsificeren is de juiste methode, want het aandragen van gevallen waarin de theorie opgaat heeft geen bewijskracht voor de juistheid van een theorie. Maar je moet er toch niet aan denken op die basis studenten te gaan beoordelen! Toch gebeurt dat bij het stellen van absolute aftestgrenzen op onderdelen van examens, wat staatssecretaris Van Bijsterveldt wil invoeren voor centraal schriftelijke eindexamens VWO html.

Ik ken geen vindplaatsen in de literatuur waar deze waarneming een grondige uitwerking heeft gekregen, maar er zijn wel aanwijzingen. In de logica is er strijd over de vraag of er symmetrie is tussen het bewijzen van de juistheid, respectievelijk de onjuistheid van argumenten (Finocchiaro, 1994). Stel dat het argumenten zijn die antwoorden op examenvragen onderbouwen .... . In noot 3 van genoemd artikel verwijst Finocchiaro naar enkele andere asymmetrische situaties: in het recht zijn de eisen aan bewijzen van schuld scherper dan aan die van onschuld; bij geproduceerde goederen is het veel makkelijker een product af te keuren bij een gebleken cruciaal mankement, dan het OK te verklaren omdat het voldoet aan een lange lijst criteria.

In de testpsychologie is de tegenstelling tussen conjunctief en compensatorisch testen of examineren natuurlijk bekend: ieder onderdeel moet voldoen (conjunctief) versus de totaalscore over alle onderdelen moet voldoen (compensatorisch), met allerlei tussenvormen. Conjunctief testen is ondoelmatig, en komt neer op geld weggooien (zie werk van Frederic M. Lord) en het vermeerderen van leed. Het gekke is nu dat de ontwikkelaar van toetsvragen te maken heeft met een zo vanzelfsprekend compensatorische situatie dat niemand zich daar nadrukkelijk van bewust lijkt te zijn: niemand eist dat alle vragen in een toets goed moeten zijn om als voldoende prestatie te gelden. Dat lijkt mooi, maar de flip side hiervan is dat de ontwerper onbelemmerd veel te moeilijke vragen kan gaan ontwerpen: net als bij eindexamens gebeurt, volgt geen correctie in het ontwerp van de vragen, maar in de puntentoekenning.

Mogelijk is er op dit punt toch een wezenlijk verschil tussen instructie en examens. Het zou zomaar kunnen dat leren juist gebaat is bij het hebben van gelegenheid om fouten te maken, en daar dan terugkoppeling op te krijgen. En dat examens gelegenheden zouden moeten zijn, zoals bij de academische promotie het geval is, waar het geleerde kan blijken. Voor het ontwerpen van opdrachten en examenvragen moet dat onderscheid toch van betekenis zijn.

Keuzevragen zijn vaak aanbevolen omdat ze objectief zouden zijn: de sleutel bepaalt immers welke alternatieven goed en welke fout scoren. De computer doet het werk, beoordelaars komen er niet meer aan te pas. Maar dezelfde beoordelaars kunnen het oneens zijn over de scoringssleutel zelf, en ontwerpers kunnen bij eenzelfde vraag geheel verschillende sets van alternatieven ontwerpen, ook met telkens andere goede alternatieven. Wat is dan nog het verschil met open vragen, wat subjectiviteit betreft? De pseudo-objectiviteit van de scoringssleutel heet in de Amerikaanse literatuur heel toepasselijk frozen subjectivity. De stelling dat keuzevragen niet bijzonder objectief zijn, zorgde in 1977 nog voor een hele oploop op het landelijke onderwijscongres (Wilbrink, 1977). Vierkeuzevragen waren in die tijd de core business van het Cito. Er moest een radicale omslag in het denken over objectiviteit komen, en in de huidige door het Cito verzorgde eindexamens komen inderdaad nog maar in bescheiden mate keuzevragen voor. Het punt is natuurlijk om bij het ontwerpen van keuzevragen het risico van die frozen subjectivity te beheersen.

In de vergelijking met korte open vragen zijn keuzevragen ongeveer even objectief. En inderdaad rekent de Amerikaanse literatuur zowel korte open vragen als keuzevragen tot de objectieve vragen. De tegenstelling is niet zozeer die tussen korte open vragen en keuzevragen, als wel die tussen objectieve schriftelijke vragen en open mondelinge vragen, zie paragraaf 2.3, en zo is het pleidooi van De Groot (in De Groot en Van Naerssen, 1973) voor het gebruik van keuzevragen ook maar beter te lezen. In zijn Methodologie geeft De Groot (1961, blz. 239 e.v.) een overzicht van de belangrijke onbedoelde effecten die bij het nakijken van open vragen kunnen optreden, en een aantal daarvan kunnen inderdaad bij het automatisch scoren van keuzevragen niet voorkomen. Overigens is het idee dat alleen keuzevragen objectief zouden zijn het resultaat van geslaagde public relations in de zestiger jaren, en is in De Groot en Van Naerssen (1969) wel degelijk de gangbare definitie van objectiviteit als overeenstemming tussen deskundige beoordelaars gehanteerd.

In de geschiedenis van het toetsen (Wilbrink, 1997 html) is op vele plaatsen aan te wijzen dat verschillen van inzicht tussen beoordelaars, of tussen beoordelaar en beoordeelde, leiden tot verschuivingen in de methode van toetsen. Zo kan een docent zelf belang hebben bij de uitslag van de beoordeling. In de middeleeuwen was dat reden dat de docent zijn studenten wel kon en moest voordragen voor examens, maar niet zelf in de examencommissie voor zijn studenten mocht zitten. Bepaalde vormen van subjectiviteit bij het ontwerpen van toetsvragen zijn binnen redelijke grenzen te houden door intervisie te organiseren. Een ander eeuwig fenomeen is dat van achteraf protesterende studenten, met de reactie van docentenzijde om dan maar toetsen te maken waarop inhoudelijk minder makkelijk iets valt aan te merken. Zo gaat rond 1800 de ontwikkeling van de keihard vergelijkende examens in Cambridge in de richting van toetsen met heel veel kleine opgaven, waarover achteraf minder makkelijk discussie ontstaat. Dat betekent een trivialisering van het examen, en mag dienen als waarschuwing tegen te makkelijk de voorkeur geven aan toetsvormen waarin minder ruimte is voor divergerende oordelen van professionele beoordelaars.

2.3 Open vragen

Bij open vragen gaat het om een korte uiteenzetting, verklaring, bewijsvoering, een analyse, opsomming, schets, samenvatting, en dergelijke. In beginsel laten antwoorden op open vragen zich naar hun inhoud schematiseren (zie hoofdstuk drie) omdat er sprake is van meerdere relaties tussen begrippen of gebeurtenissen — anders zou het immers gaan om een korte open vraag. Een schema — concept map — maken van bedoelde, gewenste of gegeven antwoorden bij een mogelijk ontwerp voor een open vraag is een handig hulpmiddel om een ontwerp als het ware te visualiseren. Natuurlijk kan de onderbouwing van een antwoord op een korte open vraag ook wel complex genoeg zijn om er een zinvol schema van te kunnen maken, zodat er in deze zin geen principieel verschil met korte open vragen hoeft te zijn, maar practisch gesproken is een korte open vraag in zo’n geval natuurlijk gewoon een open vraag, en kan maar beter ook zo worden gesteld.

Antwoorden op open vragen bestaan typisch uit een of meer volledige zinnen, terwijl het bij korte open vragen meestal om een woord, getal of een paar woorden gaat. De overgang tussen korte open vragen en open vragen is niet scherper dan dat af te bakenen. De open vraag laat de student vrijheid bij het formuleren, en de keuze van wat te vermelden. Die vrijheden scheppen ook meer ruimte voor subjectieve verschillen tussen beoordelaars. Ook het opstel en het werkstuk hebben deze vrijheid in de beantwoording en de kwetsbaarheid voor subjectieve beoordeling, zoals ook met het in hoofdstuk zeven te behandelen oplossen van problemen het geval is. In het volgende is ‘open vragen’ de generieke term voor al deze open vormen van vragen.

plaats een dranghek

Opgave 22. Welke positieve invloed heeft, blijkens alinea 22, de ‘hogere’ literatuur op onze beleving van de werkelijkheid? Gebruik voor je antwoord maximaal 15 woorden.

Herman Koch: “Als ik dan toch iets positiefs over het examen zeggen moet: die laatste clausule, van maximaal 15 woorden, vind ik wel goed. Het is goed om je best te doen je te beperken in het antwoord. Als mensen me vragen: waar gaat je volgende boek over, zeg ik ook het liefst bijvoorbeeld: Man gaat op zoek naar verborgen schat. En vindt die niet. of zoiets. Verder niets. Het is goed mensen beknoptheid te leren.”

Robin Gerrits (19 mei 2009). Eindexamens 2009. Herman Koch. Over het examen Nederlands. De Volkskrant, p. 2.

Het open karakter van open vragen stelt wel bijzondere eisen aan de ontwerper. Om te voorkomen dat antwoorden alle kanten op zwerven, moet er een duidelijke instructie zijn. Een beperkte ruimte waar het antwoord in moet passen — maar kleinschrijvers kunnen daarmee sjoemelen — , een maximaal aantal woorden voor het antwoord (zie de box), zijn mogelijke oplossingen. De algemene instructies bij de huidige eindexamens zijn minder fraai dan Herman Koch aangeeft. Zo zijn er tal van regels voor kandidaten die meer antwoorden geven dan gevraagd. De strekking daarvan is telkens dat geteld wordt vanaf het begin: zijn het van Herman Koch 19 woorden, dan zouden bij wijze van spreken de laatste vier niet meetellen. Geeft de kandidaat drie voorbeelden in plaats van de gevraagde twee, dan tellen alleen de eerste twee. Ik moet zeggen dat ik ook niet goed zie hoe dit anders zou kunnen, maar elegant is het niet, en laten beoordelaars in vredesnaam royaal van deze regels afwijken omdat de meeste kandidaten te goede trouw zijn. De docent met eigen toetsen moet natuurlijk niet zo bot met haar studenten omgaan zoals bij landelijke examens onvermijdelijk lijkt.

Op het niveau van de toets kan het probleem ontstaan dat het aantal open vragen zo klein is dat de leerling enorme pech kan hebben met de onderwerpen van die vragen. Een oplossing voor dat probleem is wel bekend waar het gaat om het schrijven van een opstel: de examenkandidaat kan kiezen uit meerdere opgegeven thema’s.

Overigens komen de ontwerpeisen voor korte open vragen hier ook weer terug: glashelder formuleren, etcetera. Uit de vraag en de instructie moet nu bovendien glashelder zijn wat een adequaat antwoord op de open vraag is, althans wat de vorm van het antwoord betreft. Triviaal, maar in de praktijk zorgt het wel voor problemen: zorg ervoor dat een vraag waar ‘ja’ een correct antwoord op is, ook om een motivering van dat antwoord vraagt.

Open vragen zijn geschikt om (mede) te toetsen op helderheid van formuleren, compositie of structuur in de beantwoording, nauwkeurigheid, oorspronkelijkheid, diepgang van analyse, en dergelijke. Maar het is niet vanzelfsprekend dat antwoorden op de genoemde kenmerken worden beoordeeld: maak daarover tevoren afspraken met studenten, terwijl ook de beoordelaars enige instructie nodig hebben. Het blijkt telkens weer dat docenten van elkaar verschillen in de speciale punten die zij van belang vinden (Wilbrink, 2004 html), en dus in de zaken waarop zij bij het beoordelen vooral letten, daarom moet daar tevoren duidelijkheid over zijn. Voor tijdrovend nakijken zijn soms adequate oplossingen voorhanden, zoals in eerste aanleg alleen globaal beoordelen en in werkgroepen eventueel details invullen. Open vragen altijd door meerdere beoordelaars laten nakijken is niet een vanzelfsprekend ‘eerlijke’ oplossing: linksom of rechtsom komen die kosten ten laste van de leerlingen of studenten. Extra inspanningen voor ‘eerlijk’ nakijken legt immers beslag op schaarse middelen, het is tijd die gestolen is van de voor onderwijs beschikbare tijd, en dat is ‘oneerlijk’ tegenover diezelfde studenten. Het is een lastige afweging, maar handiger is om toetsen zo te ontwerpen dat ze op zich een belangrijk leermoment kunnen zijn. In de VS, waar belangrijke tests steeds vaker ook open vragen hebben, is het meteen afrekenen (Braswell en Kupin, 1993, p. 170): voor de SAT betaalt de kandidaat $16, voor de Advanced Placement — die half uit open vragen bestaat — $65.

Of open vragen en objectieve vragen ‘hetzelfde meten,’ is niet zo’n geweldig zinvolle kwestie, en resultaten van onderzoek zijn navenant. Een reeks kwesties die te maken hebben met het contrast tussen open vragen en objectieve — in Amerikaanse opvatting — vragen is te vinden in Bennett en Ward (1993). Het Cito heeft een onderzoek gedaan of keuzevragen wiskunde een goede vervanging voor open vragen wiskunde kunnen zijn, om een nakijkprobleem in het voortgezet onderwijs te helpen oplossen (Kuhlemeier, Steentjes en Kleintjes, pdf 2003). Aan het eind van de dag is alleen van belang of de vraagvorm voor de eindtoets past bij het onderwijs zoals gegeven: is zij daarmee goed geïntegreerd? Zijn er dan nog logistieke problemen, of is er een te groot tijdsbeslag voor docenten, los die dan bij voorkeur op een andere manier op dan door overschakelen van open vragen op keuzevragen. Het is eenvoudig: de stof, de didactiek en de doelen dicteren wat de daar naadloos op aansluitende — formatieve danwel summatieve — vraagvormen zijn. In plaats daarvan andere vormen kiezen is spelen met vuur. Psychometrici kiezen graag andere vormen omdat die ‘handiger’ etcetera zijn, maar zijn zich niet altijd — uitzonderingen zoals Popham (2005) daargelaten — bewust van de risico’s van negatieve backwash effecten.

Toetsen zijn geen tests.

Het artikel van Bennett, Rock en Wang (1991 html) illustreert passend de misvattingen in de Amerikaanse onderwijscultuur over de rol van toetsen in het onderwijs. Het is ook niet unfair om juist dit artikel hier op de hak te nemen, omdat Bennett een van de editors is van de prachtige bundel uit 1994 over open vragen versus keuzevragen.

Het artikel onderzoekt of open vragen en keuzevragen gelijkwaardig zijn. De gebruikte methode reduceert de probleemstelling in feite tot de triviale vraag of beide typen toetsen studenten gelijk rangordenen. Het verbaast niemand dat het antwoord op die vraag bevestigend is. Amerikanen zijn werkelijk bezeten van de vraag ‘scoor ik beter dan die en die?’ zodat het wel begrijpelijk is wat Bennett en anderen hier doen, maar met wetenschap heeft dat niet te maken. Het gekke in dit onderzoek is dat de keuzevragen en de open vragen in hoge mate in elkaar zijn om te zetten. Als dat zo is, dan hoeft het onderzoek al niet meer: de kwestie is immers pas interessant wanneer, uitgaande van de doelen van de cursus — in dit geval een cursus programmeren — die doelen wel goed in open vragen zijn te vangen, maar alleen gekunsteld of eenzijdig in keuzevragen. Teruggaan tot die doelen blijkt in Bennett et al. evenwel nergens. Ook de normatieve benadering van het toetsen, het rangordenen dus, behoort tot de impliciete filosofie van de auteurs. Een Europeaan zou onmiddellijk nagaan of de criteria voor voldoende of goede beheersing op de ene toetsvorm, op behoorlijke wijze ook op de andere toetsvorm zijn aan te wijzen, zodat het mogelijk is na te gaan of beide toetsen consistent zijn in het aanwijzen van deze criterium-gerefereerde mate van stofbeheersing.Het onderzoek neemt stilzwijgend aan dat de keuze voor de ene dan wel de andere toetsvorm geen invloed heeft op het voorafgaande onderwijs of de studieaanpak van studenten. Maar, in dit geval komen Bennett, Rock en Wang op de valreep tot inkeer (p. 89):

The free-response section serves to make visible to teachers and students behaviors considered important to course mastery; without this visibility there is the danger that instruction might emphasize the tasks posed by the multiple-choice section to the exclusion of programming, one of the central components of computer science.

R. E. Bennett, D. A. Rock an M. Wang (1991). Equivalence of free-response and multiple-choice items. Journal of Educational Measurement, 28, 77-92. Voor abstract en for fee pdf zie html

Het nakijken van schriftelijk werk is in de editie 1983 behandeld als iets dat vooral eerlijk en zorgvuldig moet gebeuren, met antwoordmodellen, meer dan een enkele beoordelaar, etcetera. In de praktijk blijkt het echter zo te zijn dat deze maatregelen eigenlijk alleen eindtoetsen betreffen: het onderwijs is achter de rug, studenten zijn al lang met andere dingen bezig, terwijl docenten dan nog druk zijn met nakijken. Dat lijkt een wel heel ondoeltreffende aanwending van schaarse middelen. Het is dus zaak afwegingen te maken: hoeveel tijd besteden aan onderwijs, hoeveel aan nakijken? Een bekend advies is hier toch dat van A. D. de Groot, begin zeventiger jaren, om practica en onderwijs dat daarmee vergelijkbaar is, niet ook nog te belasten met afsluitende toetsen. De drastische ingreep is dan de eindtoets te vervangen door intensieve begeleiding van studenten in werkgroepen etcetera, waar continue terugkoppeling immers tevens continue beoordeling is. In andere gevallen kan het nakijken van schriftelijke eindtoetsen veel zuiniger, en kan een mogelijk tekort in eerlijkheid voor studenten aanvaardbaar zijn wanneer het onderwijs dat zij krijgen er kwalitatief op vooruit gaat.

bureaucratisering van de beoordeling

Het is niet ongebruikelijk dat bestuurlijke gremia dwingend voorschrijven dat er tevoren modelantwoorden voor het nakijken moeten worden opgesteld. Dat is schadelijke bureaucratie, tenzij het gaat om landelijke toetsen waar de vele beoordelaars van een gemeenschappelijk beoordelingskader uit moeten gaan. Natuurlijk is het goed tevoren uit te werken welke varianten in antwoorden mogelijk zijn, dat kan de professionele docent prima zelf doen, bij voorkeur met enige intervisie van collega’s. Het dwingende voorschrift lokt evenwel de verwachting uit dat met zo’n modelantwoord alle eerlijkheid is gegarandeerd, wat een aanfluiting is. Helaas lokt het ook het honoreren van deelkennis uit, anders zullen studenten dat wel op basis van het modelantwoord gaan eisen.

Het gaat om de positionering van de beoordeling: als instructief middel, of als eindafrekening. Als instructief middel is enige subjectiviteit in de beoordeling geen probleem omdat die beoordeling onderdeel is van een voortgaand leerproces. Als eindafrekening is het een ander verhaal, dan gaat iedereen op zijn strepen staan en is een eerlijk oordeel een issue.

Tabel 1. Beoordeling van tandheelkundige werkstukken door drie instructeurs

werkstuk:        1  2  3  4  5  6  7  8  9 10 
----------------------------------------------------- 
instructeur a    8 11 14  7 10 11  7 14  9 10 
instructeur b    8 14  9  9 11 14 12  9  9 12 
instructeur c    6  9  6 13 10 14 13  8 11  9 
----------------------------------------------------- 
hoogste oordeel  8 14 14 13 11 14 13 14 11 12 
laagste oordeel  6  9  6  7 10 11  7  8  9  9

Dick Tromp (1979). Het oordeel van studenten in een individueel-studie-systeem. Onderwijs Research Dagen, 1979. De gegevens van Tromp zijn uitgebreider dan de tabel kan laten zien.

Tabel 1 laat de forse verschillen tussen beoordelaars zien, zelfs waar zij gebonden zijn aan een lijst van 15 criteria en hun oordeel dus gestructureerd is. Het gaat hier om een practicum waar studenten aan werkstukken werken, de instructeurs beoordelen de voortgang. Wie gegevens zoals in de tabel graag in een maat of een getal van overeenstemming tussen beoordelaars wil uitdrukken, kan technieken daarvoor vinden in Zegers (1989), maar een tabel is altijd wel zo duidelijk.

Een punt van aandacht bij open vragen is dat er minder van in een toets gaan dan korte open vragen of keuzevragen, waardoor de steekproef uit de kennis en vaardigheden van de student in feite te klein kan zijn voor een verantwoord oordeel. Dit is natuurlijk ook een belangrijke verklaring van de grote verschillen die onderzoek van de beoordeling van opstellen laten zien: vaak gaat het om een enkel opstel van iedere leerling, waar beoordelings-technisch er beter een reeks van kunnen worden gevraagd. Een oplossing voor dit probleem is wel gezocht in een gedetailleerde beoordeling van ieder gegeven antwoord: tellen hoeveel elementen uit een criterialijst in het antwoord voorkomen, etcetera. Dat maakt kunstmatig van iedere open vraag in feite een serie deelvragen. Dat is geen bevredigende oplossing. Als zo’n opsplitsing inderdaad zinvol is te maken, stel dan de vragen ook op dat detailniveau. Dan treedt meteen een belangrijke ontwerpeis in werking: vermijd vragen waarvan antwoorden afhangen van antwoorden op voorgaande vragen. Kijk, dat toont wat het bezwaar is tegen open vragen die slordig zijn ontworpen. Het is meestal niet de bedoeling om open vragen uiteen te laten vallen in deelvragen, want het gaat er toch om te toetsen of studenten een wat groter of lastiger probleem adequaat weten aan te pakken. Dan gaat het niet aan om bij een falend antwoord toch te gaan kijken of het antwoord blijk geeft van deelkennis, en die deelkennis dan te honoreren. Studenten kunnen dit misbruiken door het alleen te hebben over wat ze weten en zo verbloemen dat ze het eigenlijke antwoord niet weten; dat is door een strak beoordelingsplan wel tegen te gaan. Maar wat erger is, de toets degenereert tot een toets op deelkennis in plaats van op de vaardigheden de gestelde opgaven in hun geheel adequaat aan te pakken. Studenten kunnen dan immers voldoende resultaten halen op deelkennis, zonder ooit een enkele opgave in zijn geheel afgerond te hebben. Dit is een lastig onderwerp, ik heb het in 1998 voor het eerst uitgewerkt.

Deelkennis belonen degradeert inzichtvragen tot vragen naar feitenkennis

Krediet geven voor goede deelantwoorden op een inzichtvraag ondergraaft het eigen karakter van inzichtvragen ten opzichte van kennisvragen. De toetsing degradeert dan tot kennistoetsing, en de bijzondere prikkel om door te studeren tot een hoog niveau van kennisbeheersing vervalt daarmee. Zie Biggs (1996) voor voorbeelden van docenten die door goede deelantwoorden te belonen handelen in strijd met hun intentie om inzicht te toetsen. Zij sporen studenten daarmee immers aan tot oppervlakkige verwerking van de stof.

Wilbrink, 1998 html, paragraaf Sturende werking

Nederlandse publicaties gericht op docenten zijn o.a. De Gruijter (1990) over open vragen, Lagerwaard en Mul (1982) over scripties en hun beoordeling, Hofstee (1985) over beoordeling van de kwaliteit van wetenschappelijk onderzoek.

2.4 Doorzichtigheid

Doorzichtigheid is een spijkerharde eis aan toetsen: kandidaten moeten zich doeltreffend en doelmatig kunnen voorbereiden op toetsen en examens (De Groot, 1970 html). Het is een spijkerharde eis, omdat ondoorzichtige toetsen het wezen aantasten van het onderwijs als vrijplaats om te leren. Doorzichtigheid is niet zo vanzelfsprekend als het lijkt, omdat velen het onderwijs (ook) zien als institutie voor selectie naar verschillende maatschappelijke posities. Het gaat er in die laatste visie bij toetsen dan vooral om wie de beste capaciteiten heeft, niet wie zich het best heeft voorbereid (zie Covington’s (1992) Making the grade over de spanning tussen inspanning en aanleg bij het bereiken van resultaten). Doorzichtigheid is bovendien een bijzonder lastig thema, omdat er ook oneigenlijke manieren zijn om bepaalde vormen van doorzichtigheid te bereiken. Meest in het oog springend is de behoefte van docenten om hun beoordelingen op eenvoudige wijze te kunnen rechtvaardigen, en dat kan het makkelijkst door opknippen van de stof in kleine partjes waarover inhoudelijk ondubbelzinnige vragen zijn te stellen, formaliseren van de toetsing zoals bij keuzetoetsen, verschuilen achter regels die aantal getelde fouten omzetten naar cijfers, etcetera. Het is onaardig om het zo te zeggen, maar deze behoefte van docenten en instellingen naar objectivering van de beoordeling — makkelijk te verwarren met doorzichtigheid — leidt tot infantilisering van het onderwijs. Misschien is het contrast als volgt onder woorden te brengen. Uit doorzichtigheid volgt dat de vraagstelling ondubbelzinnig is, niet noodzakelijk ook het gevraagde. De beoordelaar die geen toestanden wil, zal vragen stellen die een ondubbelzinnig correct antwoord hebben; dat doorzichtig noemen beledigt De Groot. Laat er over gegeven antwoorden vooral discussie mogelijk zijn, daar is het onderwijs juist voor. Maar ik geef toe, dit is een ideaal dat een stap verder gaat dan De Groot (1970 html). In dit hoofdstuk komt dit ideaal terug in de vorm van studenten te vragen hun antwoorden te rechtvaardigen, ook hun antwoorden op keuzevragen (zie ook Kopp & Mandl (2011), als ingang op de literatuur rond het onderbouwen van gegeven antwoorden; Baumeister, Masicampo & Vohs, 2011, bespreken literatuur over de positieve effecten van het moeten geven van onderbouwing van antwoorden).

Zo moet het niet. Dit laat de leerling alleen een sommetje maken. Elders zegt Thorndike dat het beter is dan ook alleen de som te vragen, en inkleding achterweg te laten. Hier is zijn punt een ander, zie de volgende box.

Dit zijn vragen waar de leerling bij moet denken: hoeveel yards gaan er in een inch, wat zijn de prijzen die deze slager berekent? De leerling die alleen schoolse vragen kent zoals die in de eerste box, loopt hier zomaar in de valkuil alleen naar de getallen te kijken en dan maar wat te roepen. ‘Wat is de leeftijd van de kapitein?’ heet dit verschijnsel tegenwoordig (latere hoofdstukken, Stella Baruk, Lieven Verschaffel e.a. (2000), wordproblems.htm).

Deze paragraaf vraagt waarschijnlijk een grondige herziening en uitbouw, de tekst uit 1983 is eenzijdig toetstechnisch van aard. Om te beginnen is het noodzakelijk de gedachte van doorzichtigheid zelf beter uit te werken en beter te laten landen in het onderwijs; het werk van A. D. de Groot verdervoeren dus. Vervolgens is het nodig om de kwaliteit van didactiek en daarmee van een ontwerpkunde van toetsvragen op de korrel te nemen: in negatieve zin door de schoolsheid van inhouden en toetsvragen daarover kritisch te behandelen (zoals Thorndike, hierboven, al deed in 1922, een inzichtelijk voorbeeld is Poole, 1994), in positieve zin door het leren denken en argumenteren van Deanna Kuhn (2005), gefundeerd in de cognitieve wetenschappen concreet vorm te geven. Het is mogelijk beide genoemde punten samen te vatten in de slogan dat het onderwijs ‘authentieker’ moet, maar de beweging van authentiek toetsen is niet altijd even evidence-based, zal ik maar zeggen.

Iedereen wil dat leerlingen zich goed voorbereiden op toetsen, maar dan moet dat de leerlingen ook wel mogelijk worden gemaakt, ze ertoe verleiden mag ook. Ziedaar de kwestie zoals door Adriaan de Groot in 1970 html aan de orde gesteld met zijn eis dat het toetsen doorzichtig moet zijn voor leerlingen en studenten. Het opmerkelijke hiervan is dat deze benadering diametraal tegenovergesteld is aan die bij psychologische tests, waar de hoogste eis van kwaliteit is dat niemand zich daar gericht op kan voorbereiden. Op dit werkelijk gigantische verschil tussen toetsen en testen past ook een heel andere methodologische benadering van toetsen dan de bij tests gebruikelijke psychometrie zoals uitgespeld in Lord en Novick (1968). Helaas is dat besef anno 2006 in Nederland nog nauwelijks doorgedrongen, ondanks het baanbrekende werk van zowel De Groot (1970 html) als Van Naerssen (1970 html), terwijl het in het Engelse taalgebied zo goed als geheel afwezig is. Het feit dat de statistische methoden voor tests niet zomaar voor toetsen mogen worden gebruikt, is ook de voornaamste reden dat in dit boek aan statistische methoden vrijwel geen aandacht is gegeven.

Toetsvragen moeten niet alleen voorbereidbaar zijn, maar ook, voor de student die de toets aflegt, begrijpelijk in hun relatie tot de onderwijsdoelen en de leerstof. Er zitten twee kanten aan deze doorzichtigheid: het is ten eerste duidelijk wat de vraag toetst, en ten tweede hoe de student zich daarop kan voorbereiden.

het is duidelijk wat de vraag toetst

Het moet de goed voorbereide student duidelijk zijn waar de vraag over gaat en welke beheersing hij vraagt. Het moet duidelijk zijn wat weten van het antwoord heeft te maken met de leerstof. Ideaal is dat de vragen zo doorzichtig zijn dat ook studenten die het antwoord schuldig blijven, weten welk inzicht zij hier missen. Onhandig ontworpen keuzevragen zijn hier spelbrekers. Wanneer studenten na afloop van een keuzetoets werkelijk geen idee van hun score hebben, is er evident sprake van ondoorzichtigheid. Een oorzaak van dit specifieke probleem is vaak de misvatting bij de ontwerpers van de toets dat de vragen vooral moeilijk moeten zijn. Het onnodig moeilijk maken van vragen is een directe aanslag op doorzichtigheid. De misvatting, in stand gehouden door vele handleidingen, is dat de toetsvragen moeilijk zouden moeten zijn voor de reguliere deelnemers aan de toets. De correcte regel voor het ontwerpen van toetsvragen is dat deze moeilijk moeten zijn voor wie de betreffende cursus niet heeft gevolgd of in de toekomst pas zal volgen, dat is iets heel anders. Op dezelfde manier geldt een en ander uiteraard ook voor andere vraagvormen.

hierop kan de student zich gericht voorbereiden

Wanneer het niet duidelijk is wat een vraag toetst, is het de student niet mogelijk zich gericht op zo’n vraag voor te bereiden. Andersom kunnen vragen doorzichtig zijn in de eerste betekenis van die term, en desondanks vrijwel onvoorbereidbaar zijn. Voor iedere toetsvraag moet gelden dat studenten weten dat zo’n soort vraag mogen verwachten, en dat zij zich daar doeltreffend op kunnen voorbereiden. Deze tweede betekenis kan ook omgekeerd uitgelegd worden: wanneer een slimme student die weinig van de stof af weet in het voordeel is boven de minder briljante student die de stof tot in de puntjes beheerst, dan is de vraag zeer ondoorzichtig en is vooral het verschil in intelligentie bepalend.

De student moet een rechtstreeks verband zien tussen de manier waarop hij de stof bestudeert, en wat de toets erover vraagt. Dan kan zij zich gericht zo voorbereiden dat er bij de eerste gelegenheid een behoorlijke slaagkans is. Ontbreekt dat rechtstreekse verband, dan is er geen natuurlijk eind aan een goede voorbereiding op de toets. Dat dwingt de student tot behelpen, zoals minimaal voorbereiden, met de gedachte: slaag ik de eerste keer niet, dan wel in de herkansing.

“Because test information is important in attempting to hold schools accountable, the influence of tests on what is taught is potentially great. There is evidence that tests do influence teacher and student performance and that multiple-choice tests tend not to measure the more complex cognitive abilities. The more economical multiple-choice tests have nearly driven out other testing procedures that might be used in school evaluation. It is suggested that the greater costs of tests in other formats might be justified by their value for instruction - to encourage the teaching of higher level cognitive skills and to provide practice with feedback.’

abstract van Frederiksen (1984)

Bovenstaand citaat geeft de andere kant van deze medaille weer: dat toetsen die geen adequate representatie van de doelen van het onderwijs zijn, dat kwalitatief in groot gevaar brengen. In de laatste decennia is daar nog een andere bedreiging bij gekomen, in Nederland met het vrijgeven van Cito- en andere studieresultaten op schoolniveau, in de VS met het sluiten van scholen die niet voldoen aan de absurde eisen in de ‘No Child Left Behind’ Act van de regering Bush (Popham, 2005). Die dreiging is dat scholen onverbloemd hun onderwijs gaan inrichten op de toetsen waarop ze worden afgerekend (Nichols en Berliner, 2005, pdf ).

Het is goed dat de student kan oefenen op vragen zoals in de toets gebruikt. Zo krijgt de student beter zicht op het niveau van de eigen beheersing. Ook dat is een aspect van de doorzichtigheid van de toets: weten wanneer je de stof voldoende beheerst om met een gerust hart de toets af te kunnen leggen.

student neemt tentamenvragen mee ...

Bij een psychologietentamen in het najaar van 1978 nam een student de tentamenvragen mee, tegen het daartoe ingestelde verbod in. Het College van Bestuur van de Universiteit van Amsterdam, de bezwaren tegen geheimhouding afwegend tegen de bezwaren van vrijgeven, de principiële tegen praktische bezwaren, stelde vast dat studenten de vragen na afloop van het tentamen mee mogen nemen.

student moet inzage in de vragen kunnen hebben ...

“Met deze openbaarheid (van examens, Academisch Statuut art. 190 derde lid), die voor schriftelijke examens beperkt kan zijn tot openbaarheid van de stukken (achteraf), wordt bereikt dat vragen, antwoorden en beoordeling voor de belanghebbende controleerbaar zijn. Dit is niet alleen van betekenis voor de student die wil nagaan of hij juist is beoordeeld, bijvoorbeeld met het oog op een in te stellen [beroepsprocedure] (...). Het is naar de mening van de Commissie ook van onderwijskundig belang dat studenten kennis kunnen nemen van dit materiaal om een inzicht te krijgen in de omvang en zwaarte van de eisen die bij het examen worden gesteld, ten einde zich daarop zo goed mogelijk voor te bereiden.”

De Commissie voor de Bestuurshervorming (commissie-Slagter) (9 december 1980, advies aan de C-3 examencommissie van de subfaculteit geneeskunde van de Universiteit van Amsterdam.

Geheimzinnig doen over eerder gebruikte vragen is ernstig te ontraden. Voor belangrijke toetsen zullen studenten hoe dan ook proberen die oude vragen te bemachtigen. Bijvoorbeeld door na afloop van ieder tentamen de vragen te reconstrueren, en openbaar te maken — prima — of ze in misplaatst ondernemerschap binnen een klein circuit te houden of te verkopen — niet zo prima.

Als gebruikte toetsvragen in het vrije circuit komen, dan kan het niet anders of voor iedere nieuwe toets zijn telkens ook veel nieuwe vragen nodig. Dit boek is juist geschreven om het ontwerpen van telkens weer nieuwe toetsvragen te vergemakkelijken en systematiseren om zo ook een blijvend goede kwaliteit te mogelijk te maken. Zonder goede ontwerpregels is het vrijwel onmogelijk te voorkomen dat toetsvragen steeds vaker over triviale details in de stof gaan, of — en dat is de andere hoorn van het dilemma — dat er in feite maar een kleine verzameling van toetsvragen is waardoor de studie van deze toetsvragen in de plaats komt van de studie van de leerstof zelf.

makkelijke vragen

Eerder is er al op gewezen dat toetsvragen moeilijk moeten zijn voor naïeve deelnemers, niet voor studenten die goed zijn voorbereid. Vragen kunnen dus best makkelijk, tot heel makkelijk zijn, zolang het tegelijk ook zo is dat ze voor buitenstaanders moeilijk zijn.

Hoe kan het zijn dat vragen juist makkelijk zijn? Juist onderwerpen die tot de kern van de stof behoren, zijn uitvoerig behandeld en studenten zullen deze goed beheersen. Vragen kunnen makkelijker zijn naarmate ze meer de kern van de stof betreffen. Het omgekeerde verband is beter bekend: naarmate vragen meer over bijzaken, details en voetnoten gaan, worden ze lastiger te beantwoorden voor de goed voorbereide student, die kan zich hier niet goed van buitenstaanders onderscheiden!

Weglaten van makkelijke vragen over de kern van de stof zal er bovendien toe leiden dat studenten de aandacht alleen nog op bijzaken richten, waardoor uiteindelijk een goede beheersing van de kern van de stof niet meer vanzelfsprekend is. De ontwerper van toetsvragen schiet zich hier in eigen voet, de kwaliteit van het onderwijs is in het geding, en toetsen zijn niet representatief voor het onderwijs-zoals-bedoeld.

bonusvragen
Niet alle vragen over de kern van de stof zijn gemakkelijk, ook niet waar er in het onderwijs veel aandacht aan is besteed. Sommige onderwerpen zijn nu eenmaal moeilijk. Goede voorbereiding en uitgebreide oefening kunnen niet altijd garanderen dat dan ook alle vragen goed gemaakt worden. Er is geen enkel bezwaar tegen het gebruik van zulke moeilijke vragen.

Anders ligt dat met vragen die hun moeilijkheid daaraan danken dat ze buiten de behandelde stof gaan, en die veeleer een beroep doen op intelligentie dan op verworven kennis en inzicht. Zulke vragen worden wel bedacht en gebruikt onder het motto dat ook de geniale student aan zijn trekken moet komen, dat bonusvragen de gelegenheid geven om extra punten of een ‘tien’ te verdienen, enz. Dat zijn persoonlijke, maar zeker geen professionele opvattingen. Daarmee wordt de overige studenten geen recht gedaan. Vragen die buiten de opgegeven stof gaan, horen in een toets niet thuis, daar kan geen discussie over zijn. Die vragen zijn ook niet voor te bereiden, hoe goed de stof ook is bestudeerd. Als voor het kunnen beantwoorden van bonusvragen het veeleer van belang is dat je slimmer dan anderen geboren bent, dan zijn ze — en dat is anders dan in bijvoorbeeld selectie-situaties — ronduit discriminerend en moet er worden ingegrepen.

2.5 Rompvragen: meervoudig bruikbare vraagstellingen

Voor de eerste keer een handvol vragen bedenken over een hoofdstuk valt niemand echt moeilijk. Het is al lastiger wanneer het er tenminste vijftig moeten zijn, en zeker wanneer het de tiende keer is dat er vijftig nieuwe vragen moeten komen. Als het een kunst is met deze taak op een goede manier in het reine te komen, dan is dat niet door iedere vraag kunstig te bedenken, maar juist om dat te voorkomen. Door de bomen het bos blijven zien. Het baanbrekende inzicht moet hier toch zijn dat er bepaalde grondvormen voor vragen over leerstof zijn, grondvormen waarop vervolgens vrijwel onbeperkt kan worden gevarieerd door er andere invulling voor te kiezen. Het eenvoudige voorbeeld waar zoiets voor iedereen zichtbaar is gerealiseerd, is het rekenonderwijs. Voor andere leerstof ligt dezelfde aanpak iets minder voor de hand, maar is ook daar altijd te realiseren. Tenzij er niets is dat de moeite van het leren waard is, maar daar hebben we in het onderwijs geen last van, toch? De structuur van de leerstof wordt uitgebuit, daar gaat hoofdstuk drie en alles wat volgt nog over. Deze paragraaf geeft een vooruitblik op de uiterlijke vorm die dit alles aanneemt.

Iedereen is vertrouwd met vraagstellingen die qua vorm aan elkaar identiek zijn, maar waarbij de inhoud gevarieerd is.

De vorm van deze vraagstelling is te schrijven als ‘23 + ... = ?,’ op de opengelaten plaats wordt een getal tussen 10 en 100 gekozen om de opgave te completeren. Deze open vorm samen met de specificatie van wat op de opengelaten plaats(en) ingevuld kan worden, noemen we een vraagvorm — item form — of rompvraag. Om verwarring met de gewone betekenis van ‘vraagvorm’ uit de weg te gaan gebruik ik meestal ‘rompvraag.’

Rompvragen zijn een krachtig hulpmiddel bij het aanmaken van grotere hoeveelheden toetsvragen. De specificatie van wat in de rompvraag kan worden ingevuld is een lijst van dingen, getallen, etcetera, of het is een omschrijving, zoals in het gegeven voorbeeld, per definitie (zie ook 3.5), per constructievoorschrift, etcetera. Een nieuwe vraag is te ontwerpen door de rompvraag in te vullen met een getal, voorbeeld enz. uit de specificatie. De rompvraag is natuurlijk op tal van gelijkwaardige manieren uit te schrijven, in tekst of in symbolen, naar layout, etcetera.

Dergelijke varianten kunnen de vraag inhoudelijk vrijwel onveranderd laten (de eerste gegeven variant), of ook de inhoud zelf veranderen (de tweede variant). Wat mogelijk is met de vorm van sommen, kan natuurlijk ook met de redactie van verbale opgaven.

Rompvragen zijn vanzelfsprekend als het gaat om rekenen, maar hoe is dat voor andere leerstof? Wel, op analoge wijze. In de rekenopgave is een abstracter vorm te onderkennen, zie het eerste voorbeeld, en daarvan is nog weer een abstractie mogelijk, zie het tweede en derde voorbeeld, met in het vierde en vijfde voorbeeld enkele van de oneindig vele mogelijkheden voor concrete invulling.

Bovenstaande voorbeelden maken duidelijk dat voor het gericht ontwerpen van vragen over de (mate van beheersing van de) leerstof, deze in kaart gebracht moet zijn naar de onderwerpen en hun onderlinge relaties, inclusief eventuele naïeve opvattingen die bij de aanvang van de cursus nog aanwezig konden zijn. In alle literatuur over toetsen komt die eis in een of andere vorm voor. Kaarten maken kan dan weer op heel wat verschillende manieren, en ook daarvan geeft de literatuur blijk. De mogelijkheden gaan van een uitvoerige inhoudsopgave als kaart van de leerstof, tot gedetailleerde doelstellingen gekruist met de verschillende manieren waarop leerlingen die doelen kunnen beheersen (een schitterend extreem daarin is Bloom, Hastings en Madaus, 1971). Dit boek probeert boven het niveau van de inhoudsopgave uit te stijgen, zonder in het formuleren van doelstellingen te verzanden. Een flexibele techniek voor het schematiseren van (beheersing van) leerstof combineert het — in hoofdstuk drie — met een eenvoudige filosofische techniek voor het beschrijven van (het hebben van) kennis in een bepaald domein of vakgebied. Dan zijn rompvragen te maken door een verzameling van voorbeelden aan te leggen of anderszins te omschrijven.

Merk op dat een specificatie van voorbeelden soms uitgebreid moet worden met een lijst van niet-voorbeelden (zie ook hoofdstuk vier). De vraag in het voorbeeld hierboven zou een ‘onbenullige toetsvraag’ kunnen zijn, bedoeld om te toetsen of de student een artikel of boek over ongelukken met kernreactoren tenminste gelezen heeft (zie over deze wijze van toetsen verder 6.1).

De specificatie bij een rompvraag kan vaak op heel verschillende manieren ingevuld (of aangelegd) worden. Het plantje ‘muizeoor’ uit bovenstaand voorbeeld kan op verschillende manieren getekend zijn, gefotografeerd zijn, foto’s die al dan niet een belangrijk stuk van de omgeving laten zien waarin het muizeoor groeit. De verzameling kan zelfs gedroogde exemplaren bevatten, of ongerepte exemplaren op locatie (dan maakt de vraag onderdeel uit van het veldwerk). Het opstellen van een specificatie hoeft voor een deskundige op het desbetreffende vakgebied niet lastig te zijn. Wanneer de verzameling uit voorbeelden bestaat, is te bedenken dat voorbeelden op hun beurt ook weer in soorten komen. Doe een passende keuze uit de volgende mogelijkheden.

voorbeelden die al in tekst, syllabus, werkbespreking behandeld zijn;
voorbeelden waar de student zich op geoefend heeft
nieuwe voorbeelden (en daar gaat het eigenlijk om), zoals:
- meest voorkomende, modale, prototypische voorbeelden;
- gewone, gemiddelde, normale voorbeelden;
- buitenissige, extravagante, uitzonderlijke voorbeelden;
- grensgevallen (waar ook deskundigen met elkaar van mening verschillen);
- uitzonderingen (die afwijken van een definitie, en desondanks toch ...);
- voorbeelden onder restrictie (uit een bepaald tijdperk, gebied enz. te kiezen);
- overgeneralisatie-gevoelige;
- misvattingen en fouten (o.a. uitkomsten verkregen bij een rekenfout);
- willekeurige niet-voorbeelden (zij het ook onder bepaalde restricties te kiezen);
- tegengestelden, antonymen en dergelijke (gaat gevaarlijk in de richting van intelligentietest-achtige vraagstellingen).

Wat voor voorbeelden geldt, gaat ook op voor toepassingen van wetten, wetmatigheden, technieken en dergelijken. De hoofdstukken vier en vijf gaan op voorbeelden en toepassingen verder in.

Het ontwerpen van rompvragen is niet altijd even eenvoudig — daar gaat eigenlijk de rest van dit boek over — zodat het economisch gebruik maken van al bedachte en in de praktijk beproefde vraagvormen en voor verwante onderwerpen altijd de moeite waard is. Sommige rompvragen zijn wel heel algemeen:

De suggestie bij dit alles is dat een vraagvorm het mogelijk maakt om onder verwisseling van voorbeelden dezelfde vraagstelling herhaalde malen te gebruiken in opeenvolgende toetsen. Hoe verschillend moeten twee vraagstellingen zijn om van de tweede vraag te kunnen zeggen dat het ‘nieuwe’ vraag is, vergeleken met de eerste?

Bloom c.s. (1956) formuleerden het antwoord zo: dat een goede (toepassings-)toetsvraag een probleem moet behelzen dat als zodanig aan de student bekend kan zijn, maar dat stelt op een manier waar hij waarschijnlijk nog niet eerder aan gedacht heeft (‘a problem known to the student but a new slant that he is unlikely to have thought of previously’). Maar dat is de zaak op de kop zetten, het gaat er in het onderwijs immers om dat de student leert bepaalde soorten vraagstelling te beantwoorden, bepaalde klassen van problemen aan te pakken en op te lossen.

Het opnemen van woorden als ‘relateer’ of ‘ontrafel’ in de stam van een vraag maakt er op zich geen inzichtvraag van. Alle beetjes helpen, zeker, maar dit is geen recept voor succes. De reden is makkelijk na te voelen: geoefend inzicht ligt dicht bij reproductie. Dat is ook anders te formuleren: een interessant deel van ‘inzicht’ is gewoon hard werk, zoals expertise het resultaat is van duizenden uren investering. Zou dat niet zo zijn, dan zou het toetsen op het ‘cognitieve niveau’ van ‘inzicht’ vooral neerkomen op het toetsen van intelligentie. Dat is niet het doel van onderwijs, het zou geestelijke mishandeling zijn — wat overigens in de geschiedenis van het onderwijs geen onbekend fenomeen is.

Welnu, een ‘nieuw’ probleem of een ‘nieuwe’ vraag zal doorgaans moeten passen in een bekend slag, type of soort probleem of vraag. Het nieuwe kan bestaan uit een andere formulering of een andere vorm, maar dat is doorgaans van tamelijk ondergeschikt belang. Wat een vraag ‘nieuw’ maakt, is veeleer een voorbeeld dat de studenten nog niet bekend is, een nieuwe situatie of gebeurtenis. Met andere woorden: rompvragen leveren verzamelingen vragen op, waarbij de vragen ten opzichte van elkaar ‘nieuw’ zijn doordat nieuwe voorbeelden uit de specificatie erin gebruikt worden. Tenzij de specificatie voorbeelden bevat die als twee druppels water op elkaar lijken, levert ieder voorbeeld een nieuwe vraag op. De nieuwigheid kan nadruk krijgen door een variant op een bekende rompvraag te ontwerpen. De keerzijde van vaste rompvragen met wisselende inhouden is dat er een risico is dat leerlingen de rompvraag zèlf gaan leren: dan leren ze een misvatting over deze leerstof.

De vraag over de leeftijd van de kapitein is onderwerp van onderzoek geweest, zie bijvoorbeeld Verschaffel, Greer en De Corte (2000, p. 3), dat laat zien dat bijvoorbeeld twaalfjarigen daar vaak ‘36’ op antwoorden, en vervolgens ook in discussie aan dat antwoord vast blijven houden. Zij hebben geleerd dat redactiesommen altijd een getal als antwoord hebben, dat het antwoord meestal een eenvoudige optelling etcetera is van de getallen in de opgave, dat het woordje ‘samen’ betekent dat je die getallen moet optellen, ‘over’ dat je moet aftrekken, enzovoort. Het antwoord ‘36’ is consistent met wat is geleerd, het is falend onderwijs, en natuurlijk is het een idioot antwoord, maar wie valt dat aan te rekenen? Traditionele redactiesommen blijken in feite extreem doorgevoerde vaste rompvragen te zijn, waardoor de kwaliteit van het rekenonderwijs ernstige schade lijdt. Verbazingwekkend?

Een el kost 10 schellingen. Hoeveel kost 12½ el? Antw. 6 pond Vlaams 5 schelling [er gaan 20 schellingen in een pond, Bartjens p. 77]

Vlas kost 6 stuivers per pond. Hoeveel kost 80½ pond? Antw. 24 gulden 3 stuivers.

Bartjens, 1779, p. 69. Voor de hele bladzijde, klik hier.

Een schokkend detail: deze opgaven zijn vrijwel identiek aan de opgaven in de eerste editie van 1604, zie de facsimile op p. 172 in Beckers en Kool (2004).

Kijk eens naar een bladzijde redactiesommen in Bartjens (1604/1779), een rekenboekje gericht op wat kooplieden nodig hebben: natuurlijk hebben al die redactiesommen over hoeveelheden en prijzen eenduidige antwoorden, en zijn het eenvoudige bewerkingen van de gegeven getallen. Sterker nog: bijna alle opgaven in Bartjens, en dat geldt ook voor de oudere rekenboekjes uit de 15e en 16e eeuw (Kool, 1999), zijn van dit type redactiesom. In de twintigste eeuw is er niet meer zo’n directe koppeling tussen leren rekenen en rekenen in het beroep, maar het fantastische is dat de redactiesommen nog steeds gevierd zijn. Wees erop voorbereid dat ook andere vakken onder dergelijk vraagvorm-extremisme lijden, dit boek zal er nog tal van voorbeelden van geven. De validiteit van toetsvragen ontworpen op basis van een kritiekloos gevolgde traditie is onbepaald — wat de gek ervoor geeft — zie paragraaf 2.6. Laat ‘Bartjens’ een waarschuwing zijn: die el stof in de opgave in de box kost 10 schelling in 1604, en nog steeds in 1779!

Het is mogelijk om op basis van een rompvraag en bijpassende lijstjes van voorbeelden nieuwe vragen te laten samenstellen per computer. Voor docenten die zelf toetsvragen ontwerpen is dat echt niet doelmatig, maar in de wereld van de gestandaardiseerde tests is onderzoek gaande naar mogelijkheden om per computer voor gegeven rompvragen nieuwe testvragen te ontwerpen die voldoen aan opgegeven eisen van moeilijkheid (Embretseon, 2005; Irvine & Kyllonen, 2002). Bij afname van intelligentietests per computer is het dan mogelijk om de moeilijkheid van de volgende opgaven aan te passen aan de resultaten die de testee op eerdere opgaven heeft geboekt, wat winst in doeltreffendheid oplevert. Voor eindexamens is zoiets niet realistisch uitvoerbaar, maak u geen zorgen.

2.6 Validiteit: een goed antwoord bewijst kennis

Tot de vormaspecten van toetsvragen hoort ook wat het is voor toetsvragen om valide te zijn. Net als de eis van heldere taal is gesteld in procedurele termen, dus zonder een catalogus van geldt als ‘heldere taal,’ is de validiteitseis een procedurele, en hoort validiteit tot de in dit hoofdstuk 2 te behandelen vormaspecten van toetsvragen. Omdat het onderwerp qua omvang dat van een eigen hoofdstuk dreigt te benaderen, is het op een eigen pagina geplaatst. Graag doorklikken dus.

2.7 literatuur t/m 2.5

In deze herziening 2006 is de literatuurlijst niet echt evenwichtig, en is gekozen voor eerder te veel dan te weinig. Voor suggesties: email mij.

Voor annotaties bij de hier gegeven literatuur zie annotaties, voor meer literatuuropgaven zie meer literatuur

John R. Anderson, Christian Lebiere, and others (1998). The atomic components of thought. London: Lawrence Erlbaum. questia

Roy F. Baumeister, E. J. Masicampo & Kathleen D. Vohs (2011). Do Conscious Thoughts Cause Behavior? Annual Review of Psychology, 62, 331-361. pdf Willem Bartjens (1604/1779). De vernieuwde cyfferinge van Mr. Willem Bartjens, waar uyt men meest alle de grond-regulen van de reeken-konst leeren kan. By Joannes Kannewet.

Danny Beckers en Marjolein Kool (2004). Willem Bartjens (1604/2004). De Cijfferinghe (1604). Het rekenboek van de beroemde schoolmeester. Hilversum: Verloren. https://www.dbnl.org/tekst/bart001cijf02_01/

N. D. Belnap, Jr., and T. B. Steel, Jr. (1976). The logic of questions and answers. London: Yale University Press.

Talia Ben-Zeev and Jon Star (2001). Intuitive mathematics: theoretical and educational implications. In Robert J. Sternberg and Bruce Torff: Understanding and teaching the intuitive mind: student and teacher learning. Erlbaum. questia

Randy Elliott Bennett and William C. Ward (Eds) (1993). Construction versus choice in cognitive measurement. Issues in constructed response, performance testing, and portfolio assessment. Hillsdale, New Jersey: Lawrence Erlbaum. questia

Henk van Berkel en Anneke Bax (Red.) (2006). Toetsen in het hoger onderwijs. Houten: Bohn Stafleu van Loghum.

J. Biggs (1996). Enhancing teaching through constructive alignment. Higher Education, 32, 347-364.

Benjamin S. Bloom, J. Thomas Hastings and George F. Madaus (Eds) (1971). Handbook on formative and summative evaluation of student learning. London: McGraw-Hill.

James Braswell and Jane Kupin (1993). Item formats for assessment in mathematics. In Bennett and Ward, 167-182.

K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf

Anne E. Cook, Robert Z. Zheng and Jacquelyn W. Blaz (2009). Measurement of cognitive load during multimedia learning activities. In Robert Z. Zheng: Cognitive effects of multimedia learning.. New York: Information Science Reference.

Martin V. Covington (1992). Making the grade. A self-worth perspective on motivation and school reform. Cambridge University Press.

Hans F. M. Crombag, Jerry G. Gaff, and Ten M. Chang (1975). Study behavior and academic performance. Tijdschrift voor Onderwijsresearch, 1, 3-14.

Paul Drijvers (2006). Context, abstractie en vaardigheid in schoolalgebra. NAW, 5/7. pdf

Susan E. Embretson (2005). Measuring human intelligence with artificial intelligence: Adaptive item generation. In Robert J. Sternberg & Jean E. Pretz: Cognition & intelligence. Identifying the mechanisms of the mind. (251-267). Cambridge University Press.

James H. Fetzer (Ed.) (2001). The philosophy of Carl G. Hempel. Studies in science, explanation, and rationality. Oxford University Press.

Maurice A. Finocchiaro (1994). The Positive versus the Negative Evaluation of Arguments. In R. H. Johnson and J. A. Blair: New essays in informal logic (pp21-35). Informal Logic. Reprinted in Maurice A. Finocchiaro (2005). Arguments about arguments. Systematic, critical and historical essays in logical theory (pp 159-177). Cambridge University Press.

N. Frederiksen (1984). The real test bias: Influences of testing on teaching and learning. American Psychologist, 39, 193-202.

Adrian Furnham, Jeremy Monsen & Gorkan Ahmetoglu (2009). Typical intellectual engagement, Big Five personality traits, approaches to learning and cognitive ability predictors of academic performance. British Journal of Educational Psychology, 79, 769-782.

Athanasios Gagtsis and Iliada Elia (2004). The effects of different modes of representation on mathematical problem solving. Proceedings of the 28th Conference of the International Group for the Psychology of Mathematics Education, 2004 Vol 2 pp 447-454. Also Learning and Instruction, 17, 658-672. pdf Proceedings

Ronald N. Giere (2006). Scientific perspectivism. The University of Chicago Press.

Janice Glasgow, N. Hari Narayanan, and B. Chandrasekaran (Eds) (1995). Diagrammatic reasoning. Cognitive and computational perspectives. Cambridge, Massachusetts: MIT Press.

A. D. de Groot (1961). Methodologie. Grondslagen van onderzoek en denken in de gedragswetenschappen. Den Haag: Mouton. dbnl

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376.html

A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Mouton.

Dato M. de Gruijter (1990). Beoordelen met open vragen. Onderzoek van Onderwijs, 46-48.

Thomas M. Haladyna (1999 2nd). Developing and validating multiple-choice test items. Erlbaum. (2004 3rd)

Thomas Haladyna, Steven M. Downing, and Michael C. Rodriguez (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15, 309-334. http://depts.washington.edu/currmang/Toolsforteaching/MCItemWritingGuidelinesJAME.pdf [gebroken link? 1-2009]

Heather C. Hill, Merrie L. Blunk, Charalambos Y. Charalambous, Jennifer M. Lewis, Geoffrey C. Phelps, Laurie Sleep and Deborah Loewenberg Ball (2008). Mathematical knowledge for teaching and the mathematical quality of instruction: An exploratory study. Cognition and Instruction, 26, 430-511.

Jaakko Hintikka (2007). Socratic epistemology. Explorations of knowledge-seeking by questioning. Cambridge University Press. info

Willem K. B. Hofstee (1985). Beoordeling van de kwaliteit van wetenschappelijk onderzoek: fundamentele kwesties. In Becker, H. A., en A. F. J. van Raan: Kwaliteit in de wetenschap. Een meetbaar begrip? (p. 71-86). Leiden: DSWO-Press.

Inspectie van het Onderwijs (2006). De betrouwbaarheid van getuigschriften. Risico’s rond de wettelijke bepalingen bij de afgifte van getuigschriften in het hoger onderwijs. Belangrijkste bevindingen en consequenties. Onderzoekrapport. Zoek de pdf op de website van de Inspectie, een website waarvan de organisatie om de haverklap lijkt te veranderen.

Sidney H. Irvine and Patrick C. Kyllonen (Eds) (2002). Item generation for test development. Erlbaum. questia

Marjolein Kool (1999). Die conste vanden getale. Een studie over Nederlandstalige rekenboeken uit de vijftiende en zestiende eeuw, met een glossarium van rekenkundige termen. Hilversum: Verloren. html audio

Birgitta Kopp & Heinz Mandl (2011). Fostering argument justification using collaboration scripts and content schemes. Learning and Instruction, 21, 636-649. abstract

Maria Kozhevnikov, Michael A. Motes and Mary Hegarty (2007). Spatial visualization in physics problem solving. Cognitive Science, 31, 549-579.

Hans Kuhlemeier, Melanie Steentjes en Frans Kleintjes (2003). De gelijkwaardigheid van open en meerkeuzevragen bij wiskunde. Effect van vraagtype en scoringswijze op gemeten vaardigheden, betrouwbaarheid, moeilijkheid en afnametijd. Arnhem: Cito. http://www.fi.uu.nl/wiskrant/bij_de_nummers/Bijlagen/ 23.2/rapport%20onderzoek%20vraagtypen%20bij%20wiskunde.pdf [gebroken link? 1-2009]

Deanna Kuhn (2005). Education for thinking (2005). Harvard University Press. excerpt.

Ellen Condliffe Lagemann (2000). An elusive science: The troubling history of education research. University of Chicago Press.

Henk Lagerwaard en Jan Mul (1982). Scripties onderzocht: een analyse van de kwaliteit van doctoraalscripties in de culturele antropologie, de politicologie en de sociologie en de tijd, die het schrijven ervan kost, met aanbevelingen ter verbetering. Leiden: Centrum voor Onderzoek van Maatschappelijke Tegenstellingen, Rijksuniversiteit.

Learning Mathematics for Teaching (2005Mathematical Knowledge for Teaching (MKT) measures. Mathematics released items. University of Michigan, School of Education. html

Lieshout, E. C. D. M. van Lieshout en I. E. Berends (2009). Het effect van illustraties bij rekenopgaven: hulp of hinder? Pedagogische Studieën, 86, 350-368.

Frederick M. Lord and Melvin R. Novick (1968). Statistical theories of mental test scores. Addison-Wesley.

Joel Michell (1999). Measurement in psychology. A critical history of a methodological concept. Cambridge University Press. questia

R. James Milgram (2007). What Is Mathematical Proficiency? In Alan H. Schoenfeld:. Assessing mathematical proficiency (pp. 31-58). Cambridge University Press. pdf

Roxana Moreno and Richard E. Mayer (2000). A Learner-Centered Approach to Multimedia Explanations: Deriving Instructional Design Principles from Cognitive Theory. Interactive Multimedia Electronic Journal of Computer-Enhanced Learning, 2, number 2 html

R. F. van Naerssen (1969). Meer gecompliceerde scoringswijzen. In De Groot en Van Naerssen, Studietoetsen, construeren, afnemen, analyseren (p. 259-271). Den Haag, Mouton.

R. F. van Naerssen (1970). Over optimaal studeren en tentamens combineren. Rede. html

Sharon L. Nichols and David C. Berliner (2005). The Inevitable Corruption of Indicators and Educators Through High-Stakes Testing. Education Policy Studies Laboratory, Arizona State University pdf (180 pp.).

Jody Paul (not dated, 1994?). Improving educational assessment by incorporating confidence measurement, analysis of self-awareness, and performance evaluation. The Computer-Based Alternative Assessment (CBAA) Project. pdf

Greg A. Perfetto, John D. Bransford and Jeffery J. Franks (1983). Constraints on access in a problem-solving context. Memory & Cognition, 11, 24-31.

Deborah Poole (1994). Routine testing practices and the linguistic construction of knowledge. Cognition and Instruction, 12, 125-150. 10.1207/s1532690xci1202_3 JSTOR preview

W. James Popham (2005). America’s ‘failing’ schools. How parents and teachers can cope with No Child Left Behind. Routledge.

L. M. Reder (1988). Strategic control of retrieval strategies. In G. H. Bower: The psychology of learning and motivation. volume 22, 227-259. Academic Press. pdf

Michael C. Rodriguez (2005). Three options are optimal for multiple-choice items: A meta-analysis of 80 years of research. Educational Measurement: Issues and Practice. Summer. [pdf niet langer beschikbaar???]

Henry L. Roediger III and Elizabeth J. Marsh (2005). The positive and negative consequences of multiple-choice testing. Journal of Experimental Psychology, Learning, Memory, and Cognition, 31, 1155-1159. pdf tweet: https://twitter.com/benwilbrink/status/992852984777277440 [foute info leren]

Gale H. Roid and Thomas M. Haladyna (1982). A technology for test-item writing. London: Academic Press.

Edward L. Thorndike (1904). An introduction to the theory of mental and social measurements. New York: The Science Press. flip book. Second edition 1912 is available for free as a pdf 17Mb

Edward L. Thorndike (1924). The psychology of arithmetic. New York: The Macmillan Company. pdf 8Mb

Robert L. Thorndike (Ed.) (1971). Educational measurement. Second edition. Washington D.C.: American Council on Education.

Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Swets & Zeitlinger.

Howard Wainer (2009). Picturing the Uncertain World: How to Understand, Communicate, and Control Uncertainty through Graphical Display. Oxford University Press. trial chapter 1 pdf

Ben Wilbrink (1977). Het verborgen vooroordeel tegen andere dan meerkeuze vraagvormen. In Congresboek Onderwijs Research Dagen (p. 219-222). html

Ben Wilbrink (1992). Keuzevragen ontwerpen. Handreiking voor het doeltreffend en doelmatig maken van een verzameling van keuzevragen. pdf [Project Algemene Taalwetenschap UvA, voor tentamen met jaarlijks >1000 deelnemes]

Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23, 31-48. html

Ben Wilbrink (1998). Inzicht doorzichtig toetsen. In Theo H. Joostens en Gerard W. H. Heijnen (Red.). Beoordelen, toetsen en studeergedrag. Groningen: Rijksuniversiteit, GION - Afdeling COWOG Centrum voor Onderzoek en Ontwikkeling van Hoger Onderwijs, 13-29. html

Frits E. Zegers (1989). Het meten van overeenstemming. Nederlands Tijdschrift voor de Psychologie, 44, 145-156.

Klaas Sijtsma & Anton C. Verweij (1999). Knowledge of Solution Strategies and IRT Modeling of Items for Transitive Reasoning. Applied Psychological Measurement, 23, 55-68. abstract

Onderzoek waarbij de leerlingen hun antwoorden op de toets hebben moeten motiveren.

links

Google bv. "Multiple Choice Questions for Economics" om veel sites met keuzevragen economie te vinden.

TIMMS 2007 Trends in International Mathematics and Science Study pdf 3Mb, example mathematics items pdf, example science items pdf

PIRLS 2006 Progress in International Reading Study Assessment Framework and Specifications, 2nd Editionpdf 1.8Mb, sample passages, questions, and scoring guides pdf

De Wetenschapsquiz 2005 [site NWO]. Bespreking van het ontwerp van de vragen in deze quiz hier. Ook besproken: 2006, 2007 en 2008.

De Grote Geschiedenis Quiz 2006. Bespreking van het ontwerp van de vragen in deze quiz hier. Idem 2007 en 2008.

De Nationale Rekentoets [site de Volkskrant, maar nu niet meer beschikbaar? 2-2008]. Bespreking van het ontwerp van de vragen in deze toets hier. Ook 2007.

CAA Centre Computer-asisted assessment in higher education site, handleiding ontwerpen keuzetoetsen pdf

Jeri L. Little & Elizabeth Ligon Bjork (2012). The Persisting Benefits of Using Multiple-Choice Tests as Learning Events. paper pdf

Andrew C.Butler (2018). Multiple-Choice Testing in Education: Are the Best Practices for Assessment Also Good for Learning? Journal of Applied Research in Memory and Cognition, 7, 323-331. open access. Looks like a fine review. Be aware though of the important question: is the MC format the best choice for the educational goals at hand?

M. Birenbaum and K. K. Tatsuoka (1987). Open-ended versus multiple-choice formats - It does make a difference for diagnostic purposes. Applied Psychological Measurement, 11, 385-395. 10.1177/014662168701100404scihub pdf

M. Birenbaum, K. K. Tatsuoka & Y Gurvirtz (1992). Effects of response format on diagnostic assessment of scholastic achievement. APM 16, 353-363. . Applied Psychological Measurement, 11, 385-395. 10.1177/014662169201600406 abstract & scihub pdf In het geval van opgaven algebra.

Menucha Birenbaum, Kikumi K. Tatsuoka & Yaffa Gutvirtz (1992). Effects of Response Format on Diagnostic Assessment of Scholastic Achievement. Applied Psychological Measurement,16, 353-363.abstract

Etienne Wenger (1987). Artificial intelligence and tutoring systems. Computational and cognitive approaches to the communication of knowledge. Los Altos, California: Morgan Kaufmann. isbn 0934613265 info

Modelleren van de kennis die de student heeft of nog niet heeft, of verkeerd begrepen heeft.

een Italiaans kapitein	zeevaarders
Spanjaarden	Chinezen
Vikingen	Feniciërs
Bjarni of Leif	ikzelf in 2003

1.	Een bal valt van een 28 meter hoog balkon; hoe lang duurt zijn val?	____________

2.	Wat is de vergelijking van de raaklijn in het punt x = 2 aan de kromme met de vergelijking y = 2x² + 5x - 1 ?	____________

3.	Wat is het meest voorkomende mineraal in de aardkorst ?	____________

4.	Geef de formule voor de tweede bewegingswet van Newton.	____________

5.	Geef de vier meest voorkomende stikstofbasen van DNA.	____________
	____________
	____________
	____________.

Wat is de hoofdstad van Gelderland?	____________.

Waarom zijn walvissen zoogdieren?	____________.

Welk kabinet liet kruisraketten toe in ons land?	____________.

Bij opname in het beendergestel vervangt Strontium-90 er welke andere stof?	____________.

Is dit een zoogdier?
1. struisvogel	ja / nee.
2. walvis	ja / nee.
3. veldmuis	ja / nee.
4. vleermuis	ja / nee.
5. pinguïn	ja / nee.

1. In Babylon	______ Boon
2. De Kapellekensbaan	______ Hermans
3. De tranen der acacia’s	______ Möring
4. Archibald Strohalm	______ Mulisch
5. De ontdekking van de hemel
6. Onder professoren

Er is een korte versie in de maak, zonder details en zonder inkadering in de literatuur. Maar nog steeds beargumenteerd: de ontwerper moet immers weten wat zij/hij aan het doen is, en waarom dat klopt.

Toetsvragen ontwerpen

Handreiking bij het maken van toetsvragen over de leerstof

2. Vragen: beschikbare vormen en inhoudelijke validiteit

Ben Wilbrink