Studietoetsen, De Groot & Van Naerssen, na 40 jaar: een beschouwing

In de zestiger jaren maakt Nederland kennis met studietoetsen. Ineens is er ook een speciaal instituut: het Cito. Alles wat direct met de studietoetsen zelf te maken heeft, althans zoals men dat dan ziet, komt bijeen in het boek dat De Groot en Van Naerssen in 1969 uitbrengen: Studietoetsen: construeren, afnemen, analyseren. Het boek is ondertussen 40 jaar oud, en bij doorbladeren vallen al gauw een aantal dingen op. Het is geschreven vanuit een nog ongeblust optimisme over al het goeds dat studietoetsen ons zullen brengen. Dat optimisme brengt auteurs er makkeljk toe om allerlei bezwaren en andere meningen toch vrij makkelijk weg te wuiven, er in ieder geval niet serieus op in te gaan. Afgezien van deze sentimenten, is het snel duidelijk dat op hoofdlijnen de boodschap zo goed is overgekomen, dat deze deel is gaan uitmaken van de staande opvattingen in h et onderwijsveld over toetsen. Kunnen we daar blij mee zijn? Ik dacht het niet. Het is toch zo dat destijds die studietoetsen in Nederland zijn binnengebracht door psychologen, die hun kennis van de constructie, afname en analyse van psychologische tests toch wat al te makkelijk ook als adequaat voor studietoetsen zagen. We zijn nu dus opgescheept met onderwijsvijandige ideeën zoals die ove de gewenste moeilijkheid van toetsvagen: ongeveer 70% van de leerlingen/studenten zouden iedere afzonderlijke opgave goed moeten kunen beantwoorden. Wat een enorme schade kan zoiets toebrengen aan het zelfbewustzijn van leerlingen! Is daar dan ook empirisch onderzoek over beschikbaar? Ik weet dat niet, ik vermoed dat daar alleen in de zijlijnen van ander onderzoek gegevens over kunnen zijn verkregen. Die zogenaamd gewenste moeilijkheid van ‘goede’ meerkeuzevragen is wel een opvallende uitglijder van de pioniers van de studietoetsen, maar er zijn talloze andere valpartijen. Ik noem het uitbundige gebruik van allerlei onzin in toetsvragen: in de vorm van onjuiste stellingen, vragen naar niet bestaande standen van zaken, idiote alternatieven in meerkeuzevragen. Ik zou om te beginnen wel eens willen weten in hoeverre er in de zestiger jaren enige reflectie op dit verschijnsel was: het zou best kunnen dat het boek van De Groot en Van Naerssen een tamelijk zuivere benadering kiest, maar dat er in het onderwijsveld een minder juist gebruik van wordt gemaakt. Als er inderdaad sprake is van een aanzienlijke hoeveelheid onzin n toetsvragen, en een overdreevn moeilijkheid van toetsvragen, dan is de vraag wat hiervan de consequenties zjn. Denk bijvoorbeeld aan het recht op beroep: de kandidaat die vragen fout maakt waarin onjuiste stellingen staan, kan een goed te onderbouwen claim op tafel leggen dat deze onjuiste stellingen niet tot de leerstof behoren, en de vaag dus ten onrechte in de toets is opgenomen. Ik ben benieuwd wie in het verleden op welke manier dit voor de hand liggende probleem hebben gesignaleerd. Zo geeft Job Cohen in zijn proefschrift (1982) veel aandacht aan het al dan niet tot de leerstof behoren van toetsvragen die ‘nieuw’ zijn voor de studenten. Tenslotte zijn er de merkwaardige problemen die opduiken rond het al dan niet verplicht laten raden op niet geweten meerkeuzevragen. Hier gebeuren dingen die evident niet in het beoordelen van studieprestaties thuishoren, Hoe is het mogelijk dat deze raadproblematiek nog steeds voortwoekert in het Nederlandse onderwijs, in de eindexamens VO bovendien ook? Alle reden voor een hernieuwde kennismaking met dit boek uit 1969: hier is de bron van tal van praktijken waar we vandaag de dag goed gebruik van maken, of minder goed gebruik. Tijd voor reflectie.

This is a work in progress, it only just started. My intention is not to work from beginning to end. Rather, I will work on special subjects, because I need the information eßlsewhere. The whole project will take a number of years, hopefully resulting in the publication of an article in the year 2019, the 50th anniversary of the book. Hmmmm, om de een of andere dwaze reden heb ik dit tekstje in het Engels geschreven.

G. J. Mellenbergh. Waarom ‘meerkeuzevragen’? Hoofdstuk 1, 3-7.

meerkeuzevragen (1.3)

Don Mellenbergh gaat in dit eerste hoofdstuk vooral in op de vergelijking van open vragen en geprecodeerde vragen, het onderwerp waarover hij een promotieonderzoek doet. Merk op dat Mellenbergh hier nog spreekt over geprecodeerde vragen. Adriaan de Groot zal in de volgende hoofdstukken de verwarring over de terminologie vergroten door wel heel bijzondere definities te presenteren, en tegelijk andere in de literatuur circulerende definities in de lucht te houden. Met geprecodeerde vragen bedoelt Mellenbergh hier alleen keuzevragen, waarvan de leerling juiste antwoorden op een ponskaart aanstreept, bijvoorbeeld. De gedetailleerde modelantwoorden die tegenwoordig gebruikelijk zijn bij eindexamens zijn er in de zestiger jaren niet, althans niet in Nederland.

“Daarnaast zullen er echter altijd gebieden blijven, die niet gemeten kunnen worden met geprecodeerde vragen. Als men bijvoorbeeld wil weten of een leerling in staat is om een goed opstel te schrijven, dan moet men hem een opstel laten schrijven.”

p. 7

Contrasteer de nuchtere formulering van Mellenbergh met deze van De Groot dat er: “ (...) zolang het om de toetsing van kennis en inzicht gaat, vrijwel geen grenzen zijn aan de toepassingsmogelijkheden van geprecodeerde items.” (p. 14) Mogelijk ziet De Groot het kunnen schrijven van een goed opstel niet als een zaak van kennis en inzicht, maar dit soort discussie is in een boek als dit beter niet echt handig.

“Onze ervaring is dat itemconstructeurs vaak niet meer dan vier acceptabele alternatieven kunnen schrijven; bovendien kost het vaak zeer veel tijd om nog meer onjuiste alternatieven te bedenken. Daarom is in dt boek gekozen voor vierkeuze-items.”

p. 7

Een decennium later is men het er wel over eens dat vier alternatieven zelden allemaal adequaat functioneren, zodat de algemene aanbeveling is om het aantal alternatieven te beperken tot drie, wat zonder verlies in kwaliteit of statistische eigenschappen kan, en ruimte vrijmaakt om in dezelfde toetstijd iets meer vragen te laten beantwoorden.

Wulfert van den Brink (1979). Het optimale aantal alternatieven per item. Tijdschrift voor Onderwijsresearch, 4, 151.

Merk op dat Mellenberg consequent spreekt over alternatieven, en het abjecte ‘afleiders’ niet uit zijn pen laat vloeien.

Mellenbergh waaschuwt voor vragen van het type waar-onwaar: de uitspraken in dergelijke vragen moeten absoluut waar zijn. De uitspraak in het voorbeeld is dat niet: de bestudering van het gedrag van dieren is ook een tak van de psychologie. De waarschuwing heeft niet echt geholpen, toetsen in Nederland anno 2009 ritselen van de problematische waar-onwaarvragen. Waarschijnlijk komt dit onderwerp nog vaker uitvoerig aan de orde in dit boek. Ik geef vast advies: meestal is het wel mogelijk om deze vragen om te bouwen tot goede tweekeuzevragen. Bijvoorbeeld: vraag niet of de aarde bolvormig is, maar vraag of de aarde plat is, of bolvormig.

A. D. de Groot. Een definitie en verdere kenmerken. Hoofdstuk 2, 9-17.

objectiviteit (2.1)

“Een studietoets is:
Ieder proefwerk, examen, tentamen, ieder hulpmiddel voor schiftelijke toetsing van door onderwijs en studie verworven kennis, inzicht of vaardigheid op een of ander vakgebied, mts de bepaling van de score, die een (proef-)persoon behaald heeft, geheel objectief kan geschieden.”

p. 9: 2;1 Een studietoets is:

“ ... mits de bepaling van de score (...) geheel objectief kan geschieden.” Daar gaat om. Let op.

“De term ‘objectief’ in de definitie van 2;1 heeft een strikte betekenis: zó, dat de persoon van de beoordelaar — mits hij zich aan de scoringsvoorschriften houdt — géén rol meer kan spelen. Men kan ook zeggen: zó dat de scoringstaak desgewenst door een ‘klerk’ die van het vak niets afweet, of door een machine(-programma) kan worden overgenomen.”

p. 10: 2; 2 Objectiviteit

Het is toch niet echt handig om in een boek bestemd voor een breed publiek, een zo specifieke definitie van objectiviteit te hanteren. De Groot brengt hier bewust een kloof aan tussen tussen zijn definitie, en die in het gewone taalgebruik:

“Men moet deze nogal specifieke definitie goed in het oog houden. In het gewone spraakgebruik worden er dikwijls heel andere dingen bedoeld als er over 'objectiviteit' wordt gesproken.”

p. 11: 2; 2 Objectiviteit

De situatie die dan in Nederland ontstaat, is dat voorstanders van meerkeuzetoetsen vrijelijk betogen dat deze toetsvragen ‘objectief’ zijn, terwijl het enige dat hierover is vastgelegd, een triviale definitie is. De Groot licht toe:

“De objectiviteitseis betekent, dat de regels voor goed- of fout-rekenen en voor bepaling van de scores volstrekt eenduidig zijn.”

p. 11: 2; 2 Objectiviteit

Denk er even over na, en de conclusie moet zijn dat De Groot en de zijnen hun publiek hier behoorlijk in de maling nemen. Volstrekt eenduidige scoringsregels zijn heel eenvoudig te bedenken, en hoeven niets met juistheid van gegeven antwoorden te maken hebben. Is dit onterechte kritiek? Natuurlijk niet. De situatie in Nederland is dan decennialang dat de pleitbezorgers van meerkeuzetoetsen het beeld kunnen vestigen dat meerkeuzevragen gewenst zijn omdat ze objectief zijn. Als toehoorders daar vraagtekens bij zetten, kunnen de voorstanders zich terugtrekken op een verdedigingslinie, die ook in dit boek al is aangelegd:

“In dat hoofdstuk [6] wordt ook nog een ander begrip ‘objectiviteit’ ingevoerd (...) in een speciale betekenis: een kennis- of inzichtvraag is dan en slechts dan ‘objectief’ als alle deskundigen het precies eens zijn over wat het (‘objectief’) juiste antwoord is..”

p. 11: 2; 2 Objectiviteit

Ook dit is toch wel slordig geformuleerd: niemand kan aangeven wie ‘alle’ deskundigen zijn, en wat het is om het ‘precies eens te zijn’. De Groot en de zijnen zijn dus gedekt: als het zo uitkomt, kunnen ze kiezen wat ze bedoelen wanneer ze het over objectiviteit hebben.

Alles bij elkaar leidt dit tot misleiding van het publiek, ontstaat in Nederland de misvatting dat meerkeuzevragen de ideale eigenschap hebben dat ze objectief zijn. Daartegen neem ik stelling in mijn voordracht over de subjectiviteit van — ook — meerkeuzevragen (1977 html).

Het had anders gekund: een betere aanduiding was immers geweest om te spreken over automatische scoorbaarheid, want dat is waar het in feite om gaat. Met de aantekening dat het gaat om antwoorden die met het oog op die scoorbaarheid in de daarbij passende vorm zijn gegeven. Waarom die aantekening; omdat niet is bedoeld om bijvoorbeeld in opstellen het aantal gebruikte zelfstandige naamwoorden te tellen, wat natuurlijk prima automatisch kan.

Tja, die automatische scoorbaarheid klinkt wel erg mager voor wie meerkeuzetoetsen wil bepleiten.

meerkeuzevragen (2.1)

“Opgaven van het meerkeuze-type: (...) Bij deze vraag- of opgavevorm wordt aan de proefpersoon telkens een zeker aantal — meestal 3, 4 of 5 — alternatieven aangeboden waarvan er maar één juist is, of waarvan er één het beste is. (...) De proefpersoon moet trachten het goede antwoord te vinden, d.w.z. te kiezen uit de geboden alternatieven.”

p. 13

De vermelde proefpersonen zijn natuurlijken leerlingen of studenten, een verschrijving van De Groot. Let op dat De Groot hier spreekt over alternatieven: het verwerpelijk afleiders komt in dit boek uitbundig voor, maar tenminste niet in dit hoofdstuk twee. Opmerkelijk is ook dat De Groot expliciet spreekt over kiezen uit de alternatieven, en dat is toch echt iets anders dan het antwoord denken te weten op de gestelde vraag, en dat dan in de aangeboden alternatieven aanstrepen. Het verschil is enorm belangrijk, want hiermee is de spelregel voor het beantwoorden van meerkeuzevragen dat de leerling het antwoord moet vinden door onderlinge vergelijking van de aangeboden alternatieven. Het vinden van een op zich juist alternatief is immers niet altijd voldoende: het kan zijn dat een ander alternatief beter is, en de aanwijzing is dat in dergelijke gevallen het beste alternatief als het juiste antwoord geldt. De gevolgen hiervan voor de kwaliteit van meerkeuzevragen, en voor de mogelijkheden en de onmogelijkheden bij het ontwerpen van meerkeuzevragen, zijn enorm, en komen we in dit boek ongetwijfeld nog uitvoerig tegen.

In paragraaf 2:4 werkt De Groot de voordelen van precodering uit. Het is een slordige tekst, met een betoog dat niet consistent is. De Groot begint met korte open vragen, en het probleem dat leerlingen op die vragen soms onverwachte antwoorden produceren, die mogelijk goed zijn. Dat is maar lastig, er is immers geen sluitend beoordelingsvoorschrift mogelijk. Maar hier is De Groot echt aan het overdrijven, er is niets op tegen om creatieve antwoorden even apart te leggen en samen met deskundigen op juist te beoordelen. Nee, de oplossing van De Groot is dan: beperk de mogelijke antwoorden op die korte open vraag door er een aantal als alternatieven aan te bieden, en de leerling daar dan uit te laten kiezen. Dit zou dus het geschikte moment zijn om aan te stippen dat je met die verschuiving evident de situatie verandert voor de creatieve leerlingen. Een paar jaar later zou Hans Crombag dat ook signaleren, in het eerste nummer van het Tijdschrift voor Onderwijsresearch, waarin hij met een aantal collega’s laat zien dat studenten die de stof in eigen woorden proberen te verwerken, of ook boeken buiten de opgegeven lijst lezen, lagere cijfers halen dan anderen (in verschillende studierichtingen, propedeuse, Leiden). Dat mag dus niet waar zijn: dat juist studenten die de stof beter opnemen, lagere cijfers halen.

De Groot benadrukt dat de meerkeuzevraag inderdaad anders is, want hij laat de leerling kiezen tussen de opgegeven alternatieven, in plaats van te vragen het antwoord te produceren. Psychologisch gebeurt hier dus iets dat echt anders is. De Groot geeft dat onmiddellijk toe, en lijkt dus niet zo krampachtig als vele anderen die proberen aan te tonen dat korte open vragen en meerkeuzevragen hetzelfde meten. Maar dat is te snel geconcludeerd:

“Als men ‘dezelfde’ opgave in twee verschillende vormen presenteert, dan zijn zij psychologisch niet meer ‘dezelfde’ opgaven. Dit feit is echter veel minder belangrijk dan het misschien lijkt! Indien men van open itemvormen naar geprecodeerde overgaat, moet men namelijk in het algemeen andere vragen opstellen. (...) Wel belangrijk is het volgende probleem: Kan men met behulp van studietoetsen, bestaande uit geprecodeerde items, even goed kennis, inzicht en vaardigheid toetsen als dit met open vragen mogelijk is? En meet men met een goede, ojectieve studietoets hetzelfde als met een goede toets of proefwerk, bestaande uit open vragen? Dit zijn echter vragen waarop alleen onderzoek een antwoord kan geven..”

p. 14

De Groot is van mening dat onderzoek uitwijst dat met keuzevragen even goed kennis, inzicht en vaardigheid valt te meten.

overschatting (2.1)

“Heeft men eenmaal besloten met geprecodeerde items te werken en gaat men zich toeleggen op de constructie ervan, dan blijkt al gauw dat er, zolang het om de toetsing van kennis en inzicht gaat, vrijwel geen grenzen zijn aan de toepassingsmogelijkheden van geprecodeerde items.”

p. 14

Dit is regelrechte misleiding. Natuurlijk zijn er grenzen. De kernvraag hoort toch te zijn of de belangrijke doelen van het onderwijs, voorzover getoetst, even goed zijn te toetsen met korte open vragen als met meerkeuzevragen. Inclusief onbedoelde en bedoelde neveneffecten. Dat is bepaald een andere kwestie. De denkfout van De Groot is dezelfde als ook bij de introductie van andere technologie in het onderwijs gemaakt, zoals radio, film, video, geprogrammeerde instructie, de computer. De claims over de toepasbaarheid van dergelijke technologie zijn stevig, en op zich misschien ook wel terecht, maar er is niet echt aandacht voor de vraag of we de betreffende technologie wel moeten willen, en zo ja, in welke mate en waarvoor. Het ontbreken van verantwoorde onderwijskundige ontwerpen bij computer-gestuurd onderwijs heeft alles te maken met het fiasco van de meeste pogingen en investeringen op dit gebied. Meerkeuzevragen hebben hun over-enthousiaste introductie overleefd, en zijn overal in het onderwijs terug te vinden. De vraag is of dit wijdverbreide gebruik wel terecht is. Het gaat niet echt aan om dan te roepen dat meerkeuzevragen natuurlijk een goed ontwerp moeten hebben, en als dat klopt, dat er dan heel veel mee valt te toetsen. Om te beginnen laat zich onderzoeken of de vele voorbeelden van meerkeuzevragen in dit boek, kunnen bogen op een goed ontwerp.

beperkingen (2.1)

“Van de vele soorten vaardigheden echter, die man kan ondrscheiden, lenen zich alleen bepaalde intellectuele vaardigheden tot meting met behulp van studietoetsen; bij voorbeeld: goed kunnen lezen van een tekst, kunnen analyseren van een probleem, kunnen toepassen van een geleerd principe, en dgl. Creatieve, praktische en sociale vaardigheden — een verhaal schrijven, een radio repareren, een vergadering voorzitten — vallen grotendeels buiten het bereik van studietoetsen.”

p. 9

meerkeuzevragen (2.2)

De Groot geeft in paragraaf 2;5 aan dat “dat men vrijwel alle andere geprecodeerde typen óók in de vorm van (één of meer) multiple-choice-vragen kan gieten, zonder dat dit de aard van de opgave — óók psychologisch dus — in belangrijke mate verandert.”

p. 15

De Groot streeft dus naar een zekere standaardisatie in automatisch scoorbare toetsen: wat kan, moet ook maar. En dan bij voorkeur in vierkeuzevragen.

“ Wij beperken ons in dit boek in hoofdzaak tot het meest toegepaste meerkeuze-type, namelijk tot vierkeuze-items. (...) de beperking tot het geval van vier alternatieven is niet op een principiële voorkeur gebaserd, maar op praktische overwegingen: het vierkeuze-type is het vaakst het meest geschikte en leent zich goed voor demonstratie en oefening.”

p. 15

Nog decennia later is te merken dat vierkeuzevragen veel voorkomen, en dat gekunstelde vormen niet zeldzaam zijn. Gekunsteld: er zijn rare streken uitgehaald om tot vierkeuzen te komen, zoals bij dubbele juist-onjuistvragen. Ik heb De Groot gevraagd waar toch die dogmatiek van de vierkeuzevraag vandaan komt. Hij was daar heel open over, en machtigde mij om dit te gebruiken: in de aanloopperiode van het Cito vond men het niet handig om te werken met verschillende vormen van automatisch scoorbare toetsvragen, en dan ligt de keuze voor vierkeuzevragen als enige in de praktijk te gebruiken vorm wel voor de hand. De ‘praktische overwegingen’ zoals De Groot ze in 1969 aanduidt, zijn dus iets ‘praktischer’ geweest dan zijn tekst suggereert, en dat werd afgedekt met een versluierende argumentatie over de stand van zaken in wetenschappelijk onderzoek. Mogelijk speelde ook een rol dat in deze jaren waarin het gebruik van de computer opkwam - voorlopig alleen nog in de vorm van ponskaarten, ponsbanden, of terminals die toegang gaven tot universitaire mainframe computers - weinigen zich realiseerden dat programmatuur die geschikt was om vierkeuzevragen te verwerken, zonder enige extra aanpassing natuurlijk ook twee- en driekeuzevragen kan verwerken. Er was in die tijd overigens wel een maximum aan het aantal vragen dat op een enkele ponskaart paste, ik meen 70, zodat een toets met alleen tweekeuzevragen een beetje krap bemeten zou zijn.

een item, een punt (2.1)

“Bij de verdere bespreking van studietoetsen gaan wij er (...) van uit, dat een goed item een punt waard is en dat de score dus gelijk is aan het ‘aantal goed.’

”

p. 17

Het kenmerkende, en het probleem, is dat bij deze standaard-scoringsmethode van een punt per goed antwoord niet alleen foute antwoorden nul punten opleveren, maar ook open gelaten vragen. De Groot gaat in deze paragraaf maar kort op de problematiek in. Bij keuzevragen zijn leerlingen gedwongen om te raden op vragen die ze niet weten, want dan is er tenminste nog een kans om een punt te scoren.

raadkansen (2.1)

“(...) alleen indien ‘niet-invullen’ in het algemeen zéér zelden voorkomt is deze scoringswijze [een item, een punt] verantwoord. Is dit niet het geval, dan moet men een bonus (...) aan de score toevoegen.”

p. 17

Hier kiest De Groot een ethische positie. Blijkt dat leerlingen echt vragen onbeantwoord laten, dan hebben zij onder de regeling ‘een item, een punt’ er recht op dat zij een bonus krijgen, die zich verhoudt tot het aantal alternatieven in de betreffende keuzevragen. Dit is niet onbelangrijk, want ik vermoed dat dit probleem zich in de praktijk best vaak voordoet, zonder dat iemand ingrijpt op de manier zoals hier door De Groot is aangegeven. De betrokken leerlingen of hun ouders kunnen tegen onjuist handelen beroep aantekenen: het gaat immers niet aan leerlingen te straffen voor het achterwege laten van raden op vragen die zij niet weten. Het gaat hier puur om een technisch probleem, dat mag leerlingen niet belasten.

De Groot zegt nogal stellig dat bij vierkeuzevragen de bonus een vierde deel is van het aantal opengelaten vragen. Dat soort stelligheid is misplaatst: het is allemaal mensenwerk, er zijn ook argumenten om de bonus in dit geval bijvoorbeeld een half punt per vraag te laten zijn. Het komt bij hoofdstuk 18 nog uitvoeriger ter sprake.

De Groot is hier, tenslotte, nog van mening dat de opvoedkundige bezwaren tegen gedwongen raden zijn te ondervangen met methoden zoals zekerheidsscoring. Maar dat is meer een afwenteling van de last van de technologische tekortkomingen op de schouders van leerlingen, en dat hoort niet. Van Naerssen is er, in hoofdstuk 18, realistischer over: ingewikkelde methoden blijken niet echt effectief, en zijn belastend, niet doen dus.

A. D. de Groot. Gebruik en nut van studietoetsen. Hoofdstuk 3, 18-31.

overschatting (3.1)

“Als middel tot voorspelling van toekomstig studie- en beroepssucces is de studietoets in Nederland al een tiental jaren bekend.”

p. 18

Deze zin moet aan de aandacht van de redactie zijn ontsnapt. Een studietoets is natuurlijk maar een vorm, en vormen voorspellen niet. Hier moet staan dat school- en beroepskeuzeadviseurs naast psychologische tests ook schoolprestaties gebruiken voor hun diagnostiek, waarbij het toetsen op schoolprestaties vaak in de vorm van studietoetsen gaat. Als deze diagnostiek zinvol is, dan is dat op basis van de voorspellende variabele 'studieprestaties', en niet op basis van de vorm waarin die prestaties zijn vastgesteld (een advies van het hoofd van de school had het waarschijnlijk even goed gedaan). Dit type slordigheid zou wel eens vaker in dit boek voor kunnen komen, ik ben benieuwd. Het komt erop neer dat De Groot hier de vorm en de inhoud door elkaar haalt. Natuurlijk is hij zich daar wel van bewust, en we zullen nog zien dat hij van het opleggen van de vorm van de meerkeuzevraag een weldadige invloed ziet uitgaan op de kwaliteit van de meting van de bedoelde variabele, in dit geval studieprestaties. Het contrast is dan met het minder goed (in zijn visie) gewapende oordeel van het hoofd van de school, of van de hoogleraar die al improviserend mondelinge tentamens afneemt met alle risico's van vertekeningen zoals door De Groot (1962) in zijn Methodologie uiteengezet. Begrijp dit ook in de geest van de tijd: nog maar nauwelijks tien jaar eerder werd het onderzoek onder Brabantse lagere scholen gepubliceerd, waaruit een werkelijk schrikbarende achterstand (achterstelling) van meisjes ten opzichte van jongens bleek. Een onafhankelijke toetsing van capaciteiten zou deze meisjes enorm kunnen helpen, en was zeker een van de drijfveren achter het opzetten van landelijke toetsen en een landelijk instituut (het Cito).

maatschappelijke risico's (3.1)

“In de huidige situatie in Nederland zijn de predictieve gebruiksmogelijkheden van studietoetsen veel minder belangrijk dan de evaluatieve, ‘terugblikkende’. Wij moeten zelfs oppassen dat studietoetsen niet worden gevraagd, gemaakt en misbruikt als nieuw hulpmiddel, voor nòg meer ‘permanente selectie’ en paternalistische ‘determinatie’-beslissingen (p. 189-191 en 228-230).”

p. 19-20

Het is even zoeken, maar De Groot verwijst hier naar zijn (1966) Vijven en zessen. Ook hier staat ‘studietoets’ niet alleen voor de vorm, maar ook voor de inhoud. Dit is een taalgebruik dat voor psychologen wel voor de hand ligt — over psychologische tests spreken zij ook zo — maar er is hier toch een wezenlijk andere situatie. De meerkeuzetoets is maar een van de vele mogelijkheden waarin een onderzoek naar leerprestaties valt te doen. Terwijl een psychologische test zeker niet is beperkt tot papieren instrumenten met meerkeuzevragen, maar nog van alles kan zijn, tot en met complete laboratorium-opstellingen. De waarschuwing van De Groot is dat studietoetsen zich lenen voor grootschalige toetsing, en dus voor bureaucratische toepassingen. Dat was in de VS natuurlijk een fenomeen dat al meer dan een halve eeuw bekend was. Niet geweldig visionair dus, deze waarschuwing, maar hoe accuraat in vergelijking tot de situatie in ons onderwijs een halve eeuw later.

Een stevige spanning dus tussen optimisme over deze voor ons land nog nieuwe toetsvorm, en de maatschappelijke risico’s die oneigenlijk gebruik ervan met zich mee zal brengen.

objectiviteit (3.1)

“Zolang de (hoog)leraar zijn leerlingen nog kent en/of persoonlijk hun werk kan beoordelen, kan hij nog blijven menen dat hij ieder gewoon geeft ‘wat hem toekomt’: voldoende of onvoldoende, zakken of slagen. Moet hij echter de correctie uitbesteden aan zijn medewerkers, dan blijkt eenvoudig, dat zij dikwijls sterk van mening en beoordelingsmethode verschillen, onderling en met hemzelf. In zo’n situatie gaat men zich de betrekkelijke willekeur van cijfergeving en zak/slaag-beslissingen realiseren. Daarmee komt een reeks problemen aan de orde — objectiviteit, betrouwbaarheid, caesuurbepaling, constantie van normen — waarvan duidelijk is, dat zij met studietoetsen beter kunnen worden opgelost (p. 198-212).

p. 21

Inderdaad was het in de zestiger en zeventiger jaren een zorg dat onafhankelijke oordelen van schriftelijk werk, bijvoorbeeld, zo ver uiteen konden lopen. Dat was in de dertiger jaren overigens al eens stevig onderzocht (Hartog en Rhodes, 1936). Die uiteenlopende oordelen werden in deze tijd niet gezien als iets moois, waar goede werken mee zouden zijn te doen, maar als iets dat ongewenst was, en waar maatregelen tegen getroffen moesten worden.

Het idee dat studietoetsen door hun vermeende objectiviteit een belangrijke bijdrage zouden kunnen leveren aan het wegwerken van die hinderlijke verschillen tussen beoordelaars, ligt aan de basis van heel de opkomst van studietoetsen. Er was weinig of geen neiging tot enige zelf-reflectie op dit technologische streven. Vreemd, want het ligt toch voor de hand om een parallel te trekken met de biologie: de waarde van biodiversiteit tegenover monoculturen was toch ook in de jaren zestig een belangrijk thema. In mijn eigen prille werk was ik wel degelijk bezorgd over bedeiging van diversiteit: dat kwam noodzakelijkerwijs naar boven bij een onderzoek naar verbanden tussen persoonlijkheid van studenten, en de gekozen studierichting aan de TH Eindhoven (Wilbrink, 1968). De mogelijkheid lag ineens voor om studenten mede op persoonlijkheid te plaatsen/selecteren/determineren, met als maatschappelijk risico dat al die verschillende disciplines ieder voor zich nog sterkere monoculturen zouden vormen dan toch al het geval was. Zagen De Groot en de zijnen ook die dreigende vervlakkende werking die studietoetsen zouden kunnen hebben op het onderwijs? Te veel quizachtige toetserij?

De claim dat allerlei gesignaleerde problemen met studietoetsen beter oplosbaar zouden zijn, is een sterke claim, maar naar mijn gevoelen is er echt helemaal niets van waargemaakt in de afgelopen veertig jaar. Dat valt door mij dan nog aannemelijk te maken. Al de genoemde thema’s, zoals objectiviteit, betrouwbaarheid, komen nog uitvoerig afzonderlijk aan de orde. Die vermeende meerwaarde door objectiviteit van keuzevragen is overigens door mijn toedoen in 1977 gesneuveld op de Onderwijs Research Dagen aan de UvA (Wilbrink, 1977).

objectiviteit (3.2)

“Minstens even belangrijk (...) zijn de gebruiksmogelijkheden van studietoetsen voor doeleinden van evaluatie van onderwijseffecten (...).(...) De nadruk ligt daarbij op de mogelijkheid tot objectieve vergelijkingen, die de studietoetsmethode biedt.”

p. 21

De bijna expliciete claim is dat studietoetsen het mogelijk maken om onderwijs ‘objectief’ te evalueren, waar dat met andere vormen van toetsen of examens niet kan. Herhaal dit type bezweringsformule vaak genoeg, en iedereen gaat het geloven. Maar het is natuurlijk onzin, het had nooit zo opgeschreven mogen worden. De Groot kwam er in de zestiger jaren mee weg, niet omdat er geen verzet was tegen studietoetsen, maar tegenstanders konden dit zware jargon van de psychologen niet ontmaskeren. Zie over evaluatie verder de volgende paragraaf, want de overschatting gaat hier ook verder.

overschatting (3.2)

“In principe op dezelfde wijze als proefwerken en ‘schriftelijke werkjes’ kan men studietoetsen op allerlei punten in het onderwijsproces gebruiken om informatie te verkrijgen over de stand van kennis en inzicht, per leerling of per klas. (...) Gebruik van studietoetsen heeft echter minstens twee belangrijke voordelen boven gewone ‘proefwerken’. Ten eerste, de objectieve vergelijkbaarheid; ten tweede de hanteerbare vorm waarin de informatie binnenkomt. Vierkeuze-items kunnen met name zeer gemakkelijk worden gebruikt voor het maken van foutenanalyses. ”

p. 21-22

Het is veertig jaar later toch wel duidelijk dat De Groot best wat terughoudender had mogen zijn. Hij wijst er al op dat in beginsel studietoetsen geen rijkere informatie opleveren dan traditionele proefwerken etcetera. Een heel nieuwe situatie die in de zestiger jaren opdoemt, is het gebruik van computers in plaats van machinale telmachines. Met studietoetsen is het mogelijk om de data snel op ponskaart te hebben — de leerlingen maken met hun potlood de gekozen hokjes op hun IBM-kaarten zwart — zodat allerlei interessante mogelijkheden voor data-analyses in zicht komen. Dat heeft het onderwijs overigens niets goed gebracht, is mijn stellige indruk. Pas recent zijn er leerlingbegeleidingssystemen die in beginsel kunnen doen wat De Groot voor ogen stond, maar ik heb geen flauw vermoeden of deze systemen kosteneffectief functioneren, en de dingen doen die van ze worden verwacht. Vergelijking van resultaten van scholen is natuurlijk niet afhankelijk van studietoetsen, en pas in de negentiger jaren komt er enige openheid over prestaties van scholen, en blijkt ook hoe verdraaid lastig het is om prestaties van school A te vergelijken met die van school B. De Groot had hier iets meer methodologische achterdocht wel kunnen gebruiken, ook in de zestiger jaren zou het zeker De Groot duidelijk geweest moeten zijn dat klassen en scholen niet zomaar op basis van resulaten op examens (studietoetsen) zijn te vergelijken.

De geciteerde passage maakt duidelijk dat er in de zestiger jaren een ernstige ontsporing plaatsvindt. Het idee van wat kwaliteit van toetsvragen is, raakt op drift: bij studietoetsen wordt kwaliteit gelijkgesteld aan de juiste itemstatistieken hebben. Dat gaat samen met de aanbeveling dat vragen moeilijk moeten zijn (p-waarde bij voorkeur rond 0,7, dat is inclusief raden), een constellatie waarin valt te verwachten dat studietoetsen sterkere trekken van intelligentietests zullen krijgen (vragen snappen wordt problematisch, de betere snappers zijn de slimme leerlingen). De aandacht voor kwaliteit van de vraagstelling zelf verslapt. Koppel dat aan het overdrijven van de inherente waarde die meerkeuzevragen zouden hebben boven andere vraagvormen, en het positieve verhaal van De Groot slaat om in een somber scenario voor de kwaliteit van toetsen. In de volgende hoofdstukken komt dit thema nog vaak terug.

overschatting (3.3)

“Het construeren van items voor studietoetsen activeert het doelstellingsgeweten — en het discussiëren daarover onder collega’s. Via de concretisering en operationalisatie van onderwijsdoelstellingen, waartoe de constructie van studietoetsen itemschrijvers en itembeoordelaars min of meer dwingt, komen ook vanzelf andere principiële onderwijsvragen aan de orde. ”

p. 25-26

Zo gaat het dus niet. Dit zijn fabels. Natuurlijk kàn het zo gaan, maar dan gaat het niet om de botte techniek van meerkeuzevragen in plaats van wat tot dan gebruikt werd, maar dan is er sprake van initiatieven tot onderwijsvernieuwing waarbij ook de vormen van toetsen en examineren meegaan. Niks verdienste van meerkeuzevragen. Dit is echt alleen maar PR-taal van De Groot, fluiten in het donker. Er is ook geen snipper van bewijs voor uit wetenschappelijk onderzoek. Uiteraard heeft De Groot in zijn directe omgeving voortdurend iedereen bezig gezien met meerkeuzetoetsen, en naar aanleiding daarvan vragen zien stellen over het onderwijs, wat daar eigenlijk de bedoeling van is, en of en hoe dat dan in meerkeuzevragen is te vangen. Maar dat is het beperkte universum van de Amsterdamse Afdeling Examentechnieken, en het Cito, niet de wereld van leraren en docenten die hun eigen toetsen en tentamens in de vorm van meerkeuzevragen gaan doen. Die ervaring van De Groot heb ik overigens zelf ook, bijvoorbeeld in een project om een itemverzameling aan te leggen voor Agemene Taalwetenschap, een tentamen in het eerste jaar waaraan heel veel studenten deelnemen: bij de bezinning op de kwaliteit van de toetsvragen kwam glashelder naar voren dat het studieboek toch maar beter iets anders kon worden opgezet (maar er was helaas net een nieuwe editie gemaakt ... ).

februari 2024: Ik weet niet meer waarom ik op dit punt aangekomen, gestopt ben met kritisch lezen van het boek. Er zal wel een banale reden geweest zijn: weer eens een tijd overspannen, of iets dergelijks. Ik was actief op het forum van BON, en werd daar nogal sterk in tal van discussies gezogen over de bijdrage van onderwijsresearch, of de schadelijkheid van al die onderwijskundigen in het onderwijsveld.

Bij herlezen van dit stuk uit 2009 ben ik er zeker niet ontevreden over, al zou ik vandaag de kritiek scherper willen formuleren. Afijn, ik wil graag het hele boek onder mijn vergrootglas leggen, en vervolgens een samenvattend en opiniërend stuk schrijven over de impact van dit gedachtegoed op de kwaliteit van ons onderwijs. Opiniërend: want ontwikkelingen die zich over meerdere decennia uitstrekken laten zich verdraaid moeilijk empirisch onderzoeken.

A. D. de Groot & R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Mouton.

Studietoetsen van De Groot & Van Naerssen, na 40 jaar: een beschouwing

Ben Wilbrink

G. J. Mellenbergh. Waarom ‘meerkeuzevragen’? Hoofdstuk 1, 3-7.

meerkeuzevragen (1.3)

A. D. de Groot. Een definitie en verdere kenmerken. Hoofdstuk 2, 9-17.

objectiviteit (2.1)

meerkeuzevragen (2.1)

overschatting (2.1)

beperkingen (2.1)

meerkeuzevragen (2.2)

een item, een punt (2.1)

raadkansen (2.1)

A. D. de Groot. Gebruik en nut van studietoetsen. Hoofdstuk 3, 18-31.

overschatting (3.1)

maatschappelijke risico's (3.1)

objectiviteit (3.1)

objectiviteit (3.2)

overschatting (3.2)

overschatting (3.3)