A. D. de Groot & R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Mouton.

Studietoetsen van De Groot & Van Naerssen, na 40 jaar: een beschouwing

Ben Wilbrink


In de zestiger jaren maakt Nederland kennis met studietoetsen. Ineens is er ook een speciaal instituut: het Cito. Alles wat direct met de studietoetsen zelf te maken heeft, althans zoals men dat dan ziet, komt bijeen in het boek dat De Groot en Van Naerssen in 1969 uitbrengen: Studietoetsen: construeren, afnemen, analyseren. Het boek is ondertussen 40 jaar oud, en bij doorbladeren vallen al gauw een aantal dingen op. Het is geschreven vanuit een nog ongeblust optimisme over al het goeds dat studietoetsen ons zullen brengen. Dat optimisme brengt auteurs er makkelijk toe om allerlei bezwaren en andere meningen toch vrij makkelijk weg te wuiven, er in ieder geval niet serieus op in te gaan. Afgezien van deze sentimenten, is het snel duidelijk dat op hoofdlijnen de boodschap zo goed is overgekomen, dat deze deel is gaan uitmaken van de staande opvattingen in het onderwijsveld over toetsen. Kunnen we daar blij mee zijn? Ik dacht het niet. Het is toch zo dat destijds die studietoetsen in Nederland zijn binnengebracht door psychologen, die hun kennis van de constructie, afname en analyse van psychologische tests toch wat al te makkelijk als ook adequaat voor toetsen in het onderwijs zagen. We zijn nu dus opgescheept met onderwijsvijandige ideeën zoals die over de gewenste moeilijkheid van toetsvragen: ongeveer 70% van de leerlingen/studenten zouden iedere afzonderlijke opgave goed moeten kunnen beantwoorden. Wat een enorme schade kan zoiets toebrengen aan het zelfbewustzijn van leerlingen! Is daar dan ook empirisch onderzoek over beschikbaar? Ik weet dat niet, ik vermoed dat daar alleen in de zijlijnen van ander onderzoek gegevens over kunnen zijn verkregen. Die zogenaamd gewenste moeilijkheid van ‘goede’ meerkeuzevragen is wel een opvallende uitglijder van de pioniers van de studietoetsen, maar er zijn talloze andere valpartijen. Ik noem het uitbundige gebruik van allerlei onzin in toetsvragen: in de vorm van onjuiste stellingen, vragen naar niet bestaande standen van zaken, idiote alternatieven in meerkeuzevragen. Ik zou om te beginnen wel eens willen weten in hoeverre er in de zestiger jaren enige reflectie op dit verschijnsel was: het zou best kunnen dat het boek van De Groot en Van Naerssen een tamelijk zuivere benadering kiest, maar dat er in het onderwijsveld een minder juist gebruik van wordt gemaakt. Als er inderdaad sprake is van een aanzienlijke hoeveelheid onzin in toetsvragen, en een overdreevn moeilijkheid van toetsvragen, dan is de vraag wat hiervan de consequenties zjn. Denk bijvoorbeeld aan het recht op beroep: de kandidaat die vragen fout maakt waarin onjuiste stellingen staan, kan een goed onderbouwde claim op tafel leggen dat deze onjuiste stellingen niet tot de leerstof behoren, en de vragen dus ten onrechte in de toets zijn opgenomen. Ik ben benieuwd wie in het verleden op welke manier dit voor de hand liggende probleem hebben gesignaleerd. Zo geeft Job Cohen in zijn proefschrift (1982) veel aandacht aan het al dan niet tot de leerstof behoren van toetsvragen die ‘nieuw’ zijn voor de studenten. Tenslotte zijn er de merkwaardige problemen die opduiken rond het al dan niet verplicht laten raden op niet geweten meerkeuzevragen. Hier gebeuren dingen die evident niet in het beoordelen van studieprestaties thuishoren. Hoe is het mogelijk dat deze raadproblematiek nog steeds voortwoekert in het Nederlandse onderwijs, in de eindexamens VO bovendien ook? Alle reden voor een hernieuwde kennismaking met dit boek uit 1969: hier is de bron van tal van praktijken waar we vandaag de dag goed gebruik van maken, of minder goed gebruik. Tijd voor reflectie.


This is a work in progress, it only just started. My intention is not to work from beginning to end. Rather, I will work on special subjects, because I need the information elsewhere. The whole project will take a number of years, hopefully resulting in the publication of an article in the year 2019, the 50th anniversary of the book. Hmmmm, om de een of andere dwaze reden heb ik dit tekstje in het Engels geschreven.



G. J. Mellenbergh. Waarom ‘meerkeuzevragen’? Hoofdstuk 1, 3-7.


meerkeuzevragen (1.3)

Don Mellenbergh gaat in dit eerste hoofdstuk vooral in op de vergelijking van open vragen en geprecodeerde vragen, het onderwerp waarover hij een promotieonderzoek doet. Merk op dat Mellenbergh hier nog spreekt over geprecodeerde vragen. Adriaan de Groot zal in de volgende hoofdstukken de verwarring over de terminologie vergroten door wel heel bijzondere definities te presenteren, en tegelijk andere in de literatuur circulerende definities in de lucht te houden. Met geprecodeerde vragen bedoelt Mellenbergh hier alleen keuzevragen waarbij de leerling zijn antwoord kiest uit de geboden alternatieven. De gedetailleerde modelantwoorden die tegenwoordig gebruikelijk zijn bij eindexamens zijn er in de zestiger jaren niet, althans niet in Nederland.


Contrasteer de nuchtere formulering van Mellenbergh met deze van De Groot dat er: “ (...) zolang het om de toetsing van kennis en inzicht gaat, vrijwel geen grenzen zijn aan de toepassingsmogelijkheden van geprecodeerde items.” (p. 14) Mogelijk ziet De Groot het kunnen schrijven van een goed opstel niet als een zaak van kennis en inzicht?


Een decennium later is men het er wel over eens dat vier alternatieven zelden allemaal adequaat functioneren, zodat de algemene aanbeveling is om het aantal alternatieven te beperken tot drie, wat zonder verlies in kwaliteit of statistische eigenschappen kan, en ruimte vrijmaakt om in dezelfde toetstijd iets meer vragen te laten beantwoorden.

Wulfert van den Brink (1979). Het optimale aantal alternatieven per item. Tijdschrift voor Onderwijsresearch, 4, 151.

Merk op dat Mellenberg consequent spreekt over alternatieven, en het abjecte ‘afleiders’ niet uit zijn pen laat vloeien.


De psychologie is de wetenschap van het menselijk gedrag.

  1. waar
  2. onwaar

p. 8

Mellenbergh waaschuwt voor vragen van het type waar-onwaar: de uitspraken in dergelijke vragen moeten absoluut waar zijn. De uitspraak in het voorbeeld is dat niet: de bestudering van het gedrag van dieren is ook een tak van de psychologie. De waarschuwing heeft niet echt geholpen, toetsen in Nederland anno 2009 ritselen van de problematische waar-onwaarvragen. Waarschijnlijk komt dit onderwerp nog vaker uitvoerig aan de orde in dit boek. Ik geef vast advies: meestal is het wel mogelijk om deze vragen om te bouwen tot goede tweekeuzevragen. Bijvoorbeeld: vraag niet of de aarde bolvormig is, maar vraag of de aarde plat is, of bolvormig.


A. D. de Groot. Een definitie en verdere kenmerken. Hoofdstuk 2, 9-17.


objectiviteit (2.1)

“ ... mits de bepaling van de score (...) geheel objectief kan geschieden.” Daar gaat om. Let op.

Het is toch niet echt handig om in een boek bestemd voor een breed publiek, een zo specifieke definitie van objectiviteit te hanteren. De Groot brengt hier bewust een kloof aan tussen tussen zijn definitie, en die in het gewone taalgebruik:

De situatie die dan in Nederland ontstaat, is dat voorstanders van meerkeuzetoetsen vrijelijk betogen dat deze toetsvragen ‘objectief’ zijn, terwijl het enige dat hierover is vastgelegd, een triviale dfinitie is. De Groot licht toe:

Denk er even over na, en de conclusie moet zijn dat De Groot en de zijnen hun publiek hier behoorlijk in de maling nemen. Volstrekt eenduidige scoringsregels zijn heel eenvoudig te bedenken, en hoeven niets met juistheid van gegeven antwoorden te maken hebben. Is dit onterechte kritiek? Natuurlijk niet. De situatie in Nederland is dan decennialang dat de pleitbezorgers van meerkeuzetoetsen het beeld kunnen vestigen dat meerkeuzevragen gewenst zijn omdat ze objectief zijn. Als toehoorders daar vraagtekens bij zetten, kunnen de voorstanders zich terugtrekken op een verdedigingslinie, die ook in dit boek al is aangelegd:

Ook dit is toch wel slordig geformuleerd: niemand kan aangeven wie ‘alle’ deskundigen zijn, en wat het is om het ‘precies eens te zijn’. De Groot en de zijnen zijn dus gedekt: als het zo uitkomt, kunnen ze kiezen wat ze bedoelen wanneer ze het over objectiviteit hebben.

Alles bij elkaar leidt dit tot misleiding van het publiek, ontstaat in Nederland de misvatting dat meerkeuzevragen de ideale eigenschap hebben dat ze objectief zijn. Daartegen neem ik stelling in mijn voordracht over de subjectiviteit van — ook — meerkeuzevragen (1977 html).

Het had anders gekund: een betere aanduiding was immers geweest om te spreken over automatische scoorbaarheid, want dat is waar het in feite om gaat. Met de aantekening dat het gaat om antwoorden die met het oog op die scoorbaarheid in de daarbij passende vorm zijn gegeven. Waarom die aantekening; omdat niet is nedoeld om bijvoorbeeld in opstellen het aantal gebruikte zelfstandige naamwoorden te tellen, wat natuurlijk prima automatisch kan.

Tja, die automatische scoorbaarheid klinkt wel erg mager voor wie meerkeuzetoetsen wil bepleiten.


meerkeuzevragen (2.1)

De vermelde proefpersonen zijn natuurlijken leerlingen of studenten, een verschrijving van De Groot. Let op dat De Groot hier spreekt over alternatieven: het verwerpelijk afleiders komt in dit boek uitbundig voor, maar tenminste niet in dit hoofdstuk twee. Opmerkelijk is ook dat De Groot expliciet spreekt over kiezen uit de alternatieven, en dat is toch echt iets anders dan het antwoord denken te weten op de gestelde vraag, en dat dan in de aangeboden alternatieven aanstrepen. Het verschil is enorm belangrijk, want hiermee is de spelregel voor het beantwoorden van meerkeuzevragen dat de leerling het antwoord moet vinden door onderlinge vergelijking van de aangeboden alternatieven. Het vinden van een op zich juist alternatief is immers niet altijd voldoende: het kan zijn dat een ander alternatief beter is, en de aanwijzing is dat in dergelijke gevallen het beste alternatief als het juiste antwoord geldt. De gevolgen hiervan voor de kwaliteit van meerkeuzevragen, en voor de mogelijkheden en de onmogelijkheden bij het ontwerpen van meerkeuzevragen, zijn enorm, en komen we in dit boek ongetwijfeld nog uitvoerig tegen.

In paragraaf 2:4 werkt De Groot de voordelen van precodering uit. Het is een slordige tekst, met een betoog dat niet consistent is. De Groot begint met korte open vragen, en het probleem dat leerlingen op die vragen soms onverwachte antwoorden produceren, die mogelijk goed zijn. Dat is maar lastig, er is immers geen sluitend beoordelingsvoorschrift mogelijk. Maar hier is De Groot echt aan het overdrijven, er is nietsop tegen om creatieve antwoorden even apart te leggen en samen met deskundigen op juist te beoordelen. Nee, de oplossing van De Groot is dan: beperk de mogelijke antwoorden op die korte open vraag door er een aantal als alternatieven aan te bieden, en de leerling daar dan uit te laten kiezen. Dit zou dus het geschikte moment zijn om aan te stippen dat je met die verschuiving evident de situatie verandert voor de creatieve leerlingen. Een paar jaar later zou Hans Crombag dat ook signaleren, in het eerste nummer van het Tijdschrift voor Onderwijsresearch, waarin hij met een aantal collega’s laat zien dat studenten die de stof in eigen woorden proberen te verwerken, of ook boeken buiten de opgegeven lijst lezen, lagere cijfers halen dan anderen (in verschillende studierichtingen, propedeuse, Leiden). Dat mag dus niet waar zijn: dat juist studenten die de stof beter opnemen, lagere cijfers halen.

De Groot benadrukt dat de meerkeuzevraag inderdaad anders is, want hij laat de leerling kiezen tussen de opgegeven alternatieven, in plaats van te vragen het antwoord te produceren. Psychologisch gebeurt hier dus iets dat ect anders s. De Groot geeft dat onmiddellijk toe, en lijkt dus niet zo krampachtig als vele anderen die proberen aan te tonen dat korte open vragen en meerkeuzevragen hetzelfde meten. Maar dat is te snel geconcludeerd:

De Groot is van mening dat onderzoek uitwijst dat met keuzevragen even goed kennis, inzicht en vaardigheid valt te meten.


overschatting (2.1)

Dit is regelrechte misleiding. Natuurlijk zijn er grenzen. De kernvraag hoort toch te zijn of de belangrijke doelen van het onderwijs, voorzover getoetst, even goed zijn te toetsen met korte open vragen als met meerkeuzevragen. Inclusief onbedoelde en bedoelde neveneffecten. Dat is bepaald een andere kwestie. De denkfout van De Groot is dezelfde als ook bij de introductie van andere technologie in het onderwijs gemaakt, zoals radio, film, video, geprogrammeerde instructie, de computer. De claims over de toepasbaarheid van dergelijke technologie zijn stevig, en op zich misschien ook wel terecht, maar er is niet echt aandacht voor de vraag of we de betreffende technologie wel moeten willen, en zo ja, in welke mate en waarvoor. Het ontbreken van verantwoorde onderwijskundige ontwerpen bij computer-gestuurd onderwijs heeft alles te maken met het fiasco van de meeste pogingen en investeringen op dit gebied. Meerkeuzevragen hebben hun over-enthousiaste introductie overleefd, en zijn overal in het onderwijs terug te vinden. De vraag is of dit wijdverbreide gebruik wel terecht is. Het gaat niet echt aan om dan te roepen dat meerkeuzevragen natuurlijk een goed ontwerp moeten hebben, en als dat klopt, dat er dan heel veel mee valt te toetsen. Om te beginnen laat zich onderzoeken of de vele voorbeelden van meerkeuzevragen in dit boek, kunnen bogen op een goed ontwerp.


beperkingen (2.1)


meerkeuzevragen (2.2)

De Groot streeft dus naar een zekere standaardisatie in automatisch scoorbare toetsen: wat kan, moet ook maar. En dan bij voorkeur in vierkeuzevragen.

Nog decennia later is te merken dat vierkeuzevragen veel voorkomen, en dat gekunstelde vormen niet zeldzaaam zijn. Gekunsteld: er zijn rare streken uitgehaald om tot vierkeuzen te komen, zoals bij dubbele juist-onjuistvragen. Ik heb De Groot gevraagd waar toch die dogmatiek van de vierkeuzevraag vandaan komt. Hij was daar heel open over, en machtigde mij om dit te gebruiken: in de aanloopperiode van het Cito vond men het niet handig om te werken met verschillende vormen van automatisch scoorbare toetsvragen, en dan ligt de keuze voor vierkeuzevragen als enige in de praktijk te gebruiken vorm wel voor de hand. De ‘praktische overwegingen’ zoals De Groot ze in 1969 aanduidt, zijn dus iets ‘praktischer’ geweest dan zijn tekst suggereert, en dat werd afgedekt met een versluierende argumentatie over de stand van zaken in wetenschappelijk onderzoek. Mogelijk speelde ook een rol dat in deze jaren waarin het gebruik van de computer opkwam - voorlopig alleen nog in de vorm van ponskaarten, ponsbanden, of terminals die toegang gaven tot universitaire mainframe computers - weinigen zich realiseerden dat programmatuur die geschikt was om vierkeuzevragen te verwerken, zonder enige extra aanpassing natuurlijk ook twee- en driekeuzevragen kan verwerken. Er was in die tijd overigens wel een maximum aan het aantal vragen dat op een enkele ponskaart paste, ik meen 70, zodat een toets met alleen tweekeuzevragen een beetje krap bemeten zou zijn.


een item, een punt (2.1)

Het kenmerkende, en het probleem, is dat bij deze standaard-scoringsmethode van een punt per goed antwoord niet alleen foute antwoorden nul punten opleveren, maar ook open gelaten vragen. De Groot gaat in deze paragraaf maar kort op de problematiek in. Bij keuzevragen zijn leerlingen gedwongen om te raden op vragen die ze niet weten, want dan is er tenminste nog een kans om een punt te scoren.


raadkansen (2.1)

Hier kiest De Groot een ethische positie. Blijkt dat leerlingen echt vragen onbeantwoord laten, dan hebben zij onder de regeling ‘een item, een punt’ er recht op dat zij een bonus krijgen, die zich verhoudt tot het aantal alternatieven in de betreffende keuzevragen. Dit is niet onbelangrijk, want ik vermoed dat dit probleem zich in de praktijk best vaak voordoet, zonder dat iemand ingrijpt op de manier zoals hier door De Groot is aangegeven. De betrokken leerlingen of hun ouders kunnen tegen onjuist handelen beroep aantekenen: het gaat immers niet aan leerlingen te straffen voor het achterwege laten van raden op vragen die zij niet weten. Het gaat hier puur om een technisch probleem, dat mag leerlingen niet belasten.

De Groot zegt nogal stellig dat bij vierkeuzevragen de bonus een vierde deel is van het aantal opengelaten vragen. Dat soort stelligheid is misplaatst: het is allemaal mensenwerk, er zijn ook argumenten om de bonus in dit geval bijvoorbeeld een half punt per vraag te laten zijn. Het komt bij hoofdstuk 18 nog uitvoeriger ter sprake.

De Groot is hier, tenslotte, nog van mening dat de opvoedkundige bezwaren tegen gedwongen raden zijn te ondervangen met methoden zoals zekerheidsscoring. Maar dat is meer een afwenteling van de last van de technologische tekortkomingen op de schouders van leerlingen, en dat hoort niet. Van Naerssen is er, in hoofdstuk 18, realistischer over: ingewikkelde methoden blijken niet echt effectief, en zijn belastend. Niet doen dus.


A. D. de Groot. Gebruik en nut van studietoetsen. Hoofdstuk 3, 18-31.


overschatting (3.1)

“Als middel tot voorspelling van toekomstig studie- en beroepssucces is de studietoets in Nederland al een tiental jaren bekend.”

p. 18

Deze zin moet aan de aandacht van de redactie zijn ontsnapt. Een studietoets is natuurlijk maar een vorm, en vormen voorspellen niet. Hier moet staan dat school- en beroepskeuzeadviseurs naast psychologische tests ook schoolprestaties gebruiken voor hun diagnostiek, waarbij het toetsen op schoolprestaties vaak in de vorm van studietoetsen gaat. Als deze diagnostiek zinvol is, dan is dat op basis van de voorspellende variabele ‘studieprestaties&rsquo, en niet op basis van de vorm waarin die prestaties zijn vastgesteld (een advies van het hoofd van de school had het waarschijnlijk even goed gedaan). Dit type slordigheid zou wel eens vaker in dit boek voor kunnen komen, ik ben benieuwd. Het komt erop neer dat De Groot hier de vorm en de inhoud door elkaar haalt. Natuurlijk is hij zich daar wel van bewust, en we zullen nog zien dat het hij van het opleggen van de vorm van de meerkeuzevraag een weldadige invloed ziet uitgaan op de kwaliteit van de meting van de bedoelde variabele, in dit geval studieprestaties. Het contrast is dan met het minder goed (in zijn visie) gewapende oordeel van het hoofd van de school, of van de hoogleraar die al improviserend mondelinge tentamens afneemt met alle risico's van vertekeningen zoals door De Groot (1962) in zijn Methodologie uiteengezet. Begrijp dit ook in de geest van de tijd: nog maar nauwelijks tien jaar eerder werd het onderzoek onder Brabantse lagere scholen gepubliceerd, waaruit een werkelijk schrikbarende achterstand (achterstelling) van meisjes ten opzichte van jongens bleek. Een onafhankelijke toetsing van capaciteiten zou deze meisjes enorm kunnen helpen, en was zeker een van de drijfveren achter het opzetten van landelijke toetsen en een landelijk instituut (het Cito).


maatschappelijke risico's (3.1)

“In de huidige situatie in Nederland zijn de predictieve gebruiksmogelijkheden van studietoetsen veel minder belangrijk dan de evaluatieve, ‘terugblikkende’. Wij moeten zelfs oppassen dat studietoetsen niet worden gevraagd, gemaakt en misbruikt als nieuw hulpmiddel, voor nòg meer ‘permanente selectie’ en paternalistische ‘determinatie’-beslissingen (p. 189-191 en 228-230).”

p. 19-20

Het is even zoeken, maar De Groot verwijst hier naar zijn (1966) Vijven en zessen. Ook hier staat ‘studietoets’ niet alleen voor de vorm, maar ook voor de inhoud. Dit is een taalgebruik dat voor psychologen wel voor de hand ligt — over psychologische tests spreken zij ook zo — maar er is hier toch een wezenlijk andere situatie. De meerkeuzetoets is maar een van de vele mogelijkheden waarin een onderzoek naar leerprestaties valt te doen. Terwijl een psychologische test zeker niet is beperkt tot papieren instrumenten met meerkeuzevragen, maar nog van alles kan zijn, tot en met complete laboratorium-opstellingen. De waarschuwing van De Groot is dat studietoetsen zich lenen voor grootschalige toetsing, en dus voor bureaucratische toepassingen. Dat was in de VS natruulijk een fenomeen dat al meer dan een halve eeuw bekend was. Niet geweldig visionair dus, deze waarschuwing, maar hoe accuraat in vergelijking tot de situatie in ons onderwijs in 2009.

Een stevige spanning dus tussen optimisme over deze voor ons land nog nieuwe toetsvorm, en de maatschappelijke risico’s die oneigenlijk gebruik ervan met zich mee zal brengen.


objectiviteit (3.1)

“Zolang de (hoo eraar zijn leerlingen nog kent en/of persoonlijk hun werk kan beoordelen, kan hij nog blijven menen dat hij ieder gewoon geeft ‘wat hem toekomt’: voldoende of onvoldoende, zakken of slagen. Moet hij echter de correctie uitbesteden aan zijn medewerkers, dan blijkt eenvoudig, dat zij dikwijls sterk van mening en beoordelingsmethode verschillen, onderling en met hemzelf. In zo’n situatie gaat men zich de betrekkelijke willekeur van cijfergeving en zak/slaag-beslissingen realiseren. Daarmee komt een reeks problemen aan de orde — objectiviteit, betrouwbaarheid, caesuurbepaling, constantie van normen — waarvan duidelijk is, dat zij met studietoetsen beter kunnen worden opgelost (p. 198-212).

p. 21

Inderdaad was het in de zestiger en zeventiger jaren een zorg dat onafhankelijke oordelen van schriftelijk werk, bijvoorbeeld, zo ver uiteen konden lopen. Dat was in de dertiger jaren overigens al eens stevig onderzocht (Hartog en Rhodes, 1936). Die uiteenlopende oordelen erden in deze tijd niet gezien als iets moois, waar goede werken mee zouden zijn te doen, maar als iets dat ongewenst was, en waar maatregelen tegen getroffen moesten worden.

Het idee dat studietoetsen door hun vermeende objectiviteit een belangrijke bijdrage zouden kunnen leveren aan het wegwerken van die hinderlijke verschillen tussen beoordelaars, ligt aan de basis van heel de opkomst van studietoetsen. Er was weinig of geen neiging tot enige zelf-reflectie op dit technologische streven. Vreemd, want het ligt toch voor de hand om een parallel te trekken met de biologie: de waarde van biodiversiteit tegenover monoculturen was toch ook in de jaren zestig een belangrijk thema. In mijn eigen prille werk was ik wel degelijk bezorgd over bedeiging van diversiteit: dat kwam noodzakelijkerwijs naar boven bij een onderzoek naar verbanden tussen persoonlijkheid van studenten, en de gekozen studierichting aan de TH Eindhoven (Wilbrink, 1968). De mogelijkheid lag ineens voor om studenten mede op persoonlijkheid te plaatsen/selecteren/determineren, met als maatschappelijk risico dat al die verschillende disciplines ieder voor zich nog sterkere monoculturen zouden vormen dan toch al het geval was. Zagen De Groot en de zijnen ook die dreigende vervlakkende werking die studietoetsen zouden kunnen hebben op het onderwijs? Teveel quizachtige toetserij?

De claim dat allerlei gesignaleerde problemen met studietoetsen beter oplosbaar zouden zijn, is een sterke cliam, maar naar mijn gevoelen is er echt helemaal niets van waargemaakt in de afgelopen veertig jaar. Dat valt door mij dan nog aannemelijk te maken. Al de genoemde thema’s, zoals objectiviteit, betrouwbaarheid, komen nog itvoerig afzonderlijk aan de orde. Die vermeende meerwaarde door objectiviteit van keuzevragen is overigens door ijn toedoen in 1977 gesneuveld op de Onderwisj Research Dagen aan de U (Wilbrink, 1977).


objectiviteit (3.2)


“Minstens even belangrijk (...) zijn de gebruiksmogelijkheden van studietoetsen voor doeleinden van evaluatie van onderwijseffecten (...).(...) De nadruk ligt daarbij op de mogelijkheid tot objectieve vergelijkingen, die de studietoetsmethode biedt.”

p. 21

De bijna expliciete claim is dat studietoetsen het mogelijk maken om onderwijs ‘objectief’ te evalueren, waar dat met andere vormen van toetsen of examens niet kan. Herhaal dit type bezweringsformule vaak genoeg, en iedereen gaat het geloven. Maar het is natuurlijk onzin, het had nooit zo opgeschreven mogen worden. De Groot kwam er in de zestiger jaren mee weg, niet omdat er geen verzet was tegen studietoetsen, maar tegenstanders konden dit zware jargon van de psychologen niet ontmaskeren. Zie over evaluatie verder de volgende paragraaf, want de overschatting gaat hier ook verder.


overschatting (3.2)

“Minstens even belangrijk (...) zijn de gebruiksmogelijkheden van studietoetsen voor doeleinden van evaluatie van onderwijseffecten (...).(...) De nadruk ligt daarbij op de mogelijkheid tot objectieve vergelijkingen, die de studietoetsmethode biedt.”

“In principe op dezelfde wijze als proefwerken en ‘schriftelijke werkjes’ kan men studietoetsen op allerlei punten in het onderwijsproces gebruiken om informatie te verkrijgen over de stand van kennis en inzicht, per leerling of per klas. (...) Gebruik van studietoetsen heeft echter minstens twee belangrijke voordelen boven gewone ‘proefwerken’. Ten eerste, de objectieve vergelijkbaarheid; ten tweede de hanteerbare vorm waarin de informatie binnenkomt. Vierkeuze-items kunnen met name zeer gemakkelijk worden gebruikt voor het maken van foutenanalyses. ”

p. 21-22

Het is veertig jaar later toch wel duidelijk dat De Groot best wat terughoudender had mogen zijn. Hij wijst er al op dat in beginsel studietoetsen geen rijkere informatie opleveen dan traditionele proefwerken etcetera. Een heel nieuwe situatie die in de zestiger jaren opdoemt, is het gebruik van computers in plaats van machinale telmachines. Met studietoetsen is het mogelijk om de data snel op ponskaart te hebben — de leerlingen maken met hun potlood de gekozen hokjes op hun IBM-kaarten zwart — zodat allerlei interessante mogelijkheden voor data-analyses in zicht komen. Dat heeft het onderwijs overigens niets goed gebracht, is mijn stellige indruk. Pas recent zijn er leerlingbegeleidingssystemen die in beginsel kunnen doen wat De Groot voor ogen stond, maar ik heb geen flauw vermoeden of deze systemen kosteneffectief functioneren, en de dingen doen die van ze worden verwacht. Vergelijking van resultaten van scholen is natuurlijk niet afhankelijk van studietoetsen, en pas in de negentiger jaren komt er enige openheid over prestaties van scholen, en blijkt ook hoe verdraaid lastig het is om prestaties van school A te vergelijken met die van school B. De Groot had hier iets meer methodologische achterdocht wel kunnen gebruiken, ook n de zestiger jaren zou het zeker De Groot duidelijk geweest moeten zijn dat klassen en scholen niet zomaar op basis van resulaten op examens (studietoetsen) zijn te vergelijken.

De geciteerde passage maakt duidelijk dat er in de zestiger jaren een ernstige ontsporing plaatsvindt. Het idee van wat kwaliteit van toetsvragen is, raakt op drift: bij studietoetsen wordt kwaliteit gelijkgesteld aan de juiste itemstatistieken hebben. Dat gaat samen met de aanbeveling dat vragen moeilijk moeten zjn (p=waarde bij voorkeur rond 0,7, dat is inclusief raden), een constellatie waarin valt te verwachten dat studietoetsen sterkere trekken van intelligentietests zullen krijgen (vragen snappen wordt problematisch, de betere snappers zijn de slimme leerlingen). De aandacht voor kwaliteit van de vraagstelling zelf verslapt. Koppel dat aan het overdrijven van de inherente waarde die meerkeuzevragen zouden hebben boven andere vraagvormen, en het positieve verhaal van De Groot slaat om in een somber scenario voor de kwaliteit van toetsen. In de volgende hoofdstukken komt dit thema nog vaak terug.


overschatting (3.3)

“Het construeren van items voor studietoetsen activeert het doelstellingsgeweten — en het discussiëren daarover onder collega’s. Via de concretisering en operationalisatie van onderwijsdoelstellingen, waartoe de constructie van studietoetsen itemschrijvers en itembeoordelaars min of meer dwingt, komen ook vanzelf andere principiële onderwijsvragen aan de orde. ”

p. 25-26

Zo gaat het dus niet. Dit zijn fabels. Natuurlijk kàn het zo gaan, maar dan gaat het niet om de botte techniek van meerkeuzevragen in plaats van wat tot dan gebruikt werd, maar dan is er sprake van initiatieven tot onderwijsvernieuwing waarbij ook de vormen van toetsen en examineren meegaan. Niks verdienste van meerkeuzevragen. Dit is echt alleen maar PR-taal van De Groot, fluiten in het donker. Er is ook geen snipper van bewijs voor uit wetenschappelijk onderzoek. Uiteraard heeft De Groot in zijn directe omgeving voortdurend iedereen bezig gezien met meerkeuzetoetsen, en naar aanleiding daarvan vragen zien stellen over het onderwijs, wat daar eigenlijk de bedoeling van is, en of en hoe dat dan in meerkeuzevragen is te vangen. Maar dat is het beperkte universum van de Amsterdamse Afdeling Examentechnieken, en het Cito, niet de wereld van leraren en docenten die hun eigen toetsen en tentamens in de vorm van meerkeuzevragen gaan doen. Die ervaring van De Groot heb ik overigens zelf ook, bijvoorbeeld in een project om een itemverzameling aan te leggen voor Algemene Taalwetenschap, een tentamen in het eerste jaar waaraan heel veel studenten deelnemen: bij de bezinning op de kwaliteit van de toetsvragen kwam glashelder naar voren dat het studieboek toch maar beter iets anders kon worden opgezet (maar er was helaas net een nieuwe editie gemaakt ... ).



9 november 2009 \contact ben apenstaartje benwilbrink.nl

Valid HTML 4.01!   http://www.benwilbrink.nl/projecten/studietoetsen_40_jaar.htm