Gevraagd of meerkeuze-, dan wel open-eindvragen de voorkeur genieten, ben ik er altijd als vanzelfsprekend vanuit gegaan dat 'objectieve' meerkeuzevragen te prefereren zijn, tenzij het om wel heel kleine aantallen studenten gaat. Ik wist mij daarin gesteund door de Ebels, de Stanleys, de Thorndikes, de De Grooten etcetera. Geprest om die voorkeur met argumenten te staven, levert kritische analyse van de altijd ten gunste van de meerkeuzevorm aangevoerde punten als conclusie dat de voorkeur voor deze vraagvorm tot de beter verborgen vooroordelen van de onderwijskunde gerekend kan worden.
Het spreekt vanzelf dat voor toetsen die landelijk afgenomen worden de objectieve vraagvorm te gebruiken is, mits aan constructie en kwaliteitscontrole voldoende aandacht besteed kan worden. Wat ter discussie staat is of de docent) leraar, of onderwijzer voor zijn eigen toetsen meerkeuze-, dan wel open-eind- (kort antwoord-, of aanvul-) vragen zou moeten maken. Omdat zonder uitzondering alle handboeken over toetsing (educational measurement) zich richten tot de docent die zijn eigen toets construeert, is deze beperking gelijk aan die welke auteurs op dit gebied zich altijd al gesteld hebben. Het opvallende is echter dat er in de teksten weinig van terug te vinden is: het voordeel van automatische scoring wordt niet vergeleken tegen het toch altijd kleine aantal studenten dat getoetst wordt; er wordt niet nagegaan wanneer de docent beter andere vraagvormen kan hanteren dan de meerkeuze; en de kwaliteit van professioneel geconstrueerde meerkeuzetoetsen wordt nogal eens als maatstaf gebruikt voor open-eindvragen door de docent zelf gemaakt.
Een vanzelfsprekend punt, dat desalniettemin zelden, en dan nog maar tussen neus en lippen, besproken wordt: de keuze voor de ene dan wel de andere vraagvorm wordt in sterke mate bepaald door de aard van de te toetsen stof. Er is nogal wat leerstof die in open-eindvorm terug gevraagd, objectief scoorbaar is: rekenopgaven, constructie problemen, bewijsvoeringen, vragen naar namen, data, e.d. Iets minder objectief, maar met een beetje zorg goed objectief scoorbaar te houden, zijn vragen naar definities, beschrijvingen, voorbeelden van begrippen en regels. In open-eindvorm niet objectief scoorbaar, maar met enige zorg wel betrouwbaar, zijn vragen waarin nieuwe oplossingen voor nieuwe problemen worden gevraagd, samenvattingen gemaakt worden, of van de student beschouwingen in essay vorm worden gevraagd; maar voor juist dit soort vraagstellingen is het bijzonder moeilijk en levert het gekunstelde resultaten, wanneer geprobeerd wordt om ze te vangen in objectief scoorbare, meerkeuzevorm.
Dit alles is een lange gang met vele open deuren, maar neemt u eens de proef, en ga na voor hoeveel voorbeelden in bijvoorbeeld De Groot, Van Naerssen e.a. geldt dat de open-eindvariant van de daar gegeven meerkeuzevragen ook objectief scoorbaar is.
Ik kan hier rustig stellen, omdat vele auteurs dat uit eigen beweging zelf al deden, dat het maken van meerkeuzevragen meer een kunst dan een kunde is. Er worden nogal wat aanwijzingen gegeven welke fouten je moet vermijden bij de vraagconstructie, maar constructieregels zijn nergens te vinden (behalve heuristieken om de creativiteit van de vragenmaker-kunstenaar te stimuleren, en een enkele eerst poging om in de leemte te voorzien zoals gedaan door Bormuth).
Het ontbreken van een theorie waarop men zich kan baseren bij de constructie van meerkeuzevragen, is een ernstige zaak. Er is niet zo veel leerstof die zich van nature leent voor de meerkeuzevorm. Voor alle leerstof die met enig kunst-en-vliegwerk in de meerkeuzevorm geperst moet worden, geldt niet alleen dat het maken van de vragen een moeilijke opgave voor de docent is, maar ook dat vrijwel niet duidelijk te maken is wat met dergelijke vragen gemeten wordt. Immers, wil je weten wat er met bepaalde vragen gemeten wordt, dan moeten die vragen, en de resultaten op de toetsing, geïnterpreteerd worden, en daarvoor is ten minste een stuk theorie als vaste grond onder de voeten, nodig. Het kan best zijn dat voor bepaalde toepassingen het voldoende is te weten of een meerkeuzetoets de studenten op dezelfde wijze rangordent als een toets in de open-eindvorm zou doen, maar het bezwaar daarbij blijft dat ook een intelligentietest, of de toets voor een ander studieonderdeel, de studenten waarschijnlijk op dezelfde wijze zal rangordenen. (Een aanzet tot theorievorming over de wijze waarop verschillen in studieprestaties tot stand komen is in deze bundel te vinden bij Tromp en Wilbrink.)
De ontbrekende theorie zou met name aanwijzingen moeten geven hoe onderwijsdoelstellingen in toetsvragen te vertalen zijn. Omdat die theorie niet voorhanden is, zijn er nogal wat pogingen ondernomen het probleem te omzeilen door allereerst de doelstellingen ook te formuleren in termen van het soort vragen dat de student moet kunnen maken. Dit soort 'operationalisatie', waar verhitte discussie over gevoerd is, getuigt van nostalgie naar het tijdperk waarin de grootspraak van de Munchhausens nog geloofwaardig kon zijn.
Ik zou dit alles niet geschreven hebben, wanneer het niet zo zou zijn dat de meerkeuzevorm veel kwetsbaarder is wat dit punt betreft, dan de open-eindvorm. Natuurlijk heeft de laatste ook zo haar moeilijkheden (de docent zal ook deze vragen heel zorgvuldig moeten maken en controleren), maar die verdwijnen in het niet bij de complicaties die geïntroduceerd worden door de afleiderkeuze bij de meerkeuzevraag.
Voor de keuze van afleiders heeft de docent een oneindig aantal mogelijkheden, met als gevolg dat de student op het tentamen geconfronteerd wordt met discriminatieproblemen (kiezen tussen de geboden alternatieven) waarop hij zich bij de bestudering van de stof niet heeft kunnen voorbereiden. In deze zin hebben open-eindvragen het grote voordeel dat transparantie van de toetsing veel makkelijker te realiseren is.
Tussen haakjes: het is niet zo verwonderlijk dat onderzoek uitwijst dat studenten zich op open-eindtoetsen en meerkeuzetoetsen op dezelfde wijze voorbereiden; in de praktijk is gerichte voorbereiding op meerkeuzetoetsen niet doenlijk.
Het onderscheid tussen (scorings-) objectiviteit en betrouwbaarheid wordt door auteurs wel aangestipt, maar 'in hun verdere tekst 'vergeten'. Ik heb al laten zien dat objectieve scoring ook voor open-eindvragen kan opgaan. Dat deze objectieve scoorbaarheid iets met betrouwbaarheid te maken heeft, is een misvatting: weliswaar is objectieve scoring per definitie (op 'vergissingen' in de praktijk na) ook betrouwbare scoring, maar daarmee is slechts één van de vele (relevante) bronnen van onbetrouwbaarheid 'gecontroleerd'. Het grootste voordeel van objectieve scoring ligt overigens ook niet in het betrouwbare, maar in het automatiseerbare, en daarnaast is een spectaculair effect waarop nogal eens gewezen wordt dat geen persoonlijke voorkeuren (vooroordelen) een kans krijgen, zoals bij mondelinge toetsing het geval kan zijn; maar automatiseerbare scoring is voor de docent niet van belang, en uitschakeling van (onbedoelde) willekeur kan op heel wat andere manieren gebeuren.
Kijken we nog even speciaal naar de beoordelingsbetrouwbaarheid, dan is eenvoudig in te zien dat goed geconstrueerde open-eindvragen zeer betrouwbaar te beoordelen zijn, en zich in dat opzicht kunnen meten met meerkeuzevragen. De scheve vergelijking die in de literatuur nogal eens gemaakt wordt, is tussen scorings betrouwbaarheid van de meerkeuzevraag, en beoordelingsbetrouwbaarheid van essay vragen. Hoewel die vergelijking onjuist is, kan er over opgemerkt worden dat ook bij vragen die lange antwoorden van de student eisen, de beoordelingsbetrouwbaarheid in principe heel wel binnen goede grenzen te houden is door een goede beoordelingstechniek te hanteren, en een strategie gebaseerd op de generaliseerbaarheidsaanpak van Cronbach c.s.
Een punt dat meer aandacht verdient dan het tot nu toe gekregen heeft, is dat veel minder de betrouwbaarheid van de toets, als wel de betrouwbaarheid van de beslissingen op grond van toetsscores genomen, van belang is. Het onderscheid is onder andere dat voor zak-slaagbeslissingen geldt dat de betrouwbaarheid niet alleen van de betrouwbaarheid van de toets, maar ook van het afwijzingspercentage afhangt. De reden is simpel: wanneer de zak-slaaggrens in het onderste deel van de scoreverdeling gelegd wordt, zal voor slechts een klein deel van de studenten de beslissing op grond van de scores bij afname van parallel toetsen anders uitvallen. Of die aftestgrens terecht laag geplaatst wordt, is een vraag naar de validiteit van de beslissingen: zie de volgende paragraaf.
De vraag wordt dan ook veeleer hoe je onderwijs en toetsing zó kunt inrichten dat de aftestgrens (in termen van % afwijzingen) laag gehouden kan worden, dan welk soort toetsvragen het meest betrouwbaar zijn.
In de praktijk zijn betrouwbaarheidsverschillen tussen de ene danwel de andere toetsvorm van ondergeschikt belang, zolang niet beide toetsvormen even valide zijn; in het laatste geval zou de minder betrouwbare toetsvorm de voorkeur hebben, omdat bij toetsverlenging deze het meest valide zal worden (een fraaie illustratie overigens van het doorgaans nogal oppervlakkige denken over de betekenis van betrouwbaarheidsgegevens: zonder koppeling aan validiteitsvragen hebben deze geen betekenis)'.
Je kunt de vraag naar de validiteit van een toets bestaande uit open-eindvragen vs die van een toets bestaande uit meerkeuzevragen, naievelijk opvatten als de vraag naar de mate waarin de toets de beheersing van de stof (zoals gestipuleerd in de doelstellingen van het onderwijs) meet. En dat zou terecht kunnen zijn, wanneer op grond van toetsscores geen zak-slaagbeslissingen genomen werden, maar de scores meegeteld worden bij de bepaling van de gemiddelde studieprestatie over alle studieonderdelen. Het eerste is helaas gebruikelijk in onze conjunctieve universitaire examenregelingen waar tenminste ieder studieonderdeel voldoende moet zijn gemaakt; het tweede, een compensatorische regeling, is bij ons bekend uit de wijze waarop de leraar uit zijn cijferboekje rapportcijfers 'berekent', en in de verenigde staten in de vorm van het Grade Point Average stelsel dat in het hoger onderwijs algemeen is. Het gebruik dat wij van toetsscores maken, beslissen of de student het tentamen overdoet of niet, wijkt zo ver af van het gebruik dat in de verenigde staten van toetsscores wordt gemaakt, dat er geen enkele rechtvaardiging is voor het klakkeloos hier toepassen van het psychometrisch arsenaal aan technieken dat voor een heel ander toetsgebruik werd ontwikkeld.
Een uitweg uit de hier gesignaleerde problematiek, door mij elders verdedigd (Wilbrink, 1977), die tegelijk een forse rendementsverbetering van het onderwijs kan opleveren, is het overgaan op compensatorische examenregelingen, waarbij de zak-slaagproblematiek voor het afzonderlijke studieonderdeel vrijwel verdwijnt. Zolang dat niet gebeurd is, moet de moeilijke vraag beantwoord worden wat je verstaat onder de validiteit van zak-slaagbeslissingen. En daartoe zal er eerst een antwoord moeten komen op de vraag wat je wilt bereiken met het laten overdoen van zgn. onvoldoende gemaakte tentamens. Het zou te ver voeren deze vragen hier uit te werken ; waar het om gaat is de constatering dat vragen van validiteit en betrouwbaarheid rond meerkeuzedan wel open-eindtoetsen, zoals die in de literatuur gesteld en beantwoord worden, nauwelijks relevant zijn omdat ze geen betrekking hebben op het gebruik dat er van gemaakt wordt (zie ook het hoofdstuk Standards for the uses of tests, Standards).
Open-eindvragen zijn makkelijker te bedenken dan meerkeuzevragen; dat is een voordeel dat ook uitgebuit kan worden door met minder moeite een vragencollectie te maken die de stof tamelijk volledig dekt, en bekend gemaakt kan worden (verhoogde toetstransparantie). Tegenover de tijdbesparing bij het maken van de vragen, staat extra tijd nodig voor het nakijken (te bekorten door efficiënte layout, e.d.). Wat de scoring betreft: ervan uit gaand dat gemiddeld ongeveer 1:5e van de vragen fout is, kan de score bepaald worden door het aantal foutstreepjes op het antwoordformulier, en dat zijn er zo weinig dat een enkele oogopslag daarvoor voldoende is. Stel dat de docent zijn 300 studenten vroeger een toets met 60 4-keuze vragen afnam, dan zou hij nu kunnen volstaan met een toets van zeg 50 open-eindvragen, waarbij de antwoorden van de student in ongeveer 2 minuten te scoren zijn. De totale correctietijd is dan 10 uur (vergeleken met bijv. 2 uur administratieve rompslomp bij computerscoring). Omdat de scoring volledig in eigen hand gehouden wordt, kan de student zeer snel uitslag krijgen: wordt de toets 's morgens afgenomen, en kijken 4 mensen na, dan kunnen deze 300 studenten in de loop van de middag hun uitslag krijgen. Het minieme nadeel van extra nakijktijd, voorzover niet weggevallen tegen al genoemde voordelen, betekent altijd nog dat op een koopje de onderwijssituatie voor de student een stuk doorzichtiger wordt, vanwege de al gesignaleerde grotere transparantie van de open-eindvraag.
Wanneer de aard van de stof of de doelstellingen leidt tot open vraagvormen waarop uitgebreide antwoorden geformuleerd worden, neemt de correctietijd wél aanzienlijk toe, vooral wanneer bet gewenst is de werkstukken door meer dan één beoordelaar na te laten kijken. Het is een nadeel dat in de meeste gevallen aanvaard zal moeten worden, omdat juist voor deze stof of doelstellingen ook de meerkeuzevorm geen geschikt alternatief biedt.
Wie ook bij open-eindvragen van alles wil 'berekenen' (vaak verkocht als voordeeltje voor de meerkeuzevorm) kan dat bij open-eindvragen natuurlijk ook doen. Diverse berekeningen zijn ook met de hand snel te maken: als foute antwoorden 1, en goede 0 gescoord worden, kan snel een scorematrix ppn x vragen gemaakt worden door daar alleen de 1-tjes in te vullen, waarna variantieanalyse en variantiecomponenten snel te rekenen zijn (zie ook Cronbach c.s.).
Overigens zijn er wel meer bezwaren tegen het gebruik van meerkeuzevragen (toetsen) in te brengen dan hier aan de orde gesteld zijn: zie o.a. Hofstee 1973, hoewel hij in zijn alternatief onnodig vasthoudt aan tweekeuze vragen.
De docent die zijn of haar eigen toets construeert, kan daarbij beter gebruik maken van open-eind, kort antwoord of aanvul vragen. Wanneer bet aantal studenten zo groot is dat bet nakijken bij voorkeur automatisch moet kunnen gebeuren, kan de docent de vraag- en toetsconstructie beter uit handen geven aan daarin gespecialiseerde collega's, bijgestaan door deskundigen die van te voren de kwaliteit van de vragen aan onderzoek kunnen onderwerpen.
(handboeken over 'educational measurement' zijn voldoende bekend te veronderstellen.)
Bormuth,, J. R.: On the theory of achievement test items. Univ. of Chicago Pr., 1970.
Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N.: The dependability of behavioral measurements: theory of generalizability for scores and profiles. London: Wiley, 1972.
De Groot, A. D., & Van Naerssen, R. F. (redactie): Studietoetsen: construeren, afnemen, analyseren. Den Haag: Mouton, 1973.
Hofstee, W. K. B.: Participatiekontrole door 'onbenullige' toetsitems. Nederlands Tijdschrift voor de Psychologie, 1973, 28, 189-198.
Standards for educational and psychological tests. Washington, D. C.: American Psychological Association, 1974. [nieuwste editie: 1999]
Tromp, Th. J. M., & Wilbrink, B.: Het meten van studietijd. O.R.D. congresboek 1977. html
Wilbrink, B.: Cesuurbepaling. Amsterdam: C.O.W.O. Spui 21. (verschijnt:) juni 1977. html
papervoorstel O.R.D. 1977
Ben Wilbrink, Centrum voor Onderzoek van het Wetenschappelijk Onderwijs
Amsterdam.
(Aard van het onderzoek is te omschrijven als methodologisch.)
Gesteld voor de vraag of hij in zijn toets open eind vragen dan wel meerkeuzevragen zou moeten gebruiken, gaat de docent er veelal vanuit dat meerkeuzevragen 'onderwijskundig' gezien wel de voorkeur zullen verdienen. En daarmee verkeert deze docent in goed gezelschap want klassieke tekstboeken geven hem daarin gelijk, Ondertussen lijkt die voorkeur voor de meerkeuzevraagvorm tot de beter verborgen gebleven vooroordelen in de onderwijskunde te behoren, zoals kritische analyse van de aangevoerde argumenten al snel leert. Op grond van onder andere De Groot, Van Naerssen en anderen 1973/75; Stanley & Hopkins 1972; Wesman, in Thorndike 1971; Mehrens & Lehmann 1973, valt de volgende lijst van schijnargumenten op te stellen:
Genoemde argumenten maken een aantal misvattingen duidelijk die aan de wortel liggen van het heden ten dage wat al te enthousiaste gebruik van de meerkeuzevraagvorm bij door de docent zelf gemaakte toetsen. De implicatie van het 'door de docent zelf gemaakt' is dat de toets aan een relatief klein aantal studenten voorgelegd zal worden (zeg een aantal niet groter dan 200 tot 500, afhankelijk van de aard van na te kijken antwoorden). Bij deze kleine aantallen is het ook niet de moeite waard om items door speciale beroepskrachten te laten schrijven en uitproberen. Omgekeerd is het zo dat de docent die grotere aantallen studenten toetst, bij zijn toetsconstructie op professionele wijze geholpen zou moeten worden. Ik noem dit punt slechts om een voor de hand liggend misverstand te vermijden.
Voor de presentatie op de ORD-dagen wil ik proberen om in een schematisch overzicht te laten zien welke schijn argumenten (of ontbrekende argumenten) in welke bekende teksten voorkomen (resp. niet voorkomen); daarnaast lenen een aantal argumentaties zich voor cijfermatige of modelmatige illustratie. Hoewel theoretisch interessante problemen overvloedig gesignaleerd zijn, en mogelijkheden voor empirisch onderzoek niet ver te zoeken, wordt in de presentatie toch de nadruk gelegd op het praktisch belang van een minder dan vandaag gebruikelijk toepassen van de meerkeuzevraagvorm bij toetsing in het onderwijs.
Aantekening 2004. De tekst van de voordracht is complementair, herhaalt geen tekst uit wat al in het congresboek stond afgedrukt en door iedereen gelezen had kunnen zijn. Er was buitengewoon veel belangstelling voor mijn voordracht, de zaal zat bomvol, ik was niet alleen daardoor maar ook door het kritische karakter van mijn voordracht bloednerveus. Ik wist ook dat in de zaal een belangrijk deel van de staf, directie en bestuur van het Cito zat. Ik had evenwel alle vertrouwen in mijn zaalvoorzitter, Wim Hofstee. Ik had hem gevraagd om mijn papersessie te willen voorzitten. Dat was nodig ook, want na de voordracht van mijn voordracht was ik mentaal even helemaal weg, terwijl de eerste vraag uit de zaal op een agressieve wijze werd gesteld door Solberg, directeur van het Cito. Wim Hofstee ving mij op, legde uit dat het punt dat ik wilde maken toch een volstrekte eye opener was (ongeveer zijn woorden): dat dat wat wij gewend zijn objectief te noemen, dat in feite niet is.
Een kwart eeuw later lijkt het onderwerp wat gedateerd, hoewel hetzelfde misverstand nog steeds wijd verbreid is. Zie bijvoorbeeld Ton de Jong 1981 Correctievoorschriften voor de beoordeling van open vragen en interbeoordelaarsbetrouwbaarheid. In de zeventiger jaren was objectiviteit van keuzevragen in Nederland een dogma waar niet aan mocht worden getornd. Deze steen in die dogmatische vijver heeft het mede mogelijk gemaakt dat er in het Cito mogelijkheden kwamen om ook naar andere vormen van toetsvragen te kijken. In latere jaren heeft dat sterker doorgezet, eindexamens middelbaar onderwijs gingen immers steeds meer bestaan uit door het Cito verzorgde onderdelen, die echt niet allemaal meerkeuze konden zijn.
Ik heb later de vraag gesteld aan A. D. de Groot hoe het toch zat met die dogmatiek, en zijn antwoord was heel onthullend: het was zijn idee en dat van anderen dat bij de oprichting van het Cito er geen discussie moest ontstaan over diverse vraagvormen, en daarom is de vierkeuzevraag als alleenzaligmakend destijds doorgedrukt. [met toestemming van A. D. de Groot om dit antwoord te publiceren] [De Groot heeft het ook zelf meegedeeld in een feestrede bij een jubileum van het Cito, ik ben de precieze vindplaats even kwijt]
Vandaag, 14 augustus 2006, brengt het ANP het bericht dat Adriaan de Groot is overleden. Hij heeft ons veel nagelaten.
Het onderwerp van mijn paper wijkt sterk af van de meeste andere congresbijdragen. Er wordt geen onderzoek gerapporteerd. De inhoud van het paper is noch theoretisch interessant, noch empirisch van aard. Wat ik de congresganger wil voorleggen is de eenvoudige, pragmatische vraag of de docent die zijn eigen toetsen maakt door dik en dun meerkeuzeitems moet gebruiken, of misschien beter over kan gaan op kort-antwoordvragen.
Toen mij door een docent gevraagd werd of meerkeuze, dan wel open eind vragen de voorkeur verdienen bij toetsing van studenten, was ik geneigd daar op te antwoorden dat bij voorkeur de meerkeuzevorm te gebruiken is. Geprest om dat te beargumenteren, ontdekte ik dat mijn vooropgezette mening niet met redelijke argumenten te ondersteunen viel, 66k niet met argumenten uit de bekende handboeken. Anders gezegd: de vaak aangevoerde argumenten ten gunste van meerkeuzeitems zijn onredelijke argumenten. Ik citeer er een aantal:
Kritische analyse van uitspraken als deze leert dat ze gedaan worden omdat men gelooft in de juistheid en niet omdat op empirisch onderzoek gesteund kan worden, omdat in bespreking van voor en nadelen van vraagvormen slechts de meerkeuzevorm met de opstelvorm vergeleken wordt, omdat de aard van de te toetsen leerstof slechts zelden als belangrijke variabele vermeld wordt, etc.
De verwarring over vermeende voordelen van meerkeuzevragen wordt nog vergroot wordt door vaak irrelevante prietpraat over objectiviteit, betrouwbaarheid en validiteit van de meerkeuzevraagvorm. Laat ik eerst een indruk geven van het gestoei met het begrip 'objectiviteit' in de literatuur.
O.K. genoeg citaten.
Objectieve scoorbaarheid in de zin van machinale scoorbaarheid is bij bijzonder grote aantallen een mooi technisch voordeeltje.
Objectiviteit van de beoordeling in de zin van niet beïnvloedbaar door persoonlijke voorkeuren of antipathieën, is een zwaar overtrokken zaak. Dit soort objectiviteitsproblematiek werd voldoende opgelost bij de overgang van mondelinge naar schriftelijke examenprocedures, in de Verenigde Staten al vóór de eeuwwisseling bereikt.
Vergeet niet dat objectiviteit slechts een klein onderdeel uitmaakt van het complex van factoren dat leidt tot wat nog steeds de onbetrouwbaarheid van de toetsing heet. Stanley, in Thorndike's Educational Measurement geeft daar een uitgebreide opsomming van.
Vergeet niet dat betrouwbaarheid van de toets een ondergeschikte kwestie is omdat allereerst de validiteit van de toetsing voor het beoogde doel van belang is.
Vergeet niet dat validiteit van de toets als meting van beheersing van de leerstof nog weer iets anders is als de validiteit van de beslissingen die op grond van toetsresultaten over individuele studenten worden genomen.
Vergeet niet, dat ook de validiteit van bedoelde zak-slaagbeslissingen weinig zegt over de utiliteit van deze beslissingen.
Wat blijft dan uiteindelijk over van het 'objectiviteitsvoordeel' van de meerkeuzevraagvorm, ook indachtig de overweging dat vraagkeuze en vraagformulering ook bij het meerkeuzeitem subjectief beïnvloed zijn ?
In de geciteerde uitspraken is er nogal eens sprake van dat de meerkeuzetoets zo waardevol is bij het kunnen rechtvaardigen van beslissingen over studenten op grond van de verkregen toetsscores. Ik heb daar moeite mee, omdat ik niet kan inzien dat zak-slaagbeslissingen voor studenten met scores dicht bij de aftestgrens goed te rechtvaardigen zijn wanneer die scores op een meerkeuzetoets gemaakt zijn. Het is nog altijd zo dat meerkeuzeitems een ingebouwde kans op goede beantwoording hebben, die niets te maken heeft met beheersing van de stof. Dat betekent dat de meerkeuzetoets een extra stuk onbetrouwbare variantie heeft in vergelijking met de toets samengesteld uit kort antwoord vragen waar geen noemenswaardige raadkansen een rol spelen. Voor de gemiddelde toetsing betekent dat toch al gauw dat de extra onnauwkeurigheid van de meerkeuzetoets rond de aftestgrens een punt of 5 bedraagt, en dan is het zo dat het geven van een onvoldoende omdat de student gén punt beneden de aftestgrens scoort, niet meer geloofwaardig is.
(bij een 60 item toets, vier alternatieven items, aftestgrens 30, hebben studenten met een score rond de 30 ongeveer 40 items gegokt. Het gokken van 40 items geeft een verwachte score 10, variantie 40.1/4.3/4 = 7,5)
Een belangrijk verschil tussen meerkeuzevragen en open-eindvragen is het gemak waarmee de vragen geconstrueerd kunnen worden. Zonder te willen beweren dat het maken van goede open eind vragen eenvoudig is, kunnen we toch wel stellen dat het maken van behoorlijke meerkeuzevragen uiterst moeilijk is. Zó moeilijk, dat vele auteurs spreken over de kunst van het itemschrijven. Om niet de indruk te wekken dat ik hier grappen sta te maken, citeer ik:
Is de itemschrijver zich van de doelstellingen bewust, dan moet hij de items gaan bedenken. Waar haalt hij nu de idee voor een item vandaan? Dit probleem wordt door sommigen opgelost door aan het bureau te gaan zitten nadenken.
Anderen komen gemakkelijker op ideeën wanneer zij met iets geheel anders bezig zijn, zoals afwassen of douchen. (Lans & Mellenbergh)(84-85).
Hoewel nergens met zoveel woorden gezegd, is wel duidelijk dat de creativiteit vooral gericht is op het vinden van afleiders. Overigens heb ik nog een aardige kunstvariant gevonden:
Itemanalyse is een kunst. (De Groot)(40).
Het ligt vervolgens erg voor de hand om in lijn met dit soort uit spraken ook de beantwoording van meerkeuzevragen tot een 'kunst' te bestempelen. Empirische toetsing van die hypothese zou kunnen gebeuren door als maat voor het 'creatieve moment' dat de meerkeuzetoets van de student verlangt de mate waarin de meerkeuzetoets beter correleert met een intelligentietest dan de vergelijkbare kort- antwoord toets.
In mijn paper heb ik er al op gewezen dat het tot op de dag van vandaag ontbreken van constructieregels voor meerkeuzevragen regels die stoelen op een behoorlijke onderwijskundige theorie, de meerkeuzevraagvorm ongeschikt maken voor gebruik in het onderwijs, in ieder geval dán wanneer de docent zelf zijn vragen construeert. Zolang de docent niet weet waar hij zijn ideeën voor zijn meerkeuzevragen vandaan heeft, is het voor de student niet mogelijk om te anticiperen op het soort vragen dat hij straks voorgeschoteld zal krijgen. Het volledig bekend maken van de itemvoorraad waaruit straks de vragen voor het tentamen gekozen zullen worden, is niet meer dan een stoplap voor het hier gesignaleerde probleem. Mijns inziens is de treurige stand van zaken bij meerkeuzevraagconstructie het duidelijkst in de wijze waarop naar afleiders gezocht wordt. De betiteling 'afleider' alleen al doet mij kippevel krijgen. Niet alleen valt er geen enkele onderwijskundig zinvolle systematiek te ontdekken in de aanwijzingen die vele auteurs de itemconstructeur-in-spe meegeven, maar erger is dat vele van de aanbevelingen op gespannen voet staan met de meest elementaire onderwijsdoelstellingen of zelfs met de ethiek van het onderwijzen en beoordelen. Een paar voorbeelden:
In Thorndike's Educational Measurement (Wesman) vind ik de uitspraak dat de itemschrijver op de hoogte moet zijn van veel voorkomende misvattingen en fouten bij studenten, om daar bij de afleiderconstructie handig gebruik van te kunnen maken. Begrijpt u nu ook waarom studenten zoveel emotionele bezwaren tegen meerkeuzetoetsen hebben?
In hetzelfde hoofdstuk van Wesman de uitspraak: Ieder item geeft nieuwe problemen en nieuwe kansen bij het schrijven. Het kan bijna niet anders of de student wordt bij ieder item met nieuwe, ondoorzichtige trucs geconfronteerd, die wel zijn intelligentie, maar niet zijn beheersing van de stof op de proef stellen.
Het probleem met die afleiders is ook, dat er oneindig veel mogelijkheden voor afleiderkeuze zijn, en dat de itemconstructeur geneigd is uit die oneindigheid een keuze te doen, in plaats van afleiders te construeren op basis van zijn geformuleerde onderwijsdoelstellingen. En dat is in zekere zin ook wel te begrijpen, omdat de juiste werkwijze snel tot de ontdekking zou leiden dat er maar weinig soorten leerstof zijn die zich van nature lenen voor de meerkeuzevorm als toetsing van beheersing. Een soort onderwijsdoelstelling die zich voor de meerkeuzevraagvorm leent, is waar van de student gevraagd wordt onderscheiding te maken, waar hij moet kunnen determineren, klassificeren, e.d.
Wanneer doelstellingen getoetst worden in de vorm van meerkeuzevragen terwijl deze doelstellingen zich voor die vraagvorm niet lenen, kan de student zich niet doelmatig voorbereiden op de toets, omdat hij dan niet kan weten welk cognitief gedrag van hem gevraagd zal worden bij het beantwoorden van deze vragen. Deze gebrekkige toetstransparantie zou op zich al voldoende reden moeten zijn om de extra tijd die het nakijken van kort antwoord tentamens vraagt, er met plezier voor over te hebben. De kort antwoord vorm is beter op de onderwijsdoelstellingen te passen, en maakt een grote mate van toetstransparantie mogelijk. De docent moet er dan wel voor zorgen dat hij de student alle informatie geeft om die transparantie metterdaad te bereiken.
Mag ik afronden met een uitspraak van Cronbach, gegeven in zijn beschouwing over validiteit in datzelfde handboek van Thorndike:
5 april 1977
ben wilbrink.
Stanley, J.C. and K.D. Hopkins: Educational and psychological measurement and evaluation. Englewood Cliffs, N.J.: Prentice-Hall,
Groot, A.D. de in: De Groot, Van Naerssen en anderen: Studietoetsen, konstrueren, afnemen, en analyseren. Den Haag: Mouton, (nieuwe editie verschijnt ondertussen, in drie deeltjes)
Thorndike, R.L. and E. Hagen: Measurement and evaluation in psychology and education. London: Wiley, (nieuwe editie is ook hiervan intussen verschenen).
Wesman, A.G. Writing the test item. In: Thorndike, R.L. (Editor) Educational measurement. Washington: American Council on Education, 1971
Ebel, R.L.: Essentials of educational measurement. Englewood Cliffs, N.J.: Prentice-Hall, 1972.
Lans en Mellenbergh, in: De Groot, Van Naerssen en anderen (hierboven al genoemd).
noot: deze voordracht is gebaseerd op mijn kongrespaper : Het verborgen vooroordeel tegen ándere dan meerkeuzevragen. gepubliceerd in de ORD 1977 kongresbundel.
25 april 1977
Ben Wilbrink
Er zijn twee onderwerpen die de moeite waard zijn om een keer tot een artikeltje uit te werken. Allereerst de verdoezeling van beoordelaar onbetrouwbaarheid door het bij fiat afspreken welk alternatief het juiste is, en vervolgens de louter extra onbetrouwbaarheid van meerkeuzetoetsing vergeleken met open-eindtoetsing als gevolg van raadkansen, vooral rond de cesuur. Het tweede onderwerp zal bij zijn behandeling moeten steunen op de uitwerking van het eerste onderwerp, omdat in de redenering cruciaal is dat de beoordelaar onbetrouwbaarheid van open-eindvragen geen extra onbetrouwbaarheid van die vraagvorm in vergelijking tot de meerkeuzevorm betekent.
1. Beoordelingsonbetrouwbaarheid van meerkeuzevragen.
Er bestaat een zeer wijd verbreid misverstand dat de beoordeling van meerkeuzevragen perfect betrouwbaar zou zijn. Niets is minder waar. Wat ik hier bedoel wordt onmiddellijk duidelijk wanneer er een onderscheid gemaakt wordt tussen beoordelaarbetrouwbaarheid wanneer voor de scoring van de meerkeuzevragen de sleutel geheim gehouden wordt, en scoringsbetrouwbaarheid wanneer aan de hand van de sleutel de vragen nagekeken worden. De formulering leidt rechtstreeks tot de onderzoekbare vraagstelling of beoordelaars die niet betrokken zijn geweest bij de itemformulering, en niet bekend zijn met de sleutel, het met elkaar méér eens zijn over het juiste alternatief bij deze meerkeuzevragen, dan ze het met elkaar eens zijn over goede en foute antwoorden bij vergelijkbare vragen in de open-eindvorm (die zij evenmin zelf hebben opgesteld). Bedoeld onderzoek kan meer realistisch worden gemaakt door de beoordelaars niet alleen te confronteren met de gestelde meerkeuzevragen en ze daarbij het goede antwoord te laten aangeven, maar door ze dezelfde vraag voor te leggen vergezeld van de bij de toetsing verkregen gegevens (p en a waarden, natuurlijk zonder aan te geven welke de p-waarde en welke de a waarden zijn). Een variant is: leg deze beoordelaars alleen de stam van het meerkeuzeitem voor, en laat ze daarop het huns inziens beste antwoord geven. Laat ándere beoordelaars dan weer die antwoorden nakijken, of bereken in de gegeven antwoorden de mate van overeenstemming tussen de beoordelaars wanneer er voldoende eenduidige antwoorden zijn om zulks een beetje zinvol te kunnen doen.
Het zou wel zo eenvoudig zijn, wanneer ik gebruik kan maken van bestaande data, of bestaand onderzoek, om daaruit de combinatie van gegevens te maken die ik voor bovenstaand onderzoek nodig zou hebben. Enig ander alternatief is een voldoend scherpe analyse met plausibele veronderstellingen om een eenvoudige simulatie te maken. Tenslotte is nog een mogelijkheid om af te grenzen hoe onwaarschijnlijk het is om bij een reëel onderzoek negatieve resultaten (voor mijn hypothese) te vinden.
2. minder betrouwbare scores door de raadkans.
Raadkansen zijn een groot probleem bij de meerkeuzetoetsingsvormen. Tenminste, wanneer toetsen gebruikt worden voor individuele beoordeling van individuele prestaties. Worden toetsen slechts gebruikt voor evaluatie van het onderwijs, of de doelstellingen door de bank genomen gehaald zijn, dan spelen raadkansen een ondergeschikte rol omdat ze over studenten wel uitmiddelen. Bij individuele beoordeling middelen die raadkansen niet uit, omdat bij raden van zeg 30 items er een kansverdeling ontstaat met een niet geringe spreiding voor deze ene student.
Wat ik moet aantonen is ten eerste dat voor studenten met scores rond de aftestgrens (niet al te nauwkeurig opgevat dus, een beetje fuzzy a.h.w., maar een eerste analyse in globale termen heb ik nodig om mijn punt te kunnen scoren; later kan ik dan terug komen met een analyse die minder duidelijk, maar wel exacter is) erg gevoelig zijn voor toevallig goed of fout geraden hebben van een groot deel van de niet gekende items. Ten tweede moet ik laten zien dat deze onbetrouwbaarheid van de scores dank zij de raadkansen niet gecorrigeerd kan worden, omdat immers voor die individuele scores geen correctieformules bestaan die de toevallige positieve of negatieve afwijking door raden ontstaan voor deze ene student kunnen wegnemen. Ten derde moet ik demonstreren dat voor de meeste leerstof geldt dat de meerkeuzevraagvorm bijzonder goed te vervangen is door de open-eindvraagvorm (met nog wat extra voordeeltjes daarbij, zoals gedemonstreerd in mijn ORD paper 1977), en dat die vervanging betekent dat de onbetrouwbaarheid van de toets in open eind vorm ongeveer gelijk zal zijn aan de onbetrouwbaarheid van de toets in meerkeuzevorm minus de onbetrouwbaarheid in de laatste toets die door de raadkansen veroorzaakt wordt. (natuurlijk de aftreksom alleen letterlijk nemen wanneer onbetrouwbaarheid vertaald wordt als betrouwbaarheidsindex, omdat ik spreek over de betrouwbare variantie). (de formulering blijft onduidelijk, maar dit is ook maar een kladje). Om het laatste te demonstreren heb ik nu juist onderzoek 1 nodig! Vervolgens kan ik nog bij wijze van gedachteexperiment uitrekenen hoe Veel langer een studietoets zou moeten worden dan een even lange toets in open-eindvorm om dezelfde betrouwbaarheid te bereiken. (Het spreekt vanzelf dat een even lange toets in meerkeuzevorm niet alleen minder betrouwbaar is, maar ook minder valide, maar het lijkt me een stuk minder eenvoudig om dezelfde analyse op te zetten in termen van validiteit voor het een of ander. Een poging zou toch niet gek wezen). Natuurlijk zal die verlenging er in de praktijk niet komen, omdat tentamentijd tamelijk gefixeerd is, en de meest efficiënte vorm van toetsing gezien de hier gedane analyse is om open-eindvragen te gebruiken. Tenslotte zal ik demonstreren wat, al het andere gelijk blijvend, het effect van de raadkansen bij de meerkeuzevorm is op het aantal onjuiste zak-slaagbeslissingen dat genomen wordt.
Er is een stuk gedateerd 5 maart 1976 'De keuze tussen meerkeuzevragen en open-eindvragen voor de toets' dat als voorloper voor dit thema is te zien.
In persoonlijke aantekeningen bij De Groot's bijdragen aan 'Selektie voor en in het hoger onderwijs', gemaakt in december 1972, citeer ik uit de paragraaf over objectiviteit (5.3) en geef daar commentaar bij die de lijn van het latere paper bevat:
"acceptabiliteit van een selectieprocedure is alleen bereikbaar als men iedere vorm van subjectieve beoordeling van geschiktheid uitsluit. Dit is bereikbaar, indien men uitsluitend onbetwistbare gedrags- en persoonsgegevens van de gegadigden verwerkt in een voor allen gelijke formule, die ook zelf als resultaat een beslissing (toelating of afwijzing) oplevert, òf een eindscore oplevert op basis waarvan men zo'n beslissing, in absolute of relatieve zin kan nemen." (...) "Scores behaald op (objectief-- scoorbare) toetsen en tests van allerlei aard voldoen wel aan de eis -- mits zij in een objectieve beslissingsformule worden verwerkt." Een weerlegging die minder triviaal is dan zij er op het eerste gezicht uit ziet, is dat de eerste de beste klungel die een meerkeuzetoets in elkaar flanst, een instrument heeft gemaakt dat aan De Groot's objectiviteitseis voldoet. Ook De Groot weet wel beter, de vraag is alleen waarom hij in dit rapport van dat beter weten zo weinig laat merken. Objectieve scoorbaarheid heeft met objectiviteit in andere opzichten bar weinig te maken. En juist dié objectiviteit levert grote theoretische en praktische moeilijkheden op, en zou bij een min of meer goede realisering wel eens in strijd kunnen komen met andere acceptabiliteitseisen. (Zie bijv: Bormuth: on the theory of achievement test items, University of Chicago, 1970)
In 'Toetsvragen schrijven' (1983) komt het thema terug, zonder het bijzonder te benadrukken overigens. Dat weerhield een recensent in Onderzoek van Onderwijs er niet van opnieuw er overheen te vallen.
Objectiviteit is ook in de 21e eeuw een actueel thema. Het benadrukken ervan door uitvoerige en zorgvuldige nakijkprocedures gaat ten koste van de kwaliteit van het onderwijs, en het beroepsplezier van de docenten. Op dit thema bereid ik een publicatie voor. Zie als smaakmaker het in 2004 in Examens te verschijnen artikel over opvattingen van docenten over beoordelen.
Excuus, de redactie was het uiteindelijk toch niet met elkaar eens. Dit artikel is niet verschenen, wel op mijn website geplaatst hier
Ton de Jong (1981). Correctievoorschriften voor de beoordeling van open vragen en interbeoordelaarsbetrouwbaarheid. Tijdschrift voor Onderwijsresearch, 6, 217-229. pdf
Ik moet toegeven dat ik zelf ook veel te lang het werken met modelantwoorden heb aanbevolen (in 'Toetsvragen schrijven'). Als dat gebeurt op de rigide manier die het CvTE voorschrijft bij eindexamens, dan levert dat pseudo-objectiviteit op, en benadeelt het de examenkandidaten. Een model-antwoord als aanduiding van wat de ontwerper van de vraag voor ogen stond als een goed antwoord is prima, maar zodra het als de norm wordt gepresenteerd verkeren in psychometrisch wonderland - dan is er van integer toetsen geen sprake meer.
Valentine, N., Durning, S., Shanahan, E. M., & Schuwirth, L. (2020). Fairness in human judgement in assessment: a hermeneutic literature review and conceptual framework. Advances in Health Sciences Education. doi:10.1007/s10459-020-10002-1 sh pdf
from the abstract
http://www.benwilbrink.nl/publicaties/77KeuzevragenORD.htm http://goo.gl/9qqqI