S.V.O. Jaarverslag/Jaarboek 1985, 275-288. Den Haag: Stichting voor Onderwijsonderzoek, 1986


Toetsen en testen in het onderwijs

Ben Wilbrink


wetenschappelijk hoofdambtenaar, Universiteit van Amsterdam, Centrum voor Onderzoek van het Wetenschappelijk Onderwijs.


"De gymnasia en de hogere burgerscholen zijn sinds 1875 volkomen veranderd. Vakken, leerplannen, urentabellen, zijn gekomen en gegaan. Het aantal leerlingen is verveelvoudigd. De meisjes hebben hun intrede gedaan. De maatschappelijke samenstelling der schoolbevolking is geheel veranderd; de wereldoorlog heeft mens en maatschappij vervormd; het gezinsleven, de sport, de vermaken, het is alles anders geworden. Maar de onvolledige statistieken die er zijn, tonen, dat het gedeelte uitvallers der middelbare scholen gelijk bleef."

K. Posthumus, 'Middelbaar onderwijs en schifting', De Gids, 1940, 104, 24-42. integraal op dbnl.nl


Het citaat van Posthumus geeft aan dat onze beoordelingsgewoonten harder zijn dan de Nederlandse gulden. De 'wet van Posthumus' luidt dat beoordelaars er toe neigen een kwart der beoordeelden het predicaat 'ongeschikt' toe te kennen, af te wijzen, te laten doubleren, een onvoldoende toe te kennen, of voor herkansing te laten terugkomen. Zorgelijk is de kwantificering: een kwart valt af, op welk niveau of in welk leerjaar we ons ook bevinden. Nu zijn er sinds 1940 wel een paar dingen in ons onderwijs veranderd, maar de orde van grootte van het fenomeen 'onvoldoende beoordelen' is nog dezelfde. De suggestie is dat er iets mis is aan de wijze waarop er in ons onderwijs wordt getest en getoetst. Er is geen onderzoek voor nodig om die suggestie te bevestigen: mocht de schifting in het eerste of tweede leerjaar nog iets met een realistische selectie van doen hebben, voor de latere leerjaren kan dat niet meer worden volgehouden.

Het bovenstaande is geen nieuws, maar dat was het in 1940 ook niet. Veel pogingen tot onderwijsvernieuwing vinden hun motivering juist in dit schiftingsproces waarvan vrijwel iedereen wel inziet dat het absurde trekken heeft. Een model zoals het 'leren voor beheersing' is zo'n poging het systeem te doorbreken, maar de aantrekkelijke kanten van dit onderwijsmodel waren voor een doorbraak niet voldoende. Een ander recent voorbeeld is de poging om bij wet de rendementen in het wetenschappelijk onderwijs te verbeteren (wet twee-fasenstructuur, 1982). Het is genoegzaam bekend hoezeer docenten zich in hun beoordeling aanpassen aan veranderingen in de onderwijssituatie en het niveau van de leerlingen (Hofstee 1970 geeft een overzicht), daarmee de wet van Posthumus overeind houdend. Omdat de wet twee-fasenstructuur nu juist op het beoordelingsgedrag van docenten niet inspeelt, kan de beoogde verbetering van rendementen bij voorbaat al worden afgeschreven.

Wie greep wil krijgen op de omvang van uitval en vertraging in het onderwijs doet er goed aan, alvorens dat onderwijs zelf weer eens structureel op z'n kop te zetten, de beoordelingsprocessen in dat onderwijs te proberen te beheersen. De krachtigste hefboom om verbeteringen in het onderwijs te bewerkstelligen is in te breken via het toetsgebeuren en alles wat daarmee samenhangt. Ik zal in het volgende enkele lijnen uitzetten voor een stormaanval op deze burcht van de traditie. Omdat onderzoek op vele van de te noemen onderwerpen nog nauwelijks heeft plaatsgevonden zal mijn betoog enigszins speculatief zijn, ook al laat mijn eigen werk zien dat er goede gronden voor de hier te ontvouwen gedachten kunnen worden aangegeven.

rechten en plichten


De Verklaring van de rechten van het kind, opgesteld door de Verenigde Naties in 1959, beginsel 8: 'Het kind behoort onder alle omstandigheden tot de eersten, die recht hebben op bescherming en hulp' (Raad voor het Jeugdbeleid, 1984). Dat was ook de motivatie van Posthumus: 'Een bitter treurspel speelt zich af rond de middelbare school, waarvan vaak maar weinig blijkt, omdat de slachtoffers zich schamen en zwijgen.'

Welke rechten hebben leerlingen tegenover het beoordelingsgeweld dat op hen afkomt? Zijn docenten gebonden aan dezelfde rechtsregels die voor alle burgers en vooral voor bestuurders gelden? Wat kan de onderwijskundige aan methoden en technieken aandragen om deze beoordelingsprocessen te kunnen beheersen?

In de zeventiger jaren komt er in de Verenigde Staten een abrupt einde aan het als vanzelfsprekend accepteren van het toetsen en testen zoals dat o.a. in het onderwijs plaatsvindt. Er wordt van testconstructeurs zowel rekening en verantwoording gevraagd, als openheid over eenmaal afgenomen tests (vooral die welke een rol spelen bij toelating tot instellingen voor hoger onderwijs). In de zaak van Debra P. tegen Turlington (bv. Madaus, 1983) wordt in de rechtszaal gestreden over de vraag of examens inhoudelijke validiteit moeten hebben, en zo ja wat daar onder moet worden verstaan. In dat debat hebben de deskundige specialisten zich uit elkaar laten spelen: kennelijk was een halve eeuw voorbereidingstijd niet voldoende. In de zaak van Bakke tegen de Universiteit van Californië (bv. Iest en Sloot, 1979) komen indringende vragen van gelijke behandeling bij selectie aan de orde. In Nederland zijn (minder heftige) parallelle ontwikkelingen, zoals de discussie over selectieve toelating tot numerus fixus studies (bv. Wilbrink 1980f), het pleidooi van De Groot (1970) voor die bijzondere vorm van inhoudelijke geldigheid van toetsen die hij doorzichtigheid noemde, en de toenemende druk om studenten en leerlingen het inzagerecht in gemaakte examens te verlenen (Cohen, 1981).

Een opvallend kenmerk van het onderwijs is het geheim van de klas: in de uitoefening van zijn beroep is de docent alleen met zijn leerlingen. De eigen verantwoordelijkheid van de docent is groot, hij wordt vrijwel niet gecontroleerd, en beoordeling van zijn werk als docent is knap lastig tenzij via de te gemakkelijke weg van de mening van de leerlingen (Millman, 1982; Wilbrink en Hofstee, 1984). Ook in zijn oordelen over studieprestaties heeft de docent een in veler ogen vrijwel onaantastbare autoriteit, omdat hij immers de vakdeskundige is: niet alleen rechters maar ook onderwijskundigen plegen zich dan te terughoudend op te stellen. Dit alles roept de vraag op waar de grenzen van de handelingsvrijheid van de docent liggen: aan welke regels heeft de docent zich te houden bij het oordelen over leerlingen? Cohen heeft krachtig duidelijk gemaakt dat docenten, evenals anderen die beroepshalve beslissingen hebben te nemen die de belangen van de burger raken, zich hebben te houden aan in het algemeen rechtsbewustzijn levende regels van behoorlijk bestuur. Ook laat Cohen zien dat dit leidt tot heel concrete regels die bij het beoordelen in acht zijn te nemen. In het wetenschappelijk onderwijs kunnen studenten voor het halen van hun recht terecht bij de Colleges van Beroep voor de Examens, bij iedere universiteit en technische hogeschool ingesteld volgens artikel 40 van de Wet Universitaire Bestuurshervorming. Voor het overige onderwijs is een dergelijke relatief eenvoudige rechtsgang helaas niet beschikbaar; wel kan men proberen per school het een en ander aan rechten en plichten vast te leggen in de vorm van een leerlingenstatuut, en kan men in ernstige gevallen bij de burgerlijke rechter terecht.

Bij tal van beoordelingen die zij in hun lange loopbaan in het onderwijs ontvangen wordt leerlingen onrecht gedaan. Ik twijfel daarbij niet aan de goede bedoelingen van docenten, maar zij beschikken eenvoudig niet over instrumenten, richtlijnen en ondersteuning om hun oordelen niet alleen behoorlijk maar ook adequaat te doen zijn. Er mag best druk op docenten en onderwijskundigen worden uitgeoefend om zich voor hun handelen te verantwoorden, en om te komen tot vernieuwingen in de richting van een doorzichtiger en billijker wijze van beoordelen in het onderwijs. Het blote feit alleen dat men een test of een toets gebruikt is niet voldoende om beslissingen te rechtvaardigen: men moet ook zijn waarden en doelen expliciet maken (vergelijk hoe dat gebeurt bij het rechtvaardig verdelen van schaarse medische voorzieningen, Winslow, 1982).

het beoordelen als sturingsmechanisme


Een klein verschil (maar welke grote gevolgen heeft dat!) tussen tests en toetsen is dat bij de psychologische test wordt verondersteld dat er geen specifieke voorbereiding op de test heeft plaatsgevonden, terwijl voor de toets in het onderwijs typisch geldt dat van de leerling wordt verwacht dat deze zich er behoorlijk op heeft voorbereid. Psychometrici zijn doorgaans niet erg bevattelijk voor dit onderscheid tussen tests en toetsen, al is daar in ons land met de publicaties van de Groot (1970) over doorzichtigheid van toetsen en van Van Naerssen (1970) over tentamenmodellen enige beweging in gekomen.

Onderwijs en toetsing worden in de praktijk als nogal als losgekoppeld gezien: er is een tijd van onderwijzen, en er is een tijd van beoordelen van wat ervan is terechtgekomen. Toetsen lijkt een handeling achteraf, 'alleen maar' een meting van bereikte kennis en inzicht. Docenten gaan er wel eens te gemakkelijk vanuit dat voor die toetsing achteraf dan ook alles is geoorloofd zolang er maar zoiets als kennis en inzicht wordt gevraagd. De strijd tot terugdringen van de subjectiviteit, inherent aan alle vormen van globaal oordelen, is nog lang niet gewonnen. Waar De Groot op wijst is meer dan alleen de wenselijkheid van objectiviteit bij het beoordelen: de leerling moet zich doeltreffend kunnen voorbereiden op toetsen. Met andere woorden: de leerling moet tevoren weten welke vragen er kunnen worden gesteld, de juiste beantwoording van dergelijke vragen moet zijn onderwezen, en daarnaast moeten beoordelingsnormen (waar ligt de grens slagen/zakken) tevoren duidelijk zijn. Met deze eis van doorzichtigheid probeert De Groot een recht van de leerlingen en een plicht van de docent vast te leggen. Hoewel deze eis op zich niet voldoende is om de wet van Posthumus te kunnen doorbreken, is het wel een belangrijke voorwaarde daartoe.

Het gaat bij de eis van doorzichtigheid van toetsen vooral om doorzichtheid vooraf: de leerling kan zijn lot in eigen hand nemen, is in staat zelf te kiezen voor een eventueel nodige extra inspanning, en wordt beschermd tegen irrelevante studieactiviteiten zoals die worden uitgelokt door geheimzinnigheid over wat er precies zal worden getoetst. Het gaat hier om het gedrag van de leerling bij de voorbereiding op een toets: niet alleen de tijd die wordt geïnvesteerd, maar ook de doeltreffendheid van wat er in die tijd wordt gedaan. Van Naerssen zag in dat er verband moet bestaan tussen de eisen die bij een tentamen worden gesteld (met name waar de grens zakken/slagen wordt gelegd) en de hoeveelheid tijd die de student bereid is in de voorbereiding op dat tentamen te investeren, en hij gaf daar tevens een wiskundig model voor. Hiermee werd onderwijskundigen voor het eerst een instrument in handen gegeven voor onderzoek naar de wisselwerking tussen het beoordelingsgedrag van docenten, en het gedrag van de leerlingen. Even terug naar de wet van Posthumus: ten onrechte wordt deze altijd zo geïnterpreteerd als zou het uitsluitend gaan om de wijze waarop docenten oordelen. De feitelijke situatie is veeleer deze: docenten hebben zich sterke beoordelingsgewoonten gevormd, waar leerlingen zich in hun gedragingen bij hebben aangepast. U mag het ook precies andersom formuleren. Beide groepen hebben elkaar in een dodelijke omarming, waarbij de wet van Posthumus het eeuwige leven wordt geschonken. Het tentamenmodel van Van Naerssen biedt een analytisch instrument waarmee de aard van deze dodelijke omhelzing kan worden onderzocht, en beter nog: dat suggesties levert hoe de omhelzing kan worden doorbroken. Helaas is onderzoek in deze richting tot nu toe vrijwel uitgebleven.

Een tweede uitwerking van de doorzichtigheidseis, nauw verwant aan het tentamenmodel, is het modelleren van de voorspelling die de leerling zelf over de toetsresultaten kan doen. Dit model is uitgewerkt door Wilbrink (1978), gebruik makend van het binomiale foutenmodel zoals dat in de geheel andere context van de psychologische test door Lord en Novick (1968) was ontwikkeld (en als niet praktisch toepasbaar afgedaan). Het is duidelijk dat onvoorspelbare toetsresultaten desastreus zijn voor het onderwijs: dat ontneemt de leerling de lust tot enige gemotiveerde inspanning. Maar dan moet het ook op zijn minst interessant zijn eens uit te zoeken in welke mate leerlingen eigen resultaten kunnen voorspellen. Ook dit onderzoek laat nog op zich wachten. Wel ben ik in staat geweest de te verwachten effecten (wat voorspelbaarheid betreft) te kwantificeren van een door de minister van onderwijs voorgestelde toelatingstoetsing voor numerus fixus studies (Wilbrink, 1980e).

Beoordelingsprocessen hebben belangrijke effecten op het gedrag van leerlingen, en daarmee op de uitkomsten van het onderwijs. Onderwijsbeleid zou in veel sterker mate beleid bij examens en toetsing (Wilbrink 1980f) kunnen zijn. Dat beleid kan met behulp van wiskundige modellen zoals van Van Naerssen op rationele basis worden geschoeid, en zich zo de mogelijkheden verwerven om al experimenterend en van ervaringen lerend tot een sterke opbouw te komen (zwalkend beleid inruilen voor opbouwend beleid).

doorzichtigheid en de kwaliteit van toetsvragen


Een hobbel op de weg naar doorzichtige toetsen is de onmacht van de onderwijskunde om regels voor de vooral inhoudelijke constructie van toetsvragen te geven. De ene na de andere auteur trekt de handen af van de verantwoordelijkheid voor de inhoud van toetsvragen, om verder alleen door te keuvelen over vraagvormen zoals open vragen of keuzevragen, en over de statistische buitenkant van vragen en toetsen. Zo komt Wesman (1970) tot de uitspraak dat het schrijven van toetsvragen een kunst is (en Wesman is niet de enige die met dergelijke uitspraken een onduldbare situatie bestendigt). De docent moet zich maar op eigen houtje in deze kunst zien te vormen. Vragen die op kunstzinnige wijze tot stand komen, zijn door de leerlingen alleen met kunst en vliegwerk te beantwoorden: meer met creativiteit en intelligentie dan door kennis van de leerstof.

Een belangrijke opgave voor de onderwijskunde (of voor de psychometrie, wanneer die van haar eenzame statistische hoogte zou willen afdalen) is het ontwerpen van constructieregels voor toetsvragen, waardoor het mogelijk wordt inhoudelijk verantwoorde toetsen in letterlijke zin te construeren, en toetsen op tamelijk formele criteria op inhoudelijke deugdelijkheid te laten controleren (ook door buitenstaanders!). Aardiger is nog dat het alleen op deze manier ook mogelijk is om toetsen echt doorzichtig te maken: pas wanneer er heldere constructieregels zijn kan de leerlingen op voorhand duidelijk worden gemaakt op welke wijze zij door de af te leggen toets aan de tand zullen worden gevoeld. Pogingen om tot constructieregels te komen zijn schaars, maar een redelijke aanzet is te vinden in mijn 'Toetsvragen schrijven' (1983); deze constructieregels sluiten aan bij de aard en de structuur van de door de toets te bestrijken leerstof. De wetenschapsfilosofie biedt bruikbare aanknopingspunten voor het ontwerpen van deze constructieregels (zie ook Van Westrhenen 1977): de beschrijving van de aard van onze wetenschappelijke kennis zegt ook iets over hoe wij de kennis kunnen beschrijven die in het onderwijs wordt overgedragen. Er is overigens de laatste jaren in vele disciplines een sterke belangstelling ontstaan voor het stellen en beantwoorden van vragen (o.a. Graesser & Black, 1985), met een opvallende leemte waar het het toetsenderwijs stellen van vragen betreft.

Maar er is toch de begaanbare weg via het formuleren van doelstellingen, zo kan men tegenwerpen. Het probleem met systemen van doelstellingen zoals die van Bloom (1956) is dat zij ongelukkigerwijs zijn gesteld in mentale termen (denken, begrijpen, inzicht hebben in) in plaats van in leerstofrelevante termen (termen en begrippen, relaties daartussen, algoritmen en wetten, etc.). Het formuleren van doelstellingen is een omweg die veel tijd en energie kost: wat men met het onderwijs bedoelt kan efficiënter meteen worden vastgelegd in concrete teksten en toetsvragen daarover. Alleen wanneer men toetsvragen als kunstuitingen ziet, lijkt deze kortere weg geblokkeerd.

cesuurbepaling


In het onderwijs gaat het bij het beoordelen bij uitstek om het 'voldoende of onvoldoende niveau' van de leerling. Het leggen van de grens tussen beide niveaus, de cesuurbepaling, is een controversiëel onderwerp. Door De Groot en Van Naerssen zijn pogingen ondernomen de cesuurbepaling op rationele gronden te doen plaatsvinden; de daaruit resulterende 'kernitem methoden' (De Groot en Van Naerssen, 1975) voldoen echter niet aan de (ook juridische) eis, dat de docent inziet wat er gebeurt en zijn eindbeslissingen kan verantwoorden zonder te verwijzen naar de autoriteit van 'de computer' of van een psychometricus.

De tweede helft van de zeventiger jaren zag een stortvloed van studies naar besliskundige methoden voor cesuurbepaling. Deze veelbelovende richting van onderzoek werd echter abrupt en dramatisch afgebroken door Van der Linden (1980), die in zijn overzichtsartikel verklaarde dat de besliskundige benadering geen methode voor cesuurbepaling is, maar een techniek om de gevolgen van meet- en steekproeffouten te minimaliseren. Dit oordeel van Van der Linden werd in het betreffende themanummer van Applied Psychological Measurement door andere onderzoekers overgenomen, waarmee het besliskundige paradigma voor cesuurbepaling effectief werd losgelaten. Sinds 1980 wordt geprobeerd met oude koeien als de methode Nedelsky of Angoff in eclectische of compromisachtige combinaties nog iets te fokken dat de schijn van relevantie heeft. De breuk in deze lijn van onderzoek is dramatisch omdat het oordeel van Van der Linden berust op een misvatting, zoals ik in enkele eerdere publicaties al had laten zien (Wilbrink 1980abcd). De misvatting is dat voor de toepassing van besliskundige technieken allereerst een 'ware aftestgrens' zou moeten worden aangewezen met behulp van een niet-besliskundige methode. De besliskundige aanpak vooronderstelt geenszins het bekend zijn van zo'n 'ware aftestgrens', en het opmerkelijke is dat Van der Linden in zijn conclusies wel mijn suggestie overneemt dat besliskundige methoden formeel geen 'ware aftestgrens' bekend veronderstellen. Als dat 'formeel' zo is, dan is dat ook voor alle praktische doeleinden zo. Het is de hoogste tijd dat deze lijn van onderzoek wordt heropend.

Besliskundige methoden voor cesuurbepaling kunnen op natuurlijke wijze worden geïntegreerd in de al genoemde modellen voor toetsen als sturingsmechanisme. Ook is er een helder verband met de eis van doorzichtigheid: leerlingen in staat te stellen het risico te dragen om met een enkel puntje beneden de cesuur te 'zakken'. Uiteraard geldt voor leerlingen met een stofbeheersing die precies correspondeert aan de cesuur dat het louter van het toeval afhangt of zij een voldoende scoren; dat is alleen billijk zijn wanneer de leerlingen zelf voor dat risico hebben gekozen. Leerlingen hebben recht op informatie vooraf die hen althans in principe in staat stelt een reële schatting te maken van het risico om, gegeven de eigen stofbeheersing, toch nog te 'zakken' (door een combinatie van meetfouten van de toets en van eigen schattingsfouten).

Merk op dat doorzichtigheid van de cesuur impliceert dat de plaats van de cesuur tevoren ten minste bij benadering bekend moet zijn bij de leerlingen. De eis van doorzichtigheid leidt zodoende tot absolute aftestgrenzen voor iedere afzonderlijke toets. Dat neemt niet weg dat de hoogte van de te stellen cesuur mede kan worden bepaald door wat redelijkerwijs van een groep leerlingen als deze mag worden verwacht, blijkens ervaringen in het nabije verleden. Met andere woorden: de absolute cesuur voor iedere afzonderlijke toets kan op relatieve wijze worden bepaald. Filosoferen over de plussen en minnen van absolute versus relatieve beoordeling kan tot de verleden tijd behoren.

Niettegenstaande al dit moois blijft een cesuur een hakmes waarmee wel eens al te grof wordt gekapt, denk bijvoorbeeld aan overgangsbeslissingen. Men moet een open oog houden voor ongewenste gevolgen die kunnen worden weggenomen met eenvoudige (snelle herkansingen, verlengde toetsing, compensatorische methoden) of minder eenvoudige (afschaffen van jaarklassen) maatregelen.

het combineren van oordelen


Wie alle aandacht concentreert op de kwaliteit van toetsen loopt het risico een groter problematiek niet in het oog te krijgen: veel beslissingen worden gebaseerd op een of andere combinatie van cijfers voor meerdere proefwerken, voor verschillende vakken, of zelfs van studieresultaten met gegevens over de persoonlijkheid van de leerling. En dan gaat het nog om expliciet, zij het vaak met veel vijven en zessen (De Groot 1966), genomen beslissingen. In gewone onderwijsloopbanen van bijna 20 jaar vormen de beslissingen die jaar op jaar worden genomen zelf een sequentiële combinatie, waar niemand verantwoordelijkheid voor neemt (de aanklacht van Posthumus).

Is het dan niet zo dat wanneer iedere toets afzonderlijk goed is, dan ook alles goed is? Nee, vanwege een statistische wet die, met P. Vroon, het Oosterscheldedameffect kan worden genoemd: al is er maar een kleine (op zich aanvaardbare) kans dat een gegeven schuif op het kritieke ogenblik niet kan worden gesloten, dan volgt daaruit toch nog een grote (volstrekt onaanvaardbare) kans dat de dam in zijn geheel kopje onder gaat omdat ten minste een van de tientallen schuiven niet kan worden gesloten. De combinatieregel voor de Oosterscheldedam is conjunctief: alle schuiven moeten dicht zijn anders wordt de dam weggespoeld. Ook voor de snellekweekreactor te Kalkar geldt de conjunctieve regel dat alle systemen veilig moeten zijn voordat de reactor kan worden opgestart. Het punt is nu, dat de mens typisch niet in staat is om conjunctieve waarschijnlijkheden zelfs maar ergens in de buurt van de werkelijke orde van grootte in te schatten (bv. Cohen, Chesnick, & Haran 1971; algemeen: Kahneman, Slovic, & Tversky 1982). De ramp voor ons onderwijs is dat combinatieregels bij examens, overgangsbeslissingen e.d. veelal conjunctief zijn, terwijl ook de sequentiële beslissingen conjunctief uitwerken omdat zij bepaalde verdere loopbanen afsnijden. Vanuit de leerling bezien is de feitelijke situatie dat hij redelijkerwijs niet in staat is het zakrisico voor een examen binnen aanvaardbare grenzen te houden wanneer cijfers voor afzonderlijke vakken conjunctief worden gecombineerd (zie voor enkele modelberekeningen Wilbrink, 1978). De reden dat leerlingen daar niet tegen protesteren is dat zij evenmin bij machte zijn dit verschijnsel in zijn ware aard te 'zien'.

De conjunctieve val doet zich ook voor wanneer men denkt goede redenen te hebben om psychologische tests conjunctief tot een eindoordeel of selectieve beslissing te combineren: Lord (1962) laat zien dat er altijd enig compensatorisch water in de conjunctieve wijn moet worden gedaan als men beslissingen wil optimaliseren, omdat er nu eenmaal geen perfect valide tests bestaan. In het onderwijs is de situatie ongunstiger omdat toetsen doorgaans bepaald geen kleine standaardmeetfout hebben, en omdat de combinatie niet twee of drie, maar veelal tien of meer toetsen betreft. Uit de doorzichtheidseis vloeit nog een extra onzekerheidsfactor voort: de leerling kent de eigen 'ware' stofbeheersing slechts bij ruwe benadering en wordt daardoor extra gehinderd in het voorspellen van eigen studieresultaten en daarmee bij het voeren van een adequate studiestrategie.

Weerstanden tegen afschaffen van conjunctieve beslissingsregels in het onderwijs zijn groot, en zouden donders snel moeten worden afgebroken. Er zijn, naast de gegeven overwegingen van statistische aard, nog wel enkele argumenten voor zo'n bekering aan te voeren. Iedere toets is op zich een compensatorische combinatie is van de afzonderlijke toetsvragen. De talrijke beslissingsregels in het onderwijs vormen in feite een wonderlijk inconsistent allegaartje van zowel conjunctieve als compensatorische regels. Stug en star volhouden dat een arts nu eenmaal overal voldoende vanaf moet weten, en dat er daarom geen ruimte kan zijn om mindere resultaten voor een enkel vak te compenseren door betere op andere vakken, moet consequent leiden tot de opvatting dat iedere score minder dan 100 % goed op een afzonderlijke toets evenzeer onaanvaardbaar is.

Leren voor beheersing is een in beginsel conjunctief model dat dan ook gevoelig is voor verspilling van tijd en energie wanneer men rigide vasthoudt aan relatief hoge eisen (en er is al snel sprake van hoog in deze context) bij een opeenvolging van deeltoetsen (voor een alternatief zie Wilbrink, 1980b).

peetmoeder psychometrie


De psychologische test is een meetinstrument dat een resultaat geeft dat in samenhang met zijn standaard meetfout moet worden geïnterpreteerd. De toets in het onderwijs daarentegen levert een cijfer op dat als zodanig betekenis heeft in termen van slagen of zakken, hoe groot de meetfout ook is. De leerling wordt zelf verantwoordelijk gehouden voor zijn studieprestaties, iets dat ondenkbaar is waar het bijvoorbeeld scores op een intelligentietest betreft. Deze verschillen in het gebruik van tests en toetsen vragen om argwaan wanneer begrippen en technieken uit de psychometrie worden geleend zonder argumentatie waarom deze ook voor toetsen adequaat zouden zijn. Ik heb in mijn 'Toetsvragen schrijven' de heling van enkele psychometrische items aan het licht gebracht, waarvan ik enkele kort zal aanstippen.

Schadelijk voor het onderwijs is het met huid en haar slikken van de onderliggende filosofie van het psychometrische bouwwerk: dat het er vooral om gaat om verschillen tussen studenten (betrouwbaar en valide) te meten. De Groot heeft met zijn pleidooi voor doorzichtigheid impliciet benadrukt dat het afgelopen moet zijn met het met elkaar vergelijken van leerlingen: de individuele leerling concurreert niet direct met anderen (zoals binnen het werkingsgebied van de wet van Posthumus altijd het geval is), maar heeft met helder geformuleerde inhoudelijke eisen te maken.

Er is een typisch Nederlandse misvatting dat keuzevragen 'objectief' zouden zijn omdat de computer de scoring kan overnemen. Deze misvatting is overgenomen in de Richtlijnen (1978) waarin overigens ook is te vinden dat computer-geproduceerde testinterpretaties nimmer klakkeloos door de psycholoog mogen worden overgenomen, en zeker niet aan ondeskundigen als bv. artsen ter beschikking mogen worden gesteld. Het punt is uiteraard dat het vaststellen van de scoringssleutel gewoon mensenwerk is, met alle ruimte voor het subjectieve oordeel zoals die ook bij het nakijken van open vragen bestaat.

Afzonderlijke vermelding verdient de overdreven en verkeerd gerichte aandacht die aan de 'betrouwbaarheid' van toetsen wordt besteed. Stanley (1970) begint een lang en doorwrocht artikel over dit onderwerp met uit te spreken dat betrouwbaarheid pas van belang is wanneer tussen overigens even valide toetsen moet worden gekozen (kies dan de minst betrouwbare, omdat deze het grootste potentiëel heeft voor verhoging van zijn validiteit door bv. toetsverlenging!). Iedere student psychologie is in de gelegenheid te vernemen dat betrouwbaarheid niet meer is dan een voorwaarde voor het kunnen hebben van enige validiteit, en dat het uiteraard alleen op die validiteit aankomt. Woorden, woorden, het zijn allemaal woorden. In de praktijk van het onderwijs wordt de kwaliteit van toetsen vermangeld omdat men probeert de 'KR 20' omhoog te manipuleren (bv. door veel te moeilijke vragen te gebruiken, of door achteraf toetsvragen weg te laten ....), en wordt de validiteitsvraag met de vuilnisman meegegeven. Het onderwijsveld kan zodoende de wet van Posthumus niet loslaten, en vindt zijn legitimering daarvoor in de eigen interpretatie van toetsdeskundige voorlichting.

Richtlijnen voor tests en toetsen


Het beoordelen zoals dat in het onderwijs gebeurt heeft verreikende consequenties voor de leerlingen, die zich voor hun verdere carrière binnen de school afhankelijk weten van hun beoordelaar, en die bovendien vaak minderjarig zijn. Het is harde noodzaak dat beoordelaars zich houden aan de elementaire regels van het recht zoals die in onze samenleving gelden, en bovendien aan vastgelegde richtlijnen voor wat als professioneel handelen mag worden beschouwd. Dergelijke richtlijnen zijn voor ons land beschikbaar: de 'Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen', uitgegeven door het Nederlands Instituut voor Psychologen. Het is jammer dat het onderwijzende deel van Nederland zich van het bestaan van dergelijke Richtlijnen niet bewust is. Als ik zo in mijn eigen omgeving zie hoe er in scholen wordt gerommeld en gerotzooid met psychologische tests en zelfs met ongewapende oordelen over de persoonlijkheid van de leerling, kan het niet anders dat zowel docenten als ouders behoefte hebben aan het houvast dat dergelijke richtlijnen kunnen bieden. Wat is de kracht van deze Richtlijnen? Het hangt af van de welwillendheid en de professionele instelling van de individuele beoordelaar of deze zich naar de letter en de geest van de Richtlijnen wil gedragen. De ervaring in de Verenigde Staten met de 'Standards' (APA 1974, 1984) is overigens dat de rechter in toenemende mate deze Standards mede hanteert bij het oordelen over wat behoorlijk is bij het testen en toetsen (Lerner, 1978). In Nederland stapt men niet zo gemakkelijk naar de rechter, en zo kan het nog lang duren voordat evidente misstanden kunnen verdwijnen.

Toch zijn er in de jurisprudentie van de nog jonge Colleges van Beroep voor de Examens (art. 40 WUB) al interessante uitspraken te vinden (Backx, Craemer, Ham, & Meerburg, 1983; zie Cohen voor jurisprudentie van de oudere facultaire geschillencommissies). Zo is het ongeoorloofd om achteraf toetsvragen weg te laten alleen omdat de betreffende vragen niet aan een statistisch criterium (p-waarde, r-bis) zouden voldoen. Zo kan een docent zich voor het gebruik van een door een computerprogramma voor toetsanalyse geboden optie niet beroepen op louter de aanwezigheid van die mogelijkheid of op de autoriteit van de auteur van dat programma.

De huidige, eerste, versie van de Richtlijnen (1978) zal worden opgevolgd door een nieuwe versie. Het zou een goede zaak zijn wanneer het onderwijsveld breed wordt betrokken bij het opstellen van dat deel van de richtlijnen dat op toetsen betrekking heeft (en niet alleen op het gebruik van 'studietoetsen'). Mijns inziens zullen vooral de in voorgaande paragrafen aangestipte zaken in enigerlei vorm een plaats in de Richtlijnen moeten vinden. Dat is temeer van belang waar er in de huidige versie nog sprake is van een al te gemakkelijk er vanuit gaan dat wat passend is bij psychologische tests, dat ook is bij toetsen. Er zijn voldoende verschillen tussen (het gebruik van) toetsen en tests om te kunnen stellen dat het construeren van een analogie van tests naar toetsen voor het onderwijs een minder gelukkige ontwikkeling is geweest die enige correctie behoeft.

LITERATUUR



American Psychological Association, Standards for educational and psychological tests. Washington, D.C: auteur, 1974. (in 1984 is een herziening verschenen). [En daarna nog in 1999; helaas niet online beschikbaar. isbn 0935302255]

Applied Psychological Measurement. Special issue: Contributions to criterion referenced testing technology, 1980, 4, #4. inhoudsopgave

Backx, D., G. Craemer, J. Ham, & J. Meerburg (de commissie rechtspositie studenten). Uitspraken 'Colleges van Beroep voor de Examens' (art. 40 WUB), 1 september 1981 tot 31 december 1982. Landelijk Beraad Studentendecanen, 1983.

Bloom B. S. (Ed.). Taxonomy of educational objectives. Book 1 Cognitive domain. New York: David McKay Company, 1956. [zie ook: David R. Krathwohl (2002). A revision of Bloom’s taxonomy: An overview. Theory into Practice, 41, 212-264. pdf]

Cohen, J., E. I. Chesnick, & D. Haran. Evaluation of compound probabilities in sequential choice. Nature, 1971, 32, 414-416. Reprinted in Kahneman, Slovic & Tversky (1982). abstract

Cohen, M. J. Studierechten in het wetenschappelijk onderwijs. Zwolle: Tjeenk Willnk, 1981.

Graesser, A. C., & J. B. Black (Eds.). The psychology of questions. London: Lawrence Erlbaum Associates, 1985.

de Groot, A. D. Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: Wolters, 1966.

de Groot, A. D. Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 1970, 25, 360-376. html

de Groot, A. D., & R. F. van Naerssen (red.). Studietoetsen construeren, afnemen, analyseren. Den Haag: Mouton, 1975.

Hofstee, W. K. B. Selektie van personen. Inaugurele rede. Assen: Van Gorcum, 1970.

Iest, K., & B. Sloot. Positieve discriminatie en de Amerikaanse grondwet - De zaak Bakke. Nederlands Juristenblad, 1979, 54, 597-608.

Kahneman, D., P. Slovic, & A. Tversky (Eds.). Judgment under uncertainty: heuristics and biases. London: Cambridge University Press, 1982.

Lerner, B. The Supreme Court and the APA, AERA, NCME Test Standards: past references and future possibilities. American Psychologist, 1978, 33, 915-919. eerste pagina

van der Linden, W. J. Decision models for use with criterion-referenced tests. Applied Psychological Measurement, 1980, 4, 469-492. abstract

Lord, F. M. Cutting scores and errors of measurement. Psychometrika, 1962, 27, 19-30. abstract

Lord, F. M., & M. R. Novick. Statistical theories of mental test scores. London: Addison-Wesley, 1968.

Madaus, G. F. (Ed.), The courts, validity, and minimum competency testing. Boston: Kluwer-Nijhoff, 1983.

Millman, J. (Ed.). Handbook of teacher evaluation. London: Sage Publications, 1981.

van Naerssen, R. F. Over optimaal studeren en tentamens combineren. Openbare les. Amsterdam: Swets en Zeitlinger, 1970. html

Nederlands Instituut voor Psychologen. Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: auteur, 1978. [laatste editie: 1988]

Posthumus, P. Middelbaar onderwijs en schifting. De Gids, 1940, 104 deel 2, 24-42. integraal op dbnl.nl

Raad voor het Jeugdbeleid, Je recht komt met de jaren. Amsterdam: auteur, 1984.

Stanley, J. C. Reliability. In Thorndike (1970).

Thorndike, R. L. (Ed.). Educational Measurement. Washington, D.C.: American Council on Education, 1970.

Wesman, A. G. Writing the test item. In Thorndike (1970).

van Westrhenen, J. De toetsing van onderwijsdoelen. Een empirische studie naar de functie van begrippen en begrippenstructuren in het onderwijsleerproces. Groningen: Wolters-Noordhoff, 1977.

Wilbrink, B. Studiestrategieën. Amsterdam: COWO, 1978. html

Wilbrink, B. Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor Onderwijsresearch, 1980, 5, 49-62. (a) html

Wilbrink, B. Enkele radicale oplossingen voor kriterium gerefereerde grensskores. Tijdschrift voor Onderwijsresearch, 1980, 5, 112-125. (b) html

Wilbrink, B. Passing scores on domain referenced tests: an improved decision-theoretic methodology for optimization. Amsterdam: COWO, 1980. (c) pdf

Wilbrink, B. Cesuurbepaling. Amsterdam: COWO, 1980. (d) html

Wilbrink, B. Toelating tot numerus fixus studies opnieuw in discussie. Universiteit en Hogeschool, 1980, 27, 179-199. (e) html

Wilbrink, B. Beleid bij tentamens en examens. In A.I. Vroeijenstijn (redactie): Kwaliteitsverbetering hoger onderwijs. Vierde Nationaal Congres Onderzoek van het Wetenschappelijk Onderwijs, 1980, 380-409. (f) html

Wilbrink, B. Toetsvragen schrijven. Utrecht: Het Spectrum, 1983. html

Wilbrink, B., en W.K.B. Hofstee. Docentbeoordeling: mogelijkheden en randvoorwaarden. Onderzoek van Onderwijs, 1984, 13, 52-55. html

Winslow, G. R. Triage and justice: the ethics of rationing life-saving medical resources. London: University of California Press, 1982.



Aantekening juli 2023

Ik heb het nog eens gelezen. Het is een geweldig stuk, het geeft in kort bestek aan waar ik stond na 10 jaar intensief met beoordelen bezig te zijn geweest. De reden om zoiets op dat moment (1985) te doen was de opheffing van mijn werkplek (1e-geldstroom). Een testamentje hè!


Ik heb hetzelfde nog eens gedaan in 2017, voor ResearchEd in Amsterdam (Amstelveen): https://benwilbrink.nl/publicaties/17assessment.htm Dat is 30 jaar later. In die 30 jaar zijn mijn inzichten aanzienlijk uitgebreid, maar slechts op details in het hoofdstuk uit 1986 veranderd. Zo zou ik nu niet meer speken over meetfouten bij toetsen, omdat dat niet past bij het trekken van steekproeven uit de leerstof. Afijn, afgerond is het nog geenszins: grote projecten zoals het ontwerpen van toetsvragen en het SPA-model zijn blijven steken in de ontwikkelingsfase (ik beschouw Aula 809 uit 1983 als slechts een eerste tussenstation; het SPA-model was onderwerp voor een proefschrift dat er dus ook niet is gekomen, al was het smaakmakende eerste hoofdstuk al wel afgerond, en wordt dat ook ruim geciteerd in de wetenschappelijke literatuur: https://benwilbrink.nl/publicaties/97AssessmentStEE.htm



Later developments





M. L. Smith (1991). Put to the test: The effects of external testing on teachers. Educational Researcher, 20(5), 8-11. eerste pagina

M. L. Smith and C. Rottenberg (1991). Unintended consequences of external testing in elementary schools. Educational Measurement: Issues and Practice, 10(4), 7-11. [Zie ook Gregory J. Cizek (2011). More unintended consequences of high-stakes testing. Educational Measurement: Issues and Practice, 20, 19-27 final draft]


Items missed




George Engelhard, Jr. (4-1988). Thorndike's and Wood's Principles of Educational Measurement: A View from the 1980's. paper


Voor een recent artikeltje in voorbereiding, waarin dit akkertje van toetsen en testen opnieuw wordt geploegd en ingezaaid, zie html.

De inhoud: De benadering voor het ontwerpen van toetsen is eenzijdig in deze zin dat het meestal alleen om over te dragen kennis gaat diw wordt getoetst. Nu is het bijvoorbeeld in het natuurkunde-onderwijs zo dat leerlingen daaraan beginnen met sterke naieve modellen over de wereld, en dat het natuurkundige model (van Newton) daaraan ongeveer tegenovergesteld is. Dat levert enorme problemen op, zowel voor onderwijs en toetsing, waar de laatste decennia in het natuurkundige veld gelukkig een enorme belangstelling voor is: er wordt van alles aan gedaan om onderwijs en toetsing in te stellen op de taak van het onderwijs: bij de leerlingen/studenten een omslag in hun mentale model, een verandering in hun begrijpen van de wereld, tot stand te brengen.
Een en ander brengt de adviseur over onderwijs en toetsing in ernstige problemen op al die plaatsen waar er aanwijsbaar een vergelijkbare problematiek is, zonder dat die bij de wortel wordt aangepakt. Eisen van constructvalidering komen dan op gespannen voet te staan met de bestaande onderwis- en toetspraktijk. Een razend interessante thematiek, waarin noch de klassieke, noch de moderne psychometrie ons tot leidraad kan zijn, maar de richting door de betrokkenen op de werkvloer zelf zal moeten worden aangegeven.


juli 2023 \contact ben apenstaartje benwilbrink.nl

Valid HTML 4.01!   http://www.benwilbrink.nl/publicaties/86ToetsenEnTestenSVO.htm http://goo.gl/1NTQC