Ben Wilbrink: rekentoets normering

De redactie van de WiskundE-brief vroeg mij om een kritische noot bij de methode die het CvE volgt voor het vaststellen van de aftestgrens bij de rekentoetsen (examens vo en mbo), zoals samengevat in de WiskundE-brief 620. Het blijkt, niet geheel tot mijn verbazing, dat ik niet kan volstaan met enkele aantekeningen bij de methode om ‘deskundigen’ die aftestgrens te laten aanwijzen. Immers, de validiteit van die rekentoetsen is omstreden, terwijl ze toch deelnemen in de kernvakkenregeling. Kandidaten kunnen al op hun rekentoets voor het examen zakken, zodat ze daar niet meer voor mogen opkomen. Dan doen ze maar staatsexamen, heeft het ministerie laten weten. Onder die omstandigheden een groep ‘deskundigen’ vragen om dan toch maar een aftestgrens te bepalen, is eigenlijk onethisch. Kortom, kritische analyse is hoognodig.

In de WiskundE-brief 621 van 20 januari staat mijn inleiding op het onderwerp. De samenvatting hierbeneden is wat technischer van karakter, en verwijst daarom ook telkens naar de relevante passages.

Samenvatting.

Het CvE-recept voor de normering van de rekentoetsen ( zie de beschrijving in de WiskundE-brief 620; gebaseerd op http://goo.gl/3m2uc [Cito]) zit complex in elkaar (is het leerlingen uit te leggen?). En hebben deze dokters (CvE en Cito) wel naar de patiënt gekeken? Met wat voor dokters hebben we hier eigenlijk te maken?

In deze webpagina ga ik uitvoerig in op dit cesuurprobleem —de zak-slaaggrens, de kern van de normering — want het laat zich niet in kort bestek behandelen. Aandachtspunten zijn in ieder geval:

Vooraf

In het volgende richt ik mij tot het Cito (de stichting) en het CvE. Ik beschouw het Cito en het CvE als belangrijke maatschappelijke instellingen die hun werk op wetenschappelijk niveau verrichten, hoewel het geen universitaire instellingen zijn. Een kenmerk van wetenschappelijkheid is het ontvankelijk zijn voor tegenspraak, die tegenspraak ook zoeken door openheid van zaken te geven — zowel wat gegevensverzameling betreft als over eventuele belangenverstrengeling. Hoewel het coderen van het vanzelfsprekende een tikje moeizaam is, is er tegenwoordig een code die punten zoals het omgaan met tegenspraak heeft vastgelegd: de Nederlandse Gedragscode Wetenschapsbeoefening van de VSNU.

De reden om te beginnen met een verwijzing naar de academische gewoonte van tegenspraak en debat is het gevoelen dat het Cito en het CvE niet altijd even enthousiast reageren op kritiek van derden. Het is kennelijk nodig om kritische analyse van publicaties van het Cito en het CvE te rechtvaardigen. Bij deze is dat dan gebeurd.

De positie van het Cito tegenover de rekentoetsen (en de referentieniveaus rekenen) is geen neutrale. Immers, de Cito Eindtoets Basisonderwijs is een belangrijke spelbepaler in het basisonderwijs: de specifieke keuzen die in een ver verleden zijn gemaakt wat de ‘rekenopgaven’ in de Eindtoets betreft (zie opmerkingen daarover door Treffers en Van der Blij, 1985 zie hier), hebben niet alleen invloed gehad op het rekenonderwijs zelf, maar hebben ook geleid tot een partijdig (biased) beeld dat overheid en samenleving hebben over de kwaliteit van het rekenonderwijs in het primair onderwijs. Op dat laatste biedt de PPON een zekere correctie, zoals vooral bij de PPON 2004 nadrukkelijk is gebleken (zie bijvoorbeeld het promotieonderzoek van Marian Hickendorff 2011). Waarom schrijf ik dit: het is niet onmogelijk dat de werkwijze van het Cito in het verleden het mede mogelijk heeft gemaakt dat er nu dusdanig ernstige rekentekorten zijn dat de overheid meent nu rekentoetsen bij de eindexamens te moeten voorschrijven. Het is daarom niet vanzelfsprekend om het Cito bij de inrichting en afname van deze rekentoetsen opnieuw een bepalende rol te geven. Nu dat toch is gebeurd, is het goed om het Cito extra kritisch te volgen, en bijvoorbeeld de Cito-benadering van de rekentoets-3F te leggen naast de Cito-benadering van de rekenopgaven in de Cito Eindtoets Basisonderwijs (waar zich recent een CvE-commissie onder voorzitterschap van Jan Karel Lenstra over heeft gebogen pdf). Immers, als de inrichting van de rekentoetsen in grote trekken dezelfde is als die van de rekenopgaven bij de Eindtoets Basisonderwijs, is het een terechte vraag of een zo ingerichte rekentoets wel kan bijdragen aan de oplossing van de rekenproblemen van Nederland.

Deze pagina is een vooroefening voor (1) een zeer veel korter stuk dat meegaat in de 621 van 20 januari, (2) een korter en strakker artikel in een tijdschrift (ik mik op Examens Tijdschrift voor de Toetspraktijk omdat dit het tijdschrift van de Vereniging voor Examens is, een vereniging waarin Cito en CvE zich thuis voelen).

Dit is werk in uitvoering. Zo zijn literatuurverwijzingen meest nog niet netjes afgewerkt. Nog uit te werken punten zijn al wel genoemd, en dat kan er voor anderen best wat raadselachtig uit zien. Met het annoteren van de tekst van het normeringsstuk van het CvE is nog nauwelijks een begin gemaakt.

Inleiding

Het CvE heeft op zijn website een toelichting gegeven op de normering voor de rekentoetsen-2F en -3F. Zie ook de website van het Cito. Ik zal de opstelling van het CvE uiteraard kritisch analyseren, maar voor dit moment volsta ik met te signaleren dat de CvE-aanpak uitgaat van wat de leerlingen presteren en van wat een groep deskundigen meent dat leerlingen zouden moeten kennen en kunnen om juist voldoende, ruim voldoende, respectievelijk onvoldoende te scoren. Zie de kortere beschrijving die de redactie van de WiskundE-brief in brief 620 publiceerde.

De typische benadering van de deskundige die al vele decennia met dit bijltje heeft gehakt is die van de omtrekkende beweging. Ik zal dus beginnen met voor mijzelf een waslijst van aandachtspunten op te stellen, om pas daarna en dan goed gewapend te analyseren wat het CvE in zijn wijsheid heeft gekozen als aanpak van het probleem dat de overheid heeft bepaald dat de rekentoetsen meedoen in de kernvakkenregel.

democratie?

Ik zal straks aannemelijk maken dat de methode die het CvE wil gebruiken om de grens tussen voldoende en onvoldoende te trekken, tot een willekeurig resultaat leidt. Dit is evenwel niet de enige gelegenheid waarbij het CvE en het Cito vergaande besluiten nemen die liggen besloten in de opdracht van OC&W, en die tegelijk omstreden zijn, althans aanvechtbaar. Maar dat is niet het hele verhaal: tegelijk laten deze instellingen en hun werknemers na om eigen verantwoordelijkheid te nemen, daar waar OCW onbedoeld steken heeft laten vallen. Er zijn hier dus twee stellingen, die beide zijn te onderbouwen.

Stelling 1. Het CvE en het Cito treden eigenmachtig op in belangrijke kwesties die door opdrachtgever OC&W — de overheid — onbedoeld zijn opengelaten

Stelling 2. Het CvE en het Cito nemen geen eigen verantwoordelijkheid in belangrijke kwesties die door opdrachtgever OC&W — de overheid — impliciet of expliciet zijn meegegeven in de opdracht

Ik noem enkele belangrijke punten, waar het Cito als wetenschappelijk instituut een eigen verantwoordelijkheid heeft, en waar het CvE als niet nadrukkelijk een wetenschappelijk college, zich zou kunnen onthouden van het innemen van standpunten die wetenschappelijk van aard zijn.

Meerdere van de genoemde punten zullen hierbeneden nog aan de orde komen. Op dit moment volstaat het te concluderen dat deze rekentoetsen toch een reeks van problemen met zich meedragen, zodat een oefening om een grens tussen ‘onvoldoende’ en ‘voldoende’ te trekken nogal dubieus is. Eerst maar eens orde op zaken stellen, Cito en CvE, en dan eens kijken of en zo ja hoe er een grens tussen onvoldoende en voldoende scoren valt te trekken.

cijfergeven?

Het willen vaststellen van een grens voldoende/onvoldoende staat in onze onderwijscultuur gelijk aan het vaststellen van de score die nog net met een ‘vijf’ wordt gewaardeerd, respectievelijk de score die nog net met ‘zes’ wordt gewaardeerd. Het zou een vermakelijk probleem kunnen zijn, ware het niet dat grote groepen leerlingen iedere keer weer enigszins in de maling worden genomen. A. D. de Groot heeft er een klassiek boek over geschreven: Vijven en zessen. Klassiek of niet, op mijn rechtstreekse vraag of hij ook gezocht had naar de uitvinding of althans naar oorsprongen van dit cijfergeven, antwoordde Adriaan mij, tot zijn eigen verbazing, dat hij moest bekennen zichzelf die vraag nooit gesteld te hebben.

Stelling 3. Het CvE haakt in op het traditionele cijfergeven, zonder te weten wat dit eigenlijk voor een waarderingsmethode is

Traditioneel bestond het beoordelingssysteem uit het tellen van gemaakte fouten, en het vervolgens rangordenen van de leerlingen naar rato van die aantallen fouten. De beste leerling kreeg dan bij de ceremonie aan het eind van het schooljaar een prijsboek uitgereikt, geheel volgens de humanistische idee dat het beter is om prestaties te belonen, dan falen te straffen (ezelsmuts, de plak, de vogel).

In de wetenschappelijke negentiende eeuw zag men kennelijk wat scherper de zwakke kanten van dit beoordelingssysteem, en verving althans het rangordenen door allereerst een ‘vaste’ rangordening van bijvoorbeeld 1 naar 10, ongeacht het aantal leerlingen of examenkandidaten. Op deze manier kon worden ondervangen dat een eerste plaats in een groep van 10 toch echt een andere betekenis heeft dan een eerste plaats in een groep van honderd. Dat in dit systeem meerdere leerlingen eenzelfde rangplaats moeten delen, is onvermijdelijk. Een volgende verbetering is dan om niet noodzakelijk altijd de hele ranglijst van 1 tot 10 te gebruiken: als er geen echt mindere prestaties zijn, dan kun je bijvoorbeeld bij ‘vijf’ beginnen te tellen. Idem wanneer er geen echt goede prestaties zijn geleverd. Laat dan ook nog los dat leerlingen gelijkelijk verdeeld moeten worden over de rangcijfers, en dan hebben we ons huidige cijfersysteem. Of de cijfers optellen of aftellen, maakt niet uit; evenmin of de cijfers van 1 tot 5, of tot 10, of twintig gaan. Europa kent heel veel van dergelijke varianten.

Heeft een dergelijke overgang ooit aantoonbaar ergens plaatsgevonden? Ja, bij de Franse agrégation in het tweede kwart van de negentiende eeuw, zie Wilbrink (1997 concept). Mogelijk is iets dergelijks op meerdere plaatsen, onafhankelijk van elkaar, gebeurd. Het nieuwe, meer ‘wetenschappelijke’ systeem was aantrekkelijk voor anderen om over te nemen. In Nederland was het laatste gymnasium dat zijn rangordenboekjes inruilde voor het moderne cijfersysteem het Groningse gymnasium, na het overlijden van zijn zeer bejaarde rector in 1903.

Het punt is, maar dat hebt u wel begrepen, dat er niets absoluuts aanwezig is in deze cijferbeoordelingen. In essentie zijn alle cijferwaarderingen nog steeds rangordeningen.

Dit impliceert dat het ergens trekken van een scheidingsstreep — cesuur — tussen wat nog juist onvoldoende is, en wat juist voldoende is, een daad van willekeur is. Die willekeur wordt meestal versluierd in allerlei toelichting en goede bedoelingen, daar niet van. Alfred Wald (1985) heeft dat eens mooi kunnen demonstreren aan de hand van wat meer dan honderd schoolleiders onafhankelijk van elkaar stelden wat een juiste manier is van beoordelen, cijfergeven, en overgangsbeslissingen nemen. Dat bleken bijna evenveel verschillende manieren te zijn als er invullers van de vragenlijst waren. Wat alleen maar kan betekenen dat iedereen maar wat doet, waarbij het te hopen is dat dit willekeurige beleid op zijn minst dan nog van jaar op jaar intern consistent blijft.

Zou het CvE dan wél een rationeel onderbouwde methode voor het aanwijzen van de cesuur presenteren? Dat lijkt me onwaarschijnlijk. Maar de methode die het CvE aanreikt zal best op enige consistentie van jaar tot jaar kunnen bogen, zij het dat er geen garantie valt te geven dat eenmaal bepaalde normen van jaar tot jaar op ‘hun plek’ blijven.

Alfred Wald (1985). ‘Een jaartje overdoen. Verslag van het SVO-symposium over zittenblijven in het voortgezet onderwijs.’ SVO / Swets & Zeitlinger.

Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23, 31-48. concept

Net gezakt? Pech?

Over cesuren bestaan nogal wat verwarde ideeën. Zoals van A. D. de Groot (1972: Selektie voor en in het hoger onderwijs): wanneer iemand op een enkel puntje verschil zakt in plaats van slaagt, is zoiets niet inhoudelijk te rechtvaardigen. Op zich is dat een juiste constatering. Maar De Groot liet het daarbij, en dan is er toch een probleem: als een afwijzende beslissing niet inhoudelijk is te rechtvaardigen, en een andere rechtvaardiging is niet in de aanbieding, dan is de enig mogelijk rationele conlusie immers dat deze beslissing onjuist is.

Stelling 4. We moeten Plato laten rusten in zijn grot.

De bovenstaande redenering van De Groot is verwant aan de vaak gegeven analyse dat bij zak-slaagbeslissingen er vier categoraal verschillende uitkomsten zouden zijn: terecht geslaagd, terecht gezakt, ten onrechte gezakt, ten onrechte geslaagd. Dit is vooral platonische flauwekul, omdat niemand voor Plato kan spelen en aan kan wijzen welk Jan, Piet of Marie in welke categorie thuishoort. Een redenering zoals deze is bijvoorbeeld te volgen in de reactie van Zwitser & Béguin (2011 pdf) op Wilbrink & Hulshof (2011 pdf).

Een subtielere variant van deze drogreden vinden we in de literatuur over criterium-gerefereerd testen, einde zeventiger en begin tachtiger jaren: voor het langs besliskundige weg vinden van de juiste cesuur op de toetsscores zou het om te beginnen nodig zijn om op de onderliggende trek van ware beheersing de scheiding tussen voldoende en onvoldoende beheersing aan te wijzen. Platonischer kan het niet. Ik heb in 1980 html aangetoond dat dit model onjuist is, en een alternatief gegeven waarin wel degelijk langs beslskundige weg een cesuur kan worden bepaald zonder eerst een cesuur op een onderliggende ware beheersing aan te moeten wijzen. Maar zo raak ik in het volgende onderwerp.

Hoe kan het wel, dan?

Stelling 5. De kandidaat moet het risico kunnen dragen

De ingrediënten voor deze probleemsituatie waren toch eind negentiende eeuw al perfect duidelijk, zoals uitvoerig uiteengezet door de grondlegger van de mathematische statistiek: Edgeworth.

1.) Een selectief examen is niet een meting in natuurkundige zin, maar een steekproef uit het kennen en kunnen van de kandidaten.

2.) In het gebied rond de aftestgrens is er daarom sprake van een grote invloed van de toevalligheden inherent aan de betreffende steekproef: ieder examen is deels een loterij.

3.) Er is niets inherent onrechtvaardigs aan deze situatie. De kandidaten kunnen immers hun kansen verbeteren door zich beter voor te bereiden. Of, anders geredeneerd: als het examen niet gericht is voor te bereiden omdat het een onderzoek is naar capaciteiten, dan hebben kandidaten met betere capaciteiten ook betere kansen.

Tegenwoordig is een analyse langs deze lijnen te verfijnen door hem besliskundig op te zetten. zoals in Nederland voor het eerst gedaan door Robert van Naerssen, voor de selectie van chauffeurs binnen de krijgsmacht. Hoe een en ander gaat voor een scherp selecterende toelatingsprocedure zoals die voor de Nederlandse Politieacademie in 1990, zie Wilbrink (1990 pdf).

Nota Bene: als een complexe selectieprocedure kan worden gesimuleerd, dan kan dat ook met het eindexamen met de kernvakkenregel, maar dat is niet de analyse die het Cito voor OCW heeft gemaakt, zie hier

Ben Wilbrink (1990). Complexe selektieprocedures simuleren op de computer. SCO UvA rapport 246 pdf

Terug naar A. D. de Groot. Een kandidaat afwijzen op een puntje verschil kan inderdaad niet inhoudelijk worden gerechtvaardigd. Een andere rechtvaardiging ligt nu evenwel binnen handbereikt: Edgeworth heeft het voorbereidende werk gedaan, De Groot zelf heeft dat afgerond in zijn artikel (1970 html) over de eis van doorzichtigheid bij toetsen en examens. Die eis komt neer op wat in stelling 5 is verwoord: de kandidaat moet het toevalsrisico van de steekproeftrekking bij zijn examen zelf dragen, en vooral ook zelf kunnen dragen.

Daarvoor is nodig dat de kandidaat zich gericht kan voorbereiden op de rekentoets, en wel zodanig dat hij een beheersingsniveau bereikt waarbij hij tevoren kan weten dat de kans om te zakken is te dragen, zeg minder dan 5%, minder dan een op twintig.

Het mag duidelijk zijn dat hier van groot belang is dat de rekentoets inderdaad een rekentoets is, niet een toets op beheersing van het Nederlands, en zeker geen intelligentietest.

Dat is mooi, maar dit geeft alleen een geruststelling wat betreft het eventueel hanteren van een cesuur voldoende/onvoldoende, maar geen handvat hoe om te beginnen zo’n cesuur op behoorlijke wijze te bepalen. (Wilbrink, 1980, geeft een besliskundige methode die in veel gevallen bruikbaar is, maar de rekentoets in de kernvakkenregeling is wel een heel specifiek geval)

Noot: het is geen onontkoombare noodzaak om met aftestgrenzen voor afzonderlijke examenonderdelen te werken. Het alternatief van compensatorisch combineren van onderdelen is ALTIJD beter. Dit is een standaardresultaat in de psychometrie, en het is mij een raadsel waarom dat bij het Cito kennelijk even is vergeten. Wie twijfelt aan dit resultaat, kan mijn simulatiemodel (1990) gebruiken om de stelling te toetsen (compatibiliteit: mijn programma draait onder het klassieke OS van Apple, nog in OS X.3 beschikbaar als de ‘Classic’ module).

andere nog uit te werken punten:

- Contextopgaven (anders dan bedragen en maten) zijn complex, bij de beoordeling moet duidelijk zijn of zowel de vertaling van de context, als het rekenen goed is, of misschien alleen het eerste, of alleen het tweede. Ook de deskundige beoordelaars zullen hier problemen mee hebben, wanneer deze zo verschillende zaken niet uit elkaar worden getrokken. Het is toch een wonderlijke zaak wanneer de score op de rekentoets bestaat uit een onontwarbare combinatie van wereldkennis en rekenvaardigheid: wanneer de kandidaat dan een punt te weinig scoort voor een ‘voldoende’, ligt dat dan aan de rekenvaardigheid, of aan de wereldkennis? Dit is geen gezochte vraagstelling, integendeel: een behoorlijke toets hoort dit soort zaken gescheiden te houden. Zoals een behoorlijke rekentoets uit de aard der zaak zonder rekenmachine gemaakt moet worden, omdat anders onbekend is in welke mate de score op de toets tot stand is gekomen door vaardig rekenen, danwel door knoppen te drukken. Dit is zo basaal.

- Bij de rekentoets-3S zijn wat grotere berekeningen aan de orde, waarbij het erom gaat of de leerlingen het algoritme verstandig kunnen hanteren, niet of ze foutloos kunnen werken zoals dat blijkt uit het foutloze antwoord (al weegt zorgvuldig werken natuurlijk ook mee). Wat op deze manier bij de rekentoets-3S evident is, moet dat ook zijn voor de wat ingewikkelder contextopgaven in de rekentoetsen-2F en -3F, waar de kandidaat meerdere redeneerstappen moet maken, en misschien volkomen correct redeneert maar anders dan de ontwerper van de vraag voor ogen heeft gestaan.

- Bijzonder probleem is: in hoeverre zijn eerdere documenten en zelfs wetten bindend, ook al worden zij als deels onzinnig aangemerkt door deskundigen? Een academicus mag zich immers in zijn professie niet laten leiden door aanwijzingen van derden die op gespannen voet staan met zijn onafhankelijk oordeel. Denk aan de chirurg die op aanwijzing van zijn afdelingshoofd willens en wetens een verkeerd been afzet, een misdaad die de ernst van de‘gewone’ kunstfout (door onprofessionel handelen het verkeerde been afzetten) nog teboven gaat. [verwijzing: code VSNU] [Wilbrink & Hulshof, 2011 pdf]

- een rekentoets moet een rekentoets zijn, niet een intelligentietest of een test wereldkennis. Het gaat hier immers om een examenonderdeel, niet om een psychologische test in een personeelsselectie. Er bestaat gerede twijfel of de voorbeeldrekentoets-3F wel voldoet aan deze eis [Wilbrink, Hulshof & Pfaltzgraff (2012 conceptversie; Kastelein (2012), repliek hierop, in Examens, Tijdschrift voor de Toetspraktijk, #4 ophalen, met dupliek van Wilbrink]

- Een verwant punt: psychometrie die gepast kan zijn bij personeelsselectie, is dat niet bij examens [Wilbrink (1986 html] Eenvoudig voorbeeld: bij personeelsselectie zal de werkgever willen weten welke kandidaten naar verwachting de grotere bijdrage aan zijn toekomstig bedrijfsresultaat leveren. Bij een examen gaat het niet om het vaststellen van verschillen tussen kandidaten, maar gaat het erom of de kandidaten een prestatie leveren die als afsluiting van hun opleiding geldt. Wie een mooi wiskundig model voor testgebruik bij personeelsselectie heeft opgesteld, mag dat natuuurlijk niet zonder meer ook voor onderdelen van examens gebruiken. Dat zou onprofessioneel zijn.

- voor de rekentoets moet je vrijwel gegarandeerd kunnen slagen. Dit volgt direct uit aard en bedoeling van de rekentoets. Ook de toetsdeskundigen van Cito en de examendeskundigen van het CvE moeten zich dit realiseren, en ermee omgaan.

- gegeven dat een voldoende resultaat voor de rekentoets van doorslaggevend belang kan zijn voor het behalen van het eindexamen (de overheid heeft dat zo geregeld; de rekentoets als onderdeel van de kernvakkenregeling), moet een en ander zo zijn geregeld dat bijvoorbeeld 95% van de kandidaten op voorhand niet meer dan 5% kans heeft op een onvoldoende resultaat op de rekentoets. De aftestgrens op de enige herkansingstoets is gelijk aan die bij de eerste gelegenheid (dat betekent, bij in alle opzichten gelijkwaardige toetsen: minimum aantal goed is gelijk).

- Zelfs onder deze omstandigheden zal, zeg, 1% van de eindexamenkandidaten een onvoldoende resultaat scoren op de rekentoets. Is dat acceptabel? Als ook de wiskunde onvoldoende wordt gemaakt, lijkt dat acceptabel. Als de wiskunde wél voldoende is (gesteld dat de betreffende kandidaten in de gelegenheid worden gesteld het eindexamen nog af te leggen, wat nog maar helemaal de vraag is), dan ontstaat de onaanvaardbare situatie dat kandidaten voor hun rekenen zakken terwijl hun wiskunde voldoende is.

Kunnen ‘deskundigen’ aftestgrenzen aanwijzen?

Stelling x. Maak Milgram niet wakker: check of ‘deskundige’ beoordelaars onmogelijke beoordelingen inderdaad weigeren.

- De grens voldoende-onvoldoende mag niet op willekeurige wijze worden aangewezen, dus ook niet door het willekeurige oordeel van meerdere ‘deskundigen’ samen te nemen. De reden voor dat laatste is eenvoudig: het samennemen van meerdere willekeurige oordelen sluit niet uit dat het eindoordeel een combinatie is van gemeenschappelijke partijdigheid of misvattingen die elkaar niet compenseren zoals overigens bijvoorbeeld bij meetfouten het geval is. Maar dit kan wel eens een ondergeschikt punt blijken, vergeleken met de waarschijnlijkheid dat ‘deskundige’ beoordelaars prima in staat zijn om onmogelijke oordelen te geven.

Wie bij de laatste bewering meteen denkt aan de Milgram-experimenten, zit op het juiste spoor. Wie door het Cito als ‘deskundige’ wordt uitgenodigd om mee te werken aan het bepalen van de aftestgrens voor de rekentoets-2F respectievelijk -3F, staat meteen op het verkeerde been: het Cito zal weten waar het mee bezig is, die beoordelingstaak is uitvoerbaar, dus ik zou wel gek zijn om ter plekke toe te geven dat de taak niet naar eer en geweten uitvoerbaar is. Dat ‘met eer en geweten’ staat er niet voor niets bij: het gaat hier om toetsen waarbij de inzet buitengewoon hoog is, zelfs zo hoog dat de minister van onderwijs, met haar staatssecretaris, er nog even een paar jaar voor terugdeinst.

Te verwachten is dat de uitgenodigde ‘deskundigen’ wel zullen meewerken aan de beoordelingstaken die ze krijgen voorgelegd, en zo collectief gaan zorgen voor een klein drama. Ik stel voor dat we van het Cito een methodologische garantie vragen: dat deze ‘deskundige’ beoordelaars worden getest op hun meegaandheid. Leg ze ook onmogelijke beoordelingstaken voor, om te testen of zij daarin meegaan zonder een kik te geven.

Ik moet op deze plek iets zeggen over een promotieonderzoek waarin onbedoeld dit fenomeen valt waar te nemen: van ‘deskundige’ beoordelaars werd een onmogelijke beoordeling gevraagd, en slechts twee van de proefpersonen gaven aan dat de beoordelingstaak een onmogelijke was. De overigen deden gewoon wat gevraagd werd, en kwamen op de proppen met oordelen die nog niet zo gek waren in traditionele zin. Wat ik met dat laatste bedoel: als je wordt gevraagd om een aftestgrens aan te wijzen maar je weet werkelijk niet waar je je dan aan vast kunt klampen, zoek dan iets waarvan je denkt dat er zo’n 20% van de kandidaten op zakt (de wetmatigheid van Posthumus, zeg maar). Het gaat hier om het promotieonderzoek van Van de Gaag (1990), promotor Don Mellenbergh, waar van docenten werd gevraagd het ‘nut’ van slagen versus zakken aan te geven. Dat was, zonder dat de promovenda dat besefte, een onmogelijke taak, die desalniettemin door alle proefpersonen op twee na werd uitgevoerd. Voor mij is dan weer interessant dat Van de Gaag deze onverwachte waarneming niet kon verklaren. Ik moet een en ander nog checken aan de hand van het proefschrift, maar het voorgaande is in grote lijn juist.

De eis dat aangetoond moet worden dat de ‘deskundige’ beoordelaars opgewassen zijn voor hun taak, is dus niet niks.

Tenslotte. De reden om in het voorgaande de term ‘deskundig’ voortdurend tussen aanhalingsteken te zetten is deze: het Cito (CvE) noemt deze personen deskundig omdat ze docent of wiskundige zijn, maar ze zijn natuurlijk ondeskundig in het aanwijzen van prestaties die net niet voldoende zijn, en al helemaal op toetsen die een nieuw fenomeen zijn in het examenlandschap van Nederland. Ik herinner nog maar even: in het onderwijs bestaan er geen absolute normen, zodat niet alleen alles relatief is ten opzichte van de vele omstandigheden, maar er ook nog eens complexe backwash-effecten zijn, en civiele effecten. Het mag ‘deskundige’ docenten en wiskundigen niet worden aangedaan hierover maar eens wat gokjes te wagen.

Er is natuurlijk de nodige onderzoekliteratuur als het gaat om het beoordelen van examens, opstellen, antwoorden, wat niet al. Een recent overzicht biedt Bejar (2012), over leraren die antwoorden op open vragen moeten beoordelen. Lees, en verbaas u over de complexiteit van iets dat zo eenvoudig lijkt. En bedenk dan dat het beoordelen van antwoorden op opgaven nog maar een heel bescheiden taak is vergeleken met de vraag om te beoordelen wat van leerlingen mag worden verwacht dat zij antwoorden op de betreffende vraag/vragen.

P.S. Hier blijft nog onbesproken dat toetsen steekproeven zijn, en dat het steekproefkarakter van scores (rond de aftestgrens) impliciet door ‘deskundigen’ moet worden meebeoordeeld. Maar hoe kunnen zij dat doen, zonder kennis van relevante statistische modellen voor deze bijzondere situatie? En welke modellen zijn eigenlijk relevant voor deze bijzondere situatie van rekentoetsen in eindexamens?

N.B. Wie ondertussen is gaan twijfelen aan de mogelijkheden om examenwerk echt verantwoord te beoordelen: die twijfel is terecht. Het is dan ook van de gekke dat we in ons land de gewoonte hebben om eindexamenwerk te beoordelen zonder daar de voorgeschiedenis in het onderwijstraject bij te betrekken. Beschikbare informatie onbenut laten is verkwisting, en unfair tegenover de betreffende leerlingen. Voor de kwestie hoe hoog de lat moet liggen is het volgende van belang: hoeveel tijd hebben de leerlingen voor wie dit onderwijs is bedoeld besteed? Is die tijdbesteding behoorlijk onder de norm, dan zal dat moeten leiden tot een behoorlijk aantal afwijzingen op het examen. Enzovoort. Kortom: gegevens over concrete tijdbesteding, als het kan ook over de kwaliteit van die tijdbesteding, maken het mogelijk om aftestgrenzen gericht te verhogen, te verlagen, of juist op hun plaats te laten. Het is dus eveneens van de gekke dat er zo weinig aandacht is voor het bijhouden van de tijdbesteding van leerlingen, en de kwaliteit van die tijdbesteding, in relatie tot de examennormering.

Issac I. Bejar (2012). Rater Cognition: Implications for Validity. Educational Measurement: Issues and Practice, 31 #3, 2-9. abstract

N. van de Gaag (1990). Empirische utiliteiten voor psychometrische beslissingen. Proefschrift UvA.

Ben Wilbrink (1980). Enkele radicale oplossingen voor criterium-gerefereerde grensscores. Tijdschrift voor Onderwijsresearch, 1980, 5 nr. 3, 112-125. html)

-----------------------------

- Het aanwijzen van een percentage dat tenminste moet slagen, is geen oplossing voor dit dilemma, tenzij het 100% is.

- De enige mogelijkheid is het zodanig inrichten van onderwijs en rekentoetsen dat alle leerlingen in beginsel in staat zijn zich zo voor te bereiden dat zij een voldoende resultaat behalen (zie hierboven; eis van doorzichtigheid, De Groot (1970 html). De wiskundige modellen voor het doorrekenen van deze situatie zijn beschikbaar, zij het waarschijnlijk niet bij het Cito en/of het CvE. [het tentamenmodel van Van Naerssen, en zijn doorontwikkelingen zoals mijn SPA-model]

- Een alternatief is het loslaten van de onnodig beperkende regel dat er maar twee toetsgelegenheden zijn: toestaan van onbeperkte herkansing lost veel problemen op. Er zijn verschillende mogelijkheden om dit zo in te richten dat er geen ongewenste strategieën voor de kandidaten openstaan. Bijvoorbeeld: bij iedere volgende herkansing wordt de aftestgrens opgehoogd. Of: al behaalde resultaten op eerdere herkansingen worden meegewogen. Enzovoort.

- De bepaling van de aftestgrens mag geen onbegrijpelijk verhaal voor kandidaten en hun ouders, of voor leraren zijn.

- De bepaling van de aftestgrens mag geen boerenbedrog zijn. De regeling mag niet ten onrechte de indruk wekken dat een subjectieve methode is vervangen door een methode waarin die subjectiviteit is uitgeschakeld. Bijvoorbeeld de kernitemmethode van De Groot (Paedagogische Studiën 1964, 11, 425-440 pdf (zelf nummer ophogen)) voldoet niet aan dit criterium.

Overmacht. Force majeure. Als iets niet behoorlijk kan, moet dat misschien maar worden erkend. Als een rekentoets-3F die mee moet draaien in de kernvakkenregeling een monstrum is omdat een cesuur niet op verantwoorde wijze valt te prikken, dan kan en moet de Stichting Cito daar ook open over zijn en de betreffende opdracht teruggeven aan het CvE (OCW). Dat klinkt logisch, en dat is het ook. De samenleving mag dat verwachten. Dit type probleem heeft in het Cito wel eerder gespeeld, rond de opdracht van destijds onderwijsminister Pais om een toelatingstoets voor de opleiding geneeskunde te ontwikkelen. Aanvankelijk wel aanvaard door de bestuursraad, maar met de nadrukkelijke toevoeging dat dit niet betekende dat zij achter die beleidsidee van de minister stond. Het teruggeven van de opdracht was overwogen door de opvolgende nieuwe bestuursraad. Uiteindelijk trok een nieuwe onderwijsminister, Van Kemenade, kort na zijn aantreden de opdracht terug. Details:

- Een ondeugdelijke werkwijze van Cito en/of CvE zal resulteren in kandidaten die achteraf in rechte de beslissing aanvechten. Zij hebben grote kans dat te winnen.

Literatuur

Marian Hickendorff (2011). Explanatory latent variable modeling of mathematical ability in primary school : crossing the border between psychometrics and psychology. Proefschrift Universiteit Leiden. download

KNAW (Commissie Lenstra) (2009). Rekenonderwijs in Nederland. Analyse en sleutels tot verbetering pdf

Jaap Roeleveld & Anton Béguin (2012). Normering van referentieniveaus in het basisonderwijs. Amsterdam: SCO-Kohnstamm Instituut van de Faculteit der Maatschappij- en Gedragsweten-schappen, Universiteit van Amsterdam (SCO-rapport nr. 825, projectnummer 40339). pdf

De auteurs erkennen dat de normen voor de diverse beheersingsniveaus relatief zijn — per definitie: als ze als percentages zijn vastgelegd — maar maken dan toch de opmerkelijke gedachtensprong dat je relatieve normen absoluut kunt maken door het relatieve niveau vast te blijven houden. Ik kan daar niet helemaal in meegaan. In zekere zin kun je een tevoren afgesproken te behalen aantal goed voor een ‘voldoende’ als een ‘absolute’ norm behandelen, maar dat is dan een norm die op andere manieren bepaald nog wel willekeurig kan zijn, en bijvoorbeeld een relatieve oorsprong kan hebben. Het blijft dan behelpen, maar het kan een praktische oplossing zijn.

“Door de Commissie Doorlopende Leerlijnen is na inhoudelijke analyse voorgesteld om in het basisonderwijs uit te gaan van de inhoud die vergelijkbaar is met de periodieke peiling van het onderwijsniveau (PPON). Met betrekking tot het beheersingsniveau wordt uitgegaan van de relatieve niveaus in de huidige populatie van leerlingen. Dit betreft het fundamentele niveau dat gehaald wordt door 75% van de leerlingen en het streefniveau dat gehaald wordt door 50% van de leerlingen. Naast de genoemde niveaus kijken we in dit onderzoek naar zowel een lager als een hoger liggend niveau namelijk een minimumniveau dat door 90% van de leerlingen wordt behaald (vgl. bijv. Onderwijsraad, 2004) en een een expertniveau, dat door 10% van de leerlingen wordt behaald.

Ondanks het feit dat nu uitgegaan wordt van relatieve maten, zal in de toekomst het referentieniveau een absoluut karakter krijgen. Immers bij het huidige relatieve niveau behoort een bepaald prestatieniveau, dat ook inhoudelijk en qua moeilijkheidsgraad kan worden beschreven. Door bij toekomstige metingen uit te gaan van dezelfde inhoudelijke criteria en dezelfde moeilijkheidsgraad kan worden vastgesteld of een toekomstige populatie beter dan wel slechter presteert. In zo’n geval is dus sprake van een absoluut niveau en niet meer van een relatief niveau.

Op schoolniveau geldt dat de instroom ook bepalend is voor het uiteindelijk behaalde niveau van de groep leerlingen op een school. Voor school(zelf)evaluatie kunnen haalbare doelen op schoolniveau worden geformuleerd uitgaande van de specifieke groep leerlingen in de school.”

Richard E. Snow and David F. Lohman (1989). Implications of cognitive psychology for educational measurement. In Robert L. Linn: Educational Measurement (263-331). National Council on Measurement in Education & American Council on Education. Collier Macmillan Publishers.

Annotatie bij CvE 2012

Enige kritiek op alleen nog maar paragraaf 1. Altijd weer amusant, en treurig tegelijk.

Vooraf. Het meeste zal wel kloppen zoals het staat opgeschreven. Het gaat natuurlijk om wat er niet staat: de vooronderstellingen die vaak stilzwijgend zijn, het voorbijgaan aan de inhoud van de vragen, het uitgaan van een institutioneel toetsmodel (van bovenaf; alleen statistieken zoals gemiddelden tellen!), het hanteren van een toetsopvatting waarin het gaat om de bijeengesprokkelde puntenaantallen, niet om de informatie die de specifieke vragen en antwoorden geven over hoe de individuele leerlingen hun stof nog niet goed beheersen. En vooral: de stilzwijgende vooronderstelling dat het bij de rekentoets erom zou gaan de bestaande verschillen in rekenvaardigheid (maar is dat wel een eendimensionale vaardigheid?) zo goed mogelijk vast te leggen. De rekentoets gaat om iets anders, al is ook de wetgever daar allerminst helder over: is de rekenvaardigheid tenminste op het peil dat redelijkerwijs mag worden verlangd (niks schaal van laag tot hoog, maar simpelweg alles of niets)?

Terugkomend op het buiten beschouwing laten van de inhoud van de vragen: het gaat er bij een rekentoets niet om of leerlingen in nieuwe contexten (en welke zouden dat dan moeten zijn, toch niet alleen Karwei en Landal?) hun rekenvaardigheid kunnen inzetten, maar om het vaststellen van die rekenvaardigheid als zodanig.

par. 1. Doel van normering met een vaardigheidsschaal

1.1 De vooronderstelling is hier: dat vragen een kenmerkende moeilijkheid zouden hebben. Dat is een zinvol begrip bij statistische analyse van gegevens over groepen leerlingen, maar niet vanzelfsprekend bij de analyse van de toetssituatie vanuit het perspectief van de individuele leerlingen.

Er is bovendien een onderscheid te maken tussen verschillende betekenissen die het begrip ‘moeilijkheid’kan hebben: de statistische (de Cito-opvatting), de vakinhoudelijke (bv. wat zijn redelijke vermenigvuldigingen die gevraagd kunnen worden), de cognitief-psychologische (bijv. Embretson), de subjectieve (in de beleving van leerlingen maar ook van leraren).

1.2 Wat dan onvermijdelijk gebeurt: de tekst spreekt over ‘een kandidaat’, dus een individuele leerling, die op een ‘makkelijke toets’, dat is een toets die door alle deelnemers gezamenlijk gemiddeld een hogere score oplevert, dan iets meer vragen goed moet scoren voor hetzelfde cijfer dat hij/zij anders op een moeilijker toets zou hebben gescoord. Maar dit is natuurlijk onzin, tenzij met ‘een kandidaat’ toch alle kandidaten in generieke zin zijn bedoeld.

Technisch: voor de individuele leerlingen is een relevant toetsmodel totaal iets anders (namelijk een variant op wat Van Naerssen in 1970 ‘tentamenmodel’ noemde html) dan de voor groepen leerlingen institutioneel toegepaste psychometrische modellen (zoals die door het Cito worden toegepast). Anders gezegd: het gaat bij de leerling om heel andere strategische beslissingen dan voor het Cito als vertegenwoordiger van het institutionele belang (dat onderscheid is in de testpsychologie al minstens bekend sinds het besliskundig opgezette boek van Cronbach & Gleser, 1957).

1.3 Er wordt hier te makkelijk gesproken over ‘aangetoonde vaardigheid’, waardoor de indruk wordt gewekt dat het gaat om een perfect zekere puntschatting, quod non. Ik vind dat een kunstfout, en het zal mij niet verbazen wanneer in dit stuk zal blijken dat de auteurs zelf ook een beetje in deze fictie zijn gaan geloven.

Kandidaten tonen ook geen vaardigheid aan, zoals de tekst zegt, maar zij beantwoorden opgaven. Het loont om dit soort nuances toch scherp te blijven onderscheiden.

Meer literatuur

George Engelhardt, Jr. (2011). Evaluating the Bookmark Judgments of Standard-Setting Panelists. Educational and Psychological Measurement, 71, 909-924abstract

Stephen G. Sireci & Ellen Forte (2012). Informing in the Information Age: How to Communicate Measurement Concepts to Education Policy Makers. Educational Measurement: Issues and Practice, 31 #2, 27-32. abstract

Isaac I. Bejar (2008). Standard setting: What is it? Why is it important? Educational Testing Service. pdf

James W. Pellegrino, Naomi Chudowsky, and Robert Glaser (Eds.) (2001). Knowing what students know. The Science and Design of Educational Assessment. Board on Testing and Assessment, Center for Education, Division of Behavioral and Social Sciences and Education, National Research Council. pdf van heel het boek hier ophalen

Ronald W. Solórzano (2008). High stakes testing: Issues, implications, and remedies for English language learners. Review of Educational Research, 78, 260-329. JSTOR read online for free [KB via JSTOR access]

Peter Greene (December 23, 2014). Setting Cut Scores. Curmudgucation. A grumpy old teacher trying to keep up the good classroom fight in the new age of reformy stuff. blog

Samuel Livingston & Michael Zieky (1982). A Primer on Setting Cut Scores on Tests of Educational Achievement. Including: Excerpts From Passing Scores: A Manual for Setting Standards of Performance on Educational and Occupational Tests. Educational Testing Service. pdf

Willem K. B. Hofstee (1983). The Case for Compromise in Educational Selection and Grading. In Scarvia B. Anderson and John S. Helmick (Eds) (1983). On educational testing. San Francisco: Jossey-Bass Publishers. p. 109-127. html

Normering van de rekentoetsen-2F en -3F

Alternatieven voor, en kritische analyse van de CvE-opstelling

Ben Wilbrink