ingediend 15-11-2015 bij de redactie van ‘Examens. Tijdschrift voor de Toetspraktijk@rsquo;, die mij op 22 november heeft laten weten het artikel niet te zullen plaatsen. Voorlopig staat het dan hier, in het publieke domein. De doelgroep is vooral de sector van toets- en examenontwikkelaars, daar is het ook op geschreven wat vaktaal betreft. Ik betwijfel of het zinvol is het te herschrijven voor een breder publiek. Bliojft staan dat het direct relevant is voor de politiek, en uiteraard voor Cito en CvTE waar men zich toch nog maar eens achter de oren moet krabben over het bij de ontwikkeling van de rekentoets gevoerde beleid. tweet

De rekentoetsen worden maar niet valide.

[titel]

Dat is me wat, met de rekentoetsmakers!

[auteur]

Ben Wilbrink

“De #rekentoets is intussen de #fyra van het Nederlandse onderwijs aan het worden. Oplappen helpt echt niet meer.”, Ronald Buitelaar (2014).

“Als dat rekenen is, dan is Nederland aan het eind van de 21e eeuw een intellectuele bananenrepubliek geworden.”, Jan Karel Lenstra (2015).

De crisis rond de rekentoets geeft de toetssector reden om het eigen functioneren op dit dossier kritisch te bezien. Immers, na een moeizaam traject van commissie naar commissie en van pilot naar halfwas examentoets zag de politiek zich alsnog genoodzaakt de rekentoets voor vmbo, havo en mbo voorlopig niet mee te laten tellen voor de uitslag van de eindexamens.

Verkeerde, want ideologische, afslag?

Eind vorige eeuw waren vrijwel alle basisscholen overgestapt op methoden voor ‘realistisch rekenen’: eigen oplosmethoden bedenken, veel contexten, algoritmen minder belangrijk. Een groot deel van het lerarenkorps was opgeleid op pabo’s die deze vorm van rekenen propageerden. In veel Westerse landen zijn dezelfde rekenopvattingen in zwang, behorend tot het gedachtengoed van het constructivisme. Ook de PISA-tests berusten op dat constructivisme. Op zijn best is dat constructivisme filosofie, zeker geen wetenschap. Op zijn beurt is dat constructivisme een kind van het progressivisme van Herbert Spencer en John Dewey, de opvatting dat ook de intellectuele ontwikkeling van het kind een zich ontplooien is, evenals het zich fysiek ontplooien van het embryo (Egan, 2002). Puur speculatie, maar voor velen een heel mooie speculatie. Het zou dus zomaar kunnen dat het ‘realistisch rekenen’, dat zo onvoorzichtig in de wet is vastgelegd in de referentieniveaus, een ideologie is die door de tijd en de cognitieve wetenschappen is ingehaald. Dat moet een zorg voor toetsontwikkelaars zijn, maar toetsontwikkelaars doen al een eeuw niet moeilijk over inhoudelijke kwaliteiten van hun toetsen (zie ook Lagemann, 2000). De toetssector is vooral marktgericht, zij ontwikkelt de toetsen die de klant wil.

wat heeft ‘het dagelijks leven’ ermee van doen?
De rekentoetsen op F-niveau berusten op het idee dat leren rekenen vooral leren ‘probleemoplossen in het dagelijks leven’ is (CvTE, 2015: Syllabus). Oeps, toetsen? Maar daar wist de Commissie-Meijerink, die van de referentieniveaus, toch nog niets van? Klopt, de referentieniveaus zijn dus helemaal niet geschreven of bedoeld als toetsmatrijs. Who cares? Terug nu ‘in het dagelijks leven’. Dat toetsen-in-situaties kennen we in de testpsychologie als assessment centers bij personeelsselectie. Het is een vorm van toetsen die volstrekt niet thuishoort in eindexamens. Is hier discussie over in kringen van toetsontwikkelaars? Was deze noviteit eigenlijk wel duidelijk bij de behandeling van de Wet, 31 maart 2010, of is zij later verzonnen in commissieverband? Kamerleden lieten niet merken goed op het netvlies te hebben wat F-niveaus zijn; bewindslieden verwezen naar wat ‘deskundigen’ op allerlei zaken hadden laten weten. Vijf jaar later is het duidelijk dat de expertise-centra daarmee niet hun beste werk leverden.

testen op verschillen in intelligentie: is dat echt zo moeilijk te constateren?
Iedere testontwikkelaar begrijpt, zou moeten begrijpen, dat toetsen op ‘probleemoplossen in het dagelijks leven’ al gauw testen op verschillen in intellectuele capaciteiten wordt. Onbedoeld hebben bewindslieden van onderwijs een natuurlijk experiment gecreëerd waaruit glashelder blijkt dat dit inderdaad het geval is. Alle havisten en vwo-ers krijgen dezelfde rekentoets-3F te maken, bedoeld om een letterlijk kinderachtig niveau van rekenen te toetsen. Maar in plaats van havisten en vwo-ers ongeveer gelijk te zien scoren, zoals bij een gelijk speelveld te verwachten, blijken er enorme verschillen, die van jaar op jaar zijn blijven bestaan (zie rapportages CvTE). Uitsplitsing naar opleidingsprofielen maakt het beeld nog duidelijker: hoe hoger de intellectuele eisen van het profiel, des te hoger de gemiddelde rekentoetsscore. Voor opleidingen en sectoren in het vmbo en mbo: hetzelfde beeld. Dan is er maar een conclusie mogelijk: deze rekentoetsen toetsen geen rekenvaardigheid, maar testen op intellectuele capaciteiten. Tot nu toe zwijgen de ‘deskundigen’ en al die commissies hierover als het graf. Wie zwijgt stemt toe?

eindexamentoets, maar losgezongen van onderwijsinspanningen
Het rekentoets-project is in zijn geheel ook een natuurlijk experiment geweest in deze zin: dat is aangetoond dat het niet goed mogelijk is om leerlingen doeltreffend voor te bereiden op deze rekentoets die geen rekenen toetst. En gaat deze stand van zaken ons toetsontwikkelaars aan? A. D. de Groot vond van wel, en bracht dat in 1970 ook onder woorden: op een examen moet iedereen zich doeltreffend kunnen voorbereiden.

Sorry, foutje in onze voorspellingen?

Cito voorspelt: geen slachtoffers
Op de stelling van Wilbrink & Hulshof (2011) dat leerlingen de dupe dreigen te worden van niet valide rekentoetsen in de kernvakkenregel, antwoordt het Cito (Zwitser & Béguin, 2011) met modelberekeningen die laten zien dat de rekentoetsen geen slachtoffers zullen maken. Na dit geruststellende nieuws moesten het College voor Toetsen en Examens (CvTE) en het onderwijsdepartement wel alle zeilen bijzetten om gebreken van de rekentoetsen te herstellen. De Commissie-Steur kwam eind 2014 zelfs met een heuse vangnetconstructie om ervoor te zorgen dat er nooit meer dan vijf procent slachtoffers door de rekentoets zouden vallen (Kamerbrief december 2014). Ondanks het vangnet-Steur zouden ook volgens de laatste rekentoetsresultaten te veel leerlingen in ernstige problemen komen: reden om ze voor mbo, vmbo en havo voorlopig niet mee te tellen voor de examenuitslag. De Cito-voorspelling van ‘geen slachtoffers’ is niet uitgekomen. Dit Cito is wel de deskundige adviseur van de overheid. Het helpt niet echt wanneer bestuursvoorzitter Roorda (2013) twittert dat het Cito niet inhoudelijk verantwoordelijk is, omdat het slechts de opdrachten van het CvTE uitvoert.

CvTE laat weten: de rekentoets is valide
Ligt de bal dan bij het CvTE, en gaat dat goed? Wilbrink, Hulshof en Pfaltzgraff (2012) schrijven dat de rekentoetsen op vier criteria voor validiteit tekortschieten. Validiteit is een sine qua non voor examens, aan validiteit van de rekentoetsen mag geen enkele serieuze twijfel bestaan. Daar zijn standaarden voor, zoals de leidende Amerikaanse Standards (2014) van organisaties van onderzoekers, psychologen en leraren. Het CvTE schrijft in reactie op de aanklacht (Kastelein, 2012): de rekentoetsen zijn valide want alle procedures zijn correct gevolgd ophalen. Dit is zorgelijk, want hieruit speekt gebrek aan kennis van wat het is voor tests en toetsen om valide te mogen heten; ‘validiteit’ is een vakterm.

Wat validiteit van een toets is hangt af van de specifieke situatie en doelen. De literatuur laat zien dat inzichten over validiteit verschillen. Maar waar geen twijfel over bestaat: een rekentoets die in een zo laat stadium alsnog in de wacht is gezet, is evident niet valide gebleken. Ook het CvTE beloofde te veel met zijn voorspelling.

Literatuur

AERA, APA & NCME (2014). The Standards for Educational and Psychological Testing. http://www.apa.org/

Buitelaar, R. (17 december 2014). https://twitter.com/RonaldBuitelaar/status/545490309141250048

CvTE (2015). https://www.rijksoverheid.nl/onderwerpen/taal-en-rekenen/documenten/rapporten/2015/09/01/rapportage-referentieniveaus-taal-en-rekenen-2014-2015

CvTE (2015). Syllabus rekenen 2F en 3F voor de rekentoets VO en centrale examinering in het mbo. Staatscourant 25 juni 2015. Of examenblad.nl pdf.

Egan, K. (2002). Getting it wrong from the beginning. Our progressivist inheritance from Herbert Spencer, John Dewey, and Jean Piaget. New Haven: Yale University Press. kortere versie als blog

Kamerstukken referentieniveaus: https://zoek.officielebekendmakingen.nl/dossier/31332

Kastelein, J. (2012). Rekentoetsen VO wel degelijk valide. Examens, Tijdschrift voor de Toetspraktijk, 9 #4, 29-31. [ingezonden brief]. paywall € 1,95 [het stuk staat ook op de ophalen" target='_blank'>website van het CvTE]

Groot, A.D. de (1970). Some badly needed non-statistical concepts in applied psychology. Nederlands Tijdschrift voor de Psychologie en haar Grensgebieden, 26, 360-376. online

Lagemann, E. C. (2000). An Elusive Science: The Troubling History of Education Research. University of Chicago Press. review

Lenstra, J. K. (17 maart 2015). In Brandpunt ‘Een dure misrekening’. brandpunt.kro.nl

Roorda (9 oktober 2013) https://twitter.com/MartenRoorda/status/387882360399618048 [gezien 15 november 2015]

Wilbrink, B. & Hulshof, J. (2011). De wet, het rekenen, en de rekentoets in de eindexamens havo/vwo. Examens, Tijdschrift voor de Toetspraktijk. 8 #3, 18-22. pdf

Wilbrink, B., Hulshof, J., & Pfaltzgraff, H. (2012). De rekentoetsen-3F zijn niet valide. Dat wordt nog wat, met die rekentoetsen! Examens, Tijdschrift voor de Toetspraktijk, 9 #3, 26-31. pdf

Zwitser, R., & Béguin, A. (2011). Gaat meetfout bij de rekentoets slachtoffers maken? Het effect van de rekentoets op het percentage misclassificaties. Examens, Tijdschrift voor de Toetspraktijk, 8 #4, 23-26. pdf

https://twitter.com/benwilbrink/status/660011613353734144

De #rekentoets: een wake-up call. Dit is het moment om eens achterom te kijken: hoe hebben alle ‘experts’ het zo ver kunnen laten komen?

Met stip bovenaan: CvTE en Cito verzekeren bewindslieden en TK dat de #rekentoets valide is; de gebeurtenissen logenstraffen dat evident. Vergelijk dat met een team specialisten dat deze patiënt kerngezond verklaart; toch blijkt hij korte tijd later in een hospice opgenomen.

Zou de #rekentoets een psychologische test zijn, dan is dit concept van validiteit van belang: Borsboom c.s. PsRev pdf. De #rekentoets is niet bedoeld als psychologische test, maar wat nu als aannemelijk is dat hij verschillen in IQ meet, ipv rekenen? webpagina. De #rekentoets is een examen, geen test. Een examen is een belangrijk andere situatie dan een psychologisch onderzoek, ook voor het begrip ‘validiteit’, zie hier. Ook de Cotan onderscheidt tests en toetsen: ‘Richtlijnen’ 1988 (nooit herzien) hfdst. 8. De Amerikaanse ‘Standards’ 1999 (wel onlangs herzien ) over validiteit (2014 edition open access).

Wat ik duidelijk probeer te maken: bij validiteit gaat het om het belangrijkste kwaliteitscriterium in het hart van het professionele test- en toetswezen. Waren CvTE en Cito niet van buiten gewaarschuwd? Zeker wel. De eerste ernstige waarschuwing is gegeven op 12 april 2011 in de expert-meeting van de Commissie-Schmidt (de rekentoetswijzercommissie-F). De Commissie legde de kritiek naast zich neer. Maar zoiets werkt niet: in het vakblad ‘Examens’ 2011 volgt dan het eerste kritische #rekentoets-stuk pdf. De boodschap kwam bij OCW wel degelijk binnen: een Commissie-Van de Craats ontwikkelde een 3S-alternatief voor het vwo zie hier. De rekentoets-3S voor het vwo is te weinig (alleen vwo), te laat, en te veel compromis. Pilotstudies-3S zijn gedaan maar nog niet door het CvTE gerapporteerd. Interessant is dan de reactie van (o.a. de wetenschappelijk directeur van) het Cito op het kritische artikel: pdf. De #rekentoets zou volgens modelberekeningen van het Cito geen slachtoffers maken! We weten nu beter: de gevreesde aantallen slachtoffers waren zo groot dat zelfs na twee crisis-commissies het noodzakelijk bleek de #rekentoets in het mbo nog vijf jaar niet mee te laten tellen, en volgens de Tweede Kamer ook om voor vmbo en havo de #rekentoets voorlopig niet de examenuitslag te laten bepalen. Nederland heeft recht op uitleg van het Cito waarom ze er met hun modelberekeningen zo naast zaten (ook voor de kernvakkenregel zelf, trouwens. Zie publicaties van Van Rijn c.s.).

De #rekentoets-trein was niet meer te stoppen, volgens ambtenaren van OCW, voorjaar 2012. Dan maar een tweede kritisch vakblad-artikel: ‘De rekentoetsen-3F zijn niet valide’ pdf. Het CvTE probeert de stelling te weerleggen met een procedure-verhaal pdf. Maar dan ook alleen procedures: de redactie van ‘Examens’ neemt geen verantwoordelijkheid voor de inhoud, en plaatst de repliek als ingezonden brief. Het Cito blijft in gebreke te reageren. Behalve dan zijn bestuursvoorzitter in deze tweet. Ofwel: het Cito heeft geen boodschap aan validiteit! Dat is vloeken in de testpsychologische kerk, en dan druk ik mij vriendelijk uit.

Voor een testpsycholoog met ook maar een beetje beroepstrots is het bovenstaande een horror story. Maar hoe leg je zoets uit? Op Halloween? Het is allang geen theoretisch verhaal meer: bewindslieden haalden de ontsteking uit de mbo-#rekentoets, de TK uit die voor vmbo/havo.

Zou het Cito zich werkelijk professioneel hebben opgesteld bij de #rekentoets, dan zou de onderliggende problematiek van het falende rekenonderwijs niet zijn ondergesneeuwd in de blizzard van #rekentoets-ellende. Iedereen wil goed rekenonderwijs, het is evident dat we dat al evenmin hebben als een goede #rekentoets. Wat geen rare conclusie is, lijkt me ;-)

https://twitter.com/benwilbrink/status/661152766115635200

Het voorgaande in tekstbestand: ‘Lessen uit de #rekentoets-crisis’. Hoe nu verder? Relatie tot 21st century skills? De ‘Wiskundige DenkActiviteiten’ (WDA) zijn een subcategorie van 21e-eeuwse vaardigheden, en nu eindexamenstof! Gaat het Cito dat gewoon uitvoeren? WDA in eindexamens vermengt eindexamen met intelligentietest. Het is wel wat laat om leerlingen bij de uitgang nog een intelligentietest af te nemen, waar is dat in vredesnaam goed voor?

druk op de ketel
https://twitter.com/benwilbrink/status/652907245735419904

In het kamerdebat van 7 oktober is het ultieme argument van de VVD om de rekentoets in het vo te laten meetellen voor de examenuitslag: om druk op de ketel te houden, dat het onderwijs het rekenen op peil brengt. Hier is geen sprake van onschuldige beeldspraak: de cijfers van het CvTE laten zien dat ook in het vo zeer veel onvoldoendes gaan vallen voor de rekentoets, het vierde examenonderdeel dat naast Nederlands, Engels en wiskunde deel gaat uitmaken van de kernvakkenregel. Er zijn twee zeer ernstige problemen met dit druk-op-de-ketel-argument.

Allereerst is het zo dat bij de behandeling van de Wet op de referentieniveaus Nederlandse taal en rekenen nadrukkelijk is vastgesteld, en daarmee dus ook vastgelegd, dat een eventuele rekentoets geen afrekentoets voor leerlingen mag worden (Handelingen, 31 maart 2010). De VVD neemt met het druk-argument een loopje met de Wet. Toelichting: de parlementaire behandeling van een wet maakt deel uit van de wet, zoals dat ook met jurisprudentie het geval is.

Het tweede ernstige probleem is dat deze rekentoets onderwijsbeleid van scholen afdwingt ten koste van leerlingen. Dat klinkt niet prettig, en dat is het ook niet. Leerlingen en studenten worden beschermd door internationale verdragen over recht op onderwijs en rechten van het kind. Toelichting: anders dan velen menen, gaat internationaal recht boven nationaal recht. Tenzij internationale verdragen niet zijn ondertekend: zo is de VS nog het enige land dat het internationale verdrag voor de rechten van het kind niet heeft getekend.

Het ziet er hiermee naar uit dat de bewindslieden van OCW en onder andere kamerleden van de VVD handelen in strijd met het recht. Maar waar het mij om gaat is de beroeps-ethische kwestie: kan onder deze omstandigheden meewerken aan rekentoetsen door de ethische beugel?

Het hierboven gestelde probleem is scherper te formuleren, dat geeft beter zicht op het antwoord op de ethische vraag. Stel nu eens dat die rekentoets niet allereerst rekenen toetst, maar in feite test op verschillen in intellectuele capaciteiten. Neem dat aan, for the sake of argument. Gemiddeld scoren havisten veel lager dan vwo-ers, dus het zou zomaar kunnen dat het inderdaad vooral een intelligentietest is. We weten dat onderwijs best wel enig effect op intelligentie kan hebben, maar ook dat het bepaald niet zo is dat leraren gericht kunnen werken aan het het verhogen van intelligentie (IQ). Scholen onder druk zetten om hogere resultaten op deze intelligentietest, pardon: rekentoets te realiseren zou dan een idiote actie zijn. Aanwijzingen dat de rekentoets inderdaad werkt als intelligentietest zijn ruim voorhanden: zie bijvoorbeeld de perfecte gradiënt van resultaten over opleidingen die verschillen in intellectuele eisen. Tegenvoorbeelden dat leraren er, bijvoorbeeld, in slagen om hun havo-leerlingen op gelijk niveau te brengen als dat van vwo-leerlingen heb ik nog niet gezien. Het Cito is tot op heden in gebreke gebleven om aannemelijk te maken dat de rekentoets alleen rekenvaardigheid toetst, niets meer, niets minder. Kan onder deze omstandigheden meewerken aan rekentoetsen door de ethische beugel?

waar expertise ontbreekt is tegenspraak praten tegen de muur

december 2021 \ contact ben at at at benwilbrink.nl

http://www.benwilbrink.nl/projecten/rekentoetslessen.htm