Ik zal deze voordracht voor de vuist weg doen, aan de hand van een onderwerpenlijstje. Later zal ik waarschijnlijk wel een tekst uitschrijven. De Engelse parallel-voordracht is wel volledig scripted.


Toetsen, beoordelen


Voordracht 21 januari ResearchEd Amsterdam


Eerdere voordracht op 18 januari over kennis en vaardigheden. Parallel-voordracht in het Engels op de ResearchEd hier. De thematiek van beide papers is hetzelfde, de behandelde gevallen zijn vooral Nederlandse, resp. internationale.


Toetsen is niet zo simpel als het lijkt.

Ik trek het breed:

van toetsvragen ontwerpen tot eindexamens

van psychometrie tot ethiek

van leerlingen tot ministers

van rekenen tot taal.


Ik ga niets zeggen over beoordelen in de klas, daar zijn vandaag meerdere interessante papers over, en ik heb hier geen bijzondere expertise. Nou ja, wat ik wel over beoordelen ga zeggen, raakt ook altijd wel wat er in de klas gebeurt.

Ik zal het niet hebben over betrouwbaarheid van toetsen, en of keuzevragen vier of drie alternatieven moeten hebben. Als we een paar lagen dieper willen kijken, op welke thematiek komen we dan uit? Twee thematieken? Yep. Vier dan.


Twee dingen vooraf, dingen die in mijn werk steeds weer terugkomen: rangordenen en het verschil tussen toetsen en testen.


De wortels van dat cijfergeven, waar liggen die? [Wilbrink 1997] Dat rangordenen is in zekere zin de core business van de testpsychologie. Past dat testen ook op beoordelen in het onderwijs?


Het verschil tussen testen en toetsen [Wilbrink 1986] Waar het miskennen van het verschil tussen testen toetsen toe kan leiden, zien we bijvoorbeeld in De Groot en Van Naerssen’s boek uit 1969 over studietoetsen. Wijsheid uit de testpsychologie is daar zomaar overgezet naar beoordelen. p-waarden. geen aandacht voor strategie van de leerling, maar daar komen zowel De Groot als Van Naerssen in 1970 dus op terug, een buitengewoon interessante wending in de Nederlandse psychologie.


Die vier thematieken van mij zijn dan:


1. Het is altijd politiek met dat beoordelen


2. Beoordeelden betalen terug met strategisch gedrag. Maak er gebruik van.


3. Beoordelen gaat altijd om de inhoud (maar zo ziet niet iedereen dat)


4. Beoordelen is altijd complexer dan je denkt.


literatuur


overig materiaal


Toetsen en cijfergeven kom je vaak bij elkaar tegen. De Groot schreef er een bekend boek over, Vijven en zessen 1966, hopelijk gaat Noordhoff het opnieuw uitgeven. Dat cijfergeven lijkt er vooral een strijd om de macht tussen leraren te zijn. Als dat waar is, dan zijn cijfers dus een merkwaardig subjectief gegeven. Ik vroeg Adriaan ooit of hij iets had gevonden over de oorsprong van dat cijfergeven: waar komt het vandaan? Hij vond dat een verrassende vraag: het was nooit bij hem opgekomen. Kan kennis van de geschiedenis ons inzicht over dat cijfergeven verschaffen? Ik zou het wel denken. Weet u het, die oorsprong?

Het traditionele systeem om leerlingen op te beoordelen is het rangordenen ten opzichte van medeleerlingen. Dat gebeurde ook in de zo op kwantificeren en meten gerichte 19e eeuw bij het Franse examen, de agrégation. De betekenis van de rang van een kandidaat in zo’n examen hangt vooral af van het aantal kandidaten, en dat is niet echt handig. Dan is het een goed idee om de rangorde terug te brengen tot een 10-staps rangorde, en daar de kandidaten gelijkelijk over te verdelen. Mooi. Maar evenveel 1e rang als 10e rang geeft ook weer een scheef beeld: het is beter om die geforceerde gelijke verdeling los te laten: als de uitmuntende prestaties juist dicht bij elkaar liggen, zet je ze allemaal in de topcategorie. Oké, maar niet iedere jaargang is even goed, misschien zijn er ook wel eens helemaal geen uitmuntende prestaties, dan laat je die categorie leeg. En zo zien we in Frankrijk in relatief kort tijdsbestek de gewone rangorde veranderen tot een in zekere mate gestandaardiseerde rangorde [de bron, bij toeval gevonden, en ongetwijfeld een tamelijk unieke bron: Chervel (1993)]. Is dat cijferen eenmaal uitgevonden, dan kan het op andere plaatsen in een keer worden overgenomen, zoals in ons land voor het laatst gebeurde in 1903, toen het Groningse gymnasium na het overlijden van zijn stokoude rector het rangordenen in kon ruilen voor die moderne cijfers. Vooruitgang is niet te stuiten. [geschiedenis van beoordelen in het onderwijs tot 1900: Wilbrink 1997]

Ik stel me voor dat kennis van deze oorsprong van cijfergeven ons wat terughoudender kan maken in het gebruik van cijfers: het drukt ons immers met de neus op het feit dat we in ons onderwijs wel erg veel nadruk leggen op het vergelijken van leerlingen onderling, en daar is onderwijs niet voor. Cijfergeven levert ethische dilemmas op. Dit cijfergeven is in de grond van de zaak hetzelfde wat gebeurt bij leerlingvolgsystemen die leerlingen vastnagelen op hun relatieve positie in de landelijke pikorde van cognitief presteren. Ook een ethisch dilemma. Het dilemma verdwijnt niet door alleen het expliciete cijfergeven achterwege te laten, maar in de didactiek vast te bijven houden aan werken op basis van dezelfde individuele verschillen. De stelling is verdedigbaar dat het herhaaldelijk testen en toetsen van zwakkere leerlingen op deze vergelijkende wijze een vorm van geestelijke mishandeling is, in strijd dus met het internationale verdrag van de rechten van het kind waar Nederland ondertekenaar van is.


[toetsen zien als impliciete onderhandeling tussen de beide groepen van leerlingen en leraren, of van studenten en hun docenten] [Wilbrink, 1992 ECER papers] [Als dat toetsen is te modelleren als een onderhandelingsspel, waarom dat toetsen niet gewoon als spel zien, een spel waar spelregels bij horen? ] [transparantie: De Groot 1970. Toetsen moeten curriculumspecifiek zijn. Job Cohen: de vragen moeten de opgegeven/behandelde stof niet te boven gaan. Voor onze eindexamens zou De Groot eisen dat ze curriculumspecifiek zijn, en dan zou de rekentoets onmiddellijk door de mand vallen. Maar ook ieder examen of iedere toets waar de uitkomst in niet te verwaarlozen mate bepaald wordt door verschillen in intelligentie. ]

Zijpad: het is niet zo dat toetsen per definitie verschillen in scores moeten opleveren. Toetsen in het onderwijs zijn totaal andere instrumenten dan psychologische tests zoals die in de psychodiagnostiek worden gebruikt, of om bij de overgang van basis- naar voortgezet onderwijs informatie te geven die bij een goede keuze kan helpen. [Wilbrink 1986] [Richtlijnen NIP 1988]. Een aardig voorbeeld is dat je bij de rekentoets kunt stellen dat deze voor vrijwel alle leerlingen ongeveer dezelfde hoge moet opleveren, wat betekent dat een goede rekentoets een betrouwbaarheid van bijna nul moet hebben. Rekenen is immers geen raketwetenschap, het gaat om basale kennis waar kandidaten vlot mee moeten kunnen werken, op eenvoudige wijze te toetsen met honderd opgaven in een half uur tijd. Zo’n toets kan iedere wiskundeleraar in twee uur in elkaar zetten (of vragen laten genereren door een eenvoudig computerprogramma). Als deze lijn gevolgd was, zou dat de staatskas nu al een half miljard hebben gescheeld, daar had heel wat bitter noodzakelijke thuiszorg mee gefinancierd kunnen worden.


[cesuurbepaling, waar De Groot geen raad mee wist: hoe kun je nu de ene leerlingen laten zakken, de andere laten overgaan, terwijl er slechts het kleinst mogelijke scoreverschil tussen beide is? De oplossing voor dit dilemma, gegeven dat er een cesuur moet zijn, is dat in dit spel de regel geldt: je bent als leerling er zelf verantwoordelijk voor om je voldoende voor te bereiden, dus om te mikken boven het niveau van het zesje. Zoals De Groot in 1970 aangaf, is het de verantwoordelijkheid van de leraar, van de school, om ervoor te zorgen dat de toetsen en examens doeltreffend zijn voor te bereiden. Dus dat ze de stof niet te buiten gaan, en niet testen op verschillen in intelligentie maar uitsluitend op beheersing van de opgegeven stof. Op zich is een artikel uit 1970 al historisch, maar ook in dit geval geeft het inzicht om verder terug te gaan, naar het eind 19e-eeuwse werk van grondlegger van de mathematische statistiek, Edgeworth, over selectieve examens (voor de Civil Service van het Verenigd Koninkrijk). Hij legt daarin haarfijn uit dat het niet oneerlijk is dat de ene kandidaat net wordt afgewezen, waar de andere net wordt aangenomen. Het examen is een steekproef uit de kennis van de kandidaten, en natuurlijk kan de steekproef wel eens minder gunstig uitvallen, dat heb je met steekproeven. Het springende punt is, dat de kandidaat zijn kansen zelf kan verhogen door beter voorbereid te zijn. No problem. Edgeworth kenschets het selectieve examen dus als een gewogen loterij: de kandidaat kan de weging in zijn voordeel veranderen door beter voorbereid te zijn.


Dat is een leuk bruggetje naar selectie voor het hoger onderwijs, voor opleidingen met een numerus fixus dan. [rapportage Cie Drenth 1997).




André Chervel (1993). Histoire de l’Agrégation. Contribution à l’histoire de la culture scolaire. Paris: INRP Editions Kime.



Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation 23, 31-48. webpagina



A. D. Groot (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: J. B. Wolters. [Er is een latere editie, bezorgd door Wynand Wijnen, maar De Groot zelf beschouwt alleen de editie-1966 als origineel.]








[ - De Groot 1966 cijferen is machtsspel - Chervel 1993 cijferen is rangordenen - rangordenen is ook een onderwijsideologie: is dat altijd maar vergelijken met andere leerlingn wel zo gewenst? - cijferen is een spel, met spelregels De Groot 1970 - Maar dan ook bij zak-slaaggrens: De Groot begreep dat niet (beslissingen rond de zak-slaaggrens kunnen niet valide zijn), maar Edgeworth begreep het al prima, eind 19e eeuw - Hoe dat cijferen misstanden tot gevolg heeft: Posthumus 1940 - Onder dat regime van misstanden kunnen leerlingen niet gezamenlijk goede studiestrategieën volgen: de kaarten worden tegen ze geschud. - Meer algemeen : wat valt er te zeggen over progressivistisch onderwijs, dat is individualiserend onderwijs met sterke gerichtheid op generieke vaardigheden. Hoe toets je dat? Of laten we het anders stellen: wat weten ervan op basis van toetsen? --> Hirsch casus Franrijk. - Wat leert ons het casus Frankrijk over toetsen? - Digitaal toetsen? - Wat zijn enkele rode draden door dit geheel: (1) toetsen op beheersing (integer) versus toetsen op individuele verschillen (niet integer, daar is onderwijs niet voor) (2) experts hebben het niet voor het zeggen (3) als ze het wel voor het zeggen hebben draait de zaak ook in het honderd (4) is daar eigenlijk wel een oplossing voor, of blijft het provisorisch repareren van wat evident misgaat zodat daarna evident iets anders weer uit de rails loopt [casus: rekentoets, taalvaardigheid in examens] - hoe speelt hier equity nog een rol, is dat via transparantie en tentamenmodel, en via op cognitieve psychologie getoetste didactische methoden? casus Frankrijk?




tweet thread Never think of achievement tests as measurements, they’re just samples. Edgeworth already told you so, didn’t he? read free In search for a metaphor for achievement testing, the (medical) puncture might be useful: short duration, painful, samples suspect tissue. Aha, why puncture healthy tissue at all? #insight [educational measurement] For an application of the puncture-principle see: the case of lottery-based admissions in the Netherlands http://benwilbrink.nl/projecten/lottery.htm" target='_blank'>webpage




subthema’s