Eerdere voordracht op 18 januari over kennis en vaardigheden. Parallel-voordracht in het Engels op de ResearchEd hier. De thematiek van beide papers is hetzelfde, de behandelde gevallen zijn vooral Nederlandse, resp. internationale.
Toetsen is niet zo simpel als het lijkt.
Ik trek het breed:
van toetsvragen ontwerpen tot eindexamens
van psychometrie tot ethiek
van leerlingen tot ministers
van rekenen tot taal.
Ik ga niets zeggen over beoordelen in de klas, daar zijn vandaag meerdere interessante papers over, en ik heb hier geen bijzondere expertise. Nou ja, wat ik wel over beoordelen ga zeggen, raakt ook altijd wel wat er in de klas gebeurt.
Ik zal het niet hebben over betrouwbaarheid van toetsen, en of keuzevragen vier of drie alternatieven moeten hebben. Als we een paar lagen dieper willen kijken, op welke thematiek komen we dan uit? Twee thematieken? Yep. Vier dan.
Twee dingen vooraf, dingen die in mijn werk steeds weer terugkomen: rangordenen en het verschil tussen toetsen en testen.
De wortels van dat cijfergeven, waar liggen die? [Wilbrink 1997] Dat rangordenen is in zekere zin de core business van de testpsychologie. Past dat testen ook op beoordelen in het onderwijs?
Het verschil tussen testen en toetsen [Wilbrink 1986] Waar het miskennen van het verschil tussen testen toetsen toe kan leiden, zien we bijvoorbeeld in De Groot en Van Naerssen’s boek uit 1969 over studietoetsen. Wijsheid uit de testpsychologie is daar zomaar overgezet naar beoordelen. p-waarden. geen aandacht voor strategie van de leerling, maar daar komen zowel De Groot als Van Naerssen in 1970 dus op terug, een buitengewoon interessante wending in de Nederlandse psychologie.
Die vier thematieken van mij zijn dan:
1. Het is altijd politiek met dat beoordelen
2. Beoordeelden betalen terug met strategisch gedrag. Maak er gebruik van.
3. Beoordelen gaat altijd om de inhoud (maar zo ziet niet iedereen dat)
4. Beoordelen is altijd complexer dan je denkt.
James S. Coleman (1990). Foundations of social theory. Cambridge, Massachusetts: The Belknap Press of Harvard University Press.
Lee J. Cronbach & Goldine C. Gleser, G. C. (1957, 1965). Psychological tests and personnel decisions. University of Illinois Press.
A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie en haar Grensgebieden, 26, 360-376. Integraal: webpage
E. D. Hirsch, Jr. (2016). Why knowledge matters. Rescuing our children from failed educational theories. Harvard Education Press. info, and especially its free access prologue pdf [missing the 40 footnotes, reason to mention most references in this blog, and extending them with links and other publications of interest]. Dutch review [concepttekst] by Ben Wilbrink.
Robert F. van Naerssen. Over optimaal studeren en tentamens combineren. Openbare les webpagina.
Ben Wilbrink (1986). Toetsen en testen in het onderwijs. S.V.O. Jaarverslag/Jaarboek 1985, 275-288. Den Haag: Stichting voor Onderwijsonderzoek. webpagina
Ben Wilbrink (1992). The first year examination as negotiation; An application of Coleman&rsquoo;s (1990) social system theory to law education data. webpage
Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation 23, 31-48. webpagina
Ben Wilbrink. Strategic Preparation for Achievement Tests. html.
Ben Wilbrink: The weighted lottery in the admission to ‘restricted’ university studies in the Netherlands webpage
Toetsen en cijfergeven kom je vaak bij elkaar tegen. De Groot schreef er een bekend boek over, Vijven en zessen 1966, hopelijk gaat Noordhoff het opnieuw uitgeven. Dat cijfergeven lijkt er vooral een strijd om de macht tussen leraren te zijn. Als dat waar is, dan zijn cijfers dus een merkwaardig subjectief gegeven. Ik vroeg Adriaan ooit of hij iets had gevonden over de oorsprong van dat cijfergeven: waar komt het vandaan? Hij vond dat een verrassende vraag: het was nooit bij hem opgekomen. Kan kennis van de geschiedenis ons inzicht over dat cijfergeven verschaffen? Ik zou het wel denken. Weet u het, die oorsprong?
Het traditionele systeem om leerlingen op te beoordelen is het rangordenen ten opzichte van medeleerlingen. Dat gebeurde ook in de zo op kwantificeren en meten gerichte 19e eeuw bij het Franse examen, de agrégation. De betekenis van de rang van een kandidaat in zo’n examen hangt vooral af van het aantal kandidaten, en dat is niet echt handig. Dan is het een goed idee om de rangorde terug te brengen tot een 10-staps rangorde, en daar de kandidaten gelijkelijk over te verdelen. Mooi. Maar evenveel 1e rang als 10e rang geeft ook weer een scheef beeld: het is beter om die geforceerde gelijke verdeling los te laten: als de uitmuntende prestaties juist dicht bij elkaar liggen, zet je ze allemaal in de topcategorie. Oké, maar niet iedere jaargang is even goed, misschien zijn er ook wel eens helemaal geen uitmuntende prestaties, dan laat je die categorie leeg. En zo zien we in Frankrijk in relatief kort tijdsbestek de gewone rangorde veranderen tot een in zekere mate gestandaardiseerde rangorde [de bron, bij toeval gevonden, en ongetwijfeld een tamelijk unieke bron: Chervel (1993)]. Is dat cijferen eenmaal uitgevonden, dan kan het op andere plaatsen in een keer worden overgenomen, zoals in ons land voor het laatst gebeurde in 1903, toen het Groningse gymnasium na het overlijden van zijn stokoude rector het rangordenen in kon ruilen voor die moderne cijfers. Vooruitgang is niet te stuiten. [geschiedenis van beoordelen in het onderwijs tot 1900: Wilbrink 1997]
Ik stel me voor dat kennis van deze oorsprong van cijfergeven ons wat terughoudender kan maken in het gebruik van cijfers: het drukt ons immers met de neus op het feit dat we in ons onderwijs wel erg veel nadruk leggen op het vergelijken van leerlingen onderling, en daar is onderwijs niet voor. Cijfergeven levert ethische dilemmas op. Dit cijfergeven is in de grond van de zaak hetzelfde wat gebeurt bij leerlingvolgsystemen die leerlingen vastnagelen op hun relatieve positie in de landelijke pikorde van cognitief presteren. Ook een ethisch dilemma. Het dilemma verdwijnt niet door alleen het expliciete cijfergeven achterwege te laten, maar in de didactiek vast te bijven houden aan werken op basis van dezelfde individuele verschillen. De stelling is verdedigbaar dat het herhaaldelijk testen en toetsen van zwakkere leerlingen op deze vergelijkende wijze een vorm van geestelijke mishandeling is, in strijd dus met het internationale verdrag van de rechten van het kind waar Nederland ondertekenaar van is.
[toetsen zien als impliciete onderhandeling tussen de beide groepen van leerlingen en leraren, of van studenten en hun docenten] [Wilbrink, 1992 ECER papers]
[Als dat toetsen is te modelleren als een onderhandelingsspel, waarom dat toetsen niet gewoon als spel zien, een spel waar spelregels bij horen? ] [transparantie: De Groot 1970. Toetsen moeten curriculumspecifiek zijn. Job Cohen: de vragen moeten de opgegeven/behandelde stof niet te boven gaan. Voor onze eindexamens zou De Groot eisen dat ze curriculumspecifiek zijn, en dan zou de rekentoets onmiddellijk door de mand vallen. Maar ook ieder examen of iedere toets waar de uitkomst in niet te verwaarlozen mate bepaald wordt door verschillen in intelligentie. ]
Zijpad: het is niet zo dat toetsen per definitie verschillen in scores moeten opleveren. Toetsen in het onderwijs zijn totaal andere instrumenten dan psychologische tests zoals die in de psychodiagnostiek worden gebruikt, of om bij de overgang van basis- naar voortgezet onderwijs informatie te geven die bij een goede keuze kan helpen. [Wilbrink 1986] [Richtlijnen NIP 1988]. Een aardig voorbeeld is dat je bij de rekentoets kunt stellen dat deze voor vrijwel alle leerlingen ongeveer dezelfde hoge moet opleveren, wat betekent dat een goede rekentoets een betrouwbaarheid van bijna nul moet hebben. Rekenen is immers geen raketwetenschap, het gaat om basale kennis waar kandidaten vlot mee moeten kunnen werken, op eenvoudige wijze te toetsen met honderd opgaven in een half uur tijd. Zo’n toets kan iedere wiskundeleraar in twee uur in elkaar zetten (of vragen laten genereren door een eenvoudig computerprogramma). Als deze lijn gevolgd was, zou dat de staatskas nu al een half miljard hebben gescheeld, daar had heel wat bitter noodzakelijke thuiszorg mee gefinancierd kunnen worden.
[cesuurbepaling, waar De Groot geen raad mee wist: hoe kun je nu de ene leerlingen laten zakken, de andere laten overgaan, terwijl er slechts het kleinst mogelijke scoreverschil tussen beide is? De oplossing voor dit dilemma, gegeven dat er een cesuur moet zijn, is dat in dit spel de regel geldt: je bent als leerling er zelf verantwoordelijk voor om je voldoende voor te bereiden, dus om te mikken boven het niveau van het zesje. Zoals De Groot in 1970 aangaf, is het de verantwoordelijkheid van de leraar, van de school, om ervoor te zorgen dat de toetsen en examens doeltreffend zijn voor te bereiden. Dus dat ze de stof niet te buiten gaan, en niet testen op verschillen in intelligentie maar uitsluitend op beheersing van de opgegeven stof. Op zich is een artikel uit 1970 al historisch, maar ook in dit geval geeft het inzicht om verder terug te gaan, naar het eind 19e-eeuwse werk van grondlegger van de mathematische statistiek, Edgeworth, over selectieve examens (voor de Civil Service van het Verenigd Koninkrijk). Hij legt daarin haarfijn uit dat het niet oneerlijk is dat de ene kandidaat net wordt afgewezen, waar de andere net wordt aangenomen. Het examen is een steekproef uit de kennis van de kandidaten, en natuurlijk kan de steekproef wel eens minder gunstig uitvallen, dat heb je met steekproeven. Het springende punt is, dat de kandidaat zijn kansen zelf kan verhogen door beter voorbereid te zijn. No problem. Edgeworth kenschets het selectieve examen dus als een gewogen loterij: de kandidaat kan de weging in zijn voordeel veranderen door beter voorbereid te zijn.
Dat is een leuk bruggetje naar selectie voor het hoger onderwijs, voor opleidingen met een numerus fixus dan. [rapportage Cie Drenth 1997).
André Chervel (1993). Histoire de l’Agrégation. Contribution à l’histoire de la culture scolaire. Paris: INRP Editions Kime.
Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation 23, 31-48. webpagina
A. D. Groot (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: J. B. Wolters. [Er is een latere editie, bezorgd door Wynand Wijnen, maar De Groot zelf beschouwt alleen de editie-1966 als origineel.]
[
- De Groot 1966 cijferen is machtsspel
- Chervel 1993 cijferen is rangordenen
- rangordenen is ook een onderwijsideologie: is dat altijd maar vergelijken met andere leerlingn wel zo gewenst?
- cijferen is een spel, met spelregels De Groot 1970
- Maar dan ook bij zak-slaaggrens: De Groot begreep dat niet (beslissingen rond de zak-slaaggrens kunnen niet valide zijn), maar Edgeworth begreep het al prima, eind 19e eeuw
- Hoe dat cijferen misstanden tot gevolg heeft: Posthumus 1940
- Onder dat regime van misstanden kunnen leerlingen niet gezamenlijk goede studiestrategieën volgen: de kaarten worden tegen ze geschud.
- Meer algemeen : wat valt er te zeggen over progressivistisch onderwijs, dat is individualiserend onderwijs met sterke gerichtheid op generieke vaardigheden. Hoe toets je dat? Of laten we het anders stellen: wat weten ervan op basis van toetsen? --> Hirsch casus Franrijk.
- Wat leert ons het casus Frankrijk over toetsen?
- Digitaal toetsen?
- Wat zijn enkele rode draden door dit geheel: (1) toetsen op beheersing (integer) versus toetsen op individuele verschillen (niet integer, daar is onderwijs niet voor) (2) experts hebben het niet voor het zeggen (3) als ze het wel voor het zeggen hebben draait de zaak ook in het honderd (4) is daar eigenlijk wel een oplossing voor, of blijft het provisorisch repareren van wat evident misgaat zodat daarna evident iets anders weer uit de rails loopt [casus: rekentoets, taalvaardigheid in examens]
- hoe speelt hier equity nog een rol, is dat via transparantie en tentamenmodel, en via op cognitieve psychologie getoetste didactische methoden? casus Frankrijk?
tweet thread Never think of achievement tests as measurements, they’re just samples. Edgeworth already told you so, didn’t he? read free In search for a metaphor for achievement testing, the (medical) puncture might be useful: short duration, painful, samples suspect tissue. Aha, why puncture healthy tissue at all? #insight [educational measurement] For an application of the puncture-principle see: the case of lottery-based admissions in the Netherlands http://benwilbrink.nl/projecten/lottery.htm" target='_blank'>webpage
geschiedenis [mijn 1997]
rangordenen was de adem van de middeleeuwen, maar dan voor de adel allereerst naar maatschappelijke status, voor de arme broeders naar prestatie
Leuven 16e eeuw: competitie tussen de vier huizen, tegelijk individueel kun je je prebende binnenslepen. Sterk meritocratisch, zou je kunnen zeggen.
Datzelfde geldt voor al veel oudere Chinese examens, die erop waren gericht om het ontstaan van machtige families te voorkomen. Overigens is er geen invloed van deze Chinese praktijk op West-Europese examens geweest.
Pas enkele eeuwen later zien we hetzelfde in Cambridge: de Mathematical Tripos.
In Latijnse scholen, vormgegeven naar concept van Johan Cele: prijzenstelsel. Dat kennen we vandaag de dag nog steeds, bijv. in de onderwijsfilosofie van Sander Dekker.
Dat rangordenen ging inhoudelijk op een simpele manier: gemaakte fouten werden bijgehouden, over lange perioden, waarsch overal in de bijzondere vorm dat iedere leerlingen de scores van alle leerlingen bijhield. Is dat vreemd? Tellen van fouten is nog steeds de basis van toetsbureaucratie (ipv zinvolle feedback). En dat iedere leerling alles van andere leerlingen weet, dat vinden we niet bijzonder (zou het wel moeten zijn).
testen - toetsen [mijn 1986]
Onderwijs is publiek goed, niet iets van werkgevers in de sector. Geef keuzemacht terug aan ouders (vrij naar Thorbecke). tweet
Ferdinand Mertens (30-12-2016). ‘Vijven en Zessen’ van Prof. Adriaan de Groot een boekje dat geschiedenis maakte. info
Nog niet gezien. Zijn rede over o.a. De Groot stemt mij niet vrerwachtingsvol voor dit boekje.
Debra Kidd (April 20, 2016). Parent Power. blog
[concepttekst, Vakwerk, publicatie: december 2016; komt online op de website van Vakwerk/BON. ] Bespreking van E. D. Hirsch, Jr., 2016, Why knowledge matters. Rescuing our children from failed educational theories. Harvard Education Press. pdf
Karen Heij (21 september 2016). Van rangschikken groei je niet blog
Hennes de Ridder (15 januari 2017). Rijkswaterstaat wéét niks meer. NRC Opinie. artikel
Beschrijft exact wat er mis ging en gaat met het rekenonderwijs, de referentieniveaus, en de rekentoets. De rekentoets wordt nodeloos duizend keer ingewikkelder gemaakt dan nodig is voor een toets die gewoon rekenen toetst.
Edsger Dijkstra (1974). Heer, verlos ons van de charlatans. [Brief aan de NRC, niet geplaatst]
Mooi voorbeeld van Dunning-Kruger. Paul Kirscher: http://tinyurl.com/qxcxo6w
Edsger Dijkstra (n.d. seventies). Programming methodologies, their objectives and their nature. pdf
http://www.benwilbrink.nl/publicaties/17toetsen.htm