[lead]Een verkeerd begrepen theorie, of een verkeerde theorie, kan vervelende gevolgen hebben wanneer het gaat over examens. Examens raken iedere burger, meerdere malen in het leven, hopelijk alleen als metafoor en niet letterlijk. Eenzijdige theorievorming over examens in heel de twintigste eeuw werkt niet altijd als een zegen. In Nederland heeft de Universiteit van Amsterdam bij de introductie van examenmethoden altijd een prominente rol gespeeld, van Kohnstamm tot Borsboom. Met het heengaan van A. D. de Groot is de vraag: zijn we erop vooruitgegaan, welke belangrijke ontwikkelingen mogen we nog verwachten?
[kop 1]Inleiding
A. D. de Groot was een warm pleitbezorger van keuzetoetsen en van de psychometrie die daar bij lijkt te horen, zijn met Van Naerssen en anderen geredigeerde boek (1969) getuigt daarvan. Psychometrie is de statistische theorie van test- of toetsscores. Dat bedenk ik niet, dat is de titel van het handboek van Lord en Novick (1968). Zij presenteren geen theorie, maar een tautologie (pagina 48); alles in het handboek is waar, ongeacht de toestand van de wereld. Dit soort borstklopperij komt vaker voor. Zo is Edward Thorndike in 1904 begonnen met het tellen en bewerken van scores te presenteren alsof het om net zoiets als natuurkundig meten gaat: alles waar een getal op valt te plakken, is meten. Deze caricatuur is later in die eeuw geformaliseerd tot zoiets als 'meten is alles waarbij getallen volgen een regel worden toegekend.' Ben ik unfair? Thorndike is grondlegger van de psychometrie, en hij had daar een agenda bij: de psychologie op de kaart zetten. Een enorme afzetmarkt voor toetsen in het onderwijs hielp daar goed bij. Een eeuw later zitten we nog met de gevolgen. Ieder op eigen wijze hebben Lagemann (2000) en Michell (1999) dat indringend in beeld gebracht. Dat De Groot op zijn beurt deze psychometrie in Nederland op de kaart zette, was onvermijdelijk, maar niet in ieder opzicht gelukkig. Zijn opvolgers in Amsterdam zijn bezig met een opmerkelijke inhaalslag, die de psychometrie in een passend bescheiden rol geeft als hulpwetenschap. Het gaat nu weer over de wereld waaraan we met tests en toetsen gegevens ontlokken. Borsboom, Mellenbergh en Van Heerden (2004, zie pdf) stellen validiteit voorop, de vraag of het te meten attribuut een oorzakelijk verband met de testscore heeft. Toch opmerkelijk dat zoiets vanzelfsprekends opmerkelijk is.
[kop 1]Is objectief ook eerlijk?
Er is een typisch Nederlandse misvatting dat keuzevragen 'objectief' zijn omdat de computer ze kan scoren. De misvatting komt voort uit de voortdurend door examendeskundigen bedreven PR dat keuzevragen objectief en dus eerlijk zijn - andere vraagsoorten zijn maar niets. Maar uiteraard is het ontwerpen van keuzevragen en het vaststellen van de sleutel subjectief, want ontwerpers komen onafhankelijk van elkaar niet met dezelfde vragen op de proppen. Het idee dat nakijken vooral zo eerlijk mogelijk moet zijn is voor psychometrici een argument om van opstel-achtige en mondelinge vragen over te gaan op toetsen met korte vragen - in Nederland moesten dat uitsluitend keuzevragen zijn. Dit denken heeft op een andere manier - meer via de tekortkomingen van beoordelaars zoals beschreven in de Methodologie van De Groot (1961) - geleid tot een overdreven streven naar eerlijkheid bij het nakijken van examens met omvangrijke open vragen. Kosten noch moeite worden soms gespaard om met meerdere beoordelaars, antwoordmodellen, en wat niet al, tot eerlijke beoordeling te komen, en ook nog mogelijkheden voor beroep te bieden. Dat is toch een ontsporing, omdat het schaarse middelen aan de instructie inttrekt, en inzet voor iets waaraan de kandidaten geen instructief nut meer ontlenen. Dat is evenmin eerlijk tegenover diezelfde kandidaten. De Groot zou twee suggesties hebben: doe niet zo benepen en ga over op korte vragen, of breng het beoordelen weer terug binnen de instructie zelf - zijn handelingsonderdelen (1962). Er zijn vandaag enkele grote bewegingen te zien. Bureaucratisering zoals in de BVE-sector met de examens gebeurt, dat is niet echt de goede richting. Kijk liever in Engeland naar de door Black en Wiliam (1998) geïnspireerde beweging om het beoordelen weer zijn functie bij het leren terug te geven, in plaats van het het geleerde achteraf te controleren (zie ook Ofsted 2003). Dàt is pas eerlijk, ook al is het waarschijnlijk minder objectief. Het is beter de koek groter te maken, dan de stukjes ervan zo gelijk mogelijk.
[kop 1]Het cijfer telt, niet de geschatte ware beheersing
Het is best leuk om voor groepen examenresultaten allerlei berekeningen en plotjes te maken, zoals Thorndike al deed. Maar heel anders dan bij tests hebben examenscores zèlf een spijkerharde betekenis, zeker in de buurt van de grens tussen zakken en slagen. Statistisch bewerken van de uitslag-bepalende scores is zinledig. Hier is geen ruimte voor statistisch geschipper over ware scores, want die bepalen de uitslag niet. Dat bij snelheidsovertredingen - na een rechterlijke uitspraak daarover - er een marge bij de limiet wordt opgeteld, vindt hopelijk geen navolging in het onderwijs. En dat het departement van onderwijs voor toewijzen van leerlingen aan speciale leerwegen scores op intelligentietests net zo behandelt als waren het examenuitslagen - getest IQ 85 of lager - is puur misbruik, en bijvoorbeeld psychologen nadrukkelijk niet toegestaan. Examens zijn bijzonder, en kunnen maar beter naar die bijzonderheid worden behandeld in theorie en praktijk.
Psychometrisch gereedschap is bij examenscores daarom tamelijk nutteloos, al is het op averechtse manier wel weer bruikbaar te maken. Van Naerssen werkte dat alternatief uit tot zijn tentamenmodel (1970). De Groot legde eveneens in 1970 uit dat docenten ervoor moeten zorgen dat kandidaten zich doeltreffend op examens kunnen voorbereiden om zodoende zelf de statistische risico's daadwerkelijk te kùnnen dragen. Uit dezelfde Afdeling Examentechnieken kwamen zo twee alternatieven voor de louter psychometrische benadering van examens, beide geworteld in de visie dat kandidaten niet passief tests ondergaan, maar strategisch handelen. Het tentamenmodel is in feite een modelmatige uitwerking van het beginsel van doorzichtigheid van De Groot, hoewel noch Van Naerssen, noch De Groot dat destijds zo hebben gebracht. Voor de verdere ontwikkeling van dit alternatief voor de psychometrische benadering van examens, met al beschikbare instrumenten, zie Wilbrink (in uitvoering).
Psychometrisch denken over zakken en slagen leidt tot absurde betogen over kandidaten die ten onrechte afgewezen of ten onrechte geslaagd zouden zijn. Wantrouw die betogen. Ik geef toe dat ik ze zelf ook heb gehouden. De Groot stelt (1972) dat in de buurt van de zakslaaggrens de beslissingen niet inhoudelijk zijn te rechtvaardigen, en kan geen oplossing voor het dilemma aanreiken. Het zit hem dan behoorlijk dwars. Vergeten lijkt zijn pleidooi voor doorzichtigheid, dat er nu juist op is gericht het spel zo in te richten dat de kandidaat het risico rond de zakslaaggrens zelf kan dragen. Het idee van examens als hoofdmoment in een door spelregels beheerst drama, dat is bepaald iets anders dan het psychometrisch gedachtengoed.
[kop 1]Geef kandidaten redelijke kansen
Schadelijk voor het onderwijs is het met huid en haar slikken van de onderliggende filosofie van het psychometrische bouwwerk: verschillen tussen studenten (betrouwbaar en valide) te meten. De Groot heeft met zijn pleidooi voor doorzichtigheid impliciet benadrukt dat het afgelopen moet zijn met het met elkaar vergelijken van leerlingen: de individuele leerling hoort niet direct met anderen te concurreren - zoals binnen het werkingsgebied van de wet van Posthumus juist wèl het geval is - maar moet redelijkerwijs aan helder geformuleerde inhoudelijke eisen kunnen voldoen. Dat is geen aardigheidje naar die individuele leerling, maar maakt een eind aan de blinde kapitaalvernietiging die noodzakelijk volgt uit het altijd maar vergelijkend beoordelen, anderhalf tot twee decennia lang (zo lang duurt een onderwijsloopbaan).
Een algemene misvatting is dat examens, en examenvragen, moeten onderscheiden tussen kandidaten. Dat is slordig denken, het resultaat van een eeuw toepassen van de correlationele technieken uit de psychometrie. Een groep gelijk gekwalificeerde kandidaten zou in die zienswijze strikt genomen niet betrouwbaar en valide kunnen worden geëxamineerd omdat alle verschillen in scores dan toevallig zijn. Borsboom en anderen (pagina 1066) gaan uitvoerig op dit punt in, en helpen het uit de wereld. Niet dat de verschillen niet toevallig zouden zijn, maar het punt is dat bij een valide examen afgenomen aan een groep gelijk gekwalificeerden, het gemiddelde resultaat overeenkomt met die gelijke kwalificaties. In het algemeen gaat het dus niet om correlaties tussen van alles en nog wat, die kunnen misleidend zijn en kunnen de oorzakelijke validiteitsclaim niet onderbouwen: dat de bedoelde beheersing van de stof de oorzaak is van de uitkomsten op het examen. Of er maar een enkele leerling aan het examen deelneemt - de variantie van examenuitslagen is dan nul - of een grote groep, dat maakt geen verschil voor de validiteitsvraag.
[kop 1]En zet betrouwbaarheid op de reservebank
In de literatuur over educational measurement is er uitzonderlijk veel aandacht voor de betrouwbaarheid van scores. Precies: betrouwbaarheid als correlatie tussen verschillende ordeningen van dezelfde groep studenten. Borsboom en anderen waarschuwen tegen het ondoordacht toepassen van deze correlationele technieken, ik ben ze daar buitengewoon erkentelijk voor. Iedere student psychologie is in de gelegenheid te vernemen dat betrouwbaarheid slechts een voorwaarde is voor het kunnen hebben van enige validiteit, en dat het uiteraard alleen op die validiteit aankomt. Woorden, woorden, het zijn allemaal woorden. In de praktijk van het onderwijs wordt de kwaliteit van toetsen vermangeld omdat men probeert een simpele maat voor deze betrouwbaarheid omhoog te manipuleren door te moeilijke vragen te gebruiken, of door achteraf toetsvragen weg te laten, en wordt de validiteitsvraag met de vuilnisman meegegeven. Borsboom en anderen draaien het heel verrassend om: validiteit is voorwaarde voor betrouwbaarheid. Zij geven meer voorbeelden hoe misverstanden rond correlaties tot wantoestanden kunnen leiden. Het onderwijsveld is er bijzonder kwetsbaar voor omdat het schijnbare rugdekking geeft aan de wetmatigheid van Posthumus, die eerder op een andere manier al in beeld kwam. Want het toepassen van correlationele technieken uit de psychometrie zal er altijd - wat ook de werkelijkheid is, dus met de validiteit tussen dikke haken gezet - toe leiden dat er groepen kandidaten afvallen. Dat afvallen kan verdiend zijn, of het gevolg van gecalculeerde risico's. Maar waarom zouden het in feite geen gelijk gekwalificeerden zijn? Wie zegt dat dit specifieke examen in feite niet letterlijk een stoelendans is? Uiteindelijk is de vraag naar de validiteit van een en ander aan de orde, en die vraag is niet op de manier van Münchhausen te beantwoorden door statistische berekeningen op de examenscores doen. Voor een belangrijke doorbraak in het denken over validiteit zie weer Borsboom en anderen. De kwestie van validiteit van examens ligt buiten de psychometrie. Zo bezien is psychometrie: zoeken waar het licht is. Examens leveren altijd scores op, er is altijd wat te bewerken en te berekenen. De vraag naar de validiteit, in de recente Amsterdamse interpretatie, is de vraag naar het oorzakelijke verband tussen het onderwijs en het erover af te nemen examen. Dat oorzakelijke verband moet richting geven aan het ontwerp van examens: zowel de combinatie van onderdelen, de samenstelling van toetsen, als het ontwerp van toetsvragen. Maar niet alleen het ontwerp van examens, want ook dat van het onderwijs zelf is in het geding, zoals te zien in de spannende zoektocht van Deanna Kuhn (2005).
Borsboom, D., Mellenbergh, G.J., & Van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071. pdf
Groot, A.D. de (1961). Methodologie. Grondslagen van onderzoek en denken in de gedragswetenschappen. Den Haag: Mouton.
Groot, A.D. de (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. html
Groot, A.D. de (1972). Selektie voor en in het hoger onderwijs. Een probleemanalyse. 's-Gravenhage: Staatsuitgeverij.
Groot, A.D. de, & van Naerssen, R.F. (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Den Haag: Mouton.
Kuhn, D. (2005). Education for thinking. Cambridge, Massachusetts: Harvard University Press.
Lagemann, E.C. (2000). An elusive science: The troubling history of education research. University of Chicago Press.
Lord, F.M., & Novick, M.R. (1968). Statistical theories of mental test scores. London: Addison-Wesley.
Michell, J. (1999). Measurement in psychology. A critical history of a methodological concept. Cambridge University Press.
Naerssen, R.F. van (1970). Over optimaal studeren en tentamens combineren. Rede.
www.benwilbrink.nl/publicaties/70vNaerssenLes.htm
Ofsted (2003). Good assessment in secondary schools. Office for Standards in Education.
http://www.ofsted.gov.uk/publications/docs/3205.pdf (broken link?)
Thorndike, E.L. (1904). An introduction to the theory of mental and social measurements. New York: The Science Press.
Wilbrink, B. (in progress). A general model of achievement testing.
www.benwilbrink.nl/projecten/spa_project.htm
[auteursgegevens]De auteur is freelance adviseur en onderzoeker, over toetsen, toetsvragen ontwerpen, examens, selectie, en arbeidsmarkt. www.benwilbrink.nl
Denny Borsboom (2006). The attack of the psychometricians. Psychometrika, 71, 425-440. pdf
Joel Michell (2000). Normal Science, Pathological Science and Psychometrics. Theory & Psychology, 10, 639-667. pdf
Timothy Koschmann (2000). The Physiological and the Social in the Psychologies of Dewey and Thorndike: The Matter of Habit. In B. Fishman and S. O'Connor-Divelbiss: Fourth International Conference of the Learning Sciences (pp. 314-319). Mahwah, NJ: Erlbaum. pdf
Ellen Condliffe Lagemann and Lee S. Shulman (Eds) (1999). Issues in Education Research: Problems and Possibilities. Jossey-Bass. questia
Ben Wilbrink (1986). Toetsen en testen in het onderwijs. In S.V.O. Jaarverslag/Jaarboek 1985, 275-288. Den Haag: Stichting voor Onderwijsonderzoek. html
http://www.benwilbrink.nl/publicaties/06psychometrieexamens.htm