S.V.O. Jaarverslag/Jaarboek 1985, 275-288. Den Haag: Stichting voor Onderwijsonderzoek, 1986

Toetsen en testen in het onderwijs

Ben Wilbrink

wetenschappelijk hoofdambtenaar, Universiteit van Amsterdam, Centrum voor Onderzoek van het Wetenschappelijk Onderwijs.

"De gymnasia en de hogere burgerscholen zijn sinds 1875 volkomen veranderd. Vakken, leerplannen, urentabellen, zijn gekomen en gegaan. Het aantal leerlingen is verveelvoudigd. De meisjes hebben hun intrede gedaan. De maatschappelijke samenstelling der schoolbevolking is geheel veranderd; de wereldoorlog heeft mens en maatschappij vervormd; het gezinsleven, de sport, de vermaken, het is alles anders geworden. Maar de onvolledige statistieken die er zijn, tonen, dat het gedeelte uitvallers der middelbare scholen gelijk bleef."

K. Posthumus, 'Middelbaar onderwijs en schifting', De Gids, 1940, 104, 24-42. integraal op dbnl.nl

Het citaat van Posthumus geeft aan dat onze beoordelingsgewoonten harder zijn dan de Nederlandse gulden. De 'wet van Posthumus' luidt dat beoordelaars er toe neigen een kwart der beoordeelden het predicaat 'ongeschikt' toe te kennen, af te wijzen, te laten doubleren, een onvoldoende toe te kennen, of voor herkansing te laten terugkomen. Zorgelijk is de kwantificering: een kwart valt af, op welk niveau of in welk leerjaar we ons ook bevinden. Nu zijn er sinds 1940 wel een paar dingen in ons onderwijs veranderd, maar de orde van grootte van het fenomeen 'onvoldoende beoordelen' is nog dezelfde. De suggestie is dat er iets mis is aan de wijze waarop er in ons onderwijs wordt getest en getoetst. Er is geen onderzoek voor nodig om die suggestie te bevestigen: mocht de schifting in het eerste of tweede leerjaar nog iets met een realistische selectie van doen hebben, voor de latere leerjaren kan dat niet meer worden volgehouden.

Het bovenstaande is geen nieuws, maar dat was het in 1940 ook niet. Veel pogingen tot onderwijsvernieuwing vinden hun motivering juist in dit schiftingsproces waarvan vrijwel iedereen wel inziet dat het absurde trekken heeft. Een model zoals het 'leren voor beheersing' is zo'n poging het systeem te doorbreken, maar de aantrekkelijke kanten van dit onderwijsmodel waren voor een doorbraak niet voldoende. Een ander recent voorbeeld is de poging om bij wet de rendementen in het wetenschappelijk onderwijs te verbeteren (wet twee-fasenstructuur, 1982). Het is genoegzaam bekend hoezeer docenten zich in hun beoordeling aanpassen aan veranderingen in de onderwijssituatie en het niveau van de leerlingen (Hofstee 1970 geeft een overzicht), daarmee de wet van Posthumus overeind houdend. Omdat de wet twee-fasenstructuur nu juist op het beoordelingsgedrag van docenten niet inspeelt, kan de beoogde verbetering van rendementen bij voorbaat al worden afgeschreven.

Wie greep wil krijgen op de omvang van uitval en vertraging in het onderwijs doet er goed aan, alvorens dat onderwijs zelf weer eens structureel op z'n kop te zetten, de beoordelingsprocessen in dat onderwijs te proberen te beheersen. De krachtigste hefboom om verbeteringen in het onderwijs te bewerkstelligen is in te breken via het toetsgebeuren en alles wat daarmee samenhangt. Ik zal in het volgende enkele lijnen uitzetten voor een stormaanval op deze burcht van de traditie. Omdat onderzoek op vele van de te noemen onderwerpen nog nauwelijks heeft plaatsgevonden zal mijn betoog enigszins speculatief zijn, ook al laat mijn eigen werk zien dat er goede gronden voor de hier te ontvouwen gedachten kunnen worden aangegeven.

rechten en plichten

De Verklaring van de rechten van het kind, opgesteld door de Verenigde Naties in 1959, beginsel 8: 'Het kind behoort onder alle omstandigheden tot de eersten, die recht hebben op bescherming en hulp' (Raad voor het Jeugdbeleid, 1984). Dat was ook de motivatie van Posthumus: 'Een bitter treurspel speelt zich af rond de middelbare school, waarvan vaak maar weinig blijkt, omdat de slachtoffers zich schamen en zwijgen.'

Welke rechten hebben leerlingen tegenover het beoordelingsgeweld dat op hen afkomt? Zijn docenten gebonden aan dezelfde rechtsregels die voor alle burgers en vooral voor bestuurders gelden? Wat kan de onderwijskundige aan methoden en technieken aandragen om deze beoordelingsprocessen te kunnen beheersen?

In de zeventiger jaren komt er in de Verenigde Staten een abrupt einde aan het als vanzelfsprekend accepteren van het toetsen en testen zoals dat o.a. in het onderwijs plaatsvindt. Er wordt van testconstructeurs zowel rekening en verantwoording gevraagd, als openheid over eenmaal afgenomen tests (vooral die welke een rol spelen bij toelating tot instellingen voor hoger onderwijs). In de zaak van Debra P. tegen Turlington (bv. Madaus, 1983) wordt in de rechtszaal gestreden over de vraag of examens inhoudelijke validiteit moeten hebben, en zo ja wat daar onder moet worden verstaan. In dat debat hebben de deskundige specialisten zich uit elkaar laten spelen: kennelijk was een halve eeuw voorbereidingstijd niet voldoende. In de zaak van Bakke tegen de Universiteit van Californië (bv. Iest en Sloot, 1979) komen indringende vragen van gelijke behandeling bij selectie aan de orde. In Nederland zijn (minder heftige) parallelle ontwikkelingen, zoals de discussie over selectieve toelating tot numerus fixus studies (bv. Wilbrink 1980f), het pleidooi van De Groot (1970) voor die bijzondere vorm van inhoudelijke geldigheid van toetsen die hij doorzichtigheid noemde, en de toenemende druk om studenten en leerlingen het inzagerecht in gemaakte examens te verlenen (Cohen, 1981).

Een opvallend kenmerk van het onderwijs is het geheim van de klas: in de uitoefening van zijn beroep is de docent alleen met zijn leerlingen. De eigen verantwoordelijkheid van de docent is groot, hij wordt vrijwel niet gecontroleerd, en beoordeling van zijn werk als docent is knap lastig tenzij via de te gemakkelijke weg van de mening van de leerlingen (Millman, 1982; Wilbrink en Hofstee, 1984). Ook in zijn oordelen over studieprestaties heeft de docent een in veler ogen vrijwel onaantastbare autoriteit, omdat hij immers de vakdeskundige is: niet alleen rechters maar ook onderwijskundigen plegen zich dan te terughoudend op te stellen. Dit alles roept de vraag op waar de grenzen van de handelingsvrijheid van de docent liggen: aan welke regels heeft de docent zich te houden bij het oordelen over leerlingen? Cohen heeft krachtig duidelijk gemaakt dat docenten, evenals anderen die beroepshalve beslissingen hebben te nemen die de belangen van de burger raken, zich hebben te houden aan in het algemeen rechtsbewustzijn levende regels van behoorlijk bestuur. Ook laat Cohen zien dat dit leidt tot heel concrete regels die bij het beoordelen in acht zijn te nemen. In het wetenschappelijk onderwijs kunnen studenten voor het halen van hun recht terecht bij de Colleges van Beroep voor de Examens, bij iedere universiteit en technische hogeschool ingesteld volgens artikel 40 van de Wet Universitaire Bestuurshervorming. Voor het overige onderwijs is een dergelijke relatief eenvoudige rechtsgang helaas niet beschikbaar; wel kan men proberen per school het een en ander aan rechten en plichten vast te leggen in de vorm van een leerlingenstatuut, en kan men in ernstige gevallen bij de burgerlijke rechter terecht.

Bij tal van beoordelingen die zij in hun lange loopbaan in het onderwijs ontvangen wordt leerlingen onrecht gedaan. Ik twijfel daarbij niet aan de goede bedoelingen van docenten, maar zij beschikken eenvoudig niet over instrumenten, richtlijnen en ondersteuning om hun oordelen niet alleen behoorlijk maar ook adequaat te doen zijn. Er mag best druk op docenten en onderwijskundigen worden uitgeoefend om zich voor hun handelen te verantwoorden, en om te komen tot vernieuwingen in de richting van een doorzichtiger en billijker wijze van beoordelen in het onderwijs. Het blote feit alleen dat men een test of een toets gebruikt is niet voldoende om beslissingen te rechtvaardigen: men moet ook zijn waarden en doelen expliciet maken (vergelijk hoe dat gebeurt bij het rechtvaardig verdelen van schaarse medische voorzieningen, Winslow, 1982).

het beoordelen als sturingsmechanisme

Een klein verschil (maar welke grote gevolgen heeft dat!) tussen tests en toetsen is dat bij de psychologische test wordt verondersteld dat er geen specifieke voorbereiding op de test heeft plaatsgevonden, terwijl voor de toets in het onderwijs typisch geldt dat van de leerling wordt verwacht dat deze zich er behoorlijk op heeft voorbereid. Psychometrici zijn doorgaans niet erg bevattelijk voor dit onderscheid tussen tests en toetsen, al is daar in ons land met de publicaties van de Groot (1970) over doorzichtigheid van toetsen en van Van Naerssen (1970) over tentamenmodellen enige beweging in gekomen.

Onderwijs en toetsing worden in de praktijk als nogal als losgekoppeld gezien: er is een tijd van onderwijzen, en er is een tijd van beoordelen van wat ervan is terechtgekomen. Toetsen lijkt een handeling achteraf, 'alleen maar' een meting van bereikte kennis en inzicht. Docenten gaan er wel eens te gemakkelijk vanuit dat voor die toetsing achteraf dan ook alles is geoorloofd zolang er maar zoiets als kennis en inzicht wordt gevraagd. De strijd tot terugdringen van de subjectiviteit, inherent aan alle vormen van globaal oordelen, is nog lang niet gewonnen. Waar De Groot op wijst is meer dan alleen de wenselijkheid van objectiviteit bij het beoordelen: de leerling moet zich doeltreffend kunnen voorbereiden op toetsen. Met andere woorden: de leerling moet tevoren weten welke vragen er kunnen worden gesteld, de juiste beantwoording van dergelijke vragen moet zijn onderwezen, en daarnaast moeten beoordelingsnormen (waar ligt de grens slagen/zakken) tevoren duidelijk zijn. Met deze eis van doorzichtigheid probeert De Groot een recht van de leerlingen en een plicht van de docent vast te leggen. Hoewel deze eis op zich niet voldoende is om de wet van Posthumus te kunnen doorbreken, is het wel een belangrijke voorwaarde daartoe.

Het gaat bij de eis van doorzichtigheid van toetsen vooral om doorzichtheid vooraf: de leerling kan zijn lot in eigen hand nemen, is in staat zelf te kiezen voor een eventueel nodige extra inspanning, en wordt beschermd tegen irrelevante studieactiviteiten zoals die worden uitgelokt door geheimzinnigheid over wat er precies zal worden getoetst. Het gaat hier om het gedrag van de leerling bij de voorbereiding op een toets: niet alleen de tijd die wordt geïnvesteerd, maar ook de doeltreffendheid van wat er in die tijd wordt gedaan. Van Naerssen zag in dat er verband moet bestaan tussen de eisen die bij een tentamen worden gesteld (met name waar de grens zakken/slagen wordt gelegd) en de hoeveelheid tijd die de student bereid is in de voorbereiding op dat tentamen te investeren, en hij gaf daar tevens een wiskundig model voor. Hiermee werd onderwijskundigen voor het eerst een instrument in handen gegeven voor onderzoek naar de wisselwerking tussen het beoordelingsgedrag van docenten, en het gedrag van de leerlingen. Even terug naar de wet van Posthumus: ten onrechte wordt deze altijd zo geïnterpreteerd als zou het uitsluitend gaan om de wijze waarop docenten oordelen. De feitelijke situatie is veeleer deze: docenten hebben zich sterke beoordelingsgewoonten gevormd, waar leerlingen zich in hun gedragingen bij hebben aangepast. U mag het ook precies andersom formuleren. Beide groepen hebben elkaar in een dodelijke omarming, waarbij de wet van Posthumus het eeuwige leven wordt geschonken. Het tentamenmodel van Van Naerssen biedt een analytisch instrument waarmee de aard van deze dodelijke omhelzing kan worden onderzocht, en beter nog: dat suggesties levert hoe de omhelzing kan worden doorbroken. Helaas is onderzoek in deze richting tot nu toe vrijwel uitgebleven.

Een tweede uitwerking van de doorzichtigheidseis, nauw verwant aan het tentamenmodel, is het modelleren van de voorspelling die de leerling zelf over de toetsresultaten kan doen. Dit model is uitgewerkt door Wilbrink (1978), gebruik makend van het binomiale foutenmodel zoals dat in de geheel andere context van de psychologische test door Lord en Novick (1968) was ontwikkeld (en als niet praktisch toepasbaar afgedaan). Het is duidelijk dat onvoorspelbare toetsresultaten desastreus zijn voor het onderwijs: dat ontneemt de leerling de lust tot enige gemotiveerde inspanning. Maar dan moet het ook op zijn minst interessant zijn eens uit te zoeken in welke mate leerlingen eigen resultaten kunnen voorspellen. Ook dit onderzoek laat nog op zich wachten. Wel ben ik in staat geweest de te verwachten effecten (wat voorspelbaarheid betreft) te kwantificeren van een door de minister van onderwijs voorgestelde toelatingstoetsing voor numerus fixus studies (Wilbrink, 1980e).

Beoordelingsprocessen hebben belangrijke effecten op het gedrag van leerlingen, en daarmee op de uitkomsten van het onderwijs. Onderwijsbeleid zou in veel sterker mate beleid bij examens en toetsing (Wilbrink 1980f) kunnen zijn. Dat beleid kan met behulp van wiskundige modellen zoals van Van Naerssen op rationele basis worden geschoeid, en zich zo de mogelijkheden verwerven om al experimenterend en van ervaringen lerend tot een sterke opbouw te komen (zwalkend beleid inruilen voor opbouwend beleid).

doorzichtigheid en de kwaliteit van toetsvragen

Een hobbel op de weg naar doorzichtige toetsen is de onmacht van de onderwijskunde om regels voor de vooral inhoudelijke constructie van toetsvragen te geven. De ene na de andere auteur trekt de handen af van de verantwoordelijkheid voor de inhoud van toetsvragen, om verder alleen door te keuvelen over vraagvormen zoals open vragen of keuzevragen, en over de statistische buitenkant van vragen en toetsen. Zo komt Wesman (1970) tot de uitspraak dat het schrijven van toetsvragen een kunst is (en Wesman is niet de enige die met dergelijke uitspraken een onduldbare situatie bestendigt). De docent moet zich maar op eigen houtje in deze kunst zien te vormen. Vragen die op kunstzinnige wijze tot stand komen, zijn door de leerlingen alleen met kunst en vliegwerk te beantwoorden: meer met creativiteit en intelligentie dan door kennis van de leerstof.

Een belangrijke opgave voor de onderwijskunde (of voor de psychometrie, wanneer die van haar eenzame statistische hoogte zou willen afdalen) is het ontwerpen van constructieregels voor toetsvragen, waardoor het mogelijk wordt inhoudelijk verantwoorde toetsen in letterlijke zin te construeren, en toetsen op tamelijk formele criteria op inhoudelijke deugdelijkheid te laten controleren (ook door buitenstaanders!). Aardiger is nog dat het alleen op deze manier ook mogelijk is om toetsen echt doorzichtig te maken: pas wanneer er heldere constructieregels zijn kan de leerlingen op voorhand duidelijk worden gemaakt op welke wijze zij door de af te leggen toets aan de tand zullen worden gevoeld. Pogingen om tot constructieregels te komen zijn schaars, maar een redelijke aanzet is te vinden in mijn 'Toetsvragen schrijven' (1983); deze constructieregels sluiten aan bij de aard en de structuur van de door de toets te bestrijken leerstof. De wetenschapsfilosofie biedt bruikbare aanknopingspunten voor het ontwerpen van deze constructieregels (zie ook Van Westrhenen 1977): de beschrijving van de aard van onze wetenschappelijke kennis zegt ook iets over hoe wij de kennis kunnen beschrijven die in het onderwijs wordt overgedragen. Er is overigens de laatste jaren in vele disciplines een sterke belangstelling ontstaan voor het stellen en beantwoorden van vragen (o.a. Graesser & Black, 1985), met een opvallende leemte waar het het toetsenderwijs stellen van vragen betreft.

Maar er is toch de begaanbare weg via het formuleren van doelstellingen, zo kan men tegenwerpen. Het probleem met systemen van doelstellingen zoals die van Bloom (1956) is dat zij ongelukkigerwijs zijn gesteld in mentale termen (denken, begrijpen, inzicht hebben in) in plaats van in leerstofrelevante termen (termen en begrippen, relaties daartussen, algoritmen en wetten, etc.). Het formuleren van doelstellingen is een omweg die veel tijd en energie kost: wat men met het onderwijs bedoelt kan efficiënter meteen worden vastgelegd in concrete teksten en toetsvragen daarover. Alleen wanneer men toetsvragen als kunstuitingen ziet, lijkt deze kortere weg geblokkeerd.

cesuurbepaling

In het onderwijs gaat het bij het beoordelen bij uitstek om het 'voldoende of onvoldoende niveau' van de leerling. Het leggen van de grens tussen beide niveaus, de cesuurbepaling, is een controversiëel onderwerp. Door De Groot en Van Naerssen zijn pogingen ondernomen de cesuurbepaling op rationele gronden te doen plaatsvinden; de daaruit resulterende 'kernitem methoden' (De Groot en Van Naerssen, 1975) voldoen echter niet aan de (ook juridische) eis, dat de docent inziet wat er gebeurt en zijn eindbeslissingen kan verantwoorden zonder te verwijzen naar de autoriteit van 'de computer' of van een psychometricus.

De tweede helft van de zeventiger jaren zag een stortvloed van studies naar besliskundige methoden voor cesuurbepaling. Deze veelbelovende richting van onderzoek werd echter abrupt en dramatisch afgebroken door Van der Linden (1980), die in zijn overzichtsartikel verklaarde dat de besliskundige benadering geen methode voor cesuurbepaling is, maar een techniek om de gevolgen van meet- en steekproeffouten te minimaliseren. Dit oordeel van Van der Linden werd in het betreffende themanummer van Applied Psychological Measurement door andere onderzoekers overgenomen, waarmee het besliskundige paradigma voor cesuurbepaling effectief werd losgelaten. Sinds 1980 wordt geprobeerd met oude koeien als de methode Nedelsky of Angoff in eclectische of compromisachtige combinaties nog iets te fokken dat de schijn van relevantie heeft. De breuk in deze lijn van onderzoek is dramatisch omdat het oordeel van Van der Linden berust op een misvatting, zoals ik in enkele eerdere publicaties al had laten zien (Wilbrink 1980abcd). De misvatting is dat voor de toepassing van besliskundige technieken allereerst een 'ware aftestgrens' zou moeten worden aangewezen met behulp van een niet-besliskundige methode. De besliskundige aanpak vooronderstelt geenszins het bekend zijn van zo'n 'ware aftestgrens', en het opmerkelijke is dat Van der Linden in zijn conclusies wel mijn suggestie overneemt dat besliskundige methoden formeel geen 'ware aftestgrens' bekend veronderstellen. Als dat 'formeel' zo is, dan is dat ook voor alle praktische doeleinden zo. Het is de hoogste tijd dat deze lijn van onderzoek wordt heropend.

Besliskundige methoden voor cesuurbepaling kunnen op natuurlijke wijze worden geïntegreerd in de al genoemde modellen voor toetsen als sturingsmechanisme. Ook is er een helder verband met de eis van doorzichtigheid: leerlingen in staat te stellen het risico te dragen om met een enkel puntje beneden de cesuur te 'zakken'. Uiteraard geldt voor leerlingen met een stofbeheersing die precies correspondeert aan de cesuur dat het louter van het toeval afhangt of zij een voldoende scoren; dat is alleen billijk zijn wanneer de leerlingen zelf voor dat risico hebben gekozen. Leerlingen hebben recht op informatie vooraf die hen althans in principe in staat stelt een reële schatting te maken van het risico om, gegeven de eigen stofbeheersing, toch nog te 'zakken' (door een combinatie van meetfouten van de toets en van eigen schattingsfouten).

Merk op dat doorzichtigheid van de cesuur impliceert dat de plaats van de cesuur tevoren ten minste bij benadering bekend moet zijn bij de leerlingen. De eis van doorzichtigheid leidt zodoende tot absolute aftestgrenzen voor iedere afzonderlijke toets. Dat neemt niet weg dat de hoogte van de te stellen cesuur mede kan worden bepaald door wat redelijkerwijs van een groep leerlingen als deze mag worden verwacht, blijkens ervaringen in het nabije verleden. Met andere woorden: de absolute cesuur voor iedere afzonderlijke toets kan op relatieve wijze worden bepaald. Filosoferen over de plussen en minnen van absolute versus relatieve beoordeling kan tot de verleden tijd behoren.

Niettegenstaande al dit moois blijft een cesuur een hakmes waarmee wel eens al te grof wordt gekapt, denk bijvoorbeeld aan overgangsbeslissingen. Men moet een open oog houden voor ongewenste gevolgen die kunnen worden weggenomen met eenvoudige (snelle herkansingen, verlengde toetsing, compensatorische methoden) of minder eenvoudige (afschaffen van jaarklassen) maatregelen.

het combineren van oordelen

Wie alle aandacht concentreert op de kwaliteit van toetsen loopt het risico een groter problematiek niet in het oog te krijgen: veel beslissingen worden gebaseerd op een of andere combinatie van cijfers voor meerdere proefwerken, voor verschillende vakken, of zelfs van studieresultaten met gegevens over de persoonlijkheid van de leerling. En dan gaat het nog om expliciet, zij het vaak met veel vijven en zessen (De Groot 1966), genomen beslissingen. In gewone onderwijsloopbanen van bijna 20 jaar vormen de beslissingen die jaar op jaar worden genomen zelf een sequentiële combinatie, waar niemand verantwoordelijkheid voor neemt (de aanklacht van Posthumus).

Is het dan niet zo dat wanneer iedere toets afzonderlijk goed is, dan ook alles goed is? Nee, vanwege een statistische wet die, met P. Vroon, het Oosterscheldedameffect kan worden genoemd: al is er maar een kleine (op zich aanvaardbare) kans dat een gegeven schuif op het kritieke ogenblik niet kan worden gesloten, dan volgt daaruit toch nog een grote (volstrekt onaanvaardbare) kans dat de dam in zijn geheel kopje onder gaat omdat ten minste een van de tientallen schuiven niet kan worden gesloten. De combinatieregel voor de Oosterscheldedam is conjunctief: alle schuiven moeten dicht zijn anders wordt de dam weggespoeld. Ook voor de snellekweekreactor te Kalkar geldt de conjunctieve regel dat alle systemen veilig moeten zijn voordat de reactor kan worden opgestart. Het punt is nu, dat de mens typisch niet in staat is om conjunctieve waarschijnlijkheden zelfs maar ergens in de buurt van de werkelijke orde van grootte in te schatten (bv. Cohen, Chesnick, & Haran 1971; algemeen: Kahneman, Slovic, & Tversky 1982). De ramp voor ons onderwijs is dat combinatieregels bij examens, overgangsbeslissingen e.d. veelal conjunctief zijn, terwijl ook de sequentiële beslissingen conjunctief uitwerken omdat zij bepaalde verdere loopbanen afsnijden. Vanuit de leerling bezien is de feitelijke situatie dat hij redelijkerwijs niet in staat is het zakrisico voor een examen binnen aanvaardbare grenzen te houden wanneer cijfers voor afzonderlijke vakken conjunctief worden gecombineerd (zie voor enkele modelberekeningen Wilbrink, 1978). De reden dat leerlingen daar niet tegen protesteren is dat zij evenmin bij machte zijn dit verschijnsel in zijn ware aard te 'zien'.

De conjunctieve val doet zich ook voor wanneer men denkt goede redenen te hebben om psychologische tests conjunctief tot een eindoordeel of selectieve beslissing te combineren: Lord (1962) laat zien dat er altijd enig compensatorisch water in de conjunctieve wijn moet worden gedaan als men beslissingen wil optimaliseren, omdat er nu eenmaal geen perfect valide tests bestaan. In het onderwijs is de situatie ongunstiger omdat toetsen doorgaans bepaald geen kleine standaardmeetfout hebben, en omdat de combinatie niet twee of drie, maar veelal tien of meer toetsen betreft. Uit de doorzichtheidseis vloeit nog een extra onzekerheidsfactor voort: de leerling kent de eigen 'ware' stofbeheersing slechts bij ruwe benadering en wordt daardoor extra gehinderd in het voorspellen van eigen studieresultaten en daarmee bij het voeren van een adequate studiestrategie.

Weerstanden tegen afschaffen van conjunctieve beslissingsregels in het onderwijs zijn groot, en zouden donders snel moeten worden afgebroken. Er zijn, naast de gegeven overwegingen van statistische aard, nog wel enkele argumenten voor zo'n bekering aan te voeren. Iedere toets is op zich een compensatorische combinatie is van de afzonderlijke toetsvragen. De talrijke beslissingsregels in het onderwijs vormen in feite een wonderlijk inconsistent allegaartje van zowel conjunctieve als compensatorische regels. Stug en star volhouden dat een arts nu eenmaal overal voldoende vanaf moet weten, en dat er daarom geen ruimte kan zijn om mindere resultaten voor een enkel vak te compenseren door betere op andere vakken, moet consequent leiden tot de opvatting dat iedere score minder dan 100 % goed op een afzonderlijke toets evenzeer onaanvaardbaar is.

Leren voor beheersing is een in beginsel conjunctief model dat dan ook gevoelig is voor verspilling van tijd en energie wanneer men rigide vasthoudt aan relatief hoge eisen (en er is al snel sprake van hoog in deze context) bij een opeenvolging van deeltoetsen (voor een alternatief zie Wilbrink, 1980b).

peetmoeder psychometrie

De psychologische test is een meetinstrument dat een resultaat geeft dat in samenhang met zijn standaard meetfout moet worden geïnterpreteerd. De toets in het onderwijs daarentegen levert een cijfer op dat als zodanig betekenis heeft in termen van slagen of zakken, hoe groot de meetfout ook is. De leerling wordt zelf verantwoordelijk gehouden voor zijn studieprestaties, iets dat ondenkbaar is waar het bijvoorbeeld scores op een intelligentietest betreft. Deze verschillen in het gebruik van tests en toetsen vragen om argwaan wanneer begrippen en technieken uit de psychometrie worden geleend zonder argumentatie waarom deze ook voor toetsen adequaat zouden zijn. Ik heb in mijn 'Toetsvragen schrijven' de heling van enkele psychometrische items aan het licht gebracht, waarvan ik enkele kort zal aanstippen.

Schadelijk voor het onderwijs is het met huid en haar slikken van de onderliggende filosofie van het psychometrische bouwwerk: dat het er vooral om gaat om verschillen tussen studenten (betrouwbaar en valide) te meten. De Groot heeft met zijn pleidooi voor doorzichtigheid impliciet benadrukt dat het afgelopen moet zijn met het met elkaar vergelijken van leerlingen: de individuele leerling concurreert niet direct met anderen (zoals binnen het werkingsgebied van de wet van Posthumus altijd het geval is), maar heeft met helder geformuleerde inhoudelijke eisen te maken.

Er is een typisch Nederlandse misvatting dat keuzevragen 'objectief' zouden zijn omdat de computer de scoring kan overnemen. Deze misvatting is overgenomen in de Richtlijnen (1978) waarin overigens ook is te vinden dat computer-geproduceerde testinterpretaties nimmer klakkeloos door de psycholoog mogen worden overgenomen, en zeker niet aan ondeskundigen als bv. artsen ter beschikking mogen worden gesteld. Het punt is uiteraard dat het vaststellen van de scoringssleutel gewoon mensenwerk is, met alle ruimte voor het subjectieve oordeel zoals die ook bij het nakijken van open vragen bestaat.

Afzonderlijke vermelding verdient de overdreven en verkeerd gerichte aandacht die aan de 'betrouwbaarheid' van toetsen wordt besteed. Stanley (1970) begint een lang en doorwrocht artikel over dit onderwerp met uit te spreken dat betrouwbaarheid pas van belang is wanneer tussen overigens even valide toetsen moet worden gekozen (kies dan de minst betrouwbare, omdat deze het grootste potentiëel heeft voor verhoging van zijn validiteit door bv. toetsverlenging!). Iedere student psychologie is in de gelegenheid te vernemen dat betrouwbaarheid niet meer is dan een voorwaarde voor het kunnen hebben van enige validiteit, en dat het uiteraard alleen op die validiteit aankomt. Woorden, woorden, het zijn allemaal woorden. In de praktijk van het onderwijs wordt de kwaliteit van toetsen vermangeld omdat men probeert de 'KR 20' omhoog te manipuleren (bv. door veel te moeilijke vragen te gebruiken, of door achteraf toetsvragen weg te laten ....), en wordt de validiteitsvraag met de vuilnisman meegegeven. Het onderwijsveld kan zodoende de wet van Posthumus niet loslaten, en vindt zijn legitimering daarvoor in de eigen interpretatie van toetsdeskundige voorlichting.

Richtlijnen voor tests en toetsen

Het beoordelen zoals dat in het onderwijs gebeurt heeft verreikende consequenties voor de leerlingen, die zich voor hun verdere carrière binnen de school afhankelijk weten van hun beoordelaar, en die bovendien vaak minderjarig zijn. Het is harde noodzaak dat beoordelaars zich houden aan de elementaire regels van het recht zoals die in onze samenleving gelden, en bovendien aan vastgelegde richtlijnen voor wat als professioneel handelen mag worden beschouwd. Dergelijke richtlijnen zijn voor ons land beschikbaar: de 'Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen', uitgegeven door het Nederlands Instituut voor Psychologen. Het is jammer dat het onderwijzende deel van Nederland zich van het bestaan van dergelijke Richtlijnen niet bewust is. Als ik zo in mijn eigen omgeving zie hoe er in scholen wordt gerommeld en gerotzooid met psychologische tests en zelfs met ongewapende oordelen over de persoonlijkheid van de leerling, kan het niet anders dat zowel docenten als ouders behoefte hebben aan het houvast dat dergelijke richtlijnen kunnen bieden. Wat is de kracht van deze Richtlijnen? Het hangt af van de welwillendheid en de professionele instelling van de individuele beoordelaar of deze zich naar de letter en de geest van de Richtlijnen wil gedragen. De ervaring in de Verenigde Staten met de 'Standards' (APA 1974, 1984) is overigens dat de rechter in toenemende mate deze Standards mede hanteert bij het oordelen over wat behoorlijk is bij het testen en toetsen (Lerner, 1978). In Nederland stapt men niet zo gemakkelijk naar de rechter, en zo kan het nog lang duren voordat evidente misstanden kunnen verdwijnen.

Toch zijn er in de jurisprudentie van de nog jonge Colleges van Beroep voor de Examens (art. 40 WUB) al interessante uitspraken te vinden (Backx, Craemer, Ham, & Meerburg, 1983; zie Cohen voor jurisprudentie van de oudere facultaire geschillencommissies). Zo is het ongeoorloofd om achteraf toetsvragen weg te laten alleen omdat de betreffende vragen niet aan een statistisch criterium (p-waarde, r-bis) zouden voldoen. Zo kan een docent zich voor het gebruik van een door een computerprogramma voor toetsanalyse geboden optie niet beroepen op louter de aanwezigheid van die mogelijkheid of op de autoriteit van de auteur van dat programma.

De huidige, eerste, versie van de Richtlijnen (1978) zal worden opgevolgd door een nieuwe versie. Het zou een goede zaak zijn wanneer het onderwijsveld breed wordt betrokken bij het opstellen van dat deel van de richtlijnen dat op toetsen betrekking heeft (en niet alleen op het gebruik van 'studietoetsen'). Mijns inziens zullen vooral de in voorgaande paragrafen aangestipte zaken in enigerlei vorm een plaats in de Richtlijnen moeten vinden. Dat is temeer van belang waar er in de huidige versie nog sprake is van een al te gemakkelijk er vanuit gaan dat wat passend is bij psychologische tests, dat ook is bij toetsen. Er zijn voldoende verschillen tussen (het gebruik van) toetsen en tests om te kunnen stellen dat het construeren van een analogie van tests naar toetsen voor het onderwijs een minder gelukkige ontwikkeling is geweest die enige correctie behoeft.

LITERATUUR

American Psychological Association, Standards for educational and psychological tests. Washington, D.C: auteur, 1974. (in 1984 is een herziening verschenen). [En daarna nog in 1999; helaas niet online beschikbaar. isbn 0935302255]

Applied Psychological Measurement. Special issue: Contributions to criterion referenced testing technology, 1980, 4, #4. inhoudsopgave

Backx, D., G. Craemer, J. Ham, & J. Meerburg (de commissie rechtspositie studenten). Uitspraken 'Colleges van Beroep voor de Examens' (art. 40 WUB), 1 september 1981 tot 31 december 1982. Landelijk Beraad Studentendecanen, 1983.

Bloom B. S. (Ed.). Taxonomy of educational objectives. Book 1 Cognitive domain. New York: David McKay Company, 1956. [zie ook: David R. Krathwohl (2002). A revision of Bloom’s taxonomy: An overview. Theory into Practice, 41, 212-264. pdf]

Cohen, J., E. I. Chesnick, & D. Haran. Evaluation of compound probabilities in sequential choice. Nature, 1971, 32, 414-416. Reprinted in Kahneman, Slovic & Tversky (1982). abstract

Cohen, M. J. Studierechten in het wetenschappelijk onderwijs. Zwolle: Tjeenk Willnk, 1981.

Graesser, A. C., & J. B. Black (Eds.). The psychology of questions. London: Lawrence Erlbaum Associates, 1985.

de Groot, A. D. Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: Wolters, 1966.

de Groot, A. D. Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 1970, 25, 360-376. html

de Groot, A. D., & R. F. van Naerssen (red.). Studietoetsen construeren, afnemen, analyseren. Den Haag: Mouton, 1975.

Hofstee, W. K. B. Selektie van personen. Inaugurele rede. Assen: Van Gorcum, 1970.

Iest, K., & B. Sloot. Positieve discriminatie en de Amerikaanse grondwet - De zaak Bakke. Nederlands Juristenblad, 1979, 54, 597-608.

Kahneman, D., P. Slovic, & A. Tversky (Eds.). Judgment under uncertainty: heuristics and biases. London: Cambridge University Press, 1982.

Lerner, B. The Supreme Court and the APA, AERA, NCME Test Standards: past references and future possibilities. American Psychologist, 1978, 33, 915-919. eerste pagina

van der Linden, W. J. Decision models for use with criterion-referenced tests. Applied Psychological Measurement, 1980, 4, 469-492. abstract

Lord, F. M. Cutting scores and errors of measurement. Psychometrika, 1962, 27, 19-30. abstract

Lord, F. M., & M. R. Novick. Statistical theories of mental test scores. London: Addison-Wesley, 1968.

Madaus, G. F. (Ed.), The courts, validity, and minimum competency testing. Boston: Kluwer-Nijhoff, 1983.

Millman, J. (Ed.). Handbook of teacher evaluation. London: Sage Publications, 1981.

van Naerssen, R. F. Over optimaal studeren en tentamens combineren. Openbare les. Amsterdam: Swets en Zeitlinger, 1970. html

Nederlands Instituut voor Psychologen. Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: auteur, 1978. [laatste editie: 1988]

Posthumus, P. Middelbaar onderwijs en schifting. De Gids, 1940, 104 deel 2, 24-42. integraal op dbnl.nl

Raad voor het Jeugdbeleid, Je recht komt met de jaren. Amsterdam: auteur, 1984.

Stanley, J. C. Reliability. In Thorndike (1970).

Thorndike, R. L. (Ed.). Educational Measurement. Washington, D.C.: American Council on Education, 1970.

Wesman, A. G. Writing the test item. In Thorndike (1970).

van Westrhenen, J. De toetsing van onderwijsdoelen. Een empirische studie naar de functie van begrippen en begrippenstructuren in het onderwijsleerproces. Groningen: Wolters-Noordhoff, 1977.

Wilbrink, B. Studiestrategieën. Amsterdam: COWO, 1978. html

Wilbrink, B. Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor Onderwijsresearch, 1980, 5, 49-62. (a) html

Wilbrink, B. Enkele radicale oplossingen voor kriterium gerefereerde grensskores. Tijdschrift voor Onderwijsresearch, 1980, 5, 112-125. (b) html

Wilbrink, B. Passing scores on domain referenced tests: an improved decision-theoretic methodology for optimization. Amsterdam: COWO, 1980. (c) pdf

Wilbrink, B. Cesuurbepaling. Amsterdam: COWO, 1980. (d) html

Wilbrink, B. Toelating tot numerus fixus studies opnieuw in discussie. Universiteit en Hogeschool, 1980, 27, 179-199. (e) html

Wilbrink, B. Beleid bij tentamens en examens. In A.I. Vroeijenstijn (redactie): Kwaliteitsverbetering hoger onderwijs. Vierde Nationaal Congres Onderzoek van het Wetenschappelijk Onderwijs, 1980, 380-409. (f) html

Wilbrink, B. Toetsvragen schrijven. Utrecht: Het Spectrum, 1983. html

Wilbrink, B., en W.K.B. Hofstee. Docentbeoordeling: mogelijkheden en randvoorwaarden. Onderzoek van Onderwijs, 1984, 13, 52-55. html

Winslow, G. R. Triage and justice: the ethics of rationing life-saving medical resources. London: University of California Press, 1982.

Aantekening juli 2023

Ik heb het nog eens gelezen. Het is een geweldig stuk, het geeft in kort bestek aan waar ik stond na 10 jaar intensief met beoordelen bezig te zijn geweest. De reden om zoiets op dat moment (1985) te doen was de opheffing van mijn werkplek (1e-geldstroom). Een testamentje hè!

Ik heb hetzelfde nog eens gedaan in 2017, voor ResearchEd in Amsterdam (Amstelveen): https://benwilbrink.nl/publicaties/17assessment.htm Dat is 30 jaar later. In die 30 jaar zijn mijn inzichten aanzienlijk uitgebreid, maar slechts op details in het hoofdstuk uit 1986 veranderd. Zo zou ik nu niet meer speken over meetfouten bij toetsen, omdat dat niet past bij het trekken van steekproeven uit de leerstof. Afijn, afgerond is het nog geenszins: grote projecten zoals het ontwerpen van toetsvragen en het SPA-model zijn blijven steken in de ontwikkelingsfase (ik beschouw Aula 809 uit 1983 als slechts een eerste tussenstation; het SPA-model was onderwerp voor een proefschrift dat er dus ook niet is gekomen, al was het smaakmakende eerste hoofdstuk al wel afgerond, en wordt dat ook ruim geciteerd in de wetenschappelijke literatuur: https://benwilbrink.nl/publicaties/97AssessmentStEE.htm

Later developments

Randy Elliot Bennett, William C. Ward (1993). CONSTRUCTION VERSUS CHOICE IN COGNITIVE MEASUREMENT: Issues in Constructed Response, Performance Testing, and Portfolio Assessment. Erlbaum,
- Waarom dit boek? Er zijn heel veel instrumenten, zoals de Cito-toets, of de SAT I in de VS, die zich graag presenteren als toetsen maar die in feite (intelligentie-)testen zijn. Zie wat Sternberg erover heeft te zeggen, in Camara en Kimmel (2005). Aan de andere kant staan dan toetsvormen zoals verder in de titel van het boek genoemd, die niet geweldig geschikt zijn als eindtoetsen, maar wel briljant functioneren geïntegreerd in het onderwijs zelf of tenminste als formatieve toetsen. Welnu, ziedaar hoe dit boek van Bennett en Ward zich in het centrum positioneert van het thema 'Toetsen vs testen' in het onderwijs.
- p. xi, the editors: "Important contrasts between the narrowly psychometric and social policy perpectives are evident in these chapters. (...) From the policy perspective, better measurement involves tasks that have versimilitude, that send the right messages to those concerned with education, and that help directly and indirectly to cause increased success for learners. From the psychometric 'better' means more reliable or more representative of cognitive skills underlying an achievement, or perhaps less susceptible to contamination by construct-irrelevant group differences. From the first of these perspectives, it may make good sense to trade some accuracy of measurement for a superior assessment; from the second, that proposiiton is almost a contradiction in terms." How well said.
- There is no chapter on equity issues. In the context of the other chapters, the equity issues would be to find a balance between between fair summative assessment, and fair instructional quality. 'Fair' being a qualification regarding the individual student, the issue becomes one of a balanced distribution of scarce resources between the instructional process itself, and 'testing' its outcomes. One possible position to take in this issue is that all resources should be spent in the instructional process, much alike medieval university teaching, but supported now by scientific insights and technological possibilities.
Paul Black and Dylan Wiliam (1998). Inside the Black Box: Raising Standards Through Classroom Assessment. Phi Delta Kappan. html
- "Firm evidence shows that formative assessment is an essential component of classroom work and that its development can raise standards of achievement, Mr. Black and Mr. Wiliam point out. Indeed, they know of no other way of raising standards for which such a strong prima facie case can be made."
De tegenstelling testen-toetsen heeft veel weg van de door Paul Black geconstrueerde tegenstelling tussen assessment of learning and assessment for learning AfL. Zie deze website html. AfL is broadly accepted in the UK as a sound principle of assessment, see for example the 2003 report of Ofsted on assessment in secondary schools http://www.ofsted.gov.uk/publications/docs/3205.pdf (link broken?)
http://www.brookes.ac.uk/services/ocsd/1_ocsld/isl2005/keynote_black.ppt (broken link?) Assessment for learning: where is it now and where is it going? Keynote presentation by Paul Black, King's College London (Powerpoint file, 202KB) (2005)
Paul Black and Dylan Wiliam (1998). Inside the Black Box: Raising Standards Through Classroom Assessment. Also published in PhiDelta Kappan 80, (2), pp.139-148 pdf or pdf or html
Paul Black and Dylan Wiliam (1998). Assessment and Classroom Learning. Assessment in Education, 5.
- Key points extracted by Ruth Sutton: http://english.unitecnology.ac.nz/resources/resources/classroom_learning.html [unknown address 3-2009]
Paul J. Black (1998). Evaluation and assessment. In Andrée Tiberghien, E. Leonard Jossem, Jorge Barojas: Connecting research in physics education with teacher education. An I.C.P.E. Book. chapter, book
Paul Black and Dylan Wiliam (1999). Assessment for learning: Beyond the Black box. pamphlet pdf
Assessment Reform Group: Testing, motivation and learning. pdf
Davies, A, & Le Mahieu, P. (2003). Assessment for learning: reconsidering portfolios and research evidence. In M. Segers, F. Dochy, & E. Cascallar (Eds.), Innovation and Change in Professional Education: Optimising New Modes of Assessment: In Search of Qualities and Standards (p. 141-169). Dordrecht: Kluwer Academic Publishers. pdf
Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden (2003). The theoretical status of latent variables. Psychological Review, 110, 203-219. pdf
- This article is an excellent statement of the standard measurement model as it applies to the measurement of differences between subjects.
- p. 204: "At the same time, however, the relation between latent variables and individual processes proves to be too weak to defend causal interpretations of latent variables at the level of the individual." Met andere woorden, mijn woorden (bw): als toetsen in het onderwijs primair als gericht op individuele leerlingen wordt opgevat, is er geen basis voor een vanzelfsprekende toepassing van psychometrische modellen op beoordelen in het onderwijs. Niet omdat die modellen niet zouden deugen, maar omdat ze niet universeel toepasbaar zijn en toetsen in het onderwijs buiten het bereik van deze modellen ligt.
- Relevantie voor Toetsen en testen. Het standaard-model voor psychologisch meten wordt geïllustreerd aan de hand van het meten van (individuele verschillen in) intelligentie. Dat geeft de kern van de zaak meteen aan: het intelligentie-begrip is een individuele-verschillen-begrip, waar je dus niet mee uit de voeten kunt als het gaat om de 'intelligentie' van Einstein. Bij het meten van lengte ligt dat heel anders, van individuele personen kan (causaal) zinvol worden gezegd hoe lang ze zijn, en wie daar een individuele-verschillen-interpretatie van wil maken kan gerust zijn gang zijn. Aan de hand van het begrip 'erfelijk bepaald zijn van individuele verschillen in intelligentie' wordt nog eens duidelijk gemaakt dat 50% bepaald zijn, dus niet kan betekenen dat 50% van de intelligentie van Einstein erfelijk bepaald is. Het moet mij van het hart dat ik juist dit erfelijkheidvoorbeeld slordig behandeld vind, wat al blijkt uit de laatste zin waarin het begrip 'intelligentie' in twee verschillende betekenissen wordt behandeld (en dan ben ik al zo vriendelijk geweest er met 'individuele verschillen in' bij te zetten, wat de auteurs in hun artikel meen ik niet doen). De crux is nu: is hetgeen een toets meet een lengte-meting, of een individuele-verschillen-meting. For the sake of argument gaat die vraag dan mee in de opvatting dat toetsen bedoeld zijn om te meten, wat evident niet het geval is: immers, alle vooronderstellingen over het niet specifiek op de 'meting' voorbereid zijn, zijn geschonden, waarmee het een raadsel is wat er wordt 'gemeten' (er is veel onderzoek waarin modellen voor die individuele verschillen in 'prestaties' worden opgesteld en getoetst, onderzoek waarvan je niet altijd vrolijk wordt omdat die modellen zonder uitzondering de werkelijkheid teveel geweld aandoen, bv ook het eigen wybertje-model html). Met een duik in de geschiedenis van het beoordelen (html) is te zien dat, om motivatie-technische redenen, leerlingen op prestaties worden gerangordend: van het onderwijs is door de humanisten een soort een wedstrijd gemaakt, met beloningen voor de relatief best presterende leerlingen. Maar die wedstrijd is niet het doel van onderwijs, het is een middel. Het doel is om Latijn te leren spreken, over het werk van Aristoteles college te kunnen geven, etcetera. Het doel is intellectueel te groeien, en die groei werd daartoe telkens 'langs de meetlat gelegd,' en wanneer geconstateerd werd dat deze voldoende was, mocht de leerling naar de volgende groep, examen gaan afleggen, or what not. En de scholasticus droeg daar, met een verstandig 'dieet' van deelname aan de lessen van de door hem gekozen meester, zelf aan bij (of faalde daarin, moet ook kunnen). Er was wel een ceremoniële afstand tussen de gewone lessen en examens, maar inhoudelijk lagen die toch heel dicht bij elkaar. Bijvoorbeeld waren de Parijse (de Leuvense, om dichter bij huis te blijven) meesters in veel gevallen zelf student op een hoger niveau in de studie.
- Denny Borsboom (2005). Measuring the Mind. Conceptual Issues in Contemporary Psychometrics. Cambridge University Press.
- Denny Borsboom site voor andere publicaties (download, behalve het boek)
Lorrie A. Shepard (2000). The role of classroom assessment in teaching and learning. CSE Technical Report 517 http://www.cse.ucla.edu/Reports/TECH517.pdf (link broken?) Published in V. Richardson (Ed.) (2001), Handbook of research on teaching (4th ed). Washington, DC: American Educational Research Association.
- "The purpose of this chapter is to develop a framework for understanding a reformed view of assessment, where assessment plays an integral role in teaching and learning. If assessment is to be used in classrooms to help students learn, it must be transformed in two fundamental ways. First, the content and character of assessments must be significantly improved. Second, the gathering and use of assessment information and insights must become a part of the ongoing learning process. The model I propose is consistent with current assessment reforms being advanced across many disciplines (e.g., International Reading Association/National Council of Teachers of English Joint Task Force on Assessment, 1994; National Council for the Social Studies, 1991; National Council of Teachers of Mathematics, 1995; National Research Council, 1996). It is also consistent with the general argument that assessment content and formats should more directly embody thinking and reasoning abilities that are the ultimate goals of learning (Frederiksen & Collins, 1989; Resnick & Resnick, 1992). Unlike much of the discussion, however, my emphasis is not on external accountability assessments as indirect mechanisms for reforming instructional practice; instead, I consider directly how classroom assessment practices should be transformed to illuminate and enhance the learning process. I acknowledge, though, that for changes to occur at the classroom level, they must be supported and not impeded by external assessments." [http://www.cse.ucla.edu/Summary/517shepard.htm (broken link?)]
- Lorrie Shepard (2000). The role of assessment in a learning culture. Educational Researcher, 29, no. 7, 1-14. or pdf
Shlomo S. Sawilowsky (2000). Psychometrics versus Datametrics: Comment on Vacha-Haase's "Reliability Generalization" Method and Some Epm Editorial Policies. Educational and Psychological Measurement, 60, 157-173.
- abstract The present article reviews issues regarding test reliability, which is psychometric terminology, and score reliability, which is score-centric terminology. These issues have arisen, in part, due to some EPM editorial policies and Vacha-Haase's "reliability generalization" proposal. The article includes (a) a brief historical review of reliability terminology, (b) discussion on the emergence of datametrics (loosely defined as the application of psychometry to scores as opposed to an instrument) including a review of textbook authors'uses of psychometric versus datametric terminology, (c) discussion of problems with datametrics, and (d) a critique of Vacha-Haase's proposed meta-analytic reliability generalization via dummy-coded regression. The article concludes with a brief summary that presents several suggestions.
- Bruce Thompson and Tammi Vacha-Haase (2000). Psychometrics is Datametrics: the Test is not Reliable. Educational and Psychological Measurement, 60, 174-195.
  - abstract The present article responds to selected criticisms of some EPM editorial policies and Vacha-Haase's "reliability generalization" meta-analytic methods. However, the treatment is more broadly a manifesto regarding the nature of score reliability and what are reasonable expectations for psychometric reporting practices in substantive inquiries. The consequences of misunderstandings of score reliability are explored. It is suggested that paradigmatic misconceptions regarding psychometric issues feed into a spiral of presumptions that measurement training is unnecessary for doctoral students, which then in turn further reinforces misunderstandings of score integrity issues.
- Shlomo S. Sawilowsky (2000). Reliability: Rejoinder to Thompson and Vacha-Haase.
  - abstract Thompson and Vacha-Haase (in this issue) examined the statement "the reliability of the test" with emphasis on the following three words: (a) the first "the," (b) "test," and (c) the second "the." I focus instead on the word reliability.
Cita van Til (1998). Voortgang in voortgangstoetsing: De aansluiting van de voortgangstoets op probleemgestuurd onderwijs. Onderzoek van Onderwijs, 51-53.
- Er zijn toetsen die in feite tests zijn. De Maastrichtse voortgangstoetsen behoren tot die categorie. Dat is geen veroordeling van kwaliteit of zo, integendeel: in Maastricht is men er trots op dat studenten zich niet gericht op deze toetsen kunnen voorbereiden. Ieder normaal mens zou onmiddellijk concluderen dat afnemen van die toetsen dus een enorme verspilling van schaarse middelen is, zo niet in het uiterste zuiden van het land. Cita van Til heeft onderzoek gedaan naar de voortgangstoets bij gezondheidswetenschappen. Dat is een wonder op zich: dat het artsexamen een aftelbare hoeveelheid 'weetjes' bevat (proefschrift Tan) is nog niet zo'n gek idee, maar 'gezondheidswetenschappen' is geen gesloten afzienbaar domein. Dat hoeft ook nog geen bezwaar te zijn, de Amerikaanse SAT I gaat in zekere zin ook niet over zo'n gesloten domein, en wordt door Robert Sternberg dan ook zonder pardon een intelligentietest genoemd. Een bijzonder fenomeen dus, die voortgangstoets. Laat ze er maar trots op blijven.
Psychometrisch: het belang van de voorwaarde/vooronderstelling dat men zich op een psychologische test niet specifiek heeft kunnen voorbereiden, is nauwelijks te overschatten. Alleen wanneer die veronderstelling waar is, kan het bedoelde persoonskenmerk worden gemeten (of dat werkelijk zo is, is een kwestie van constructvalidering).
Bij toetsen in het onderwijs is er eigenlijk alleen maar sprake van specifieke voorbereiding, en kan er onmogelijk een persoonlijk kenmerk worden gemeten, in de betekenis die dat in de psychometrie, bv. Lord & Novick 1968, heeft. De prestatie op de toets wordt bepaald door een wonderlijke mix van toevalligheden (de toets als steekproef uit een domein van kennis), de kwaliteit en duur van de voorbereiding op de toets, en de persoonlijke kenmerken die bepalen wat zo'n specifieke voorbereiding oplevert aan beheersing. Het wybertje-model, zeg maar (Tromp en Wilbrink, 1977).
Maar die beheersing wordt dan toch 'gemeten' in psychometrische zin? Inclusief steekproeffouten, maar dat geldt natuurlijk ook voor psychologische tests. Tja, wat moet je daar op zeggen? Wat gemeten wordt is inderdaad de beheersing van de stof op het moment van toetsen. Dat is niet een werkelijk geweldig interessant gegeven, omdat een onverwachte hertoets een week later een totaal andere uitkomst kan geven. Het is iets ingewikkelds dat wordt 'gemeten', voor wie aan het beeld van 'meten' wil vasthouden: de combinatie van investering en capaciteit, zoals resulterend in een momentane beheersing van de stof. Briljant.
Het komt er dus op neer, let op, dat bij toetsen de redenering is dat ze goed meten ongeacht de specifieke voorbereiding waarvan we weten dat die er in hoge mate is, terwijl bij tests de redenering juist is dat we niet meer weten wat die meten zodra er een risico is van specifieke voorbereiding bij sommige of alle deelnemers. Dit is stuntvliegen op de automatische piloot. Wat er in feite gebeurt lijkt toch wel verdacht veel op de ontkenning van de competitiviteit van het onderwijsstelsel en het daarvan afgeleide beoordelingsstelsel, de humanistische beloning van de uitstekende! prestatie die tot de kanker van de vergelijkende beoordeling is geworden.
Het wordt tijd voor een nieuwe inventarisatie, op hoofdlijnen, van de 'psychometric bias,' om het zo maar eens te noemen, bij het toetsen. En dan geen 'eigen wijsheid,' maar die van Paul Black en Lorrie Shepard, meteen eens kijken of de voorhoede in Engeland en Amerika op dezelfde koers ligt.

M. L. Smith (1991). Put to the test: The effects of external testing on teachers. Educational Researcher, 20(5), 8-11. eerste pagina

M. L. Smith and C. Rottenberg (1991). Unintended consequences of external testing in elementary schools. Educational Measurement: Issues and Practice, 10(4), 7-11. [Zie ook Gregory J. Cizek (2011). More unintended consequences of high-stakes testing. Educational Measurement: Issues and Practice, 20, 19-27 final draft]

Items missed

George Engelhard, Jr. (4-1988). Thorndike's and Wood's Principles of Educational Measurement: A View from the 1980's. paper

ERIC abstract The purpose of this essay is to describe the principles of educational measurement proposed by B. Wood during the 1920s in his dissertation, written under the direction of E. L. Thorndike, and later published as "Measurement in Higher Education" (1923). These principles were selected because they illustrate one of the earliest and most complete descriptions of a set of basic and perennial problems encountered in educational testing. The specific questions addressed in this essay are concerned with the following: (1) the basic measurement problems identified by Thorndike and Wood in the first two decades of this century; (2) the means by which these measurement problems appear within the context of educational testing according to Wood; (3) means by which these problems were addressed by Wood in the 1920s; and (4) contemporary views of these problems. Principles of educational measurement (objectivity, defined zero and unit, definition of the function to be measured, consistency, within person variability, comparability, distinctness of power and achievement, equal exposure and practice, advantages of indirect measurement, test construction, test use, and measurement must not be confused with pedagogy) are tabulated according to specific problems and proposed solutions to each. Nine pages of references are provided. (Author/THJ)
This is the problem with many ERIC abstracts: they are about what an article is about, not about what the article has to say about this about. I have to locate this paper somewhere, somehow. Or the Ben Wood book. "measurement must not be confused with pedagogy" is quite intriguing, of course. It seems the business of Wood primarily was in intelligence testing, the exciting new topic in the twenties. To illustrate, Lewis Terman wrote an introduction to the book. Probably in his own major publications later in the twenties, Terman will elaborate on the Ben Wood results, I will look into that.
- David R. Hubin (1988). The history of the SAT. Submitted as an American History Ph.D. dissertation in 1988 to the University of Oregon. Each chapter available for download on his website html. I will quote extensively from the passages regarding Ben Wood's work
- from the Terman preface: At Ohio State University the median army Alpha intelligence test score of students in the Liberal Arts department was 147; of students in agriculture, 133; of dental students, 115. At the University of Illinois the median Alpha score of law students was 163; of students in agriculture, 139; of music students, 121. At Miami University the median intelligence score necessary to earn the grade of A was 162 in philosophy classes, 155 in chemistry, 145 in history, 132 in drawing or music, and 126 in home economics
- In his Measurement in Higher Education, Ben Wood published a detailed chart of comparisons of intelligence test score averages of students taking the Thorndike Intelligence Test at various institutions . Derived from the reports of the institutions themselves, Wood listed the mean and standard deviations of ten colleges including Columbia, Brown, Pomona, Stanford, and the University of California.46 He was not shy about interpreting the results: "By using these sigmas in connections with Means, it would appear that less than fifteen percent of the University of California freshmen reach or exceed the mean intelligence score of men who survive two years in Columbia College."
- Writing for an audience of educators, both at Columbia and at other institutions, Ben D. Wood also tried to explain the all important correlations. His book, Measurement in Higher Education, became a landmark in literature on the introduction of testing in our colleges and universities. Unlike Colvin, who had explained correlations in non-quantitative terms, Wood presented what were at that time esoteric concepts of predictive and descriptive statistics. Specifically, Wood attempted to inform his educator audience of the meaning of the then recently introduced "Pearson Product Moment R Correlation Coefficient," as well as the concepts of "validity," "reliability," "error of measurement," and "probable errors of estimates of true scores."
- Wood, Measurement, pp.22-66. Fortunately for potential students from abroad, Wood was not a man of prejudice or xenophobia; he used his knowledge of statistics to warn of possible inappropriate conclusions from correlations. Simultaneous with the hearings on immigration restriction that were based in part on conclusions reached from the Yerkes studies, Wood stressed that "The intelligence tests is a highly specialized instrument, designed mainly to measure the one factor of mental alertness. It does not, unfortunately, measure the intellect directly, but something else which under certain conditions is almost if not quite synonymous with intellect. This "something else" that is measured in lieu of intelligence is very complex, and includes such elements as achievement in English language, information in specific fields, ability to think in terms of facts and relations in specific fields of information expressed in a certain language." Wood recognized, clearly to his credit, that students from foreign cultures should not be subjected to the examinations. "Differences in opportunity to learn English alone would disqualify him; and when we add the differences in general informational background, cultural habits,etc., the disqualification becomes complete and unquestioned."
- Some psychologists developed more faith in their own exams than in the grading process. In his discussion of this particular correlation, Ben Wood, for example, criticizes the "unreliability in the measurement of college success," i.e. the college grades themselves. Wood points to many causes of the unreliability of grades but most clearly fears the subjective response to the "glib talker and artful bluffer." (p. 55) He notes that "there is evidence that some very high college grades may be due to the ubiquitous expression of superficial observations in a loud voice and interested manner." (p. 123) Further, he cautions that the weakness of objective grading weakens the important correlation of grades with intelligence scores.(p. 139) He contended that since "a test cannot predict a criterion better than the latter forecasts itself, all hope of improvement in the intelligence tests prediction depends upon improvement in the reliability and significance of the criterion [college grades]." (Abelson. See immediately below)
- Harold H. Abelson, High School Marks Versus Psychological Test Scores in Power of Predicting College Success. A Master's Thesis submitted to the Faculty of Education, Columbia University, 1925, p. 5. [Available at Teacher's College Library] The contrast between Abelson's approach and present day admissions officers is significant. In that period of "testing the tests" educators were investigating the correlation of tests with high school grades. Today, a school's average scores on the SAT are sometimes used to determine the significance of grades.
- The emphasis on correlations with the new examinations was not limited to predicting academic performance. Wood was creative and far-reaching in the correlations that he presented. Beginning by correlating the Thorndike Intelligence Test with such academic variables as grades in college work and scores on other examinations, Wood then calculated correlation coefficients with "indicated morphological indices" including length of limbs, volume of trunk, lung capacity, height, weight, the ratio of height to weight, and the ratio of the length of the limbs to the volume of the trunk. (p. 63-91) To his credit Wood acknowledges that the latter correlations with morphology are unimportant: "The results are interesting, but not convincing enough to form the basis of any significant remarks. Our main interest as college administrators is not the relation between morphology and intelligence." Ibid., p. 91.
A. D. de Groot (1961). Methodologie. Grondslagen van onderzoek en denken in de gedragswetenschappen. Den Haag: Mouton.
- 8. Criteria voor empirische variabelen en instrumenten (Een typische testbenadering, maar in het onderwijs zijn toetsen geen instrumenten in deze zin, b.w.)
Deanna Kuhn (2005). Education for thinking. Harvard University Press.
- p. 198: "We must also seek to focus [the students'] attention away from how they are doing compared to others and instead on what they are doing and what it means."
- Dit is weer een heel andere manier om te zeggen dat we van assessment OF learning toe moeten naar assessment FOR learning. In dit geval typisch Amerikaans, in Nederland hebben we niet onder die extreme competitie-cultuur te lijden.

Voor een recent artikeltje in voorbereiding, waarin dit akkertje van toetsen en testen opnieuw wordt geploegd en ingezaaid, zie html.

De inhoud: De benadering voor het ontwerpen van toetsen is eenzijdig in deze zin dat het meestal alleen om over te dragen kennis gaat diw wordt getoetst. Nu is het bijvoorbeeld in het natuurkunde-onderwijs zo dat leerlingen daaraan beginnen met sterke naieve modellen over de wereld, en dat het natuurkundige model (van Newton) daaraan ongeveer tegenovergesteld is. Dat levert enorme problemen op, zowel voor onderwijs en toetsing, waar de laatste decennia in het natuurkundige veld gelukkig een enorme belangstelling voor is: er wordt van alles aan gedaan om onderwijs en toetsing in te stellen op de taak van het onderwijs: bij de leerlingen/studenten een omslag in hun mentale model, een verandering in hun begrijpen van de wereld, tot stand te brengen.
Een en ander brengt de adviseur over onderwijs en toetsing in ernstige problemen op al die plaatsen waar er aanwijsbaar een vergelijkbare problematiek is, zonder dat die bij de wortel wordt aangepakt. Eisen van constructvalidering komen dan op gespannen voet te staan met de bestaande onderwis- en toetspraktijk. Een razend interessante thematiek, waarin noch de klassieke, noch de moderne psychometrie ons tot leidraad kan zijn, maar de richting door de betrokkenen op de werkvloer zelf zal moeten worden aangegeven.

juli 2023 \contact ben apenstaartje benwilbrink.nl

http://www.benwilbrink.nl/publicaties/86ToetsenEnTestenSVO.htm http://goo.gl/1NTQC