Ben Wilbrink: Validity

Absoluut de crux van het ontwerpen van toetsvragen is dat deze ieder afzonderlijk passen in een valide vaststelling van aanwezige kennis. Dat wil zeggen dat aanwezige kennis, en deze alleen, bepalend is voor wat de leerling als antwoord op de vraag produceert. Dit is de realistische opvatting van validiteit zoals uitgewerkt door Borsboom en anderen (2004). Kennis is het brede begrip in zijn gewone Nederlandse betekenis, niet de benauwende karikatuur uit de cognitieve taxonomie van Bloom e.a. (1956). Merk op dat wat valide moet zijn, de hele procedure met zijn context of contingenties is: de individuele toetsvraag is daar maar een onderdeel van. Borsboom is het met het laatste overigens niet eens: hij meent dat validiteit een kenmerk van alleen het instrument is, quod non. Waar in het volgende verkort sprake is van de validiteit van een toetsvraag is dat in die brede betekenis te verstaan, mede door de omstandigheden bepaald.

Onderzoek naar redactiesommen heeft geleerd dat het hanteren van een strakke vorm een eigen leven gaat leiden, zo ook als het een gegeven zou zijn dat iedere voorgelegde vraag valide is. Het leven confronteert ons bepaald met meer vragen dan valide vragen alleen. Er moet daarom ook ruimte zijn voor meta-valide vragen, dat zijn vragen die de student zelf af moet ronden tot een valide vraag. Strikt genomen is meta-validiteit ook validiteit en in die zin geen uitzondering, maar het is handig om voor het ontwerpen het onderscheid te maken. [Het eerste voorbeeld hierbeneden van een niet-valide vraag over massa en gewicht in een Wetenschapsquiz zou buiten de quiz-context als zo'n meta-valide vraag zijn op te vatten: de student moet zien dat de vraag, zoals gesteld, niet is te beantwoorden, maar in een andere vorm wel.] 'De leeftijd van de kapitein' (de vraag hierboven) is naar intentie ook een meta-valide vraag, en in onderzoek zoals dat van Verschaffel en anderen (2000) werkt hij ook zo, maar hij past niet in de huidige rekendidactiek—so much the worse for the didactics.

Validiteit van beoordelen is geen garantie voor nut en noodzaak van het onderwijs zoals gegeven, of van de opvattingen over toetsen van de docent of studieboekauteur. In deze zin suggereert de term teveel, stop niet met nadenken zodra de validiteit van een ontwerp in orde lijkt.

tweede poging tot formuleren: Zoals het in de wetenschap mogelijk is een valide instrument voor een onderzoek op basis van een waardeloze theorie te maken, zo is het in het onderwijs mogelijk valide vragen te ontwerpen voor wat feite de tijd van leerlingen vermorst. Redactiesommen kunnen daar met stip het meest opvallende voorbeeld van zijn. Er is altijd een wijdere context dan alleen de opvattingen van deze docent of die leerboekauteur over wat het is om de stof na bestudering te kennen. Bosboom e.a. besteden geen aandacht aan de combinatie van valide tests en ongepaste theorie: contrôlemechanismen in de wetenschap nemen dat probleem wel voor hun rekening. In het onderwijs werkt dat niet zo, bijvoorbeeld ‘het geheim van de klas’ houdt dat tegen. De ontwerper van toetsvragen heeft daarom ook te maken met de vraag of het onderwijs—met zijn vaak impliciete veronderstellingen over wat kennis is—inhoudelijk wel adequaat is. De verleiding is nu om dat onderzoek naar de gepastheid van het onderwijs ook onder het begrip validiteit te vatten. Het is niet verstandig om dat te doen, omdat het validiteitsbegrip dan afwijkt van dat van Borsboom e.a. (2004).

eerste poging tot formuleren: Naast de uitzondering is er bovendien een uitbreiding. Borsboom e.a. (2004) beperken hun analyse mogelijk onbedoeld tot dat wat de onderzoeker, ontwerper van de test of de docent met de test wil vaststellen. Als het gaat om kennis, dan moet het zo zijn dat het hebben van die kennis bepalend is voor wat het instrument—de test—laat aflezen. In het onderwijs gaat het om het verwerven van die kennis, daarom is het onvermijdelijk dat tot de validiteit van toetsvragen naast het oorzakelijke verband van kennis naar antwoord, ook het epistemologische verband van het gevraagde naar het kennisdomein op orde is, contingent op de onderwijssituatie. De docent die natuurkunde verengt tot het manipuleren van formules zal geen valide vragen kunnen ontwerpen. Toetsen op reproductie van kennis kan best in ontologische zin valide zijn, maar is meestal betekenisloos en daarom niet valide. Voor een illustratie van wat een en ander in uiterste consequentie voor onderwijs en beoordeling betekent, zie de indrukwekkende lijn van onderzoek van Michelene Chi, bijvoorbeeld Slotta en Chi (2006).

De metafoor van het meten in een wetenschappelijk experiment biedt goed houvast. Uit de theorie volgt een bepaalde stand van zaken die onder bepaalde condities zal optreden. Het optreden van die stand van zaken moet valide worden vastgesteld: manifestatie van de voorspelde meetresultaten als veroorzaakt door de stand van zaken, niet door enige andere gebeurtenis. Het instrumentarium om die meting te verrichten is de kern, maar tal van voorwaarden moeten procedureel gewaarborgd zijn. Beschouw het gegeven onderwijs als een experimentele behandeling. Jaarlijks herhalen van het experiment met nieuwe leerlingen maakt het alleen maar sterker. Hoe sterker de theorie over wat de resultaten van het onderwijs— als toegevoegde waarde—moeten zijn, des te sterker een valide vaststelling daarvan kan zijn.

Dit validiteitsconcept van Borsboom e.a. (2004) geldt een willekeurig gekozen leerling en een beoordeling die uit een enkele vraag bestaat. Bijgevolg geldt het dus ook voor meerdere leerlingen en meerdere vragen, maar zo'n wonderbaarlijke vermenigvuldiging leidt makkelijk af van de wezenlijke zaken. Die laatste zijn veel scherper in de aandacht te houden op dat niveau van een enkele leerling die deze enkele vraag krijgt voorgelegd. Een toetsvraag—binnen een gegeven procedure en context—is in deze realistische benadering altijd ofwel valide, ofwel niet valide. Er is geen ruimte voor zoiets als graduele validiteit, zoals in de traditionele benadering (Lord and Novick, 1968) te vinden, een traditie bovendien die altijd over groepen leerlingen en tests met meerdere vragen gaat. Allerlei menselijke tekorten en andere omstandigheden kunnen vervolgens nog voor een minder dan perfect resultaat zorgen, maar dat tast de validiteit niet aan. Validiteit is hier—bij Borsboom e.a. (2004)—een voorwaarde voor betrouwbaarheid, in plaats van de omgekeerde volgorde die in de literatuur gebruikelijk is.

Dan is er nog een belangrijke kwestie over. Wat is dat eigenlijk, dat een goed antwoord op een valide vraag bewijst dat de student over de betreffende kennis beschikt? Kennis zit niet in de hersenen opgeborgen zoals in een archief, een database, of welk ander type opbergsysteem door mensen bedacht. Er is niet een een-op-een relatie tussen kennis zoals de student deze kennelijk ter dienst staat, en de kennis zoals cultureel beschreven in wetenschap of tekstboek. Op deze manier valt er geen bewijs te construeren dat iets goed in de hersenen is opgeborgen. Op die manier moeten we dat ook niet proberen te beschrijven. Het gaat meer om een gelijkvormigheid tussen kennis zoals door de student geproduceerd, en kennis zoals door de wetenschap of het tekstboek is beschreven. Dat er een proces is waarvan de door de student geleverde prestatie het resultaat is, dat is natuurlijk zo, maar dat mag vanuit validiteitsoogpunt als een proces in een zwarte doos worden opgevat. Wie daar behoefte aan heeft, kan voor de mogelijke processen in de zwarte doos te rade gaan bij de ACT-R theorie van John Anderson, of connectionistische modellen zoals door Rumelhart en McClelland beschreven. Voor tal van didactische problemen is het absoluut noodzakelijk om dat te doen, en is die relevante kennis natuurlijk ook te gebruiken om validiteit te construeren. Waar gáát dit over, zult u denken. Het is het eenvoudig te constateren verschijnsel dat onze hersenen zó functioneren dat ze op ingewikkelde situaties en vragen onmiddellijk adequaat kunnen reageren, dat wil zeggen in fracties van een seconde. Dat betekent, omdat die reacties afhangen van relatief slome chemische processen, dat onze hersenen niet werken als logische machines, of als computers, en onmogelijk alle informatie opgeborgen kunnen hebben zoals wij graag denken dat het opgeborgen moet zijn (dan zouden de zoektijden enorm moeten zijn). Om niet te verzanden in hersenbrekers over hoe onze hersenen de informatie beschikbaar hebben, iets wat Bloom en de zijnen probeerden met de cognitieve taxonomie van onderwijsdoelen, is het onontkoombaar om niet de kennis zoals opgeslagen, maar kennis zoals geproduceerd in antwoorden etc. tot uitgangspunt te nemen, en die te vergelijken met de kennis zoals in het betreffende vakgebied gangbaar is. En dat is de benadering die in de uitgave van 'Toetsvragen schrijven' van 1983 in hoofdstuk drie is uitgewerkt. Ik kan nog niet overzien of deze globale overwegingen een meer fundamentele onderbouwing nodig hebben, waarvoor het werk van Suppes (2002) te raadplegen valt. Mijn gut feeling is dat Suppes zo'n poging onverwijld zou afraden: met formalismen schieten we hier niets op, er is goed denkwerk vereist, en dat leveren bijvoorbeeld John Anderson en de zijnen.

p. 242 en volgende. Konkusies m.b.t. de toets

Propedeutische examens zijn in de mode, wat wil zeggen dat ze in biina alle studierichtingen woruen gehanteerd, terwijl er anderzijds hoogstens vage ideeën zijn over de doelstelling waaraan de toetsen moeten beantwoorden. In de meeste gevallen zal de propedeusetoets de resultante zijn in een krachtenveld, dat gevormd wordt door onuitgesproken en onderling strijdige onderwijsvisies. Het is dan ook niet verwonderlijk dat in de Wet Herstructurering (1971) iedere positieve doelomschrijving van de propedeutische fase ontbreekt. Het is dus niet mogelijk de bovenstaande bevindingen af te zetten tegen een dergelijke doelstelling, wat natuurlijk voor een begripsvalidatie de aangewezen werkwijze zou zijn.

Bij ontstentenis dus van een onderwijskundige visie moet worden getracht, enkele "ideaaltypische" doelstellingen te formuleren en na te gaan aan welke daarvan de toets eventueel voldoet. De volgende doel-stellingstypen liggen meer of minder voor de hand:

(1) Selektie. De bedoeling is, dat een voldoende toetsresultaat wijst op geschiktheid voor (in dit geval) verdere studie. Voor wat betreft de eisen die aan de toets moeten worden gesteld is het daarbij om het even of er wordt aangestuurd op zelfselektie (advies dus) dan wel op institutionele selektie. Centrale eis is voorspellende validiteit. Konsekwente toepassing van deze doelstelling op de propedeutische fase zou er wellicht toe leiden dat de student een jaar lang getest wordt in plaats van studeert.

(2) Niveaugarantie. De toets moet nagaan of de leerling/student bepaalde kennis of vaardigheden beheerst die essentieel zijn wil hij verder kunnen. Evenals de vorige doelstelling speelt dit beginsel vaak door in diskussies over de propedeuse. Terwijl onder het selektiebeginsel de geschiktheid wordt verankerd in persoonsgebonden variantie, is deze tweede doelstelling minder psychometrisch en meer onderwijskundig van aard. Konsekwente doorvoering zou leiden tot een "bijwerk-systeem", waarin de leerling/student net zolang onderwijs volgt tot hij aan het kriterium van "mastery learning" heeft voldaan. De vele herha-lingen van een toets die in dit systeem voor sommige individuen nodig zouden zijn, kunnen in het selektiemodel niet getolereerd worden aangezien ze psychometrisch uit den boze zijn. Immers, liet resultaat is een kapitalisatie op toeval ten gunste van de herhalers.

(3) Participaiiekontrole. Dit beginsel (voor een verdere uitwerking zie Hofstee 1973) is minder ingeburgerd dan de beide voorgaande. Het houdt in dat uitgegaan wordt van een situatie waarin de onderwijsvragenden geschikt zijn bevonden voor het betreffende onderwijs (b.v. omdat voorselektie reeds heeft plaatsgevonden, of omdat de onderwijsvragenden recht kunnen doen gelden zodat eventueel het onderwijs zich aan hen dient aan te passen.. Verder wordt er niet van uitgegaan dat een bepaalde onderwijsfase, zoals die door een toets wordt afgesloten, van beslissende betekenis is voor later zoals onder het niveaugarantie-beginsel het geval is. De taak van de onderwijsinstelling is dan enerzijds natuurlijk het aanbieden van een verstandig opgezet programma, anderzijds te kontroleren of het programma daadwerkelijk gevolgd is. De toets wordt dus vervanger van een presentielijst, waarbij natuurlijk presentie meer moet zijn dan louter fysieke aanwezigheid.

De vraag is nu hoe de onderzochte toets zich blijkens de empirische bevindingen verhoudt tot de drie bovenstaande uitgangspunten.

ad (1) Voor een selektieve-propedeuse-toets zou men verwachten: a. moeilijke items, d.w.z. een test met (niet voor gissen gekorrigeerde) p-waarden in de buurt van 0,6 en met een geringe spreiding daarom-heen. Aan dat eerste is voldaan, aan het tweede duidelijk niet (zie fig. 1); b. hoge interne konsistentie: de standaard-meetfout zal gering moeten zijn gezien het gewicht van de beslissing. Ook daaraan is vol-daan: de KR 20 bij de 1971-toets is 0,88; c. maar voor alles moet de voorspellende validiteit van de toets hoog zijn. Op dat punt falen althans de eerste twee versies (jaargangen 1967 en 1968). Restriction of range kan daarbij slechts een zeer gedeeltelijk ekskuus zijn, aangezien geen uitdrukkelijke selektie in de vorm van judicia abeundi plaatsvond. Onbetrouwbaarheid van de kriteria is wel een gedeeltelijke verklaring voor lage validiteit, maar allerminst een argument ten gunste van selektieve toepassing van de toets. Verder is de toets weliswaar slechts een onderdeel van het propedeutisch examen, maar dan toch een zeer voornaam onderdeel. En zelfs in die opvatting is de bijdrage tot de examen-validiteit te gering; d. Op andere punten is het lastig eenduidige verwachtingen t.a.v. de toets te formuleren vanuit het selektieprincipe. Zo zouden de korrelaties met geslacht, vooropleiding en intelligentie best laag mogen zijn (hoe lager die korrelaties, des te groter de "incremental validity" van de toets); anderzijds zou de toets best op deze variabelen mogen diskrimineren.

De konklusie moet luiden dat, voorzover gedachten aan selektie een rol hebben gespeeld bij de hantering van de toets (en m.n. de moeilijkheidsgraad wijst in die richting), de toets aan die pretentie niet kan beantwoorden.

ad (2) Een elegante uitwerking van het beginsel van niveaugarantie naar de kant van de toets zou als volgt luiden: tenminste bij kernitems p-waarde in de geslaagde groep zeer hoog, en er is minimale overlap tussen de scoreverdelingen van geslaagden en gezakten op die items.

Deze hvpothese kon aan het materiaal niet worden getoetst, aangezien nooit een poging was gedaan om kernitems aan te wijzen. Wel kan wortlen gesteld: a. dat althans niet de gehele toets bestond uit kernitems in de zin van: vragen over leerstof die men beslist onder de knie moet hebben om verder te kunnen. Daarmee is nl. in strijd: ten eerste, de observatie dat in de toets van 1971 een ruwe score van 56% een voldoende opleverde; ten tweede het feit dat de ouderejaars vrij laag scoorden, wat inhoudt dat er nogal wat items zijn die betrekking hebben op kennis die later niet meer bekrachtigd wordt, dus b.v. specifieke details. b. Verder is het niet aannemelijk, dat kernvragen alsnog bij voorbaat aanwijsbaar zouden zijn die aan bovengestelde vereisten voldoen.

Verdere opmerkingen zijn: c. lage voorspellende validiteit lijkt niet strijdig met het beginsel; immers, gezakten worden bijgewerkt en zijn daarna niet slechter dan anderen; d. een zakpercentage van 35%, en een duidelijke samenhang tussen toetsscore en vooropleiding, suggereren niet een onderwijskundig klimaat waarin van het begin af aan de bijwerk-gedachte au sérieux wordt genomen. De lage korrelaties met intelligentie zijn daar wel konsistent mee; e. de korrelatie van de p-waarden in de naïeve groep met die in de groep van examinandi wijst erop dat onderwijs-extrinsieke faktoren het toetsresultaat meebepalen. Onder het selektie-beginsel geeft dat niet, maar de bevinding lijkt wel strijdig met het niveaugarantie-beginsel.

Konklusie: de toets lijkt in de verste verte niet op het soort instrumenten dat representatief zou zijn voor het principe van niveaugarantie. ad (3) De gedachte van participatiekontrole leidt tot zgn. "onbenullige" (Hofstee, ibid.) toetsen, bestaande uit eenvoudige vragen naar hoofd-zaken uit de leerstof, welke lastig te beantwoorden zijn voor wie die stof niet bestudeerd heeft, maar geen enkel probleem opleveren voor degenen die daadwerkelijk hebben geparticipeerd. Met name wordt geen beroep gedaan op het vermogen te generaliseren voorbij het geleerde, voorzover althans dat vermogen niet minimaal gegarandeerd wordt door voorselektie.

Gekonkretiseerd leidt deze konceptie tot de volgende vereisten: a. item-p-waarden boven 0,70 (gekorrigeerd voor gissen). In de 1971-toets voldoet daaraan nog geen kwart van de items; b. zeer lagep-waarden voor de naïeve groep: immers, een item dat men kan beantwoorden zonder aan het onderwijs te hebben geparticipeerd, is uiteraard ongeschikt voor participatiekontrole. Wanneer voor de 1971-toets, die overwegend uit vierkeuze-items bestaat, de grens voor de ongekorrigeerde p-waarde op 0,40 wordt gesteld (d.i. 20% "kennis" in de naïeve groep) dan voldoet ruim 60% van de items aan deze vereiste. Slechts zeer weinig items echter voldoen aan zowel a als b. (Zie fig. I); c. de gevonden hoge interne konsistentie en lage korrelatie met intelligentie stroken met het idee van participatiekontrole, echter uitdrukkelijk niet de korrelatie tussen toets en vooropleiding. Ook het beginsel van participatiekontrole kan, blijkens de uitkomsten, moeilijk als achterliggende gedachte worden ondergeschoven.

De vraag wordt dan: wat meet de toets wel. De last van antwoord rust daarbij natuurlijk niet op de onderzoekers maar op de onderwijs-instellingen die deze en dergelijke toetsen hanteren. Eén antwoord is natuurlijk, dat de toets van alles een beetje doet. Hij prediceert een klein beetje, hij garandeert wellicht iets, en hij kontroleert — dat laatste misschien nog het duidelijkst aangezien geen der naïeve respondenten voldoende scoorde — of aan het onderwijs is deelgenomen. Op zijn best is de toets dus een matig geslaagd kompromis tussen deze verschillende en gedeeltelijk strijdige opvattingen. Over een toets als deze kan echter ook in minder vergoelijkende termen worden gesproken. Onder een gezichtspunt dat waarschijnlijk nimmer officieel beleden zal worden maar wel hier en daar werkzaam lijkt, heeft de toets uitsluitend een soort machts-funktie. De bedoeling ervan is: ten eerste de leerlingen/studenten aan het werk te krijgen, en ten tweede en in samenhang daarmee, een zeker aantal onvoldoenden op te leveren. De eisen die aan zo'n toets moeten worden gesteld beperken zich tot face validity. Het instrument is eigenlijk "onfalsifiëerbaar", aangezien het verder geen pretenties heeft. Onderzoek zoals hier uitgevoerd is in zo'n geval geheel overbodig, wat natuurlijk een groot voordeel is. De bedoeling van bovenstaand sarkasme is niet iedereen van kwade trouw te betichten die geen poging tot begripsvalidatie van zijn studietoetsen onderneemt of die met insufficiënt gebleken instrumenten verder werkt. Voor het één zowel als het ander kunnen voor de hand liggende en geldige redenen zijn. Gehoopt wordt wel dat de hier gepresenteerde illustratie inspirerend zal werken.

Tot slot zij vermeld dat op een bespreking in de Werkgroep Meet-methoden als kritiek op de gedachte van begripsvalidatie van toetsen (zoals uiteengezet in Hofstee 1971) naar voren kwam, dat de onderzoeksprocedure meer slaat op het onderwijs in kwestie dan op de toets (P.J. Drenth, mondeling). Inderdaad lopen in het bovenstaande deze zaken door elkaar. Als herformulering zou dan ook gegeven kunnen worden, dat beoordelingsgegevens als invalshoek worden gebruikt om uitspraken te doen over het onderwijsstelsel als geheel. Toetsvalidatie, zo opgevat, is een variant van de indirekte of "averechtse" systeem-diagnostiek (Hofstee 1969). Drenth's opmerking hield verder in, dat de hier gevolgde werkwijze de onderwijsinstelling niet ontslaat van de plicht, te zorgen voor inhoudsvaliditeit van de toets. Ook dat zij uitdrukkelijk onderschreven.

Validity

Literature annotations

Ben Wilbrink

introduction

Introduction

Validity in the strict sense: individual measurement, absolute measurement

Validity in the received view: validity of aggregates (of items, testees, assessors), relative measurement

Validity of the uses of measurements: predictions, decisions

below is the first concept of the revision of 2.6 paragraph of Toetsvragen ontwerpen (in Dutch) , a version exchanged for an almost entirely new one in March 2008

inleiding

de staat van validiteit

Pas op met abstracte stof en abstracte vragen

En betrouwbaarheid dan?

Literatuur 2.6 Validiteit bovenstaande versie

Validity

Annotated references

Ben Wilbrink

Measurement fundamentals

Industrial problems of validity (called reliability)

The perfectly valid test: it is possible!

Achievement testing

related on my website