Literature annotations

Ben Wilbrink

key publication

Keith A. Markus & Denny Borsboom (2013). Frontiers of Test Validity Theory: Measurement, Causation, and Meaning. Routledge. info [als eBook te leen bij de Koninklijke Bibliotheek]

Howard Wainer & Henry Braun (1988). Test Validity. Taylor & Francis. info [nu ook als eBook te leen bij de Koninklijke Bibliotheek]

Thomas M. Haladyna & Michael C. Rodriguez (2013). Developing and validating test items. Taylor & Francis. info [als eBook te leen bij de Koninklijke Bibliotheek]


My intention here is to analyze what it means to be able to say of an achievement test item that it is a valid item, to say of an achievement test that it is a valid test, or to say of an admissions procedure or test battery that it is a valid procedure or test battery. To begin with I will try to make the somewhat unusual distinction between validity of an individual test item or measurement using one instrument on the one side, and validity of aggregates of test items answered by aggregates of testees and possibly assessed by aggregates of assessors as well. In the literature there some support for this kind of demarcation in the publications by Borsboom, Mellenbergh and Van Heerden on validity, in test use in experimental psychology such as that of Jean Piaget to mention a famous name, and in the literature on the fundamentals of measurement, especially in the social sciences, by, for example, Krantz, Luc, Suppes and Tversky (1971). The distinction between individual and aggregate measurements resembles that between absolute and relative measurement, loosely speaking. Absolute measurement is measurement using a standard as 'criterion,' relative measurement uses others as 'norm.' Be aware that most measurements called 'criterion-reference' in the literature, according to a stricter demarcation would still be classified as referring to a group norm. For an example in clinical diagnostics see Hofstee and Ten Berge (2004).

1. Introduction

2. Validity in the strict sense: individual measurement, absolute measurement

3. Validity in the received view: validity of aggregates (of items, testees, assessors), relative measurement

4. Validity of the uses of measurements: predictions, decisions



I have been baffled by the concepts of reliability and validity of tests for almost half a century now. The idea of reliability of achievement tests is bogus, wrong headed, or at least superfluous. There is at least a grain of truth in the idea of the number of items in the sample taken is important for whatever it is that the test is meant to accomplich, more of that in my own attempt at theorizing about what it is to have one's achievements tested here: A general model of achievement testing.

The concept of validity is the really mysterious one. Of course, there are many easy ways out of the problem of what it is, such as: a test's validity is what it is able to predict. There are times and places where the operationally defined validity of tests might be adequate, I will not quarrel with that.

Almost invariably the idea of validity is connected to the idea of a test being some kind of measurement; just as one measures length and weight, one 'measures' achievements. To begin with, this idea disregards the difficulties inherent in the concept of 'measuring' characteristics such as length and weight (Michell, 1999; the work of Suppes, Luce, Tversky, Krantz, see for example Borsboom, Mellenbergh and Van Heerden, 2003). Another problematic featuture of 'measurement' in the context of education is that is might just be a barely disguised attempt to rank order students (see my meritranking.htm).

There will of course always be some competitive elements in education, as in all walks of life. Competition, however, is not what education is about. Most Americans seem to believe it is, though; they should have their beliefs examined. The deal I want to make here simply is this: validity and rank ordering, or validity and competition, do not ouch on each other. It is a good idea to assume the assessment we will be studying always to be the assessment of one and only one student's achievement, to effectively rule out the competion idea. Of course, I will mention and annotate publications based on the comparative philosophy underlying most of psychometrics, without thereby endorsing this particular theoretical position.

It is my hope and expectation to find in the history of science many examples of the simultaneous development of physical theory and adequate - valid - measurement techniques. Candidates are the theory of light as developed by Christiaan Huygens in the 17th century (Dijksterhuis, 2004), the theoretical demarcation of temperature and heat as different phenomena, and many others. Borsboom et al. did not think physical theories to have the measurement problems now so evident in the social sciences; I disagree, and I am going to show them wrong. In the process, it will become less mysterious what it is to say of an assessment that it is a valid one. It will help enormously to have good examples such as that from research into the development of the number concept in children (Carey, 1998); the assessments used in this research inherently are valid assessments (unless the research is faulty).

Validity is a relative concept, the validity of an assessment is its validity relative to a theory of what is or might be the case. Therefore asessment techniques develop together with the theories of what might be the case, and vice versa. It is a misconception to think it possible to develop assessment techniques, or achievement test items for that matter, without regard for (the theory about) what it is that is to be assessed. A prime example is that of the word problem as typically used in arithmetics assessment; the example is the research on what it is that pupils in fact do when ansewering those typical word problems, as contrasted with what for example teachers or item writers think they are doing or should be doing. See for example Verschaffel, Greer and De Corte (2000).

What is it for achievement tests and achievement test items to be valid? These are two different problems altogether, the validity of a test being more often than not being validity of an aggregate (of students having answered a number of test items, their answer assessed by a number of teachers), notwithstanding the hope or at least the assumptions of many psychometrists that the students form a homogeneous group and the items a homogeneous bunch as well, not to speak of the teachers involved in assessment of answers or design of test items. What then is the validity of the individual test item, answered by the individual student? That is the question for my book on the design of achievement test items here. I will answer that question summarily in its paragraph 2.6. The chapters three until seven should instantiate whatever the validity of the curriculum itself, and the questioning itself is shown to be. Surprised about the idea of the curriculum itself to be valid? You'd better be, because reading the psychometric literature will give you the idea that the achievement test might be valid in the absence of even the slightest empirical evidence about the curriculum itself being valid. What I will be looking for in this web page is literature on validity that does not narrow it down to what typically is discussed among psychometricians (Lord and Novick, 1968, Messick). An early publication widening the concept of validity is Cronbach and Gleser (1957), the idea therefore is not in itself revolutionary.

mathematische fyxica

"Het belangrijkste onderdeel van de toegepaste wiskunde was zonder meer de mathematische fysica. De mathematische fysica werd gedurende de negentiende eeuw onderwerp van een steeds verder voortschrijdende mathematisering. Mathematisch fysici volstonden met een wiskundige beschrijving van waargenomen fenomenen, zoder dat ze zich druk leken te maken over achterliggende oorzaken of het vinden van een allesomvattende theorie."

Danny Beckers (2006). Wiskunde in de negentiende eeuw. In Machiel Keestra: Een cultuurgeschiedenis van de wiskunde (p. 172). Uitgeverij Nieuwezijds.

Galileo was in de bovenbedoelde zin ook een mathematisch fysicus: zijn hellingbaanexperiment is louter beschrijvend, het biedt geen verklaring. Ik weet niet of de hedendaagse mathematische fysica nog steeds zo beducht is vuile handen te maken door zich met theorie in te laten, ik dacht het niet. Het voorbeeld is interessant omdat een wetenschapper die alleen maar wil beschrijven, daarmee aangeeft geen boodschap te hebben aan validiteit (in de betekenis zoals door Borsboom e.a. 2004 uitgewerkt). Je kunt dat ook omdraaien: als validiteit de crux is van wetenschappelijke observatie, dan zijn die negentiende-eeuwse mathematisch fysici niet geweldig wetenschappelijk bezig geweest, en wat de kern van de natuurkunde betreft dus helemaal niet.


Validity in the strict sense: individual measurement, absolute measurement


Validity in the received view: validity of aggregates (of items, testees, assessors), relative measurement

Anne R. Fitzpatrick (1983). The meaning of content validity. Applied Psychological Measurement, 7< 3-13. abstract of hele pdf

Een heel enghartige benadering: technocratisch, terwijl ook van de te toetsen inhouden geheel wordt afgezien. Alsof validiteit iets zou zijn dat op basis van alleen itemstatistieken valt te beslissen. Ik overdrijf, maar dat is niet helemaal onterecht.


Validity of the uses of measurements: predictions, decisions

Lee J. Cronbach and Goldine C. Gleser (1957/1965). Psychological tests and personnel decisions. Urbana, Illiois: University of Illinois Press.

Susan Carey (1998). Knowledge of number: Its evolution and ontogenesis. Science, 242, 641-642.

Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

below is the first concept of the revision of 2.6 paragraph of Toetsvragen ontwerpen (in Dutch) , a version exchanged for an almost entirely new one in March 2008

Met halve kennis beter scoren dan hele?

Een toets met honderd eenvoudige vragen over paren Duitse steden: welke is de grootste? München of Dortmund? Etcetera. Een tweede toets, maar dan met Amerikaanse steden: Milwaukee of Detroit? etcetera. Oostenrijkse studenten krijgen beide toetsen voorgelegd.

Welke toets maken de Oostenrijkers beter, en waarom?

Dit is een wonderlijk casus, ik hoop dat u het altijd onthoudt. Denk er maar eens over na. Het antwoord volgt later.

Het is goed om deze lange theoretische paragraaf te beginnen met in het kort aan te geven wat uiteindelijk het directe praktische belang is van de kwestie van de validiteit van een afzonderlijke toetsvraag, dat is: of het antwoord op de vraag het toestaat over de aanwezigheid van de bedoelde kennis te oordelen.

Het is belangrijk goed in de gaten te houden dat we het hebben over de validiteit van de afzonderlijke toetsvragen, dat is dus niet de validiteit van hele toetsen, laat staan van het gebruik dat we van toetsresultaten zouden willen maken voor overgang, toelating, en wat niet al (zie voor ingangen op de literatuur voor deze vormen van validiteit deze pagina. Het gaat over de afzonderlijke toetsvraag en zijn ontwerp.

Een goed antwoord moet (kunnen) bewijzen dat de bedoelde kennis aanwezig is. Dat 'kunnen' moet er wel bij, want een goed antwoord kan ook zijn afgekeken, onthouden, geraden, op een andere en onbedoelde manier zijn verkregen, of verkeerd zijn beredeneerd. De ontwerper van de vraag heeft tot taak om uit te sluiten dat een vraag naar inzicht via een slimmigheidje op een eenvoudiger manier is te beantwoorden, de vraag mag geen onbedoelde hints geven. Het gaat dus om die 'bedoelde kennis', waarbij 'kennis' de gewone Nederlandse betekenis heeft. Dus niet de te beperkte betekenis van kennis zoals de cognitieve taxonomie van Bloom en anderen, 1956, die geeft. En het omgekeerde? Een verkeerd, onvolledig of niet beantwoorde vraag bewijst niet dat de bedoelde kennis ontbreekt. Vooralsnog is die kennis niet aangetoond, een eventuele volgende vraag is een nieuwe kans.

Let op: er zijn belangrijke uitzonderingen op deze laatste wijsheid, zoals verpleegkundigen die gewoon vrijwel 100% correct moeten scoren op voor het beroep representatieve rekenopgaven. Hier is de bedoeling 'foutloos rekenen' te meten, en is een fout antwoord bewijs van niet foutloos kunnen rekenen. Dit is in scherp contrast met de overigens in het onderwijs bestaande tolerantie voor fouten, zelfs 'dodelijke' fouten, in examens. Bij dat laatste moet ik dan weer aantekenen dat vragen vaak gewoon te moeilijk zijn ontworpen met de bedoeling om verschillen tussen kandidaten te kunnen aantonen, dat is mogelijk iets anders dan valide vragen ontwerpen.

verpleegkundigen: actueel in het nieuws op 14 november 2007, teveel rekenfouten bij medicatie. Zie Nursing, december 2007 html

maart 2008: De Citotoets is dit jaar door 3 van de 158.000 deelnemers foutloos gemaakt (200 vragen). Begrijpt u nu waarom die toets voor veel/de meeste betrokkenen een kwelling is? Hij is evident gericht op verschillen tussen leerlingen, niet op het voldoen aan standaarden voor de verschillende vakken (zie over leerstandaarden: rapporten van de Onderwijsraad).

Deze beschrijving van validiteit van afzonderlijke toetsvragen is mijns inziens conform de definitie die Borsboom (2003) geeft van validiteit voor psychologische tests. Die definitie benadrukt dat voor het vaststellen of meten van kennis noodzakelijk is dat die kennis werkelijk bestaat, en de oorzaak is van de uitslag van de test, dus van het goede antwoord op de afzonderlijke toetsvraag. De overgang van de theoretische benadering van Borsboom naar de praktische van de ontwerper van toetsvragen is niet echt vanzelfsprekend omdat Borsboom de bijzondere situatie van toetsen in het onderwijs niet behandelt.

Toch zijn voor de goede lezer met de bovenstaande beschrijving al belangrijke inzichten mogelijk. Toetsen op kennis kan veel eenvoudiger dan in de huidige praktijk gebeurt: een enkel goed antwoord bewijst de kennis; op zich zijn daar niet nog meer vragen over hetzelfde onderwerp voor nodig (een disjunctieve benadering van toetsen). Wil een goed antwoord als bewijs kunnen tellen, dan zal het vaak gewenst zijn dat de leerling aangeeft waarom dit een goed of het goede antwoord is.

Het antwoord op de vraag in bovenstaande box: de Oostenrijkse studenten maken de toets met Amerikaanse steden beter, juist omdat zij daar maar halve kennis van hebben. Het mechanisme is buitengewoon fascinerend, en waarschijnlijk niet zeldzaam in het onderwijs (daar is vaak sprake van halve kennis): op basis van die halve kennis zijn ze in staat goed te scoren door de stad te noemen waar ze wel eens van hebben gehoord. Ze doen dat overigens volkomen intuïtief, en menen dat ze alleen maar raden. Voor de Duitse steden gaat deze truc niet op, die namen kennen ze allemaal wel, maar hun relatieve grootte natuurlijk niet zo goed. Dit is geen toevalstreffer in een experiment van een gekke professor: zie het werk van Gerd Gigerenzer voor de systematiek in dit alles, bijvoorbeeld zijn (2007). De relatief goede score op de toets met Amerikaanse steden is een invalide resultaat, want langs onbedoelde weg verkregen, maar met de techniek valt zelfs geld op de beurs te winnen! (p. 26 e.v. in Gigerenzer). Het experiment van Gigerenzer en zijn collega's laat zien hoe in dit bijzondere geval invaliditeit is aan te tonen, terwijl het tegelijk gaat om een theoretisch verklaarbaar verschijnsel (of juist daarom?).

invaliditeit: onbedoelde wegen tot goede antwoorden

  1. ongelukken (drukker laat het goede alternatief weg; examenwerk zoekgeraakt) (waar niet is, is ook geen validiteit)
  2. fraude (afkijken, ongeoorloofde hulpmiddelen gebruikt, examenvragen gestolen of uitgelekt) (borging dat dit niet speelt)
  3. er is een foute redenering mogelijk die tot een goed antwoord leidt (een blunder als het om een frequente redenering gaat)
  4. de vraag is op eenvoudiger niveau te beantwoorden dan bedoeld (met kennis in plaats van inzicht, de vraag is al bekend bij leerlingen) (falen NIEUWE vragen over de stof te stellen, zie bv. Cohen 1982 over onnodige terughoudendheid hierin)
  5. studenten die ook andere boeken bestuderen dan alleen de opgegeven stof kunnen goed beredeneerd tot andere antwoorden komen dan bedoeld (bv. Crombag e.a. 1976 laten zien dat deze studenten typisch LAGERE cijfers boeken, in feite dus STRAF krijgeb)
  6. kennisfout: een mismatch tussen kennis zoals in het onderwijs de facto aan de orde, en zoals bedoeld (redactiesommen (Verschaffel e.a. 2000); falen van natuurkundeonderwijs (Hestenes))
  7. abstractiefout: ook een kennisfout, een abstracte vraag toetst NIET de kennis waarvan het de abstractie vraagt (bv. definities vragen, waar het de bedoeling is dat de student de definitie kan hanteren in probleemsituaties) (Wilbrink 1983 Toetsvragen schrijven)
  8. herkenningsheuristieken (Gigerenzer, 2007) (nauwelijks voorbereide studenten kunnen hier een goede slag mee slaan)
  9. gokken of raden (vooral bij keuzevragen waar geen antwoord als fout antwoord telt ... )

validiteit: bedoelde wegen tot goede antwoorden

  1. pro memorie: uitsluiten van mogelijke bronnen van invaliditeit zoals hierboven genoemd
  2. er is een bedoelde weg om tot het goede antwoord te komen (bedoelde kennis)
  3. de waarschijnlijkheid dat iemand die de betreffende kennis niet heeft toch het goede antwoord kan geven is nihil/verwaarloosbaar/klein (bedoelde kennis is ook noodzakelijk voor dat goede antwoord)
  4. uitleg van het waarom van het gegeven antwoord maakt het bewijs mooi volledig (een goed idee om bij keuzetoetsen altijd naar het waarom te vragen of tenminste de gelegenheid tot die uitleg te bieden)
  5. als er varianten van moeilijkheid mogelijk zijn, onderbouwt de ontwerper de gemaakte keuze (hoe hoog legt u de lat bij het hoogspringen, en waarom dan?)


valide / niet valide?

Een schip vervoert 24 schapen en 11 geiten.
Hoe oud is de kapitein?

In 1630 moest Prins Frederik Hendrik met 1500 man aftrekken.
Hoeveel bleven er over?

de eerste vraag gaat terug tot een veel uitgewerkter versie van Gustave Flaubert, 1843. Zie ook Baruk (1998)

de laatste vraag: Leen (1961, p. 131), uit een proef van Waterink, Pedagogisch Tijdschrift, 18 en 19, 1935-36

Bovenstaande redactiesom kan valide zijn in onderwijs waarin leerlingen leren eerst na te denken, en pas dan hun mond open te doen: "Mevrouw, deze vraag is zo niet te beantwoorden." Onderzoek wijst uit dat heel veel leerlingen vasthouden aan de som van de getallen—35—als antwoord op deze vraag; dan is de vraag niet valide als redelijke toets voor die leerlingen. Maar let op: de vraag is beroemd als vraag naar de kwaliteit van het gegeven onderwijs, of tenminste naar de kwaliteit van de redactiesommen in het rekenonderwijs (Verschaffel, Greer en De Corte, 2000).

Absoluut de crux van het ontwerpen van toetsvragen is dat deze ieder afzonderlijk passen in een valide vaststelling van aanwezige kennis. Dat wil zeggen dat aanwezige kennis, en deze alleen, bepalend is voor wat de leerling als antwoord op de vraag produceert. Dit is de realistische opvatting van validiteit zoals uitgewerkt door Borsboom en anderen (2004). Kennis is het brede begrip in zijn gewone Nederlandse betekenis, niet de benauwende karikatuur uit de cognitieve taxonomie van Bloom e.a. (1956). Merk op dat wat valide moet zijn, de hele procedure met zijn context of contingenties is: de individuele toetsvraag is daar maar een onderdeel van. Borsboom is het met het laatste overigens niet eens: hij meent dat validiteit een kenmerk van alleen het instrument is, quod non. Waar in het volgende verkort sprake is van de validiteit van een toetsvraag is dat in die brede betekenis te verstaan, mede door de omstandigheden bepaald.

Onderzoek naar redactiesommen heeft geleerd dat het hanteren van een strakke vorm een eigen leven gaat leiden, zo ook als het een gegeven zou zijn dat iedere voorgelegde vraag valide is. Het leven confronteert ons bepaald met meer vragen dan valide vragen alleen. Er moet daarom ook ruimte zijn voor meta-valide vragen, dat zijn vragen die de student zelf af moet ronden tot een valide vraag. Strikt genomen is meta-validiteit ook validiteit en in die zin geen uitzondering, maar het is handig om voor het ontwerpen het onderscheid te maken. [Het eerste voorbeeld hierbeneden van een niet-valide vraag over massa en gewicht in een Wetenschapsquiz zou buiten de quiz-context als zo'n meta-valide vraag zijn op te vatten: de student moet zien dat de vraag, zoals gesteld, niet is te beantwoorden, maar in een andere vorm wel.] 'De leeftijd van de kapitein' (de vraag hierboven) is naar intentie ook een meta-valide vraag, en in onderzoek zoals dat van Verschaffel en anderen (2000) werkt hij ook zo, maar hij past niet in de huidige rekendidactiek—so much the worse for the didactics.

Validiteit van beoordelen is geen garantie voor nut en noodzaak van het onderwijs zoals gegeven, of van de opvattingen over toetsen van de docent of studieboekauteur. In deze zin suggereert de term teveel, stop niet met nadenken zodra de validiteit van een ontwerp in orde lijkt.

tweede poging tot formuleren: Zoals het in de wetenschap mogelijk is een valide instrument voor een onderzoek op basis van een waardeloze theorie te maken, zo is het in het onderwijs mogelijk valide vragen te ontwerpen voor wat feite de tijd van leerlingen vermorst. Redactiesommen kunnen daar met stip het meest opvallende voorbeeld van zijn. Er is altijd een wijdere context dan alleen de opvattingen van deze docent of die leerboekauteur over wat het is om de stof na bestudering te kennen. Bosboom e.a. besteden geen aandacht aan de combinatie van valide tests en ongepaste theorie: contrôlemechanismen in de wetenschap nemen dat probleem wel voor hun rekening. In het onderwijs werkt dat niet zo, bijvoorbeeld ‘het geheim van de klas’ houdt dat tegen. De ontwerper van toetsvragen heeft daarom ook te maken met de vraag of het onderwijs—met zijn vaak impliciete veronderstellingen over wat kennis is—inhoudelijk wel adequaat is. De verleiding is nu om dat onderzoek naar de gepastheid van het onderwijs ook onder het begrip validiteit te vatten. Het is niet verstandig om dat te doen, omdat het validiteitsbegrip dan afwijkt van dat van Borsboom e.a. (2004).

eerste poging tot formuleren: Naast de uitzondering is er bovendien een uitbreiding. Borsboom e.a. (2004) beperken hun analyse mogelijk onbedoeld tot dat wat de onderzoeker, ontwerper van de test of de docent met de test wil vaststellen. Als het gaat om kennis, dan moet het zo zijn dat het hebben van die kennis bepalend is voor wat het instrument—de test—laat aflezen. In het onderwijs gaat het om het verwerven van die kennis, daarom is het onvermijdelijk dat tot de validiteit van toetsvragen naast het oorzakelijke verband van kennis naar antwoord, ook het epistemologische verband van het gevraagde naar het kennisdomein op orde is, contingent op de onderwijssituatie. De docent die natuurkunde verengt tot het manipuleren van formules zal geen valide vragen kunnen ontwerpen. Toetsen op reproductie van kennis kan best in ontologische zin valide zijn, maar is meestal betekenisloos en daarom niet valide. Voor een illustratie van wat een en ander in uiterste consequentie voor onderwijs en beoordeling betekent, zie de indrukwekkende lijn van onderzoek van Michelene Chi, bijvoorbeeld Slotta en Chi (2006).

De metafoor van het meten in een wetenschappelijk experiment biedt goed houvast. Uit de theorie volgt een bepaalde stand van zaken die onder bepaalde condities zal optreden. Het optreden van die stand van zaken moet valide worden vastgesteld: manifestatie van de voorspelde meetresultaten als veroorzaakt door de stand van zaken, niet door enige andere gebeurtenis. Het instrumentarium om die meting te verrichten is de kern, maar tal van voorwaarden moeten procedureel gewaarborgd zijn. Beschouw het gegeven onderwijs als een experimentele behandeling. Jaarlijks herhalen van het experiment met nieuwe leerlingen maakt het alleen maar sterker. Hoe sterker de theorie over wat de resultaten van het onderwijs— als toegevoegde waarde—moeten zijn, des te sterker een valide vaststelling daarvan kan zijn.

Dit validiteitsconcept van Borsboom e.a. (2004) geldt een willekeurig gekozen leerling en een beoordeling die uit een enkele vraag bestaat. Bijgevolg geldt het dus ook voor meerdere leerlingen en meerdere vragen, maar zo'n wonderbaarlijke vermenigvuldiging leidt makkelijk af van de wezenlijke zaken. Die laatste zijn veel scherper in de aandacht te houden op dat niveau van een enkele leerling die deze enkele vraag krijgt voorgelegd. Een toetsvraag—binnen een gegeven procedure en context—is in deze realistische benadering altijd ofwel valide, ofwel niet valide. Er is geen ruimte voor zoiets als graduele validiteit, zoals in de traditionele benadering (Lord and Novick, 1968) te vinden, een traditie bovendien die altijd over groepen leerlingen en tests met meerdere vragen gaat. Allerlei menselijke tekorten en andere omstandigheden kunnen vervolgens nog voor een minder dan perfect resultaat zorgen, maar dat tast de validiteit niet aan. Validiteit is hier—bij Borsboom e.a. (2004)—een voorwaarde voor betrouwbaarheid, in plaats van de omgekeerde volgorde die in de literatuur gebruikelijk is.

Dan is er nog een belangrijke kwestie over. Wat is dat eigenlijk, dat een goed antwoord op een valide vraag bewijst dat de student over de betreffende kennis beschikt? Kennis zit niet in de hersenen opgeborgen zoals in een archief, een database, of welk ander type opbergsysteem door mensen bedacht. Er is niet een een-op-een relatie tussen kennis zoals de student deze kennelijk ter dienst staat, en de kennis zoals cultureel beschreven in wetenschap of tekstboek. Op deze manier valt er geen bewijs te construeren dat iets goed in de hersenen is opgeborgen. Op die manier moeten we dat ook niet proberen te beschrijven. Het gaat meer om een gelijkvormigheid tussen kennis zoals door de student geproduceerd, en kennis zoals door de wetenschap of het tekstboek is beschreven. Dat er een proces is waarvan de door de student geleverde prestatie het resultaat is, dat is natuurlijk zo, maar dat mag vanuit validiteitsoogpunt als een proces in een zwarte doos worden opgevat. Wie daar behoefte aan heeft, kan voor de mogelijke processen in de zwarte doos te rade gaan bij de ACT-R theorie van John Anderson, of connectionistische modellen zoals door Rumelhart en McClelland beschreven. Voor tal van didactische problemen is het absoluut noodzakelijk om dat te doen, en is die relevante kennis natuurlijk ook te gebruiken om validiteit te construeren. Waar gáát dit over, zult u denken. Het is het eenvoudig te constateren verschijnsel dat onze hersenen zó functioneren dat ze op ingewikkelde situaties en vragen onmiddellijk adequaat kunnen reageren, dat wil zeggen in fracties van een seconde. Dat betekent, omdat die reacties afhangen van relatief slome chemische processen, dat onze hersenen niet werken als logische machines, of als computers, en onmogelijk alle informatie opgeborgen kunnen hebben zoals wij graag denken dat het opgeborgen moet zijn (dan zouden de zoektijden enorm moeten zijn). Om niet te verzanden in hersenbrekers over hoe onze hersenen de informatie beschikbaar hebben, iets wat Bloom en de zijnen probeerden met de cognitieve taxonomie van onderwijsdoelen, is het onontkoombaar om niet de kennis zoals opgeslagen, maar kennis zoals geproduceerd in antwoorden etc. tot uitgangspunt te nemen, en die te vergelijken met de kennis zoals in het betreffende vakgebied gangbaar is. En dat is de benadering die in de uitgave van 'Toetsvragen schrijven' van 1983 in hoofdstuk drie is uitgewerkt. Ik kan nog niet overzien of deze globale overwegingen een meer fundamentele onderbouwing nodig hebben, waarvoor het werk van Suppes (2002) te raadplegen valt. Mijn gut feeling is dat Suppes zo'n poging onverwijld zou afraden: met formalismen schieten we hier niets op, er is goed denkwerk vereist, en dat leveren bijvoorbeeld John Anderson en de zijnen.

Bij de realistische opvatting over validiteit past dat er sprake is van een oorzakelijk verband tussen de mogelijk aanwezige kennis en de beantwoording van de vraag. Dat is in zijn algemeenheid een lastig concept, Borsboom e.a. zijn daar niet echt helder over. Mogelijk is die oorzakelijke relatie voor de ontwerper van toetsvragen toch tamelijk eenvoudig, als deze reduceert tot het al dan niet hebben van bepaalde kennis dat bepalend is voor het antwoord op de betreffende vraag. Dat daarbij allerlei vervormingen op kunnen treden tast niet de validiteit als zodanig aan; denk bijvoorbeeld aan raadkansen. In het validiteitsconcept van Borsboom e.a. (2004) is die validiteit primair en de betrouwbaarheid secundair, precies omgekeerd aan wat in de psychometrie gebruikelijk is. De referentie voor oorzakelijkheid is het werk van Judea Pearl. Interessant is dat ook Deanna Kuhn (2005) een groot potentieel ziet in het centraal stellen van causaliteit in curricula, dat is weliswaar niet precies hetzelfde, maar is wel gerelateerd.

Over validiteit van toetsen bestaan duizend opvattingen in minstens zoveel publicaties. Dat is het slechte nieuws. Het goede nieuws is dat de ontwerper van toetsvragen alleen heeft te maken met de validiteit van de afzonderlijke vragen, en dat is heel overzichtelijk. Tenminste, voor wie zich niet laat afleiden door de duizend opvattingen. Dit is een tamelijk dwars uitgangspunt, en het lijkt waarachtig opvatting duizend-en-een. Het komt daarom bijzonder goed uit dat een degelijke onderbouwing van deze dwarse visie is gegeven door Borsboom, Mellenbergh en Van Heerden (2004), of hoofdstuk 6 in Borsboom (2003). Dan blijkt dat deze visie niet de zoveelste uitwerking is van wat validiteit van tests is, maar die wildgroei van bijna persoonlijke opvattingen vervangt door een dwingend paradigma dat een valide toetsvraag een stand van zaken in de wereld peilt of meet.

Het is nu mogelijk om de validiteit van een toetsvraag te onderzoeken zonder te hoeven uitpluizen of leerlingen die de vraag weten, gemiddeld ook slimmer zijn of harder hebben gewerkt dan anderen. Zoals een kromme lineaal niet valide kan meten, zo is dat ook met onmogelijk geformuleerde toetsvragen het geval. Het treft dat de Wetenschapsquiz van NWO daar mooie voorbeelden van heeft. De indieners van die vragen hebben hun uiterste best gedaan om goede vragen te maken; dat deze desondanks nogal eens niet valide blijken, getuigt van de noodzaak expliciet te maken wat validiteit betekent voor het werk van de ontwerper.

gram = massa, of wat?

Je hangt een massieve bol van 100 gram piepschuim en een massieve bol van 100 gram lood aan een balans. De balans is dus precies in evenwicht. Je herhaalt de proef op de maan. Is de balans dan nog in evenwicht?

  1. Nee, de bol van piepschuim zal lager hangen.
  2. Nee, de loden bol zal lager hangen.
  3. Ja, ze wegen allebei precies evenveel minder.

Wetenschapsquiz 1999, vraag 13 html

De bovenstaande vraag is een quiz/schoolvoorbeeld van hoe ook in het onderwijs vragen makkelijk falikant niet valide kunnen zijn: de docent is slordig in het hanteren van de begrippen, en drukt ondertussen wel zijn 'juiste' antwoord a. door. Wat is er aan de hand? Strikt genomen staat 'gram' niet voor gewicht, maar voor massa. En omdat de vraag gaat over de opwaartse druk bij afwegen in lucht (op aarde), geldt de strikte interpretatie. Het gegeven van de vraag is een onmogelijkheid: de balans is juist op aarde niet in evenwicht door de opwaartse druk van lucht (de dichtheid is 1,3 gram per liter). Zie Karel Knip (2000), Alledaagse Wetenschap 8 januari en 15 januari. Op een onmogelijke vraag past geen juist antwoord. Deze vraag is niet geldig—of niet valide naar het Engelse valid—en zou dat als volgt wel zijn:

Aarde en Maan

Je hangt een massieve bol van piepschuim en een massieve bol van lood aan een balans. De balans is precies in evenwicht. Je herhaalt de proef op de maan. Is de balans in evenwicht?

  1. Nee, de bol van piepschuim zal lager hangen.
  2. Nee, de loden bol zal lager hangen.
  3. Ja, de balans is ook dan in evenwicht.

Zie voor het antwoord in de Wetenschapsquiz hier opgave 13, en zie dat daar van dezelfde massa in het argument figureert, wat dus pertinent onjuist is en gewoon geschrapt moet.

De evenwichtsvraag is geen goed voorbeeld van wat valide is of niet. Ik zal hem vervangen. Het punt is namelijk dat dat dit eigenlijk een voorbeeld is van een ongeluk, een verkeerd gerepareerd meetinstrument waarmee niet meer valide kan worden gemeten, en daarmee eerder een voorbeeld van extreme onbetrouwbaarheid (laatste paragraaf van dit hoofdstuk) dan van onvaliditeit. Merkwaardig hoe je heel lang zoiets over het hoofd kunt zien En daarmee ontstaat dan de situatie dat het niet zozeer concrete individuele toetsvragen zijn die niet valide blijken, alswel hele categorieën van toetsvragen. Een voorbeeld dat zich onmiddellijk opdringt is de keuzevraag die door leerlingen typisch wordt beantwoord door de alternatieven met elkaar te vergelijken, terwijl het de bedoeling is dat de leerling op de stam van de vraag antwoordt, en dan zijn antwoord opzoekt in het rijtje alternatieven. Kun je dan zeggen dat de docent het verkeerde format voor zijn vraag heeft gekozen, maar dat die overigens wel heel valide kan zijn? Dat kan, maar het is hier geen ongelukje maar een ontwerpfout die zich over alle keuzevragen uit kan strekken. Dergelijke keuzevragen zijn gewoon geen valide vragen, niet alleen maar onbetrouwbare. Ik ben er dus nog niet helemaal uit. Mogelijk ontstaat dit afbakeningsprobleem door de aard van het validiteitsconcept van Borsboom e.a. (2004): geen gradueel kenmerk, maar een alles-of-niets-kenmerk. Vragen die ver buiten de stof liggen zouden dan ook nog valide vragen kunnen zijn, alleen jammer dat geen enkele leerling er iets mee kan—foutje.

Let op dat dit tegelijk een voorbeeld is van hoe in de natuurkunde metingen tekort kunnen schieten in validiteit: meten is mensenwerk. Als onder de meting een theoretische misvatting ligt dan is die meting niet valide, ook niet in een gedachtenexperiment zoals hier. Bij grensverleggend onderzoek is de theorie juist in ontwikkeling, en is het de uitdaging om tot valide proefopstellingen en metingen te komen. In de opkomende Duitse laboratoria in de 19e eeuw is dat mooi zichtbaar (Olesko, 1991), en waarschijnlijk door heel de wetenschapsgeschiedenis heen. Eventueel gebrekkige validiteit is niet iets dat voorbehouden is aan toetsen en tests, het komt ook voor in (natuur)wetenschappelijk onderzoek.

In het onderwijs is nu een pittig probleem dat in alledaagse situaties de docent de vragen en opgaven stelt. Die docent is niet altijd even vaardig in de betreffende stof—zie bijvoorbeeld de goed onderzochte tekorten in wiskundige kennis van leraren in basis- en voortgezet onderwijs—dus validiteit is een belangrijk issue bij toetsen en toetsontwerp. Maar ook bij tekstboekauteurs is de validiteit in het geding, zoals Fons Vernooij (1998) aantoonde voor het vak economie in het voortgezet onderwijs: is het economische begrippenapparaat consistent? Inconsistentie leidt vroeger of later tot problemen. En economie is bepaald niet het enige vak waarvoor inconsistenties in de aan leerlingen voorgehouden theorie zijn vastgesteld.

Mogelijk is het zo dat er bij wiskunde systematisch sprake is van inconsistenties in het onderwijs van het vak, en waarschijnlijk ook in de beoefening van de wiskunde. Nee, de 'wiskunde zelf' is niet inconsistent, al is dat op zich een stelling die mogelijk niet bewijsbaar is. De hier bedoelde inconsistentie is die tussen formalismen, zoals voor het limiet-begrip, en de manier van spreken en schrijven over, in dit geval, limieten. Het is empirisch aantoonbaar, maar dat is cognitieve psychologie en geen wiskunde (Núñez 2007), dat dit formalisme niet een precisering is van wat bij het uitleggen van limieten in gewone taal wordt gezegd en geschreven, maar dat het om verschillende cognitieve begrippen gaat. De uitleg van conituïteit en limieten gebeurt altijd in dynamische termen, van veranderingen, terwijl het epsilon-delta formalisme puur statisch is, daar beweegt echt helemaal niets. Dat betekent dat de uitlegger in feite niet het hedendaagse formalisme uitlegt, maar een geheel andere dynamische opvatting van de wiskundige analyse, zoals die nog halverwege de negentiende eeuw gangbaar was. Deze stand van zaken is voor het onderwijs bepaald problematisch, en maakt het er niet eenvoudiger op voor toetsvragen over zo'n onderwerp vast te stellen of ze valide kunnen zijn in de bovenbedoelde zin. Dit onderwerp keert in latere hoofdstukken nog terug, uiteraard.

En zo is met het bovenstaande een invulling van het begrip validiteit gegeven die niet echt gebruikelijk is in de psychologische wereld van toetsen en tests, en die recent is gearticuleerd door Borsboom, Mellenbergh en Van Heerden (2004). Het gaat er niet om of met een toets met mogelijk wonderlijke niet valide opgaven een of ander criterium goed is te voorspellen—een empiricistische opvatting die gemeengoed is onder psychologen—maar of de opgaven in die toets inhoudelijk valide zijn. Want dat is de uitdaging voor de ontwerper: valide vragen ontwerpen. Allerlei bezwaren van praktische, ethische or whatever aard vragen pas daarna aandacht.

De titel van deze paragraaf was voorheen Vermijd abstracte vraagstellingen. Die keuze uit 1983 kwam voort uit de ervaring dat in de lijst ontwerpfouten het abstract terugvragen van de stof met stip op de eerste plaats staat. Een kwart eeuw later is dat overigens nog steeds zo. Enige reflectie en degelijk empirisch onderzoek naar bijvoorbeeld de rol van opdrachten in het rekenonderwijs leert evenwel dat er een belangrijke restrictie is bij het ontwerpen van toetsvragen: zij moeten adequaat zijn voor de doelen van het onderwijs, zoals een assessment center dat moet zijn voor de aard van de taken in de functie waarvoor het de geschiktheid toetst. En verdraaid, evenals voor de meeste van die assessment centers lijkt het erop dat voor de meeste toetsvragen in het onderwijs die validiteit nooit behoorlijk empirisch is getoetst. De eerste de beste die wèl zo'n empirisch onderzoek doet, kan dan ontdekken dat de leerling die in zijn vrije tijd in de bowling baan vrijwel foutloos complex kan rekenen, dat op school niet kan, ook niet kan wanneer hij op school redactiesommen krijgt die het rekenen op de bowlingbaan imiteren (Lave, 1988). Ik noem hierbeneden het werk van Hestenes over opgaven natuurkunde die typisch 'goed' gemaakt kunnen worden terwijl tegelijk andere evident valide natuurkundeopgaven ondubbelzinnig fout worden beantwoord.

Het is geen goed idee de validiteit van de toets te refereren aan het onderwijs zoals gegeven: allereerst moet het onderwijs zelf valide zijn, en de toets moet die validiteit weerspiegelen. Het merkwaardige is dat deze betekenis van validiteit onbekend is in de literatuur. Bijvoorbeeld bij construct validity staat de validiteit van de bedoelde constructs zelf impliciet buiten kijf, ten onrechte natuurlijk. Maar in het onderwijs is het helemaal niet vanzelfsprekend dat wat commissies (clubs van direct belanghebbenden) aan onderwijsprogramma's bedenken, valide onderwijs oplevert. Als het curriculum is volgestopt met irrelevante kennis—inert matter zoals Alfred North Whitehead dat noemt—is het onderwijs in die mate niet valide, en toetsen van zo'n berg nonsens is nonsens html.

Of neem als voorbeeld de uitgebreide lijn van onderzoek naar redactiesommen (Verschaffel, Greer en De Corte, 2000) waar bij ieder experiment weer blijkt hoe dysfunctioneel die redactiesommen in de doorsnee onderwijspraktijk zijn: dat onderzoek laat enigszins onbedoeld toch precies zien hoe validiteit van toetsvragen empirisch valt te toetsen. Het laat dus ook zien wat de afbakening tussen valide en niet valide toetsvragen ongeveer kan zijn, althans voor redactiesommen. Hoewel niet valide redactiesommen evident voorbeelden zijn van misplaatste abstractie, is het beter hier de meer algemene eis van validiteit bij het ontwerpen van toetsvragen te hanteren.

Hier stond de tekst die nu als casus 2 en 3 in het nieuwe concept van paragraaf 2.6 is opgenomen

perfect niet valide: creatief bedachte toetsvragen

Toetsvragen schrijven op basis van de creatieve inval, als een kunst, zoals het bijna altijd in de literatuur wordt gekarakteriseerd als de enige 'methode', levert per definitie niet valide toetsvragen op. De creatieve inval gaat uit van de verkeerde hersenen, zeg maar: die van de kunstenaar/toetsvragen schrijver, in plaats van die van de leerling. Dat het gevraagde iets te maken heeft met kennis die de leerling zou kunnen hebben van de stof, wordt dan een kwestie van toeval.

Aristoteles' waarneming tegenover Galileo's gedachtenexperiment

Aristoteles beweert dat een twee keer zo zware kogel twee keer zo snel valt. Galilei nodigt uit te bedenken wat er gebeurt als twee kogels van verschillend gewicht, laten we zeggen een houten en een bronzen kogel van gelijke omvang, aan elkaar vastgebonden van grote hoogte vallen.

  1. Valt die combinatie dan sneller dan de zwaarste kogel alleen zou doen?
  2. Wordt die zwaarste kogel afgeremd door de lichtere kogel?
  3. Vallen lichte en zware voorwerpen even snel?

Volgens Aristoteles vallen zwaardere voorwerpen naar verhouding sneller dan lichtere, de dagelijkse ervaring zou dat leren—Dijksterhuis, 1924, p. 21: Aristoteles vertrekt met zijn dialectische methode vanuit 'enkele, oppervlakkig waargenoomen verschijnselen.' Aristoteles heeft dat niet echt gezien, maar meent dat je het desgewenst eenvoudig zou kunnen waarnemen. Galileo's gedachtenexperiment in de box laat geen ruimte voor de mogelijkheid dat verschil in gewicht een verschil in valsnelheid oplevert. Misschien is dit het mooiste gedachtenexperiment uit de geschiedenis (zie hierover ook Borsboom, Mellenbergh en Van Heerden, 2002 pdf). Zelfs zonder werkelijke uitvoering van het experiment rekent het definitief af met de opvatting van Aristoteles. Niet gering, want mede op deze opvatting had hij zijn filosofie opgebouwd.

Het lijkt alsof hier twee vormen van validiteit door elkaar lopen, maar het is juist een fraaie illustratie van het samengaan van validiteit in de strikte ontologische zin van Borsboom e.a. (2004) met de eis dat een vraag of experiment ook inhoudelijk, epistemologisch, zinvol moet zijn. Het gedachtenexperiment is inhoudelijk zeker valide voor het fysieke verschijnsel, het is zelfs een beslissend experiment. Gesteld als vraag aan Aristoteles—een nieuw gedachtenexperiment—is het ook ontologisch een perfect valide vraag. De vraag appelleert direct aan de kennis die Aristoteles zou kunnen hebben. Het boeiende is natuurlijk dat de vraag—het gedachtenexperiment—Aristoteles zou dwingen tot nieuw inzicht, en dat tegelijk dat nieuwe inzicht de realiteit is waaraan de vraag appelleert.

de staat van validiteit

Bij het afnemen van examens zijn tal van oorzakelijke variabelen niet onder controle, zodat examens niet als valide toetsen, maar als maatschappelijk spel gezien moeten worden, als uitwerking van een sociaal contract tussen belanghebbende partijen. Dat is overigens ook honorabel, de klasse van modellen daarvoor is die van de tentamenmodellen, zie Van Naerssen (1970) html en Wilbrink (in bewerking) html.

Het voorgaande leidt onmiddellijk tot de opmerking dat validiteit van afzonderlijke toetsvragen niet altijd identiek is aan validiteit van hele toetsen of examens. Maar dat is—op zijn minst sinds Cronbach and Gleser's (1957) werk—bekend terrein: validiteit niet als absoluut begrip, maar gerelateerd aan het doel van de toets, aan het gebruik van de toetsresultaten door welke partij dan ook, aan de met de toetsresultaten te onderbouwen beslissingen. Daarom terug naar het onderwerp van het boek: de toetsvragen zelf.

Een goede toetsvraag moet valide zijn. Wat in de voorgaande paragrafen over toetsvragen is geschreven mag nuttig en noodzakelijk zijn, maar het is niet voldoende om de kwaliteit van toetsvragen te borgen. Het voorgaande schiet nog wezenlijk tekort waar het gaat om het ontwerpen van toetsvragen die valide zijn voor de doelen van het onderwijs. Niet voor de school, maar voor het leven leren zij. Er is een validiteitsprobleem wanneer empirisch onderzoek laat zien dat leerlingen die op schoolse opgaven goed kunnen rekenen, dat in de praktijk niet blijken te doen, en omgekeerd (Lave, 1988). Er is een validiteitsprobleem wanneer blijkt dat studenten hun tentamen natuurkunde goed maken, en vervolgens op de test van David Hestenes laten zien dat zij nog steeds naieve opvattingen hanteren over natuurkundige verschijnselen, dus die kogelbaan op een knullige manier verkeerd beschrijven. Er is een validiteitsprobleem wanneer de didactiek van het rekenonderwijs evident niet spoort met—geen gebruik maakt van—wat uit ter zake doend wetenschappelijk onderzoek over rekenen bekend is (Lebiere en Anderson, 1998). Tegelijk laten de voorbeelden hierboven zien dat perfect valide toetsvragen niet zeldzaam hoeven zijn. validiteit is niet maar een onhandig idee van theoretische scherpslijpers.

Het onderwerp validiteit is aan de hand van een paar heldere voorbeelden onmiddellijk duidelijk te maken. Ik ga dat in deze paragraaf proberen, de paragraaf zal in de loop van de tijd steeds beter worden (hoop ik). De genoemde, en verwante, literatuur geeft die voorbeelden, voorshands kan de lezer daar terecht. Het beginsel is simpel: ontwerp toetsvragen conform de doelen en in overeenstemming met wat wetenschappelijk onderzoek daarvoor aan suggesties aandraagt, en onderzoek empirisch of een en ander een beetje is gelukt. Let liever niet op wat er in de literatuur over educational measurement en psychometrie over validiteit is geschreven, dat zijn recepten voor opperste verwarring. De uitzondering is het diepgravende artikel van Borsboom, Mellenbergh en Van Heerden (2004) a href=""pdf dat laat zien hoe de bedoelde literatuur het cruciale punt mist, en hoe het dus anders moet. Zij noemen als enige voorbeeld van valide toetsen die van Jean Piaget, in zijn experimentele onderzoek. Inderdaad, hoe dat anders kan, zonder opperste verwarring zeg maar, is het onderwerp van de hoofdstukken drie tot en met zeven.>

Waarom opgaven?

"om het verstant te vermaken ende te scherpen"

Martin van den Dijcke (1591). Chijfer boeck. Geciteerd in Kool, 1999 p. 215.

Het doel van klassieke talen [wiskunde, schaken, ....]?

"Je decodeert de ene taal, Latijn of Grieks, en je zet het om in het Nederlands. Dat traint je analytisch denkvermogen."

Docent klassieke talen, Beekvliet Gymnasium, zoals geciteerd in Lenneke van der Burg (9 juni 2007): Levende dode talen. NRC, p. 49.

Het ontwerp van toetsvragen moet vallen binnen de doelen van het onderwijs. Het is absoluut niet vanzelfsprekend wat die doelen zijn, ook al ligt er het een en ander over vast in wet- en regelgeving. Zo is er de traditionele opvatting dat onderwijs goed is om te leren denken, en bepaalde vakken zijn daarin nog weer beter dan andere. Zelfs anno nu zijn er mensen die met deze mallotigheid wel in de krant willen, zoals het gegeven citaat laat zien. Zou deze docent een intelligentietest willen gebruiken, in plaats van een proefvertaling? Ik plaag die docent maar, hij is tenslotte in goed gezelschap van vakgenoten, ouders, politici, en wie al niet. Het is een opvatting die vandaag-de-dag nog leeft in kringen van liberal education—reken gymnasia daar ook maar bij—en die rond 1800 een onderbouwing heeft gekregen in de faculty psychology. Extreem voorbeeld is de wiskundige basis voor iedere student in het Cambridge van vroeger eeuwen (Richards, 1988), de meesten toch echt erop uit als dominee beroepen te worden. Die faculty psychology maakt een onderscheid tussen denken als een soort platonische activiteit, en het onderwerp van dat denken; dat is in de empirische psychologie pijlsnel gesneuveld, al is daar in zekere zin de moderne persoonlijkheidsleer—inclusief intelligentie—voor in de plaats gekomen. Er zijn soms grootschalige en kostbare pogingen gedaan in compenserend onderwijs die intelligentie omhoog te trainen, met het voorspelbare resultaat: geen duurzame resultaten.

Het punt is dat noch het aangeven van doelen, noch het ontwerpen van toetsvragen, vrijblijvend zijn. Zoiets als 'het analytisch denkvermogen trainen' bestaat niet in dit ondermaanse, althans niet in de empirische literatuur over overdracht—transfer—van kennis opgedaan in situatie A en vak X, naar situatie B met problemen van type Y. De zegenrijke werking van een klassieke opleiding in dit opzicht—'leren denken'—is niet aangetoond, ondanks talrijke pogingen daartoe. Dit is overigens geen kinderachtig punt, want het onderwijs wemelt van de vooronderstellingen—uitgesproken, impliciete, verzwegen, of culturele vooronderstellingen—die nog nooit aan serieuze empirische toetsing zijn onderworpen, of waar partijen onwetend zijn van resultaten van wetenschappelijk onderzoek (zie bijvoorbeeld Lave, 1988, voor een ingang tot de onderzoekliteratuur). Als het doel van onderwijs in Latijn is om het analytisch denkvermogen te trainen, en empirisch onderzoek verwerpt keer op keer die stelling, dan moet het ontstane gat wel met een andere doelformulering worden opgevuld. Ik ben benieuwd, omdat het niet zo kan zijn dat Latijn om des Latijns wille een adequaat doel is voor opname van Latijn in welk curriculum dan ook (behalve universitair klassieke talen, of in veel vroeger eeuwen de Latijnse school). Idem voor wiskunde, maar ook voor didactische methoden, of het afnemen van gestandaardiseerde toetsen.

De jacht op valide toetsvragen, op valide onderwijs, is hierbij geopend. Iedere bijdrage uit het veld is welkom. De jachtmethode is Popperiaans: alles wat de toets van stevige kritiek doorstaat, is voorlopig 'valide.' De staat van validiteit zal inderdaad altijd een voorlopige zijn, en meestal voorwaardelijk op specifieke situaties, doelen, of kenmerken van leerlingen.

Pas op met abstracte stof en abstracte vragen

goochelen met definities van soorten validiteit

Onder inhoudsvaliditeit van een toets wordt verstaan de mate waarin het ‘begrip-zoals-bedoeld’ door de toets wordt gerepresenteerd.

juist / onjuist

Aangepast uit De Groot en Van Naerssen (1969), p. 58.

Hier nog een enkel extra simpel voorbeeld van een te abstracte vraag geven. Dit probleem komt in de meeste toetsen wel voor, het gaat niet om een trivialiteit.

Het is onhandig om te vragen naar definities uit het studieboek. Het aantal mogelijke vragen is beperkt, en het is vrijwel onmogelijk om voor een volgende toetsgelegenheid nog weer 'nieuwe' vragen te ontwerpen. Bovendien hoort iedereen te weten dat dit soort vragen vooral het uit het hoofd leren aanmoedigt, en een straf zet op het begrijpenderwijs verwerken van de studiestof—want dat is dan een heel riskante studiestrategie die door de vorm van toetsen wordt afgestraft. Een fontein van onvaliditeit dus: als studenten de stof oppervlakkig gaan leren in plaats van de bedoelde diepgang erin te zoeken, dan zijn abstracte vragen die dat aanmoedigen per definitie niet valide.

wiskunde en definities

Het bijzondere van rekenen en wiskunde is dat het de abstracte vakken bij uitstek zijn. Gaat dat wel goed dan, met abstracties in de wiskunde? In de gepubliceerde wiskunde zelf wel, maar in het beoefenen van de wiskunde niet helemaal, want wiskundige intuïties gaan formalismen ver te buiten. En in het onderwijzen en leren van wiskunde gaat het helemaal niet goed omdat er een zelden opgemerkte maar toch diepe kloof zit tussen het spreken over wiskundige zaken en hoe deze zijn geformaliseerd. Zo is er de verwachting dat formele definities en/of axioma's de bouwstenen voor het wiskundig denken zijn, maar cognitief-psychologisch onderzoek leert anders. Trouwens, ook wiskundigen gedragen zich er niet naar: zij spreken en schrijven alsof alles in de wiskunde in beweging is en verandert, terwijl de moderne wiskunde met zijn verzameltheoretische grondlag juist door-en-door statisch is—die inconsistentie plaatst leerlingen bij voortduring voor raadsels (Núñez, 2007). In de wiskunde zelf zijn die definities handig en ook noodzakelijk, maar om leerlingen belangstelling en liefde voor het vak bij te brengen is bepaald iets anders nodig.

Het is hier niet de plaats om een en ander concreet uit te werken, dat zal op tal van plaatsen in dit boek gebeuren, maar ik noem enkele belangrijke bronnen waar bovenstaande analyse op berust: Kaput (1979 questia), Sfard (1991 pdf) en Núñez (2007 pdf).

Op een fundamenteel niveau is het probleem dat het onderwijs zèlf te abstract kan zijn, met als riskant gevolg dat dan bijna noodzakelijkerwijs de vragen over die te abstracte stof ook te abstract zijn, en studenten kunnen volharden in naieve opvattingen die nu juist door de meer wetenschappelijke vervangen zouden moeten worden. Klassiek voorbeeld daarvan is het toetsen van de bewegingswetten van Newton door in feite niet anders van de studenten te vragen dan de juiste waarden in te vullen voor de parameters in de betreffende formules. Dat heeft noch met wiskunde, noch met natuurkunde iets van doen. Hoewel valt te verdedigen dat de toetsvragen in lijn zijn met het gegeven onderwijs, is het dan toch zo dat ze onder iedere minimumgrens van kwaliteit zakken, omdat het onderwijs zelf tekortschiet. Deze problematiek raakt aan een heftige ontwikkeling in het onderwijs en het onderzoek ervan, het op cognitieve wetenschap gebaseerde constructivisme—zie het werk van Deanna Kuhn (2005) en het overzicht van Carl Bereiter (2002)—en tal van specifieke vak-didactische ontwikkelingen—bijvoorbeeld in de wiskunde html, of Hestenes in de natuurkunde html. Die ontwikkelingen hebben oppervlakkig gezien veel weg van competentie-gericht leren, maar verschillen daarvan door de toch wel zeer hoge eisen aan de leeromgeving en de leerkrachten, hoge eisen dus aan het ontwerp van studiemateriaal en beoordelingsinstrumenten.

Twee notities nog bij het voorgaande. 1) De didactiek van een cursus kan zelf te abstract zijn, waarvan Freudenthal voor het casus wiskunde een baaierd aan voorbeelden geeft in zijn 1973. Ik moet dat nog behoorlijk verteren en verwerken. Een en ander komt erop neer dat sommige docenten het anders doen dan andere, en omdat ik en velen met mij het puberale stadium van cultuurrelativisme teboven zijn, gaat het aan om precies aan te geven waarom de ene didactiek beter is dan de andere, en sommige didactische benaderingen gewoon niet goed zijn en door de student aangevochten moeten kunnen worden (om maar eens iets te noemen). In deze zin kunnen toetsvragen dus ook te abstract zijn, onthoud dat. 2) De tweede opmerking heeft ook iets met mijn lezen van Freudenthal's 1973 te maken: hij verwijst naar een didactisch model van de Van Hiele's, waarin niveaus van organisatie of van abstractie in de wiskunde worden onderscheiden. Definities liggen op een niveau hoger dan dat wat zij definiëren. De definitie van definities is daar nog weer een niveau boven. In de wiskunde zijn dit soort sprongen in abstractieniveaus de core business, als het ware, en kunnen ze in de didactiek zorgen voor een hoop amok en andere onrust, en wegjagerij van leerlingen. Koppel dat dan aan het modieuze begrip van meta-cognitie, dat cognitie van cognitie is, dus ook een niveauverschil, en er ligt een zee van onderzoek uit de cognitieve wetenschappen ter beschikking voor toepassing bij het ontwerpen van toetsvragen. Niet dat een en ander zich eenvoudig rechtlijnig laat vertalen naar heuristieken voor het ontwerpen van toetsvragen, eerder omgekeerd: dat onderzoek maakt de lezer gevoelig voor de vele verborgen vooronderstellingen in de dagelijkse praktijk van het toetsen in het onderwijs.>

In het wiskundeonderwijs speelt het begrip context een prominente rol, ook in huidige discussies over tekortschieten van het middelbaar onderwijs in de wiskunde. In enkele woorden gaat het bij context om het volgende. Wiskunde is de wetenschap van het abstraheren, leerlingen maken daar bewust vaak voor het eerst kennis mee bij het begin van de algebra. Niet begrepen abstracties zorgen voor een hoop trammelant in het wiskunde-onderwijs. Psychologen van buiten, en didactici vanuit de wiskunde, hebben erop gewezen dat voor goed abstraheren eerst een degelijke basis nodig is door leerlingen te laten worstelen met de verscheidenheid van de dingen, waarbij zij vervolgens geleid zelf kunnen inzien hoe handige abstractie daarin orde brengt. Onderwijs met didactisch goed gekozen oefeningen op dat concrete niveau, heet contextrijk, en dat is het onderwijs dat we in Nederland tegenwoordig hebben voor de wiskunde in het voortgezet onderwijs. Deze didactiek is te onderbouwen op basis van hedendaags cognitief-wetenschappelijk onderzoek, en heeft niets met populistische visies als 'het nieuwe leren' te maken. Toch lijkt dit vernieuwde onderwijs niet goed te functioneren, en is er een roep om al die context uit het onderwijs te gooien, en terug te keren naar goede oefening van de abstracte vaardigheden. Dat laatste zou, na de stap voorwaarts van contextrijk onderwijs, twee stappen terug zijn. Het is waarschijnlijk voor de lezer van deze hoofdstukken wel aan te voelen dat het probleem met de implementatie van context-rijk onderwijs zit in het juiste ontwerp van didactische materialen en van toetsvragen die representeren wat uiteindelijk de leerlingen moeten kunnen en weten. En inderdaad, wie Drijvers (2006) leest, en ziet wat dan context heet, en ziet hoe Drijvers in gebreke blijft de didactiek van dat contextrijke onderwijs in zijn analyse te betrekken, die weet dat ons voorgezet onderwijs is opgezadeld met een onvoldragen nieuwe methodiek. Het onderwerp is van eminent belang voor de ontwerper van toetsvragen, omdat het hier bij uitstek gaat om concrete context, abstracte wiskunde, en wat die twee didactisch met elkaar hebben. Wiskunde is dan een vak waar de problemen prachtig zichtbaar zijn (te maken), voor andere vakken hoeven de problemen niet minder te zijn maar blijven ze makkelijker verborgen.

Valide vragen kunnen door tal van omstandigheden onnauwkeurig zijn, maar als door die omstandigheden leerlingen niet aan de kern van de vraag toekomen, ontvalt de validiteit aan de vraag.

Een punt van grote zorg, in verband met dat juist genoemde reken- en wiskundeonderwijs, is het volgende. Die 'context' en 'concrete' situaties blijken vaak in veel tekst te zijn gesteld, ook en vooral in de opgaven, en daarmee ook in high stakes toetsen zoals de Citotoets Basisonderwijs. Vroeger heette dat soort vragen 'redactiesommen.' Het gevolg van de ontwikkelingen in de laatste decennia naar steeds meer 'realistisch rekenen' is dat 'rekenen' steeds meer 'taal' is geworden. De leerling moet eerst de taalbarrière nemen om pas dan te kunnen laten zien dat zij de symbolische vaardigheden van rekenen of wiskunde beheerst. Dat is een nogal bedenkelijke ontwikkeling, omdat het stelselmatig die leerlingen benadeelt die minder taalvaardig zijn, maar bijvoorbeeld juist wel talent kunnen hebben voor de symbolische vaardigheden van rekenen en wiskunde. Maar de ramp is hiermee nog niet volledig geschetst. Er zijn in het Nederlandse onderwijs altijd belangrijke groepen leerlingen geweest met een achterstand in beheersing van de taal, een groep waar de laatste decennia veel leerlingen bij zijn gekomen die Nederlands als tweede taal hebben geleerd. Deze leerlingen wordt door het talig maken van het rekenen onrecht aangedaan (Leseman, 2007, p. 124). Toetsen die woorden en uitdrukkingen gebruiken die voor deze groepen leerlingen moeilijk of onbegrijpelijk zijn, zijn in ieder niet valide in welke minimale betekenis van die term dan ook, en horen onmiddellijk van de markt gehaald en verbeterd te worden. Technisch: op zich valide vragen kunnen door tal van omstandigheden onnauwkeurig zijn, maar als door die omstandigheden leerlingen niet aan de kern van de vraag toekomen, ontvalt de validiteit aan de vraag. Het laatste is wat mogelijk op te grote schaal aan de hand is voor leerlingen met Nederlands als tweede taal.
Hoe is het in lieve vredesnaam mogelijk dat de zojuist geschetste rampsituatie is ontstaan? Zoals eigenlijk altijd met rampen het geval is: er zijn een heleboel misstanden tegelijk aan de orde. Mijn veronderstellingen zijn onder andere de volgende

Dit is een groot thema, dat zeker om afzonderlijke uitwerking vraagt, en wel op zo kort mogelijke termijn. Laat voor dit moment de boodschap zijn dat het vaak noodzakelijke gebruik van taal bij het stellen van vragen een kritisch kwaliteitspunt in het ontwerp van toetsvragen is. En voeg daaraan toe dat over symbolische kennis en vaardigheden bij voorkeur op dat symbolische niveau gevraagd moet worden, zonder voor de validiteit dodelijke taalkwesties.

In 1630 moest Prins Frederik Hendrik met 1500 man aftrekken. Hoeveel bleven er over?

Leen (1961, p. 131), uit een proef van Waterink, Pedagogisch Tijdschrift, 18 en 19, 1935-36

Rekenen is abstract, en kan makkelijk ontaarden in het alleen maar uitvoeren van kunstjes. Redactiesommen gaan dat niet tegen: velen antwoorden doodleuk '130' op de Frederik Hendrik-vraag (want: 1630, 1500, en aftrekken, dat moet 130 zijn, niet? De val staat wagenwijd open). Waterink wees erop dat leerlingen zich rekenschap moeten geven van wat ze doen bij het rekenen, en hier moeten zeggen dat deze vraag niet is te beantwoorden, onzinnig is, verhaspeld. Het voorbeeld is een ingenieuze ontmaskering van oppervlakkige rekendidactiek, overigens eerder door bijvoorbeeld Edward Thorndike (1924) aan de kaak gesteld, en vandaag de dag nog steeds verdraaid actueel, zie bijvoorbeeld Har, Yin, Kaur en Hoe (2002).

'age-of-the-captain' problem hier: als pseudo niet-abstract. Ook de Chinese wiskundevragen, als voorbeeld van een ander type pseudo-concreetheid.
Daarnaast heb ik dus goede voorbeelden nodig van vragen die echt op concreet niveau liggen, op realistisch concreet niveau, bijvoorbeeld dat van de dagelijkse beleving van de leerling. Dat zou kunnen zijn: in een winkeltje het afrekenen bij de kassa spelen. Daar zou Steen misschien ook goede suggesties voor kunnen hebben.
Op het Chinese voorbeeld zou ik iets verder in kunnen gaan, waarom is het eigenlijk dat in het onderwijs dit soort opgaven zo veel voorkomen? Omdat het vrijgestelden zijn voor wie dat onderwijs is bedoeld? Maar ook vrijgestelden hebben serieuze problemen, bij tijd en wijle, waar ze nu juist het in het onderwijs geleerde zouden kunnen toepassen, of anderen vragen het toe te passen.

Wat kan er in een examen verkeerd gaan?

Een verpleegkundige spuit een 85-jarige patiënt onverdund kalium in, met een hartaanval en dood tot gevolg.

De verpleegkundige was net afgestudeerd en "werd op staande voet ontslagen omdat ze een aantal strenge regels had overtreden. Ze had moeten weten dat kalium nooit onverdund mag worden ingespoten, ze zou een waarschuwing op de ampul over het hoofd hebben gezien en ze zou hebben verzuimd de verplichte 'dubbelcheck' van de spuit te laten uitvoeren." Het Openbaar Ministerie heeft de vrouw dood door schuld ten laste gelegd.

Rotterdams Dagblad, 28 juni 2007

In bovenstaand casus zou een goede vraag zijn: Hoezo 'net afgestudeerd'? Hoe is dat afstuderen in zijn werk gegaan, welke proeven van bekwaamheid zijn daar onderdeel van geweest, waren die wel valide dan? Stonden abstracte afstudeereisen misschien te ver af van de verpleegkundige werkelijkheid?

Volledigheidshalve, stel dat de opleiding inderdaad in gebreke zou zijn gebleven, dan vermindert dat mijns inziens niet de verantwoordelijkheid van de gediplomeerde, hoe lastig het overigens ook kan zijn in zo'n situatie inzicht te hebben in mogelijke eigen tekorten. Ik zou graag een goede juridische uitwerking van dit punt hebben (bijvoorbeeld 'dwaling' is grond om een overtreding niet toe te rekenen), maar het is evident dat dit casus laat zien hoe groot het belang van studenten zelf kan zijn bij valide onderwijs en valide toetsing.

Met taal kunnen wij abstraheren van de werkelijkheid. Om met zo'n abstractie goed om te gaan, is een goede koppeling naar de achterliggende werkelijkheid nodig. Bij onderwijs en toetsing moeten onderwezen en getoetste onderwerpen op het juiste niveau van abstractie liggen. Een belangrijk probleem bij het ontwerpen van toetsvragen kan zijn dat de ontwerper miskent dat het beheersen van abstracties bestaat uit het adequaat kunnen omgaan met de dingen en de relaties die zij abstraheren. Dat is zo ongelooflijk anders dan het kunnen geven of herkennen van definities!

In de voorgaande paragraaf is de thematiek al zachtjes ingeleid, omdat vraagvormen zijn gericht op de beheersing van een abstract begrip of een abstracte regel, getoetst door telkens de vraag te richten op een concreet voorbeeld ervan. Als de abstractie het optellen van getallen is, dan is een concrete opgave die van de som van 56 en 21. Neem dat 'concrete' niet in absolute zin (daarvoor: Rosen, 2001), want '56' is op zichzelf een nogal abstract iets. Wat abstract is, en wat concreet, is een zaak van hun onderlinge verhouding, hun ondergeschikte verhouding.

Bij andere leerstof dan rekenen kan de ontwerper van toetsvragen gefrusteerd raken door vragen op een hoog niveau van abstractie te maken, en dan te ontdekken dat de hele stof in een klein aantal vragen al is gedekt. Als alleen abstracte kennis van definities het doel is, is er natuurlijk geen probleem: de omvang van de leerstof is dan even gering als het aantal definities. Het leren van een halve bladzijde vreemde woorden is ook zo'n situatie waarin evenveel korte vragen als er vreemde woorden zijn, de stof volledig dekt. Leerlingen die de woorden of de definities uit hun hoofd leren, doen precies wat er van ze wordt gevraagd. Maar laten we wel wezen, dit zijn uitzonderlijke situaties, meestal zal het toch de bedoeling zijn dat vreemde woorden en definities gekend worden om er andere dingen mee te kunnen doen. Die 'andere dingen' zijn de concretiseringen, de 'echte' situaties waar leerlingen mee om moeten kunnen gaan. De te ontwerpen toetsvragen moeten daar dus concreet genoeg voor zijn.

Toetsvragen op een te algemeen niveau verlokken de student tot het uit het hoofd leren van tekst, definities, enz. Toetsvragen op een meer concreet niveau vragen een andere voorbereiding van de student: die moet de stof actiever verwerken, er zelf nieuwe voorbeelden bij bedenken, en nieuwe voorbeelden leren herkennen. Passief door de student verwerkte informatie, bijvoorbeeld voor een literatuurtentamen, werkt net zo ongunstig uit als eenzijdig abstract verwerkte informatie. Een toetsvraag die passief verwerkte informatie terugvraagt, en tegelijk te abstract en te algemeen is, is het volgende voorbeeld.


[abstractie: Een belangrijk verschil tussen de klassieke en de keynesiaanse economie betreft de veronderstelde oorzaak van werkloosheid.]

Bij welke school past de gedachte dat werkloosheid het gevolg is van onvoldoende vraag en daardoor gedaalde produktie?

Meer actieve behandeling van dit gegeven vraagt om het herkennen van bepaalde uitspraken die economen uit beide scholen over werkloosheid hebben gedaan. Deze uitspraken kan de docent gemakkelijk verzamelen, en hij kan er een deel van in het onderwijs en als oefenmateriaal gebruiken, en de rest bij het ontwerpen van toetsvragen.

Een bijkomend voordeel van een meer concreet, minder algemeen niveau van vraagstelling is dat het dan makkelijker is om een groter aantal varianten van dezelfde vraag te ontwerpen. De afrader hierboven laat weinig variatie in de vraagstelling toe. Zodra in plaats van de algemene formulering van een begrip een specifiek voorbeeld wordt ingevuld, zijn er legio variaties te maken door te putten uit de onbeperkte mogelijkheden om voorbeelden van begrippen te bedenken. Ieder nieuw voorbeeld levert een nieuwe toetsvraag op over hetzelfde onderwerp (vraagvorm, zie paragraaf 2.5).

Is het aan te raden altijd de mogelijkheid van een lager abstractieniveau te overwegen, dan moet daar wel als clausule bij dat dat lagere abstractieniveau werkelijkheidswaarde moet hebben en niet gekunsteld is. In de exacte wetenschappen, die overigens model kunnen staan voor voorbeeldige vragen over de leerstof, komen gekunsteld-concrete toetsvragen nog wel eens voor.:


Een slee met een massa van 10 kg heeft een waargenomen versnelling van 5 m/s2. Hoe groot is de netto kracht die erop inwerkt?

F = ma = 10 kg × 5 m/s2 = 50 N

De afrader vraagt slechts het manipuleren met getallen in de formule F = ma, dat is iets anders dan begripvol omgaan met deze tweede bewegingswet van Newton. De opgave is in feite het oplossen van een vergelijking met één onbekende. Studenten die op deze wijze hun natuurkunde hebben geleerd, zullen voor alledaagse problemen nog steeds geneigd zijn een intuïtief antwoord te geven, in plaats van het natuurkundige. De discuswerper: hij draait snel rond en laat de discus los: volgt de discus dan meteen een baan recht vooruit, of is deze eerst nog gekromd? (Eerste bewegingswet)

Als voorbeeld was een gangbare redactiesom uit het rekenonderwijs ook adequaat geweest: onderzoek van Lieven Verschaffel en veel anderen heeft dat voldoende duidelijk gemaakt. Dezelfde misvatting: ze lijken over de wereld te gaan, maar dat blijkt in de onderwijspraktijk toch een nuance anders te liggen.

De ontwerper kan eenvoudige situaties beschrijven en vragen wat er volgens gaat gebeuren, waarbij dat vervolg volgt uit de toepasselijke natuurkundige wet. Uit een aantal mogelijk relevante wetten moet de leerling de juiste nemen. Een keuzevraag is dan ook makkelijk te construeren. Dat kan ook een meervoudige keuzevraag zijn, met een vast aantal keuzemogelijkheden—de wetten—en een reeks situaties.

Een goed voorbeeld van de in de box aangeduide aanpak is de manier waarop David Hestenes toetst op werkelijk begrijpen van de natuurkunde, in tegenstelling tot alleen in staat zijn de juiste dingen met het de formules te doen.

Robyn Arianrhod (2005) geeft een bijzonder inzichtelijke uiteenzetting over de bewegingswetten van Newton—een van de eerste geslaagde pogingen een theorie in wiskundige vorm te geven—waarvan ik zeker in hoofdstuk 5 gebruik ga maken. In tegenstelling tot de box hierboven gaat dat wel degelijk over de wiskundige theorie en de daarin afgebeelde werkelijkheid; in tweede instantie volgen dan ontwerpregels voor die eenvoudige natuurkundige situaties. Arianrhod is ongetwijfeld niet de eerste die het zo goed en begrijpelijk voor leken heeft uitgelegd, maar haar boek is wel het eerste waarin ik het als zodanig herken.

Leerstof alleen op abstract niveau behandelen en toetsen, brengt de student in de vervelende situatie dat hij nimmer de concrete toepassingen weet te maken, en juist daardoor ook de beheersing van de abstractie niet anders kan bereiken dan door uit het hoofd leren. Dan bereikt zij noch beheersing op concreet niveau, noch die op abstract niveau.

In het onderwijs van wiskunde is een groot struikelblok dat wiskundig inzicht alleen is te bereiken langs de weg van eerst beheersen van algoritmen, wat Anna Sfard (1991) het onderscheid tussen proces en object noemt, en waarvan uit onderzoek blijkt dat het verdraaid moeilijk is om vanuit beheersing van processen tot waarachtige kennis van de abstracties te komen.

Ik moet nog bestuderen welke omvattende thema's nog onder de validiteit geschoven kunnen/moeten worden. Zoals dat van divergentie vs convergentie. Of dat van de leerling als solitair vs de leerling lerend in de situatie met medeleerlingen etc. Convergentie: het programma, het leerboek, de docent bepaalt wat het is dat moet worden geleerd, en in het bijzonder ook: wat adequaat geleerd hebben van die stof inhoudt, en dus ook wat de toetsvragen zijn waarop de leerling die kennis moet tonen. Divergentie is radicaal anders: de leerling leert naar vermogen en waar hij aan toe is, ontwikkelt het eigen wereldbeeld zou je kunnen zeggen. Onder andere werk van Robert Sternberg, in hoofdstuk 6 aan de orde, over wat het is om tekst te begrijpen.

En betrouwbaarheid dan?

Vijftig leerlingen meten ieder de lengte van dezelfde lap stof. De uitkomsten van deze vijftig leerlingen zullen door allerlei kleine storende omstandigheden iets van elkaar verschillen, er zal een duidelijk gemiddelde zijn dat dicht bij de werkelijke lengte zal liggen. Het wiskundige model voor die verschillen is de normaalverdeling.
Vijftig keuzevragen meten ieder Ben's beheersing van de psychometrie. Ben s werkelijke beheersing is evenmin bekend als de werkelijke lengte van de lap stof, maar wat hij ook is, het is de binomiale parameter die de scores bepaalt, althans dat is het wiskundige model dat hier passend is. Er zijn bij iedere vraag natuurlijk ook storende omstandigheden mogelijk, die zijn normaal verdeeld, maar hun invloed is zo klein ten opzichte van het binomiale proces dat ze verwaarloosbaar zijn. Heel anders is dat met gebrekkige validiteit van de vragen: die tenderen tot een neerwaartse vertekening van de score.
Een eerlijk muntje valt op munt, is dat dan fout omdat de verwachte uitkomst 0,5 is? Natuurlijk niet, munt is de 100% valide uitkomst van die worp. Evenzo is de uitkomst van 55 keer munt bij 100 eerlijke worpen perfect valide, en niet een uitkomst met een fout van 5. Eerlijke muntjes werpen is een binomiaal proces, de kans of beheersing is 50%.
Ha, met keuzevragen gaat dat net zo? Inderdaad, dat gaat net zo. Als Ben s beheersing 60% is, en hij scoort 65 goed uit 100 valide, eerlijke, vragen, dan is dat toetsresultaat niet +5 fout of te hoog. Waar de toetsliteratuur gemakzuchtig spreekt over fouten in toetsresultaten, is meestal sprake van valide steekproeffluctuaties die binomiaal toevallig zijn. Daarnaast zijn er echte storende invloeden, zeg dat die minstens een orde van grootte kleiner zijn dan de binomiale fluctuaties, en waarvan we ook plegen te zeggen dat ze toevallig zijn, maar in een andere betekenis van het woord: het zijn veel kleine storende omstandigheden die in deze of gene richting duwen, waarvan de som een normaal verdeelde parameter is, dat zijn we een toevallig resultaat gaan noemen, een foutenverdeling.
Maar je kunt toch een grotere steekproef nemen? Het is toch denkbaar een steeds grotere steekproef te nemen, tot de omvang van de totale denkbare toetsvragenverzameling toe, of tot oneindig in de limiet? Zeker, en dat is goed voor het doen van theoretische oefeningen, zoals in tentamenmodellen, maar in de werkelijke wereld komen heel grote steekproeven niet voor, en is het absurd om een oneindig grote steekproef als referentie te nemen voor wat dan fouten in de eindscores zouden zijn. Net zo absurd als de veronderstelling van herhaalde toetsafname na hersenspoeling in de klassieke testtheorie (Borsboom, 2003). Forget the crap. Het gaat om totaal iets anders dan de foutenmarge die is toegestaan voor de productie van een bepaalde schroef, om maar eens iets te noemen, waar de norm een absolute specificatie is die op zich even goed meetbaar is als de afwijking ervan dat is. Niets geheimzinnigs aan zo n absolute specificatie, maar in een ander universum dan dat van het idee van een latente ware beheersing in de psychometrie.

Literatuur 2.6 Validiteit bovenstaande versie

Gerd Gigerenzer (2007). Gut feelings. The intelligence of the unconscious. Allen Lane.

A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Den Haag, Mouton.

P. P. M. Leseman (2007). Achterstandenbeleid: Voorbij de voor- en vroegschoolse periode. In P. A. H. van Lieshout, M. S. S. van der Meij en J. C. I. de Pree: Bouwstenen voor betrokken jeugdbeleid. WRR Wetenschappelijke Raad voor het Regeringsbeleid. Amsterdam University Press. De pdf is beschikbaar op de site van de WRR

Joel Michell (1999). Measurement in psychology. A critical history of a methodological concept. Cambridge University Press. questia

Rafael Núñez (2007). The cognitive science of mathematics: Why is it relevant for mathematics education? pdf In Richard Lesh, Eric Hamilton and James J. Kaput, Foundations for the future of mathematics education (pp. 127-154). Erlbaum contents

Judea Pearl (2000). Causality. Models, reasoning, and inference. Cambridge: Cambridge University Press.

James D. Slotta and Michelene T. H. Chi (2006). The impact of ontology training on conceptual change: Helping students understand challenging topics in science through ontology training. Cognitive Science, 24, 261-289. pdf

Gideon Rosen (2001). Abstract objects. Stanford Encyclopedia of Philosophy pagina)

Edward L. Thorndike (1924). The psychology of arithmetic. New York: The Macmillan Company.

A. T. J. Vernooij (1998). 'Leren leren' vereist consistentie in de lesstof. Pedagogisch Tijdschrift, 23, 39-62.

Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.


Annotated references

Ben Wilbrink

May 2009. In the mean time a whole new section on validity has been written here, in the revision of Toetsvragen ontwerpen.

Measurement in this page is broadly conceived. Nevertheless, my aim is to use insights from the general literature to elucidate the special position of achievement tests as 'measurement instruments.' What they are not, at least not in all regards. The scores or grades obtained are the things that matter to the pupil or student, not anything estimated whatever which sophisticated ways. On top of that, the people I am addressing - albeit indirectly - are teachers and professors doing their own achievement testing; designers of standardized tests have lots of worries - including the irt-ones - I won't tackle here.

I need a crisp description of what it is for achievement test items to be valid for the book on achievement test item design, Toetsvragen ontwerpen in Dutch. The general paragraph on validity is 2.6, while the bulk of the book is on techniques to design valid items. Contrast this with the usual approach first to creatively think of new test items, then testing them for 'validity' conceived in whatever confusing ways, mostly of the 'construct validty' variant.

Quite another issue is that of strategic behavior of students, especially strategic preparation for tests and examinations, the core business of education. Designing valid examinations forces one to take account of strategic student (and teacher!) behaviors. This is the domain of Van Naerssen's (1970) tentamenmodel, a decision-theoretic approach to model the strategic possibilities inherent in specific testing situations. I present here a further developed model, including a series of instruments (Java-applets) enabling one to evaluate the strategic characteristics of particular variants of specific testing situations. Kind of aggregated validity?

I will use the Borsboom, Mellenbergh and Van Heerden (2004) article on the concept of validity as an important source and inspiration (Also Denny Borsboom's 2003 dissertation). Closer to my mark are the recent books of Lageman (2000) and Michell (1999) on - among other topics - the history of educational measurement in de United States. I will possibly use books like the one by Kula (1986) to connect measurement issues to issues of justice (Rawls, 2001)
What I take from the Borsboom, Mellenbergh and Van Heerden article is that the question is not to discover what it is that achievement tests measure. On the contrary, the question is to discover what it is that we want to measure, and to design the achievement test according to the answers provided to that question.

Denny Borsboom (2003). Conceptual issues in psychological measurement. Dissertation University of Amsterdam.

Denny Borsboom (2005). Measuring the Mind. Conceptual Issues in Contemporary Psychometrics. Cambridge Uiversity Press site

Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071. pdf

Ellen Condliffe Lagemann (2000). An elusive science: The troubling history of education research. University of Chicago Press.

Ellen Condliffe Lagemann (1997). Contested terrain: A history of education research in the United States, 1890-1990. Educational esearcher, 26, #9, pp 5-17. read online free

Joel Michell (1999). Measurement in psychology. A critical history of a methodological concept. Cambridge University Press.

Measurement fundamentals

On measurement proper, see my measurement.htm

William P. Fisher, Jr., and Benjamin D. Wright (Eds) (1994). Applications of Probabilistic Conjoint Measurement. International Journal of Educational Research, 21, 559-664.

Judea Pearl (2000). Causality. Models, reasoning, and inference. Cambridge: Cambridge University Press. html

Industrial problems of validity (called reliability)

A serendipitous find - I am interested in the early paper industry using water mills - is an article on moisture control in the paper-making industry. Edenborough (below) poses the crucial validity issues for moisture measurement. Read his list of specifications, and try to imagine what their analogues in educational measurement might be. Fascinating! For example, moisture measurement should be unaffected by ambient conditions: situated learning by definition is learning affected by ambient conditions. Arithmetics learning - and therefore assessment - is affected heavily by ambient conditions. This reminds one of the fundamental difference between physical and social measurements; physical objects do not behave strategically in anticipation of 'measurements.' Keep that in mind, at all times, because the remarkable observation is that psychometricians are in the habit of assuming strategic behaviors away.

L. D. Edenborough (1965). Moisture measurement and the progressive papermaker. Papierwereld, jaargang XX, 49-60, 83-100.

The perfectly valid test: it is possible!

It would be of much help to have examples of perfectly valid achievement tests. Borsboom, Mellenbergh and Van Heerden (2004) mention the work of Jean Piaget as an example of perfectly valid test construction and use (for example see Sigel, Brodzinsky and Golinkoff 1981 on Piagetian theory). Are there more examples?

To begin with, some educational tests clearly are perfectly valid, barring crazy circumstances of application. Think of a simple test testing for the routine addition and multiplication of whole numbers smaller than 10. Nothing mysterious here, not much of any interpretation problem whatsoever. What 'constructs' could we need to elucidate the validity issues here? Yet there is very, very much research on this specific topic, luckily so. For validity in a more fundamental sense it is necessary to link testing behaviors to whatever might be happening in cognition, or in the brain itself: see for example Lebièe and Anderson (1990) doing exactly this kind of linking.

The general point is, having mentioned the work of Jean Piaget and John Anderson in the laboratory, that much of experimental psychology in the laboratory uses tests that are perfectly valid to the research in question, excepting the many possibilities for specific experiments, and therefore also the tests constructed for these experiments, to be at fault in one way or another acoording to later insights and criticisms.

An even more general conclusion is that, speaking of experimental science, discovery and observation, experiment and measurement, are intertwined, they are two sides of the same coin, the one cannot exist or develop without the other. A good historical example of this phenomenon is that of the rise of the German physical research laboratory in the nineteenth century, as described by Olesko. Indeed, history of science is history of the simulateous development of theory and measurement, both of them in their turn being dependent on the development of mathematical techniques, calculus and statistics.

Graeme S. Halford and Janie Busby (2007). Acquisition of structured knowledge without instruction: The relational schema induction program. Journal of Experimental Psychology. Learning, memory and Cognition, 33, 586-603.

Christian Lebiere and John R. Anderson (2000). Cognitive arithmetic. In John R. Anderson, Christian Lebiere, and others (1998). The atomic components of thought (297-342). London: Lawrence Erlbaum. questia

Kathryn M. Olesko (1991). Physics as a calling. Discipline and practice in the Königsberg Seminar for Physics. Ithaca: Cornell University Press.

Irving E Sigel, David M. Brodzinsky and Robert M. Golinkoff (Eds) (1981). New directions in Piagetian theory and practice. Erlbaum. isbn 0898590728 questia

Achievement testing

Samuel Messick (1993). Trait equivalence as construct validity of score interpretation across multiple methods of measurement. In Randy Elliot Bennett and William C. Ward: Construction versus choice in measurement: Issues in Constructed Response, Performance Testing, and Portfolio Assessment. Erlbaum.

Thomas M. Haladyna (2004). Developing and validating multiple-choice test items. (3rd edition) Taylor & Francis. info [nu ook als eBook te leen bij de Koninklijke Bibliotheek]

Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071. pdf abstract

A fundamental discussion on the concept of validity. Criticizes the idea of construct validity as strongly advocated by David Messick, tries to establish the idea of validity as theory-based measurement, analogous to measurement in the physical sciences. The example mentioned is the testing of psychological concepts and development on the basis of Piagetian developmental psychology.

Samuel Messick (1992). Validity of test interpretation and use. In M. C. AIkin (Ed.) Encylopedia of Educational Research (6th ed.), New York. pdf

Rudolf Carnap (1956). The methodological character of theoretical concepts. In Herbert Feigl & Michael Scriven: The foundations of science and the concepts of psychology and psychoanalysis. Minnesota Studies in the philosophy of science. Volume I. (39-75). pdf

Free access: the first 14 volumes of the Minnesota Studies in Philosophy of Science

Thomas M. Haladyna & Steven M. Downing (2005). Construct-Irrelevant Variance in High-Stakes Testing. Educational Measurement: Issues and Practice academia pdf

Henry M. Levin (1998). Educational performance standards and the economy. Educational Researcher May. abstract

Een andere manier om naar predictieve validiteit te kijken. Interessant.

J. E. Hunter & R. F. Hunter (1984). Validity and utility of alternative predictors of job performance. Psychological Bulletin, 96, 72-98. abstract pdf

Humphreys, L. G. (1973). Statistical definitions of test validity for minority groups. Journal of Applied Psychology, 58, 1-4. abstract

Hogan, R. , Hogan, J. , & Roberts, B. W. (1996). Personality measurement and employment decisions. American Psychologist, 51, 469-477.

= Hofstee, W. K. B. (1982). De methodische deskundigheid van de psycholoog. De Psycholoog, 17, 697-707. p. 700: "De berekeningen voeren tot de conclusie dat gebruik van goede psychologische tests zou leiden tot besparingen van miljoenen in kleinere organisaties, van miljarden in zeer grote organisaties; bijvoorbeeld 16 miljard dollar per jaar voor de Amerikaanse centrale overheid. Overgebracht op de Nederlandse schaal - waarbij en passant opvalt dat Nederland wat minder rijksambtenaren per 1000 inwoners heeft dan de VS - zou de overheid per jaar tegen de twee miljard gulden slechter af zijn als ze de Rijks Psychologische Dienst zou afschaffen, dan wanneer ze alle rijksambtenaren zou laten testen. Hier wordt niet betoogd dat economische overwegingen altijd de doorslag zouden moeten geven. Overwegingen van rechtvaardigheid kunnen een geldig beletsel zijn tegen vergelijkende selectie. Ik wil er alleen de aandacht op vestigen dat tests veel rendabeler zijn dan men geneigd is te denken. Ik meen verder dat conclusies van Schmidt en Hunter een interessante moraal bevatten voor diagnostiek en testgebruik in andere maatschappelijke sectoren waarin psychologen opereren, met name gezondheidszorg en onderwijs. Overal waar op aanzienlijke schaal beslissingen betreffende personen moeten worden genomen met gewichtige materiële en immateriële consequenties, zullen goed geconstrueerde instrumenten al gauw de moeite van het toepassen waard zijn. Het feit dat ze bij lange na geen perfecte voorspelling leveren is daarbij geen geldig tegenargument."

De PsYcholoog, 19831 Vol. XVIII, no. 4, pp. 202-206. Ernst met methodische deskundigheid. R. A. Roe, J. A. Algera, P. G. W. Jansen en P. Vijn. p. 202: "Bij degenen die de ontwikkelingen op het gebied van de personeelsselectie enigermate volgen, moet datgene wat Hofstee in dit verband daarover te melden heeft wel enige vraagtekens hebben opgeroepen. Immers, verwijzend naar het werk van Schmidt, Hunter e.a. (Schmidt en Hunter, 1977, 1981; Schmidt e.a., 1979a; Pearlman e.a., 1980. Schmidt e.a., 1980, 1981a, b) suggereert hij dat zich een omwenteling zou hebben voltrokken, die het gebruik van tests in de selectie voor eens en voor altijd zou rechtvaardigen. En dat terwijl Schmidt, Hunter e.a. zich in hun publikaties bij voortduring onderscheiden door uitspraken die een veel hogere vlucht nemen dan hun onderzoeksmethoden en -gegevens toelaten."

De Psvcholoog, 1983, Vol. XVIII, no. 7, pp. 402-409 Validiteitsgeneralisatie en -specificiteit: antwoord op Roe e.a. W. K. B. Hofstee'

De Psycholoog, 1983, Vol. XVIII, no. 9, pp.503-512. De olifant en de nieuwe kleren van de keizer: een antwoord aan Hofstee. R.A. Roe', J.A. Algera ~P.G.W. Jansen'en P. Vijn.

De Psycholoog, 1983, Vol. XVIII, no. 3, pp. 133-142 Het psychologisch onderzoek van sollicitanten R. A. Roe en M. A. M. Greuter abstract

= Hofstee, W. K. B. (1970). Selektie van personen. Inaugurele rede. Assen: Van Gorcum, 1970. Print van de rede. abstract

Hofstee, W. K. B. (1979). Drogredenen met betrekking tot individuele kansuitspraken. Kennis en Methode, 433-445. fc , niet online te vinden 2020. Bestrijdt dat je over een individuele persoon geen kansuitspraken zou kunnen doen. abstract

V. Hasselblad & L. V. Hedges (1995). Meta-analysis of screening and diagnostic tests. Psychological Bulletin, 117, 167-178. (allocatie mda) abstract

Lewis R. Goldberg (1970). Man versus model of man. A rationale, plus some evidence, for a method of improving in clinical inferences. Psychological Bulletin, 73, 422-432. abstract

B. B. Gaugler et al. (1987). Meta-analysis of assessment center validity. Journal of Applied Psychology, 72, 493-511.

Flanagan, J.C. (1954). The critical incident technique. Psychological Bulletin, 51, 327-358. abstract

Fiske, D. W. , & Campbell, D. T. (1992). Citations do not solve problems. PB, 112, 393-395. Leuk artikel over een historisch artikel dat nog steeds actueel is. De 'stand van zaken' in de ogen van de aanjagers. mmm

Finney, D. J. (1962). Screening processes: problems and illustrations. 10-106. fc Ik heb het uit een boek gescheurd, maar dat niet opgeschreven. Nogal technisch. Ik bewaar het toch maar. Vgl. ook Finney in Cronbach & Gleser 1965.

Finney, D. J. (1984). Improvement by planned multistage selection. Journal of the American Statistical Association, 79, 501-509. fc

Finney, D. J. , Improvement by planned mulistage selection. JASA 1984, 79, 501- selectie

Finney, D. J. The statistical evaluation of educational allocation and selection. In Cronbach & Gleser (1965). abstract

Feltham, R. (1988). Validity of a police assessment centre: a 1-19-year follow-up. Journal of Occupational Psychology, 61, 129-144. 10.1111/j.2044-8325.1988.tb00277.x abstract

Susan Embretson (1983). Construct validity: Construct representation versus nomothetic span. Psychological Bulletin, 93, 179-197.

Dawes, R. M. (1979). The robust beauty of improper linear models in decision making. American Psychologist, 34, 571-582. pdf

Cascio & Silbey (1979). Utility of the assessment center as a selection device. Journal of Applied Psychology 1979, 64: 107-118.

W. F. Cascio and J. R. Morris (1990). A critical reanalysis of Hunter, Schmidt & Coggin's (1988) 'Problems and pitfalls in using capital budgeting and financial accounting techniques in assessing the utility of personnel programs.' Journal of Applied Psychology, 75, 410-417. abstract

Cronbach, L. J., & L. Furby (1970). How we should measure 'change' - Or should we? Psychological Bulletin, 74, 68-80. pdf

John B. Carroll (1979). 'Measurement of abilities constructs'. Construct validity in psychological mesurement. Proceedings of a colloquium on theory and application in education and employment. Henry Chauncey Conference Center,Princeton, New Yersey. October 1979. U.S. Office of Personnel Management / Educational Testing Service. Hard copy, nothing online. abstract

Samuel Messick (1995). Validity of psychological assessment. Validation of Inferences From Persons' Responses and Performances as Scientific Inquiry Into Score Meaning. American Psychologist, 50, 741-749. abstract & Research report ETS

Richard B. Darlington (1971). Another look at 'cultural fairness'. Journal of Educational Measurement, 8, 71-82. 10.1111/j.1745-3984.1971.tb00908.x preview

George F. Madaus (1983?). Minimum competency testing for certification: The evolution and evaluation of test validity. Ch. 2, pp 21-61, in George F.Madaus & Daniel L. Stufflebeam: The courts, validity, and minimum competency testing. Kluwer-Nijhoff Publishing. $ only preview and references

George F. Madaus (1992). An independent auditing mechanism for testing. Edmeas:I&P, spring, 26-31. Educational Measurement Issues and Practice 11(1):26 - 31 DOI: 10.1111/j.1745-3992.1992.tb00225.x pdf scihub

Samuel Messick (1995). Standards of validity and the validity of standards in performance assessment. EM:IP abstract

Messick, S. (1980). Test validity and the ethics of assessment. American Psychologist, 35, 1012-1027. pdf

Pamela A. Moss (1992). Shifting conceptions of validity in educational measurement: implications for performance assessment. RER, 62, 229-258. abstract

Lorrie Shepard (1993). Evaluating test validity. In Linda Darling-Hammond (Ed.) Review of Research in Education. AERA. Ch. 9, 405-449. 10.2307/1167347 JSTOR

Hans van der Vleugel, Willem K. B. Hofstee, Henk van Dijk, Henk Groen, Janke Cohen-Schotanus (1973). Begripsvalidatie van een studietoets. Nederlands Tijdschrift voor de Psychologie, 1973, 28, 237-347.

Uitstekend artikel, waarom is dat niet online beschikbaar? De kritische noten die hier worden gekraakt, zijn een halve eeuw later nog steeds te kraken. Dat wil niet zeggen dat de auteurs van dit artikel tekort zijn geschoten, wel dat het onderwijs kennelijk niet in staat is te leren uit het nabije verleden.

related on my website

Ben Wilbrink, Joost Hulshof & Henk Pfaltzgraff (augustus 2012). De rekentoetsen-3F zijn niet valide. Dat wordt nog wat, met die rekentoetsen! Examens, Tijdschrift voor de Toetspraktijk. 9 #3, 26-31. html


Merit ranking


November, 2020 \ contact ben at at at   freelance advies ontwikkeling onderzoek

Valid HTML 4.01!