Definitieve versie gepubliceerd als: Toetsvragen schrijven. In Henk van Berkel, Anneke Bax & Hans van Hout: Kennis delen en inspireren, toen, nu en in de toekomst (41-46). Noordhoff Uitgevers. Hoger onderwijs Reeks 30 jaar.

Toetsvragen schrijven

een hoofdstuk over en rond Aula 809 ‘Toetsvragen schrijven’

Ben Wilbrink

S.v.p. niet citeren uit deze concept-versies, ze zijn alleen beschikbaar gemaakt om een goede indruk te geven van de lijn van het betoog in het definitieve hoofdstuk.

deze bladzijde is niet volledig in html-code gezet: vet en cursief worden niet weergegeven.

[concept tweede versie 16 oktober 2009]

Eind zestiger jaren verandert er het een en ander met de introductie van studietoetsen in Nederland. Adriaan de Groot en Robert van Naerssen (1969) begeleiden die ontwikkelingen met een handboek over studietoetsen. De nadruk ligt op de technische mogelijkheden; hier is dat vooral het statistisch apparaat dat ontleend is aan de statistiek van de psychologische test. Het inhoudelijk ontwerpen van toetsvragen komt er bekaaid vanaf, zoals ook in de Amerikaanse literatuur het geval was en is. Auteurs geven natuurlijk tal van voorbeelden van toetsvragen, maar die komen voort uit de creativiteit en de intuïtie van de docent, uit de spontane inval tijdens de afwas. Dat is voor toetsen toch een merkwaardige situatie: is het fair om te examineren met vragen waarvan de vragenstellers niet goed uit kunnen leggen hoe zij deze op basis van de stof hebben bedacht? Om docenten goed te kunnen begeleiden bij het ontwikkelen van hun eigen studietoetsen is het wenselijk om deze leemte op te vullen met een ontwerptheorie die heldere constructieregels biedt. Ontwikkelingen binnen de psychologie maken het mogelijk hier een goed begin mee te maken. Onderzoek van Adriaan de Groot (1946) naar het denken van de schaker is een markant onderdeel in de opkomst van de cognitieve psychologie. Dat is dan meteen het hoge niveau van probleemoplossen, later door onder andere Alan Newell en Herbert Simon (1972) verder ontwikkeld. Op meer basaal niveau gaat het om de beheersing van begrippen en relaties; een opmerkelijk detail is dat onderzoekers hier zijn geïnspireerd door het latere werk van Ludwig Wittgenstein. Met deze ontwikkelingen is het dan in de zeventiger jaren mogelijk om de contouren te schetsen van een psychologische ontwerptheorie voor toetsvragen, een inhoudelijke ontwerptheorie, de kern van Toetsvragen schrijven. Deze cognitieve psychologie laat zich toepassen op de vakinhouden in het onderwijs, door het mogelijk te maken deze zo uiteen te leggen en te beschrijven dat ontwerpregels voor vragen over die leerstof er eenvoudig op aanhaken. Oppervlakkig gezien heeft het iets weg van wat Benjamin Bloom en de zijnen een kwart eeuw eerder presenteerden als een cognitieve taxonomie voor toetsvragen (zie het latere Bloom, Hastings en Madaus, 1971). Waar Bloom benadrukt wat zich bij het beantwoorden in de hersenen afspeelt, gaat het in de cognitief-psychologische benadering juist om de omgang met kenmerkende onderdelen van de leerstof. De crux is dat verschillende leerstofgebieden zich op ongeveer dezelfde wijze laten uiteenleggen in dezelfde kenmerkende onderdelen: begrippen en relaties tussen begrippen, en complexere samenstellingen daarvan bij tekstbegrip en probleemoplossen. Twee andere onderwerpen omlijsten die kern van Toetsvragen schrijven: de kwestie van de te kiezen vorm (hoofdstuk twee), en de kwaliteitsbewaking (hoofdstuk acht).

De grondgedachte bij het typeren van open vragen tegenover keuzevragen is een inhoudelijke: voor studenten die goed in de stof zitten, kunnen open vragen in feite gaan om een keuze uit een beperkt aantal goed bekende alternatieven. Open vragen van dit type omwerken tot keuzevragen levert uitstekende keuzevragen op. De tegenhanger is duidelijk: keuzevragen die als open vraag plat vallen, deugen niet zonder meer als keuzevraag. Inhoudelijke kenmerken van de vraag bepalen of een korte open vraag, een keuzevraag, of een open vraag (opstelvraag) een passende vorm is. Keuzevragen zijn handig bij heel grote aantallen kandidaten, maar zijn op zich niet minder subjectief dan korte open vragen. Een gemiste kans is dat het boek niet signaleert dat het ‘objectiveren’ van open vragen met hulp van modelantwoorden evenzeer een misvatting is als het idee dat keuzevragen inherent ‘objectief’ zouden zijn. In beide gevallen schuilt er subjectiviteit in het vaststellen van het modelantwoord, ten nadele van kandidaten die onvoorziene maar correcte antwoorden geven. Dat raakt de kwaliteit van de toetsvragen.

In de zeventiger jaren groeit het rechtsbewustzijn in de samenleving. Sommige docenten merken dat zij bij het beoordelen van hun studenten begrensd zijn door de kaders van het recht. Studenten krijgen het recht van beroep, en recht op inzage van het beoordeelde werk. Ineens zijn algemene beginselen van behoorlijk bestuur ook toepasselijk bij het beoordelen. De kwaliteit van de toetsvragen is een belangrijke zaak aan het worden. Waar moeten docenten dan nog meer op letten, nadat zij toetsvragen inhoudelijk adequaat hebben ontworpen? Naast de bekende lijstjes aandachtspunten voor mogelijke gebreken geeft het laatste hoofdstuk bijvoorbeeld inzicht in wat toetsvragen onrechtmatig kan maken, en ligt de nadruk op het belang van een goede controle vooraf. Doe dat laatste niet gezellig met collega's aan tafel, maar laat die collega's hun commentaar tevoren op schrift stellen. Verzamel onafhankelijke oordelen, maak de kans zo groot mogelijk dat verschillen in opvattingen ook boven water komen. Voorkom dat verschillen van inzicht tussen collega's in een gesprek weggemasseerd raken: dat levert pseudo-objectieve vragen op.

Het belang van het inhoudelijk ontwerpen van toetsvragen is met het bovenstaande niet volledig uitgelicht. Dat is ook nauwelijks nodig: verwaarlozen van het inhoudelijk ontwerp leidt evident tot een mismatch tussen onderwijs en toetsing, waardoor de kwaliteit van dat onderwijs op langere duur aan erosie onderhevig is.

Een kwarteeuw later lijkt de kwaliteit van toetsvragen nog onveranderd even gebrekkig. Naast het uitblijven van investeringen in inhoudelijke kwaliteit van toetsvragen, zijn er twee actuele ontwikkelingen die aandacht vragen, een positieve en een negatieve trend. De eerste is een groeiend inzicht in het gekunstelde karakter van toetsen, de gevaren die daar in schuilen, en hoe het dan beter kan en moet. De tweede is die van het steeds meer denken in termen van competenties, ook en vooral bij examens, ten koste van vakinhouden (kennis).

Een ideaal examen is dat waar de kandidaat een meesterstuk levert, een vorm die we nog steeds in ons onderwijs tegen kunnen komen, en dat is maar goed ook. Van bescheidener aard zijn goed gestructureerde practica waar de behoorlijke deelname op zichzelf voldoet, en dus geen afzonderlijke afsluitende toetsing vraagt. De Groot (1972, p. 45), noemt dit ‘handelingsonderdelen.’ In andere situaties is er sprake van toetsen die ofwel vragen naar werkelijke beheersing van de stof, ofwel een hoog quiz-karakter hebben doordat zij niet meer doen dan bestudeerde informatie terugvragen. Het is een eeuwenoud probleem dat onderwijs ertoe neigt vol te lopen met steeds meer informatie die dan ook onderling minder verbonden is, met inert matter zoals Alfred North Whitehead (1929) dat kenschetst. inert matter laat zich alleen met quiz-vragen toetsen. Laat het u niet gebeuren. Maar ook waar we denken werkelijke beheersing van de stof te toetsen, is het verstandig om kritisch te blijven. Wat denkt u van de volgende redactiesom. ‘Een veerboot heeft 23 schapen en 12 geiten aan boord. Hoe oud is de kapitein?’ Grote groepen leerlingen blijken hier onverschrokken een antwoord op te hebben, dus onderwijs en toets functioneren bepaald anders dan leerkrachten denken en bedoelen. Zie voor onderzoek in deze lijn bijvoorbeeld Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Is dit comfortabel ver van het hoger onderwijs? Kijk dan ook eens naar een karakteristieke ervaring van leraren natuurkunde, vermeld door Evert Dijksterhuis (1953, p. 32): dat leerlingen hun opgaven natuurkunde goed kunnen maken, blijkt bij doorvragen niet in te houden dat ze hun natuurkunde correct begrijpen. De formules van Newton zijn eenvoudig genoeg, maar verjagen niet de naïeve natuurkundige beelden die leerlingen meebrengen, beelden die eerder Aristoteliaans zijn. Ook in het hoger onderwijs blijft dit studenten en docenten achtervolgen, zie voor een overzicht van onderzoek op dit thema Sanjay Rebello en anderen (2005). Wat bij een exact vak als natuurkunde keihard empirisch is aan te tonen, een mismatch tussen toetsvragen en een juist begrip van studenten, doet zich zonder twijfel ook bij andere disciplines voor. Studenten leren wel hoe ze hun examenvragen moeten beantwoorden, maar dat is een kunststukje dat vaak ook zonder de bedoelde expertise is te doen. De genoemde ontwikkelingen laten zien dat het inhoudelijk ontwerpen van toetsvragen een extra dimensie moet krijgen: empirisch aannemelijk maken dat voor een juiste beantwoording van de zo ontworpen vragen inderdaad veranderd inzicht noodzakelijk is, echte expertise (Ericsson, 2009), kennis.

De populariteit van competenties heeft zijn weerslag in het toetsen: een verschuiving naar methoden afgekeken van die bij assessment-centers (A-C's). Stel dat die competenties een wetenschappelijk draagvlak hebben, dan is deze vorm van toetsen zorgelijk. In de literatuur over A-C’s zijn A-C’s met een aangetoonde redelijke validiteit nauwelijks te vinden, behalve daar waar zeer aanzienlijke investeringen zijn gedaan in de ontwikkeling van het A-C. Wat te denken van een inhoudelijk ontwerp van competentie-opgaven? Dat is een tegenspraak in zichzelf. De schaakgrootmeester heeft naast zijn schaakexpertise nauwelijks competenties nodig — zie De Groot (1946). Voor de musicus, de wiskundige en de natuurkundge is dat niet anders. Uit onderzoek naar aansluiting tussen onderwijs en arbeidsmarkt lijken competenties belangrijk te zijn, maar pas op voor de volgende valkuil. Bij sollicitaties dingen uiteindelijk even goed opgeleide neerlandici mee naar die ene vacature voor een neerlandicus; dat een werkgever dan de voorkeur geeft aan de best gebekte kandidaat betekent niet dat deze competentie dan in de opleiding neerlandistiek zou moeten worden opgenomen, zoals al in de tachtiger jaren aanbevolen door een bekend onderzoekbureau. Dat is de wereld op zijn kop zetten. Is er wetenschappelijk draagvlak voor die competenties? Zo nee, waar komt deze misvatting dan vandaan? Een scherpe analyse van Lee Shulman (1986), geeft een goed begin van antwoorden op deze vragen. Onderzoekers van onderwijs, waartoe ik mijzelf ook reken, zijn geneigd om inhouden van onderwijs, dus de kennis waar het in het onderwijs om gaat, tussen haken te zetten, en vervolgens alleen naar vormen te kijken, zoals gedrag van docenten, of alleen naar statistieken, zoals Cito-scores. De voorgaande paragraaf laat zien dat dit in de literatuur over toetsvragen ook het geval is. Dat wegkijken van inhouden heeft een eenvoudige reden: vaak is de onderzoeker geen expert in afzonderlijke vakken, en vallen die inhouden dus als vanzelfsprekend buiten het onderzoek. Gebeurt zoiets een enkele keer, dan is dat geen probleem. Doe dat een eeuw lang, in stromen van publicaties, en politici, journalisten, en het publiek zullen het beeld krijgen dat die inhouden er eigenlijk niet zo toe doen: ze zijn immers nauwelijks terug te vinden in onderwijsonderzoek? Shulman geeft een onthutsende kenschets van dit verschijnsel dat bekend is als the missing paradigm. De urgentie is daarom vandaag groter dan in 1983 om kennis weer terug te krijgen op de agenda van onderwijsonderzoek, en in het onderwijs.

De ontwerptheorie, zoals in 1983 uitgewerkt, kent een belangrijke leemte die zich in de nabije toekomst hopelijk laat vullen. Het gaat om vragen naar verklaringen van verschijnselen. Dit onderwerp is destijds expliciet buiten beschouwing gebleven omdat het niet mogelijk bleek er op afzienbare termijn een sluitende behandeling van te geven. Het probleem is ongeveer dat het niet altijd evident is dat op de vraag ‘waarom gaat het licht aan?’ de verklaring ‘door het omzetten van de schakelaar’ geen goede verklaring is. Filosofen komen hier met sterk uiteenlopende theorieën, nadat aanvankelijk het werk van Carl Hempel (zie Fetzer, 2001) de definitieve theorie leek te zijn: een verklaring verbindt een gebeurtenis aan een of meer wetten. Het knelpunt zit dus niet zozeer in het ontwerpen van verklarende vragen, maar in het beoordelen van verklaringen, in het uitleggen wat wel, en wat geen passende verklaringen zijn. Of waarom de ene verklaring beter is dan de andere. Of eleganter. Een wiskundige bewijsvoering is een specifieke vorm van verklaren die zich nog wel redelijk laat beoordelen zonder meteen conflicten te krijgen. Als er een foutje is gemaakt dan moet het over, zoals Andrew Wiles overkwam met zijn eerste bewijs voor de grote stelling van Fermat. Maar zelfs bij wiskundig bewijzen is er het probleem: welke tussenstappen zijn vanzelfsprekend genoeg dat je ze mag overslaan? En je zult sprongen moeten maken, omdat er anders maar heel weinig echt streng te bewijzen valt . . . . . Dan rijst het vermoeden dat in examens het vragen naar verklaringen minder frequent voorkomt dan gewenst is, of vooral gebeurt in de enigszins gesloten vormen zoals bij wiskundig bewijzen. Immers, partijen hebben bij examens belang bij uitkomsten die zo weinig mogelijk discussie uitlokken. En wat in examens niet terugkomt, zal in het onderwijs ook stiefmoederlijk worden behandeld. Ziehier een patstelling die echt moet worden doorbroken, want het kunnen geven van verklaringen van verschijnselen is toch bij uitstek het doel van (hoger) onderwijs.

In een recent boek behandelt Michael Strevens (2008) wat het is om gebeurtenissen wetenschappelijk te verklaren, en doet dat zo grondig dat zijn werk een bruikbaar fundament biedt om de weerbarstige problematiek van verklaringen in toetsen in het gareel van de ontwerper te dwingen. Strevens doet een pregnante uitspraak, waar een onderwijsonderzoeker verrast bij opkijkt: een verschijnsel begrijpen is een verschijnsel oorzakelijk kunnen verklaren (de openingszin van zijn hoofdstuk drie). Vervolgens heeft Strevens nog een stevige boeklengte nodig om deze stelling uit te werken tot werkbare vormen. Hij gebruikt daarvoor het ingewikkelde geval van de moord op Raspoetin: eerst vergiftigen, dan schieten, en uiteindelijk dumpen in een rivier. De man bleef tot in zijn laatste uren opmerkelijk. Wat is dan de oorzaak van zijn dood? Wat is de oorzaak van de Schipholbrand? De vraag naar een oorzakelijke verklaring blijkt geen gesloten vraag te zijn: het is al gauw het geval dat er talloze oorzakelijke verklaringen mogelijk zijn. Het is dan handig om methoden te hebben om uit al die mogelijkheden alleen de verklaringen over te houden die direct verschil maken (verwaarloos de zwaartekracht van Mars), en om de verleiding te weerstaan om verklaringen te geven voor verklaringen (dat zou terug moeten voeren tot de Big Bang). De verdienste van de filosofie van Strevens is dat het uitvoerig de vele mogelijkheden, gevallen, en tegenwerpingen behandelt. Dat maakt ook duidelijk dat de wetenschapsfilosofie op zijn best grove aanwijzingen kan geven waarmee in de dagelijkse praktijk van het hoger onderwijs rekening valt te houden bij het verklaren van verschijnselen, het vragen naar verklaringen, en het beoordelen van verklaringen. Deze lijn is niet alleen relevant voor hoger onderwijs. Zie bijvoorbeeld het werk van Deanna Kuhn in primair en secundair onderwijs om leerlingen vertrouwd te maken met het vinden van oorzakelijke verklaringen (onder andere 2005). Kuhn ziet een traject voor zich van tenminste een halve eeuw voordat het schip van het onderwijs op een echt andere koers zou kunnen liggen. Maar wat is een halve eeuw helemaal? Neem het werk van George Polya over probleemoplossen in de wiskunde. Zijn eerste publicatie is ondertussen meer dan een halve eeuw oud (zie onder andere zijn 1962/1965), en ten onrechte veronachtzaamd door psychologen. Maar zie Alan Newell (1983), die uitlegt waarom Polya’s werk de krachten van kunstmatige intelligentie-theorie te boven gaat. Polya’s werk is te zien als een wiskundige variant van oorzakelijk verklaren, en dus begrijpen, in de wetenschappen. Het lijkt vandaag de dag opgeslokt door de competentie-beweging: die maakt er een ‘competentie probleemoplossen’ van, maar dat is geen wiskunde meer, dat zet het werk van Polya op zijn kop. James Milgram (2007, p. 46 en volgende) signaleert in dit verband dat een belangrijk deel van de vragen in Amerikaanse staatstoetsen wiskunde niet wiskundig zijn! Dit zijn dus geen incidentele missers. Een niet-wiskundige vraag is bijvoorbeeld deze (p. 39): ‘Wat is de volgende term in de reeks 3, 8, 15, 24, ..... .’ De boosdoener is ‘de volgende term,’ dit is geen wiskundig begrip. Natuurlijk, net als bij ‘Wat is de leeftijd van de kapitein’ zullen kandidaten hier met een antwoord komen: 35. Want, zal de kandidaat zeggen, dat is het kwadraat van 6 - 1. Zoals de leerling die antwoordt op de vraag naar de leeftijd van de kapitein zal verklaren dat 23 en 12 opgeteld gelijk is aan 35. Is dit antwoord, met zijn rechtvaardiging, dan ‘fout’?

De voorgaande paragraaf eindigt met een hint: geeft kandidaten altijd de gelegenheid om gegeven antwoorden te rechtvaardigen, te motiveren, te verklaren. Dat is inderdaad een lichtere vorm waarin verklaringen een belangrijke rol kunnen spelen, en dan vooral bij keuzevragen en korte open vragen waar we om waarschijnlijk pragmatische redenen traditioneel genoegen nemen met antwoorden-zonder-meer. Wat is de leeftijd van de kapitein? Antwoord: 35. Let dan eens goed op wetenschappelijk onderzoek: de onderzoeker die met alleen de antwoorden genoegen neemt, zal snel zonder werk komen komen te zitten: natuurlijk zijn de overwegingen achter die antwoorden belangrijk. Natuurlijk wil je in beginsel weten waarom de student dit antwoord geeft, en niet een ander. De praktische aanwijzing is dan: geef kandidaten altijd de gelegenheid om antwoorden toe te lichten. Doe daar dan ook het nodige mee: ze kunnen verborgen gebreken in het ontwerp van toetsvragen genadeloos blootleggen. Of van het onderwijs. Een voorbeeld van het laatste is onderzoek van Kees van Putten aan de hand van bewaard gebleven kladpapier bij rekentoetsen uit de landelijke periodieke peilingen PPON (Van Putten, 2005): een van de resultaten is dat veel foute antwoorden voor delingen komen van leerlingen die deze uit het hoofd oplossen. Deze leerlingen hebben niet geleerd om de moeite te nemen hun antwoorden te rechtvaardigen. Wees overigens niet verbaasd hoe vaak een fout antwoord een goede rechtvaardiging blijkt te hebben, althans een rechvaardiging die niet zomaar als ontoereikend terzijde valt te leggen. Grijp terug op het werk van Strevens in moeilijke gevallen waarin er discussie ontstaat over de juistheid van zo gerechtvaardigde antwoorden. Studenten kunnen deze ontwikkeling versnellen door in kritische gevallen altijd op het in te leveren werk de onderliggende redenering te geven, ongeacht of dat toegestaan is of niet. En er hun beoordelaars op aan te spreken.

En zo blijkt het vragen naar oorzakelijke verklaringen lastige ontwerpproblemen te genereren, terwijl het tegelijk eenvoudig is om heel veel meer te doen met het laten verklaren van gegeven antwoorden. Door het laatste voortvarend aan te pakken, komt er op termijn beter zicht op de mogelijkheden voor het ontwerpen van directe vragen naar verklaringen. Meer werk maken van de verdieping die nadruk op het kunnen geven van verklaringen biedt, is mogelijk de grootste bijdrage die het inhoudelijk ontwerp van toetsvragen het onderwijs in de nabije toekomst heeft te bieden.

Dit project is ooit begonnen met het idee dat de cognitieve psychologie, over wat het is om te leren en te begrijpen, een goed fundament kan zijn voor een inhoudelijke ontwerptheorie voor toetsvragen, wel beseffend dat diverse disciplines eigen accenten en tradities hebben. Nu is daar het besef dat die disciplinaire tradities zowel karakteristiek als sterk zijn, wat het lastig maakt om door die verschillen heen te breken naar wat uiteindelijk toch gemeenschappelijk moet zijn: In het verwerven van expertise, of dat nu wiskunde of geneeskunde is, zal de neuropsychologie van dat proces wezenlijk hetzelfde zijn. Een ideale didactiek voor wiskunde zal marginaal verschillen van een ideale didactiek voor geneeskunde, of welk ander vak dan ook. Validiteit van toetsvragen wiskunde is in principe op dezelfde wijze te onderzoeken als die van toetsvragen taalwetenschap, of welk vak dan ook. Let op: het gaat niet om validiteit in de traditionele psychometrische zin, maar in de realistische interpretatie zoals voorgesteld door Denny Borsboom, Don Mellenbrgh en Jaap van Heerden (2004), waarbinnen het noodzakelijk is om door te dringen tot de essentie van wat het is om wiskunde te leren en om wiskunde te beoefenen. Een eventuele nieuwe editie van Toetsvragen schrijven zal aan deze validiteit ruim aandacht schenken. De crux van het ontwerpprobleem is dan: wat is het om wiskunde te beoefenen, te leren; wat is het om psychologie te beoefenen, te leren? De antwoorden op deze vragen hebben een gemeenschappelijke kern, althans dat is mijn werkhypothese, en die kern vormt de basis voor een ontwerptheorie voor toetsvragen die onafhankelijk is van specifieke disciplines. Het project uit de zeventiger jaren is hiermee wel enorm uitgebreid, waarbij evident het probleem is dat dit hele veld nauwelijks door een enkeling is te overzien. Of het moet een oude rot in het vak zijn. In deze ontwerptheorie in boekvorm kunnen docenten het nodige vinden waarmee ze direct aan de slag kunnen, maar voor een inhoudelijke uitwerking voor een specifieke discipline is bepaald een groter investering nodig dan alleen kennisnemen van de tekst: er komt nog een vertaalslag naar dat eigen vak bij. Docenten zijn enthousiast over directe aanwijzingen voor kwaliteitsverbetering, zoals het wenselijke aantal alternatieven bij keuzevragen, maar hebben moeite om de draagwijdte te zien van wat ik toch maar de psychologie en filosofie van het ontwerpen van toetsvragen noem. Anders gezegd: op korte termijn doen de concrete tips het goed, de meer abstracte lagen in het boek moeten op lange termijn het werkelijke verschil gaan maken.

Bloom, B. S., J. Th. Hastings & G. F. Madaus (1971). Handbook on formative and summative evaluation of student learning. McGraw-Hill.

Borsboom, D., G. J. Mellenbergh & J. van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071.
http://sites.google.com/site/borsboomdenny/borsboomValidity2004.pdf

Dijksterhuis, E. J. (1950). De mechanisering van het wereldbeeld. Meulenhoff.

Ericsson, K. A. (Ed.) (2009). Development of professional expertise: Toward measurement of expert performance and design of optimal Learning Environments. Cambridge University Press.

Fetzer, J. H. (Ed.) (2001). The philosophy of Carl G. Hempel. Studies in science, explanation, and rationality. Oxford University Press.

Groot, A. D. de (1946). Het denken van den schaker. Een experimenteel psychologische studie. Noord-Hollandsche Uitgevers maatschappij.
http://www.dbnl.org/tekst/groo004denk01_01/

Groot, A. D. de (1972). Selectie voor en in het hoger onderwijs. Een probleemanalyse. Staatsuitgeverij.

Groot, A. D. de, & R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Mouton.

Hestenes, D. (1987). Toward a modeling theory of physics instruction. American Journal of Physics, 55, 440-454.
http://modeling.asu.edu/R&E/ModelingThryPhysics.pdf

Kuhn, D. (2005). Education for thinking. Harvard University Press. http://www.hup.harvard.edu/pdf/KUHEDU_excerpt.pdf

Milgram, R. J. (2007). What is mathematical proficiency? In A. H. Schoenfeld: Assessing mathematical proficiency (31-58). Cambridge University Press.
http://www.msri.org/communications/books/Book53/files/04milgram.pdf

Newell, A. (1983). The heuristic of George Polya and its relation to artificial intelligence. In R. Groner, M. Groner & W. F. Bischof: Methods of heuristics (195-243). Lawrence Erlbaum.
scan 21 Mb Een voorloper in de vorm van een artikel in 1970: pdf

Newell, A., & H. A. Simon (1972). Human problem solving. Prentice Hall.

Polya, G. (1962, 1965). Mathematical discovery. On understanding, learning, and teaching problem solving. John Wiley.

Putten, C. M. van (2005). Strategiegebruik bij het oplossen van deelsommen. In Jan Janssen, Frank van der Schoot en Bas Hemker: Balans [32] van het reken-wiskundeonderwijs aan het einde van de basisschool. 4. Uitkomsten van de vierde peiling in 2004. (125-131). Cito. http://www.cito.nl/share/PPON/Cito_pponbalans_32.pdf

Rebello, S., D. A. Zollman, A. R. Allbaugh, P. V. Engelhardt, K. E. Gray, Z. Hrepic & S. F. Itza-Ortiz (2005). Dynamic Transfer: A Perspective from Physics Education Research. In J. P. Mestre: Transfer of learning: from a modern multidisciplinary perspective (217-250). Sage.
http://web.phys.ksu.edu/papers/2004/DynamicTransfer.pdf

Shulman, L. S. (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15 #2, 4-14.
http://www.fisica.uniud.it/URDF/masterDidSciUD/materiali/pdf/Shulman_1986.pdf

Strevens, M. (2008). Depth. An account of scientific explanation. Harvard University Press.

Verschaffel, L., B. Greer & E. de Corte (2000). Making sense of word problems. Swets & Zeitlinger.

Whitehead, A. N. (1929). Aims of education. Macmillan.
http://www.ditext.com/whitehead/aims.htmlhttp://www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf

Wilbrink, B. (in ontwikkeling). Toetsvragen ontwerpen. http://www.benwilbrink.nl/projecten/toetsvragen.1.htm

eerste concept september 2009, een hoofdstuk over en rond Aula 809 'Toetsvragen schrijven'

Ben Wilbrink

deze bladzijde is niet volledig in html-code gezet: vet en cursief worden niet weergegeven, bijzondere letters met umlaut of accent evenmin.

[de oude uitgave 750] 888 woorden

Eind zestiger jaren is er van alles in beweging rond de introductie van studietoetsen in Nederland. Adriaan de Groot en Robert van Naerssen (1969) begeleiden die ontwikkelingen met een handboek over studietoetsen. Docenten die studietoetsen gebruiken krijgen de uitslagen terug samen met een intimiderende print met ‘betrouwbaarheids’-waarde en itemstatistieken. Achteraf gezien is het wat naief geweest om geschut uit de psychologische testtheorie ook bij studietoetsen in stelling te brengen (landelijke toetsen, waarvoor het Cito was opgericht, is een ander onderwerp). Leg dan maar eens uit dat die ‘betrouwbaarheid’ geen bijzondere betekenis heeft! Denny Borsboom, Don Mellenbergh en Jaap van Heerden doen dat in 2004 in een artikel in een toptijdschrift. Rond 1970 zoek ik houvast in De Groot en Van Naerssen, maar ik begrijp er werkelijk niets van: het ene na het andere hoofdstuk over statistieken, maar over het inhoudelijk ontwerpen van toetsvragen, toch een noodzakelijke stap om een toets te kunnen samenstellen, weinig meer dan gemeenplaatsen over intuïtie en creativiteit van de ontwerper. Ik was er mogelijk gevoelig voor omdat in mijn opleiding psychologie de nadruk lag op experimentele methoden, en ik zelf een zwaartepunt maakte van creativiteit en onderwijs. Niks ‘betrouwbaarheid’ bij die experimentele methoden: daar zou je immers studenten die onderwijs hebben gevolgd vergelijken met een controlegroep van studenten die in dezelfde tijd ander onderwijs hebben gevolgd, of met een groep willekeurig gekozen leeftijdgenoten. En creativiteit in het onderwijs is niet een deus-ex-machina, maar laat zich experimenteel onderzoeken. De tegenstelling tussen de benadering op inhoud en die op basis van statistieken is dus nogal scherp.

Begin zeventiger jaren verdedigt Wynand Wijnen zijn proefschrift Onder of boven de maat, over toetsen, een mooie gelegenheid om het eens direct te vragen. Hij komt op uitnodiging naar Amsterdam om over zijn onderzoek van gedachten te wisselen. Onze brandende vraag: waarom alleen statistische analyses, en niet ook eens kritisch naar de inhoud van die toetsvragen gekeken? De opvatting van Wijnen vinden we vandaag nog steeds terug in kringen van ‘de inhoud van de vragen is de verantwoordelijkheid is van de docenten, de toetsdeskundige moet alleen kijken hoe de vragen zich statistisch gedragen.’ In Amsterdam willen we juist met die inhoud aan de slag: schematiseren, leren studeren, toetsvragen ontwerpen. Ontwikkelingen in de cognitieve psychologie maken het mogelijk om inhoudelijk ontwerpen van toetsvragen uit te werken tot een eerste cursusboek in 1978. Overigens komt Wijnen met een concept voor het nieuwe Maastrichtse onderwijs dat zeker ook inhoudelijk is.

In 1980 verbiedt het College van Bestuur van de Universiteit van Amsterdam het geheimhouden van afgenomen toetsvragen. Studenten krijgen het recht om gemaakt werk in te zien, anders zou hun recht op beroep, bij wet geregeld, een lege huls blijven. Het onvermijdelijke gevolg is dat docenten meer vragen moeten ontwerpen, en voor dat ontwerpen inhoudelijke regels goed zouden kunnen gebruiken. En dat is terug te zien in de tweede versie van de cursus, die in 1983 uitkomt in de Reeks, waarin bijzondere aandacht uitgaat naar de mogelijkheden om door systematisch te variëren op een goed ontworpen vraag, grotere aantallen vragen te genereren voor toekomstig gebruik.

Werken vanuit inhouden leidt ook tot een andere visie op de bruikbaarheid van keuzevragen en itemstatistieken, wat kennelijk aanleiding is dat er rond dit boek een sfeer van controverse komt te hangen. Mogelijk heeft in 1977 het beeld postgevat dat ik ik iets tegen keuzevragen zou hebben, terwijl ik op de ORD in dat jaar, tegen de heersende opvatting in, alleen betoogde dat keuzevragen niet objectief zijn. Keuzevragen als zodanig zijn niet minder subjectief dan open vragen. Ik heb van binnen het Cito begrepen dat de confrontatie in 1977 het Cito heeft geholpen om de omslag te maken van een instituut dat alleen doet in keuzetoetsen, naar een verbreding waarin ook eindexamens voortgezet onderwijs met open vragen passen. Maar pas op: modelantwoorden bij open vragen zijn even pseudo-objectief als de alternatieven van keuzevragen zijn; ga er liever uiterst soepel mee om. Terug nu naar het boek, dat vooral een conceptueel werkstuk is, en niet een bundeling van good practice (whatever that may be). De redactie ziet in publicatie begrijpelijkerwijs enig risico, en zij heeft te maken met een auteur die juist een maatschappeljk risico ziet in een te makkelijk en te oppervlakkig uit de Verenigde Staten overgenomen toetssystematiek (en denken in termen van doelen, liefst taxonomisch geordend). Een bijzonder prettige en productieve gedachtenwisseling met Tom Dousma en Ad Horsten, over kwesties rond de vraagvormen, neemt dan de kou uit de lucht, en verheldert de aanvullende verhouding tussen Tentamineren en Toetsvragen schrijven, de eerste over toetsen afnemen, de tweede over ontwerpen van toetsvragen. Het zal niet als een verrassing komen dat mijn grondgedachte bij het typeren van open vragen tegenover keuzevragen een inhoudelijke is: voor studenten die goed in de stof zitten, kunnen open vragen in feite gaan om een keuze uit een beperkt aantal goed bekende alternatieven. Open vragen van dit type omwerken tot keuzevragen levert uitstekende keuzevragen op. De tegenhanger is duidelijk: keuzevragen die als open vraag plat vallen, deugen niet als keuzevraag. Ik heb nooit begrepen waarom al dat onderzoek nodig is of toetsen met open vragen hetzelfde meten als toetsen met keuzevragen doen (Mellenbergh, 1971; Bennett & Ward, 1983).

De inhoud van het boek wordt in 1983 dan, schematisch: welke vraagvorm - kennis beschrijven - vragen naar begrippen - vragen naar relaties tussen begrippen - vragen bij tekst - probleemoplossen - kwaliteit bewaken en garanderen. Een nieuwe editie zal dezelfde indeling hebben, uitgebreid met een sectie over validiteit.

[stand van zaken in het onderwijs 1250] 1079

Een kwarteeuw later zijn toetsvragen kwalitatief bezien niet beter. Op de hamvraag over het niveau van onderwijs, en dus van de examenvragen, valt weinig te zeggen omdat er geen directe studies naar zijn gedaan. Dergelijk onderzoek is misschien ook onmogelijk, omdat het op dezelfde problemen stuit als bij directe vergelijking van wetenschappelijke paradigma's, zie De empirische discussie van Willem Hofstee. Er zijn wel grote verschuivingen gaande. In de eindexamens vermindert het aantal keuzevragen ten gunste van open vragen: het aankruisen maakt plaats voor het weer zelf formuleren van antwoorden. Het in de tweede helft van de vorige eeuw erin gestampte ontzag voor de pseudo-objectiviteit van keuzevragen smelt weg. Overigens is dit ook een ontwikkeling in de Verenigde Staten. Minder mooi is de greep van controlerende instanties, ook of speciaal gericht op examens, die kwaliteit nogal eens iopvatten als het op orde hebben van de procedures; niks statistische analyse, laat staan adequate inhoud. Ongelooflijk. Ik reken hier ook de discussie over standaarden onder, die makkelijk ontaardt in het produceren van lijstjes van wat er minimaal valt te kennen en kunnen. Die lijstjes hebben — zoals alle lijstjes van doelen of, o wee, competenties — het manco dat ik er geen toetsvragen bij kan ontwerpen zonder extra veronderstellingen te maken die verre van triviaal zijn. Ik hoop dan maar dat, wat ik niet kan, anderen ondervinden dat ook niet te kunnen.

Als toetsvragen een kwarteeuw later kwalitatief niet beter zijn, hoe staat het dan met die constante kwaliteit? Dat is een goede vraag, en het antwoord kan kort zijn: ik ken geen onderzoek dat een direct antwoord op die vraag geeft. Er zijn wel aanwijzingen uit de praktijk, uit een waaier van specifieke onderzoekgebieden, en uit wat er aan incidentele constateringen in de literatuur is te vinden. Om met dat laatste te beginnen: een enkele faculteit heeft een stelselmatige check op de kwaliteit van tentamenvragen. Kijk niet vreemd op wanneer daar wel eens een tentamen bij zit waarvan 95% van de vragen ondeugdelijk is. Ongetwijfeld is dit een prestatie op eenzame hoogte, maar het wijst er toch op dat het teveel is gevraagd om van docenten te verlangen dat zij inhoudelijk verantwoorde toetsvragen kunnen ontwerpen zonder ondersteuning van derden. Ook voor de vragen tijdens de les kan er een onverwacht groot kwaliteitsprobleem blijken, zie een gevalsstudie over rekenonderwijs in de Verenigde Staten (Heather Hill en anderen, 2008): de oorzaak is tekortschietende expertise van de leerkrachten, waardoor zij niet in staat zijn in redelijke mate correcte vragen te stellen of de correcte antwoorden te geven. Mijn eigen ervaring met toetsvragen van anderen is dat daar toch te vaak kwaliteitsgebreken aan kleven, en wel meer naarmate de vragen meer een geforceerd of gekunsteld format hebben. Een ervaring die iedereen kan opdoen: nogal wat vragen in studieboeken, toetsen, en examens zijn van een onthutsend triviaal karakter: informatie uit een tekst ophalen, feiten oplepelen, werkstukjes maken, met formules goochelen. Dat vermorst de kostbare tijd van studenten. Het is een eeuwenoud probleem dat onderwijs ertoe neigt vol te lopen met steeds meer informatie over steeds minder, met inert matter zoals Whitehead dat kenschetst. Met kennis die af is, zoals de bewegingswetten van Newton: de sommen die je ermee kunt maken zijn al gauw belangrijker dan enig inzicht in de grote vragen over de natuur waarop deze wetten een heel bepaald antwoord geven. Dijksterhuis signaleert in zijn magnum opus (1950, p. 32) dat natuurkundeleraren de ervaring hebben dat leerlingen de opgaven perfect kunnen maken, zonder de achterliggende natuurkunde te begrijpen. Dan is er iets wezenlijk verkeerd met dat natuurkunde-onderwijs en zijn toetsvragen. Met formules goochelen. In de Verenigde Staten is op dit thema een lijn van onderzoek en ontwikkeling waarin David Hestenes een sleutelrol speelt. Wat in het onderwijs in de natuurkunde ontspoort, kan natuurlijk ook in andere vakken ontsporen. Ik noem alleen de lijn van onderzoek van Lieven Verschaffel, over misstanden met redactiesommen, of word problems zoals ze elders heten: ook hier weer het verschijnsel dat leerlingen de typisch schoolse gesloten opgaven wel kunnen maken, maar het begrip missen van waar het bij het rekenend omgaan met de wereld om gaat. Ik weet dat het zo ongelukkig geheten ‘realistisch rekenen’ daar juist iets aan probeert te doen, maar het doet dat op psychologisch naïeve wijze, als ik dat zo mag uitdrukken. Het punt is dat al deze onderzoeklijnen, en er zouden er hier nog veel meer zijn te noemen, erop wijzen dat onderwijs ernstige trekken van verstening vertoont, en dat raakt vooral de kwaliteit van de vragen die we studenten laten maken. Er is werk aan de winkel. Het c-woord is gevallen: competenties. Dit is gevaarlijk terrein, omdat vaak voor betrokkenen de verleiding te groot blijkt om competenties te behandelen losgezongen van kennis. Ik geef een tegenvoorbeeld. De schaakgrootmeester heeft naast zijn schaakexpertise nauwelijks competenties nodig - welke dan wel, zie De Groot, 1946, een grondleggende studie voor de cognitieve psychologie. Ik wijs op een scherpe analyse, ruimschoots voordat de c-hype losbarstte, gegeven door Shulman (1986), als voorzitter van de Amerikaanse vereniging van onderwijsonderzoek AERA. Onderzoekers van onderwijs, waartoe ik mijzelf ook reken, zijn geneigd om inhouden van onderwijs, dus de kennis waar het in het onderwijs om gaat, tussen haken te zetten, en alleen naar vormen te kijken, zoals gedrag van docenten, of alleen naar statistieken, zoals Cito-scores. Dat wegkijken van inhouden heeft een eenvoudige reden: vaak is de onderzoeker geen expert in afzonderlijke vakken, en vallen die inhouden dus als vanzelfsprekend buiten het onderzoek. Gebeurt zoiets een enkele keer, dan is dat geen probleem. Doe dat een eeuw lang, in stromen van publicaties, en politici, journalisten, en het publiek zullen het beeld krijgen dat die inhouden er eigenlijk niet zo toe doen: ze zijn immers nauwelijks terug te vinden in onderwijsonderzoek? Shulman geeft van dit verschijnsel een onthutsende kenschets. Het onthutsende zit niet in zijn messcherpe kenschets, maar in het gekenschetste verschijnsel. Het verschijnsel heeft een naam: het is the missing paradigm. Kijk, de urgentie is daarom vandaag veel groter dan in 1983 om kennis weer terug te krijgen op de agenda van onderwijsonderzoek. En in het ontwerpen van toetsvragen. Op discipline-niveau lukt dat trouwens goed in talrijke boeiende projecten, juist omdat de onderzoekers zelf ook tot de discipline behoren, of deze door-en-door leren kennen. Een voorbeeld is het werk in Maastricht van Lambert Schuwirth en zijn collega’s (1999) met de inzet van korte casus voor toetsen op diagnostische vaardigheden. Het dilemma is nu, en Hans Freudenthal belichaamde dat voor wat het wiskunde-onderwijs betreft, dat door deze zelf-betrokkenheid vaak maar moeizaam of zelfs helemaal geen verbinding tot stand komt met onderwijsonderzoekers elders, of met funderende disciplines zoals de cognitieve psychologie (bijvoorbeeld het werk van John Anderson, 2007). Dan is het een extra uitdaging om door alle toevallige, historisch of anderszins bepaalde eigenaardigheden van dergelijke discipline-eigen ontwikkelingen heen, de onderliggende gemeenschappelijke ontwerpprincipes te onderkennen en te beschrijven.

[de toekomst 750] 1029

Waar gaat het heen met het ondervragen van studenten? Een beredeneerd antwoord vindt zijn fundament in de lange geschiedenis van het beoordelen (Wilbrink, 1997). Meer dan een millennium van beoordelen, straffen, en prijzen van studenten: de rode draad is competitie, met examenvragen die het zo eenvoudig mogelijk maken om prestaties van Jan met die van Tijs te vergelijken, later ook met die van Marie en Josefien. Ik hoop dan maar dat het onderwijs in de toekomst deze ballast kwijt kan raken: het is al eeuwen bekend dat dit vergelijkend beoordelen weinigen helpt - de prijskandidaten vormen een kleine kopgroep die de rest kansloos achterlaat - en de meesten dus het onderwijs tegenmaakt. Waar het onderwijs bedoelt een investering in menselijk kapitaal te zijn, is deze competitie daar een directe aanslag op. Maar er is ook een heel andere rode draad: die van schaalvergroting. Joan Cele leidt in de 14e eeuw in Zwolle een school met soms wel 900 leerlingen, en vindt het hierarchisch geordende curriculum uit om zijn beheersprobleem op te lossen. Eeuwen later hebben natiestaten het onderwijs hard nodig, en zie daar: zij leggen het leerstofjaarklassensysteem op. Natuurlijk zijn dit ontwikkelingen die heel bepalend zijn voor het toetsen en examineren, en zeker voor de inhouden daarvan. Begin 20e eeuw ontdekt Amerika dat het toetsen valt te automatiseren: er volgt grootschalige introductie van vooral keuzetoetsen in het onderwijs. Er valt groot geld te verdienen, en het intellect dat de ontwikkeling en het onderzoek van onderwijs had moeten behartigen, gaat voor het eigen gewin. Ellen Condliffe Lagemann (2000) analyseert de neergang van het onderwijsonderzoek in de academische pikorde die daar het gevolg van was, en waar de sector nu nog steeds onder gebukt gaat.

Dit verleden overziend, doemen wel enkele contouren op van mogelijke en gewenste ontwikkelingen. De schaalvergroting is nu zo ver gevorderd dat het ondenkbaar is dat studenten nog intensief contact kunnen hebben met docenten die beschikken over een stevige expertise in het vak dat zij geven. Mogelijk gaan risico's en kansen deels hand in hand: docenten worden afhankelijker van door anderen ontwikkelde methoden met bijbehorend oefen- en toetsmateriaal. Methoden die harteloos, technologisch, of door commissies en belangenclubs worden ontwikkeld, kunnen tot enorme tijdverspilling van studenten leiden. Vult u zelf maar in wat ertoe bijdraagt om juist de kansen van professionele ontwikkeling van methoden te realiseren. Het lijkt me ondenkbaar dat inhouden en toetsvagen over die inhouden zo los blijven gekoppeld als blijkt uit opvattingen dat het ontwerpen van toetsvragen een zaak is van ervaring, intuïtie, creativiteit, en inval. Als we op die manier ook bruggen en dijken gaan bouwen ..... . OK, veronderstel dat in een mooie toekomst toetsvagen allereerst op hun inhoud worden ontworpen, en niet op hun statistische eigenschappen, veronderstelde objectiviteit, of wat dan ook. Omdat het ontwerpen dan verwijderd is van de werkvloer, van het spel tussen studenten en docenten, zal er ongetwijfeld grote druk op ontwerpers zijn om uit te sluiten dat minder professionele docenten er onbedoelde dingen mee kunnen doen. Ik zal dat risico proberen aan te duiden met het casus van vragen naar verklaringen.

Een recent boek van Michael Strevens (2008) ziet op het thema van wat het is om wetenschappelijke verklaringen te geven. Strevens doet een pregnante uitspraak, waar een onderwijsonderzoeker voor uit zijn stoel springt: een verschijnsel begrijpen is een verschijnsel oorzakelijk kunnen verklaren (de openingszin van zijn hoofdstuk 2). Zie het als een stille hint waarom het nooit wat is geworden met die cognitieve taxonomie van Benjamin Bloom en de zijnen. En realiseer je dan dat we lang niet altijd van studenten vragen om hun antwoorden te verklaren. Maar dit is niet het punt dat ik wil scoren, al is het waarschijnlijk het geval dat Amerikaans onderwijs, vergeleken met dat in China, zulke beroerde resultaten levert omdat Amerikaanse docenten weinig of niet doorvragen naar verklaringen, en Chinese dat wel doen. Nee, mijn punt is dat verklaringen van studenten lastig zijn te beoordelen, dat docenten geneigd zijn ervoor weg te lopen, en dat het onderwijs daardoor verschraalt. Want wat is een goede verklaring van een verschijnsel, en wat een minder goede? Filosofen van naam hebben er onderling stevige conflicten over. Better be safe then sorry, laten we maar geen verklaringen vragen van studenten, tenzij er een redelijk gesloten antwoordmodel op past. Zie de eindexamens van het voortgezet onderwijs. Doe dat jaren, decennia, eeuwen lang, en niemand weet meer beter of dat hoort zo. De uitdaging voor de ontwerper is om dit begrijpen van verschijnselen op passende wijze in toetsvragen te vangen. Het is mij voor het boek in 1983 niet gelukt, ik heb het hele thema destijds expliciet buiten beschouwing moeten laten omdat ik er geen greep op had. Het is een uitdaging voor de toekomst. Een uitdaging, bovendien, die beladen is met het dilemma dat goed omgaan met verklaringen van studenten een behoorlijke expertise van docenten vraagt, ook al hebben zij briljante methoden om hun werk te verlichten. Is deze lijn alleen relevant voor hoger onderwijs? Welnee, ik wijs op, bijvoorbeeld, het werk van Deanna Kuhn die in primair en secundair onderwijs hiermee aan de slag is gegaan (o.a. haar 2005). Kuhn ziet een traject voor zich van tenminste een halve eeuw voordat het schip van het onderwijs op een echt andere koers zou kunnen liggen. Maar wat is een halve eeuw helemaal? Het werk van George Polya over probleemoplossen in de wiskunde is ondertussen meer dan een halve eeuw oud (zie o.a. zijn 192/1965), en ten onrechte veronachtzaamd door psychologen (maar zie Newell, 1983). Wat mij betreft is Polya’s werk een wiskundige variant van oorzakelijk verklaren, en dus begrijpen, in de wetenschappen. Het lijkt vandaag de dag opgeslokt door de competentie-beweging: die hebben er een aanfluiting van gemaakt door er een ‘competentie probleemoplossen’ van te maken. Jawel, los van inhouden! Dat zet het werk van Polya op zijn kop. James Milgram (2007) signaleert in dit verband dat een belangrijk deel van de vragen in Amerikaanse toetsen wiskunde niet wiskundig zijn! Wat is een belangrijk deel: 25 %. Dit zijn dus geen incidentele missers meer. Er is een crisis in het onderwijs, over inhouden, over het inhoudelijk ontwerp van onderwijs, en dus ook van toetsvragen.

[reflectie 250] 416

Dit project is ooit begonnen met het idee dat de cognitieve psychologie, over wat het is om begrip te hebben en te leren, een goed fundament zou kunnen zijn voor een inhoudelijke ontwerptheorie voor toetsvragen, wel beseffend dat diverse disciplines eigen accenten en tradities hebben. Nu is daar het besef dat die disciplinaire tradities zowel karakteristiek als sterk zijn, wat het lastig maakt om door die verschillen heen te breken naar wat uiteindelijk toch gemeenschappelijk moet zijn: de hersenen van een wiskundige en die van een psycholoog verschillen niet. Een ideale didactiek voor wiskunde zal marginaal verschillen van een ideale didactiek voor psychologie, of welk ander vak dan ook. Validiteit van toetsvragen wiskunde zou ik in principe op dezelfde wijze onderzoeken als die van toetsvragen taalwetenschap, of welk vak dan ook. Ik moet er onmiddellijk bij zeggen dat ik dan het begrip validiteit niet gebruik in de traditionele psychometrische zin, maar in de realistische interpretatie zoals voorgesteld door Borsboom en anderen (2004). De hamvraag waar ik dan op word teruggeworpen is: wat is het om wiskunde te beoefenen, te leren; wat is het om psychologie te beoefenen, te leren? De antwoorden op deze vragen hebben een gemeenschappelijke kern, althans dat is mijn werkhypothese, en die kern vormt de basis voor een ontwerptheorie voor toetsvragen die onafhankelijk is van specifieke disciplines. Het project waarmee ik in de zeventiger jaren ben begonnen, is hiermee wel enorm uitgebreid, waarbij evident het probleem is dat dit hele veld nauwelijks door een enkele persoon is te overzien. Of het moet een oude rot in het onderwijsonderzoek zijn. Deze ontwerptheorie in boekvorm heeft dan een dubbele doelgroep: docenten kunnen er het nodige in vinden waarmee ze direct aan de slag kunnen, maar voor een uitwerking voor een specifieke discipline is bepaald een groter investering nodig dan alleen kennisnemen van de tekst. In de receptie van het boek van 1983 zie ik dat terug: het is bekend bij auteurs op dit gebied, die er ook inzichten uit overnemen. Docenten die er gebruik van maken, geven mij daar geen terugkoppeling over, wat ik heel jammer vind. Docenten die deelnemen aan mijn incidenteel gegeven cursussen zijn enthousiast over directe aanwijzingen zoals het wenselijke aantal alternatieven bij keuzevragen, maar hebben moeite om de draagwijdte te zien van wat ik toch maar de psychologie en filosofie van het ontwerpen van toetsvragen noem. Ik heb in dit hoofdstuk proberen aan te geven dat de strijd om kwaliteit juist en alleen met deze psychologie en filosofie valt te winnen. Het is een complex betoog, dat de complexiteit van het onderwerp weerspiegelt. Ik heb van u gevraagd om veel meer informatie te tegelijk verwerken dan het korte-termijn-geheugen aankan: zes of zeven stukjes; als dit hoofdstuk een meerkeuzevraag zou zijn, zou ik het daarop moeten afkeuren.

Anderson, J. R. (2007). How can the human mind occur in the physical universe? Oxford University Press.

Bloom, B. S., J. Th. Hastings & G. F. Madaus (1971). Handbook on formative and summative evaluation of student learning. McGraw-Hill.

Borsboom, D., G. J. Mellenbergh & J. van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071.

http://sites.google.com/site/borsboomdenny/borsboomValidity2004.pdf

Dijksterhuis, E. J. (1950). De mechanisering van het wereldbeeld. Meulenhoff.

Dousma, T. & A Horsten. Tentamineren. Het Spectrum, Aula 804.

Groot, A. D. de, & R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Mouton.

Groot, A. D. de (1946). Het denken van den schaker. Een experimenteel psychologische studie. Noord-Hollandsche Uitgevers maatschappij.

http://www.dbnl.org/tekst/groo004denk01_01/

Heather C. Hill, Merrie L. Blunk, Charalambos Y. Charalambous, Jennifer M. Lewis, Geoffrey C. Phelps, Laurie Sleep and Deborah Loewenberg Ball (2008). Mathematical knowledge for teaching and the mathematical quality of instruction: An exploratory study. Cognition and Instruction, 26, 430-511.

http://hub.mspnet.org/media/data/Cognition_Instruction_case_study_paper.pdf?media_000000002918.pdf

Hestenes, D. (1987). Toward a modeling theory of physics instruction. American Journal of Physics, 55, 440-454.

http://modeling.asu.edu/R&E/ModelingThryPhysics.pdf

Hofstee, W. K. B. (1980). De empirische discussie. Boom.

Kuhn, D. (2005). Education for thinking. Harvard University Press.

http://www.hup.harvard.edu/pdf/KUHEDU_excerpt.pdf

Lagemann, E. C. (2000). An elusive science: The troubling history of education research. University of Chicago Press.

Mellenbergh, G. J. (1971). Studies in studietoetsen. Proefschrift Universiteit van Amsterdam.

Milgram, R. J. (2007). What is mathematical proficiency? In Alan H. Schoenfeld: Assessing mathematical proficiency (31-58). Cambridge University Press.

http://www.msri.org/communications/books/Book53/files/04milgram.pdf

Newell, A. (1983). The heuristic of George Polya and its relation to artificial intelligence. In R. Groner, M. Groner & W. F. Bischof: Methods of heuristics. Lawrence Erlbaum. scan 21 Mb Een voorloper in de vorm van een artikel in 1970: pdf

Polya, G. (1962, 1965). Mathematical discovery. On understanding, learning, and teaching problem solving. Volume I, II. Wiley.

Schuwirth, L. W. T., D. E. Blackmore, E. Mom, F. van den Wildenberg, H. E. J. H. Stoffers & C. P. M. van der Vleuten (1999). How to write short cases for assessing problem-solving skills. Medical Teacher, 21, 144-150.

Shulman, L. S. (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15 #2, 4-14.

http://www.fisica.uniud.it/URDF/masterDidSciUD/materiali/pdf/Shulman_1986.pdf

Strevens, M. (2008). Depth. An account of scientific explanation. Harvard University Press.

Verschaffel, L., B. Greer & E. de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

Wijnen, W. H. F. W. (1972). Onder of boven de maat. Een methode voor het bepalen van de grens voldoende-onvoldoende bij studietoetsen. Swets & Zeitlinger.

Wilbrink, B. (1983). Toetsvragen schrijven. Het Spectrum, Aula 809.

http://www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf

Wilbrink, B. (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23, 31-48.

http://www.benwilbrink.nl/publicaties/97AssessmentStEE.htm

Wilbrink, B. (in ontwikkeling). Toetsvragen ontwerpen.

http://www.benwilbrink.nl/projecten/toetsvragen.1.htm

12 februari 2015 \ contact ben apenstaartje benwilbrink.nl

http://www.benwilbrink.nl/publicaties/10schrijven.htm