Ben Wilbrink (1983/herzien). Toetsvragen ontwerpen: Par 2.6 Validiteit

Deze paragraaf over validiteit is een belangrijke uitbreiding van de tekst uit 1983. Mogelijk bestrijkt dit in feite ongeveer dezelfde grond als hoofdstuk 3, maar doet het dat op een heel andere manier. Als dat zo blijkt te zijn, dan zal deze paragraaf 2.6 promoveren tot hoofdstuk 3, en zullen delen van het huidige hoofdstuk 3 verdwijnen.

2.6 Validiteit: een goed antwoord bewijst kennis

Validiteit van toetsvragen is ongeveer zoiets als de feitelijke overeenkomst met de bedoelingen achter het stellen van die vragen. De claim van validiteit is dus een empirische claim. Omdat bijvoorbeeld een examen niet volledig de doelen dekt van het onderwijs dat het afsluit, blijft er een spanning bestaan tussen een nauwe opvatting van validiteit en bredere doelen van onderwijs. Deze paragraaf wil die spanning nadrukkelijk ook zichtbaar maken.

Mogelijk is het lastige begrip validiteit te koppelen aan een relatief glashelder begrip uit de wetenschapsfilosofie. De gedachte is dat een valide vraag een gegeven oplevert dat in samenhang met een theorie een verklaring toestaat (de covering law van Hempel, zie Fetzer, 2001). Langs die weg kunnen valide toetsvragen aannemelijk maken dat de kennis aanwezig is. De ontwerper staat voor de uitdaging om eerst een adequate theorie op te stellen, en dan afzonderlijke vragen te ontwerpen die gegevens opleveren die zinvolle verklaringen binnen die theorie of met hulp van die theorie mogelijk maken. Denk bij ‘een adequate theorie’ bijvoorbeeld aan een model van de vorderingen van een afzonderlijke leerling, of van een hele klas, of een jaargroep studenten. Al naar gelang de doelen, prioriteiten, en middelen kan zo'n meer of minder uitgewerkte theorie raken aan de diverse onderwerpen die deze paragraaf 2.6 kort uitwerkt. In beginsel is iedere toetsvraag zelf ook een vraag naar een verklaring, zodat er bij de validiteitskwestie sprake is van een gelaagdheid van verklaringen. Dat klinkt ingewikkeld, maar beide vormen van verklaring zullen doorgaans een zekere verwantschap met elkaar hebben. Bovendien gaat het om een type verschijnsel dat leerkrachten bekend voor zal komen: om goed rekenonderwijs te kunnen geven is zowel voldoende wiskundige kennis nodig, als didactisch inzicht in het begeleiden van wiskundige kennisverwerving van leerlingen. Ook hier dus zo'n dubbelslag. Voor rekenonderwijs is er een inzichtelijke studie over hoe leerkrachten dat aanpakken, van Hill, Blunk, Charalambous, Lewis, Phelps, Sleep en Ball (2008).

Het voorbeeld van wetenschappelijk onderzoek naar temperatuur (zie de eerste box) herinnert eraan dat er ook belangrijke gevallen zijn waarin de gegevens voor zich spreken, zonder die verbinding met een theorie. Hiermee is gezegd dat het verklaren op basis van een theorie geen heilig moeten is. Een ander mooi voorbeeld van waarnemingen die op zich geen doorkoppeling naar een theorie nodig hebben, is de proef van Galileï (de tweede box) met een beheerste vrije val. Ook hier geen theorie, dus, behalve dan het briljante idee om op deze manier de versnelling in de vrije val empirisch te onderzoeken.

Niet alles valt te verklaren, een verklaring is ook niet altijd nodig. Maakt dat onrustig? Ik hoop het, dat zou heel gezond zijn. Als iets ‘begrijpen’ gelijk is aan iets kunnen ‘verklaren,’ wat tot op zekere hoogte het geval is, dan kunnen we sommige verschijnselen dus kennen zonder ze te (kunnen) begrijpen. Horen de bewegingswetten van Newton daarbij? Kijk, het vermoeden is dat veel inhouden van onderwijs, van kleuter tot student, een eenzijdig beeld van de werkelijkheid geven: het zijn vaak de zaken die we goed kennen, de fenomenen die helemaal zijn uitgezocht en in kaart gebracht, de kennis die zo uit de encyclopedie gehaald zou kunnen zijn. Soms heet de cursus ook zo: zoals ‘encyclopedie’ van het recht. In natuurkundeboeken komen systemen van twee om elkaar heen bewegende objecten voor, zoals dat van de Aarde en de Maan, want daar is een elegant wiskundig model voor op te zetten op basis van de bewegingswetten van Newton en zijn wet van de wederzijdse aantrekkingskracht. En dan kunnen daar allerlei berekeningen over worden gevraagd, en gemaakt. Is dat natuurkunde? Ik dacht het niet. Wat wel in de buurt komt: begrijpen dat een eenvoudig systeem zoals dat van Aarde en Maan zich bij benadering op basis van Newton’s wetten wiskundig laat modelleren, maar dat zoiets niet kan voor een systeem zoals dat van Venus en Aarde, met de Zon. Hetzelfde voor de inhoud van geneeskundige opleidingen, economie, psychologie, en ga zo maar door. De crux is: gaat het in het onderwijs om overdracht van de kennis die voorgaande generaties hebben veroverd op het onbekende, of gaat het om overdracht van de methoden en technieken waarmee die kennis verder is uit te breiden? Het is te simpel, natuurlijk, en fundamentele onderzoekers zullen er anders over denken dan toepassende onderzoekers. Maar de rode draad doorheen belangrijke beschouwende publicaties over onderwijs is wel degelijk dat ons onderwijs te vol is gepropt met trivia waarmee leerlingen en studenten hun kostbare tijd moeten verspillen, ten koste van diepere inzichten waarmee ze een heel leven vooruit zouden kunnen. Hoeveel eindexamenvragen in 2009 deden er in deze zin iets toe? Een voorbeeld van een stokoude examenvraag die er in ieder geval niet toe doet geeft De Miranda in 1955, zie de box in hoofdstuk vijf.

Ongetwijfeld is een belangrijk onderwijsdoel dat enthousiast binnenkomende studenten ook aan het eind van de rit enthousiast zijn over het vak en over hun ervaringen.

Er bestaat geen een-op-een relatie van globale doelen op de validiteit van toetsvragen, al zijn de globale doelen wel in te zetten als grote verdelger van wat er aan onkruid kan groeien in de inhoud en daarmee ook in de opdrachten aan studenten. Verdelgen is nuttig en noodzakelijk onderhoud. Het is wel zeker dat geen enkele verzameling van op zich valide toetsvragen volledig afdekt wat met het onderwijs is bedoeld. Er blijft dus een onbestemde ruimte over, een mogelijke blinde vlek, een zwart gat, tussen onderwijsdoelen en het geheel aan toetsen en examens. Er zal altijd iets ontbreken, en het ligt in de aard van het ontbreken dat zoiets zich niet zelf meldt. Het blijft met die validiteit dus oppassen.

Opvattingen over nut en noodzaak van examens, en hun specifieke vorm en inhoud, zijn cultureel bepaald. In de late middeleeuwen is een universitair examen vooral een ceremoniële demonstratie van weten en kunnen, zoals bij de huidige promotie nog steeds het geval is. Tegenwoordig zijn examens vooral competitief, ook de Cito Basistoets is dat in feite al: zij bepalen welke maatschappelijke posities bereikbaar zijn. Dat competitieve is een cultureel element, het heeft te maken met het humanistische stempel op het post-middeleeuwse onderwijs. Beter presteren dan anderen krijgt een prijs (Wilbrink, 1997 html). Dat is echt iets anders dan eigen prestaties verbeteren en daar een prijs voor krijgen. Dit humanistische maar competitieve idee leidt direct tot de wat malle praktijk dat examens liever niet naar de bekende weg vragen, maar het de kandidaten zo lastig mogelijk maken. Dat is een praktijk die een directe bedreiging van validiteit van examens vormt omdat het ten onrechte een premie zet op het ‘onderscheidend vermogen’ van examenvragen (zie voor dit punt: Borsboom, Mellenbergh en Van Heerden, 2004 pdf). Let wel: deze term bedoelt niet het onderscheid tussen wat Marie vandaag weet en gisteren nog niet wist, of wat zij weet en behoort te weten, maar het onderscheid tussen wat Marie en Jan weten.

Dat toetsen en tests maar gebrekkige middelen zijn om de wereld te onderzoeken, is door scherpe geesten zoals Lee Cronbach en Goldine Gleser (1957) altijd al benadrukt. Dat examens maar gebrekkig kunnen afbeelden wat in het onderwijs in feite is bereikt, in termen van zijn globale doelen, leidt onmiddellijk tot de volgende conclusie. In plaats van het belang van het centraal schriftelijk in afsluitende examens te benadrukken, zoals Jaap Dronkers in de Nederlandse landelijke pers telkens weer bepleit, zou zijn impact juist een beetje minder behoren te zijn, als daar dan kwaliteit in het voorafgaande jarenlange onderwijs tegenover staat. Het is een dilemma, Jaap. Het met goed gevolg doorlopen hebben van een stevig onderwijsprogramma is de beste kwaliteitsgarantie die scholen hun afstudeerders mee kunnen geven. Het is een middeleeuwse gedachte, ik geef het toe, maar gek genoeg kan dit de ontwerper van toetsvragen meer ruimte geven om kwaliteit en validiteit te leveren.

Voor de ontwerper van opdrachten en examenvragen houdt dat in dat beide categorieën van vragen over de stof qua karakter uit elkaar zullen groeien: de dagelijkse opdrachten voor studenten zijn belangrijker voor de kwaliteit van het onderwijs dan wat er in eindexamens aan hakmes-vragen wordt gesteld. Creëer de kwalitatieve ruimte om centraal schriftelijke eindexamens een meer ceremoniële functie te geven dan begin van de 21e eeuw het geval is en dan wij als pseudo-meritocratie de laatste twee eeuwen in West-Europa gewend zijn. Een eindexamen of een Cito Basistoets hoort geen zwaard van Damocles te zijn voor de leerlingen, dat is onze samenleving onwaardig. Is een stukje van dit ideaal te vangen in de manier waarop we de vraag naar validiteit van toetsvragen van antwoorden voorzien?

Figuur 1. Het schema van onderscheiden gebieden waarop validiteit is te bevechten, is bedreigd, etcetera. Dwarsverbindingen zijn talrijk en van verschillende aard, en daarom in het schema niet aangegeven. Hierbeneden komt ieder van de subdomeinen aan de orde.

Het schema in Figuur 1 biedt een mooie kapstok voor het maken van een technische aantekening meteen bij de opening van deze paragraaf over validiteit over toetsvragen. Het springende punt is dat toetsvragen geen vragen zijn in de normale betekenis van het woord, of in de betekenis zoals die in logica van vragen en antwoorden zoals bij Belnap en Steel (1976) is te vinden. ‘Gewone’ vragen zijn vragen om informatie. Een vragensteller die zelf het antwoord al weet, is niet integer bezig, òf is leraar, grof gesproken. Aan de hand van de vraag ‘hoeveel botjes heeft een leeuw’ is het verschil aan te geven tussen een ‘gewone’ vraag en een toetsvraag — de toetsvraag hier opgevat als representant van een scala van typen vragen die in onderwijs voorkomen. De toetsvraag is de vraag van de leraar of Marietje weet .... hoeveel botjes een leeuw heeft; zèlf weet de leraar dat antwoord wel, de leraar speelt een spel met Marietje, het onderwijsspel. Het antwoord moet de kennis van Marietje bewijzen, niet hoeveel botjes een leeuw heeft. Een toetsvraag is in feite, bij uitschrijven van de bijbehorende vooronderstelling, een vraag gebouwd rond een andere vraag, een vraag die gebruik maakt van een andere vraag. Het is spannend om met dat onderscheid aan de slag te gaan. Of een toetsvraag goed is ontworpen, heeft alles te maken met wat de ontwerper wil weten over de kennis van Marietje, pas als afgeleide daarvan gaat het om de anatomie van de leeuw. De ontwerper die dat omdraait en vragen maakt bij de lesstof in plaats van bij mogelijk veranderde kennis van leerlingen, is even kwijt wat onderwijs is. Zie de checklist intervisie.

Uit deze summiere analyse vloeit voort dat voor de thematiek van validiteit van toetsvragen er een onderscheid nodig is tussen de vraag die de ondervrager heeft — ‘weet Marietje ....’ — en de concreet te stellen vraag die hij nodig heeft om antwoord op die eigen vraag te krijgen. Ik zou beide typen vragen een naam moeten geven, om ze te onderscheiden, laat ik ze eenvoudigheidshalve noemen de eigenlijke vraag — zoals ‘Weet Marietje ... ?’ — en de concrete vraag — zoals ‘Hoeveel botjes heeft een leeuw?’ Ieder type vraag heeft zijn eigen kenmerken, ook in de thematiek van validiteit, waar nog de combinaties van eigenlijk met concreet bijkomen. Er is geen denken aan om dit complex te analyseren zoals Belnap en Steel met alleen concrete vragen hebben gedaan, we zullen genoegen moeten nemen met een meer intuïtieve behandeling.

In het voorgaande is nadrukkelijk sprake van de toetsende leraar die iets te weten wil komen over de beheersing van een leerling. Die nadrukkelijkheid is niet voor niets: er is een heel andere manier van vragen in bijvoorbeeld de klas, die didactisch is gericht. Ook dan is er sprake van een bijzondere omkering van zaken: de leraar stelt de vragen die de leerlingen eigenlijk en bij voorkeur zelf zouden moeten stellen. De leraar wil immers niet iets weten, maar wil dat de leerling iets wil weten. Dat stelt dus levensgroot de vraag naar het eigenaarschap van al die vragenstellerij: hoe kan een leerling die niet zelf de vragen stelt, geïnteresseerd zijn in de mogelijke antwoorden? Zie over beide vormen van oneigenlijke vragenstellerij ook Dillon (1982, p. 158 e.v.).

Refererend aan de figuur, is het duidelijk dat het corpus van het vak, laten we zeggen dat het wiskunde is, van belang is voor validiteit van concrete vragen, het studentmodel voor de validiteit van de eigenlijke vraag, expertise voor combinaties van eigenlijke en concrete vraag, enzovoort. Er kunnen pittige problemen bestaan in het samenspel tussen eigenlijke en concrete vragen, met validiteitslekken wanneer die problemen niet onderkend zijn. Het werk van Belnap en Steel (1967) helpt enorm bij het verhelderen van het begrip concrete vragen, en hoewel deze auteurs zich niet begeven in de complexiteit van examenvragen of instructieve vragen, hebben zij mij enorm geholpen om het onderscheid tussen eigenlijke en concrete vragen te maken. Dat onderscheid kan helpen om dubbelzinnigheden op te helderen in het discours over toetsvragen — zie ook het pleidooi van A. D. de Groot (1970) html voor doorzichtigheid van toetsen en toetsvragen.

Nut en noodzaak van reflectie op de validiteit van toetsvragen is niet onmiddellijk evident: die ene toetsvraag lijkt in alle denkbare opzichten OK, of zelfs die ene toets waar hoe dan ook weinig op aan te merken lijkt, waarom is zelfpijniging dan nog nodig? De reden daarvoor is de reusachtige schaal waarop toetsvragen in het leven van jongeren figureren: ze bepalen in hoge mate hun schoolse leven, en de lengte van dat schoolse leven meten we in de orde van grootte van het mensenleven: daar is het ongeveer een kwart van. Kleine onvolkomenheden in afzonderlijke toetsvragen, als deze een systematisch karakter hebben, kunnen het onderwijs dan behoorlijk op zijn kop zetten. En wel des te sterker, omdat de toetsvragen die ze krijgen te beantwoorden, voor studenten de belangrijkste signalen zijn van waar het in het onderwijs in de dagelijkse praktijk om gaat, los van alle mooie woorden en beginselen. Hoewel deze beschrijving van wat het is voor toetsvragen om valide te zijn wel richting geeft, en aanwijzingen genereert hoe validiteit empirisch is te onderzoeken, is het een te grootse visie om makkelijk te hanteren. Afbreken dus, tot hanteerbare delen of aspecten, maar het wel als kadergedachte vast blijven houden. Wie dit te idealistisch vindt, mag er een financiële vertaling aan geven: onderwijs als investering in menselijk kapitaal is kwetsbaar voor alles wat tijd van studenten verspilt. Gebrekkige toetsen kosten dan goudgeld.

Validiteit van toetsvragen, hun waarheid zeg maar, is niet iets om achteraf nog eens te onderzoeken, wat het gangbare idee onder psychometrici lijkt te zijn (Borsboom e.a. 2004 zetten zich daartegen juist af). Integendeel, bouw validiteit van meet af aan in. Het ontwerpproces zelf moet doordrenkt zijn met validiteit. Dat betekent niet voor iedere te ontwerpen toetsvraag opnieuw fundamentele twijfel: als het goed is, berust het ontwerpen van valide vragen op al bewezen technieken, voorbeelden, sjablonen of rompvragen, expertise, etcetera. De vraag naar validiteit van toetsvragen, of van deze ene toetsvraag, moet door het oppervlakkige vernisje van vanzelfsprekendheid heenbreken, op zoek naar nut en noodzaak. Niets is heilig, en zeker de gewoonte niet, maar evenmin het lesboek. Of de wet — denk aan wat de Commissie Dijsselbloem daarover meldt — die zonder blikken of blozen details kan regelen die validiteit in de weg staan.

Op zoek naar een knallend beeld dat meteen scherp stelt waar het bij validiteit om gaat, is Jaakko Hintikka mij behulpzaam (1999, hoofdstuk 1). Tot nu toe, bij bovenstaande ontwerpregels voor keuzevragen etcetera, gaat het in essentie alleen maar om wat de axioma’s en de definities in de meetkunde zijn, de regels in het schaakspel: welke zetten mag je op welke manier doen op dat schaakbord. Het is handig en verstandig om de verkeersregels te beheersen, je kunt er goed mee van A naar B komen. Maar de verkeersregels zeggen er niets over of het verstandig is om nu van A naar B te rijden. De regels van het schaakspel kun je nog zo goed kennen, ze hebben geen wezenlijke relatie tot wat het is om strategisch te schaken, om schaken te ‘denken’ (De Groot, 1946 dbnl). De definities en de handigheidjes van de logica kunnen de filosoof behoeden voor fouten, maar leiden op zich niet tot excellerende filosofie, misschien wel in tegendeel — en dat is juist de stelling van Hintikka.

Validiteit is niet het toetje voor de ontwerper van toetsvragen, maar dekt waar het bij uitstek om hoort te gaan: welke strategische mogelijkheden zijn er om toetsvragen te ontwerpen die er werkelijk toe doen? Het aardige is natuurlijk dat deze korte analyse op zich al aangeeft wat daar voor nodig is: naar welke B wil de vragensteller eigenlijk, en via welke mogelijk nog ongebaande wegen zou dat avontuur het best tot een goed einde zijn te brengen?

Validiteit is een diepsnijdende kwestie. Ik wil het net breed uitwerpen, en toetsvragen beschouwen als een specifieke vorm van vragen die aan de wereld zijn te stellen. Komt dat bekend voor? Het idee is om toetsvragen te zien als een bijzondere vorm van het experimenteel ondervragen van de natuur, van de wetenschappelijke methode dus. De natuur geeft nooit kant-en-klare antwoorden terug, maar antwoorden die nog enige logische bewerking en interpretatie nodig hebben.

De filosofische basis die Borsboom e.a. onder hun werk leggen is die van het realisme: dat wat de psycholoog pretendeert te meten, moet wel werkelijk bestaan, anders slaat dat meten werkelijk nergens op. Dat realisme leidt wel tot problemen, want hoe is het voor ons stervelingen mogelijk om kennis te nemen van deze werkelijkheden? Voor onderwijzers moet dit ook een klemmende vraag zijn, hoewel de dagelijkse praktijk lijkt te bewijzen dat alles ook wel goed loopt zonder deze zelfkwellende vragen. Maar dat is niet goed genoeg, en in afwijking van de opvattingen van Borsboom e.a. maak ik voor de ontwerptheorie gebruik van het perspectivisme van Ronald Giere (2006). Giere legt bij uitstek die relatie tussen een werkelijk bestaande wereld en hoe wij mensen daarmee omgaan, er kennis van nemen en er vorm aan geven, en er onderwijs over geven. Dat is ook een filosofische benadering die handvatten oplevert voor het ontwerpen van onderwijs in de diverse wetenschappen, en daarmee dus ook hoe kennis van deze wetenschappen zich laat ‘toetsen.’

En zo blijkt een eenvoudige vraag naar validiteit van toetsvragen te leiden tot diepe kwesties. En dat is maar goed ook, want het toetsen van kennis is minder vanzelfsprekend eenvoudig dan op het eerste gezicht lijkt. Er is een reeks modellen bij nodig: een model van de objectieve kennis, een model van wat het voor een leerling is om kennis te hebben (cognitief-neurologisch: hoe werken die hersenen), een model van wat het is om kennis te verwerven, en dus ook een model van hoe ver de leerling kan zijn met die verwerving, en — last but not least — een model van wat het is om uit te vinden hoe dat laatste model zich leent om te kunnen onderzoeken hoe ver de leerling met de kennisverwerving is. Begrijpt u nu waarom het zo duivels moeilijk blijkt om realistisch computergestuurd onderwijs te implementeren? Het ontwerpen van dergelijke programmatuur eist implementatie van al die modellen tegelijk. Nee, dan doen we dat in traditioneel onderwijs wel anders. Het model voor de objectieve kennis is eenvoudig de stof zoals in het leerboek gepresenteerd. Het model van wat het is om kennis te hebben is dat van opgeslagen declaratieve kennis, dus ongeveer de informatie zoals die in het leerboek staat, maar dan in de grijze hersencellen opgeslagen. Het model voor kennisverwerving is herhaling en oefening. Het model voor toetsen is eenvoudig terugvragen van wat als declaratieve kennis aanwezig wordt verondersteld te zijn, als de leerling echt haar best heeft gedaan. Maar met deze rampzalige tradities mogen we niet langer genoegen nemen, het moet echt drastisch anders en beter.

De validiteitskwestie is hiermee wel gesteld. Nu de uitwerking nog. Toetsvragen zijn kunstmatig, of ze nu formatief zijn of summatief. Het gaat om gekunstelde situaties, want het onderwijs gaat er niet over of studenten typische onderwijsvragen redelijk kunnen beantwoorden, maar of zij toegerust zijn voor hun rol in de samenleving. Het is best mogelijk dat er nog een opleiding tussengeschoven is, maar uiteindelijk gaat het om de toerusting voor het leven, niet voor de school. Er kleeft dus een bijzonder vormaspect aan toetsvragen: of zij ondanks hun gekunstelde karakter recht doen aan waar het in het onderwijs (deze school, dit vak, dit proefwerk) om gaat. Dat is de vraag naar validiteit van toetsvragen. Daarom is validiteit al in dit hoofdstuk twee aan de orde, volgt een inhoudelijke uitwerking in hoofdstuk drie, en de toepassing van dit alles in de hoofdstukken vier tot en met zeven, en op een speciale manier ook in hoofdstuk acht.

domeinen van validiteit

Er zijn meerdere niveaus waarop de validiteit van toetsvragen aan de orde is, waarin deze geworteld is, etcetera. Het geheel lijkt wat onoverzichtelijk, maar het is zeker niet zo dat voor iedere nieuw te ontwerpen vraag met alles opnieuw rekening gehouden moet worden. Ieder van deze domeinen is op zich ook al wel bekend, het verrassende van deze opbouw zit vooral in het samenbrengen van deze al langer beschikbare inzichten tot een soort landkaart om het begrip validiteit in te herbergen.

Mislevy en anderen, zie de bron in bovenstaande box, gebruiken de onderscheiden subdomeinen van validiteit niet als check op de validiteit van ontworpen toetsvragen, maar zetten ze van meet af aan in bij het ontwerpen om ervoor te zorgen dat de vragen valide zijn. Dat is een iets andere, omslachtiger en strenger insteek dan deze paragraag 2.6 kiest. Ook een verwante lijn van onderzoek van Eva Baker (Vendlinski, Baker en Niemi, 2008, in dezelfde bundel) gaat voluit voor de constructieve aanpak. Dat is goed voor onderzoekers en ontwikkelaars, maar in bestaand onderwijs zal het toch met kleinere stapjes moeten, anders dreigt er nooit iets van de grond te komen.

het corpus: onze wiskundige etcetera kennis

Op een hoog en algemeen niveau moet het zo zijn dat het onderwijs en de vormen van beoordeling in goede verhouding staan tot dat wat het vak behelst, de kennis die binnen de discipline is vergaard, maar zeker ook wat het is om die kennis te vergaren, om wiskunde te bedrijven bijvoorbeeld. Die gezamenlijke kennis noem ik het corpus, omdat het handig is er een naam voor te hebben. Het corpus van de wiskunde is dan te denken als de gezamenlijke actuele en geaccepteerde kennis en methodieken om kennis te verkrijgen, zoals neergeslagen in publiek toegankelijke publicaties. Waar dat niet tot verwarring leidt, kan ‘het corpus van’ gewoon worden weggelaten: ‘de wiskunde’ is ‘het corpus van de wiskunde.’ De wiskunde is actueel, de wiskunde van 1850 hoort daar niet bij, althans niet vanzelfsprekend. Er is een pittig risico dat het corpus van vak X eenzijdig door X-kundigen omschreven raakt als een waardenvrij geheel van X-kennis. Dat geldt niet alleen wiskunde, maar ook andere disciplines met een sterke organisatie van hun beroepsbeoefenaren. Het mag natuurlijk niet zo zijn dat de samenleving maar heeft te slikken wat een beroepsgroep goed uitkomt, en zeker niet waar het gaat om onderwijs. In de praktijk blijkt menige beroepsgroep erin te slagen het beeld te vestigen dat zij de enige is die over de relevante kennis beschikt om bijvoorbeeld een voorstel voor onderwijsprogrammering te doen. Ik noem nog een enkel voorbeeld: psychologie is een laatkomer, heeft het niet gebracht tot een plek in het voortgezet onderwijs, maar heeft de laatste eeuw grote invloed op de samenleving gekregen (zie bijvoorbeeld Herman, 1995), de testpsychologie zelfs een verpletterende invloed in vooral ook het onderwijs (zie bijvoorbeeld Lemann, 1999). Het corpus van de psychologie, losgekoppeld van deze context, is geen waarachtig corpus. Het springende punt is dan dat het bij kennis in een corpus ook altijd gaat om de vraag ‘waarom juist deze of alleen deze kennis?’

Ellen Herman (1995). The romance of American psychology. Political culture in the age of experts. University of California Press.

Nicholas Lemann (1999). The big test. The secret history of the American meritocracy. Farrar, Strauss and Giroux.

Het is voor experts op een bepaald vakgebied mogelijk om af te bakenen wat wel, en wat niet tot het corpus behoort, zoals wat medische kennis is, en wat kwakzalverij. Voor buitenstaanders, rechters bijvoorbeeld, is het heel wat lastiger om de grens tussen geneeskunde en kwakzalverij te trekken. Dat belooft nog wat voor maatschappelijke discussies over wat wel en wat niet tot bepaalde onderwijsprogramma’s kan horen.

Voor wiskunde hoort naast historische wiskunde bijvoorbeeld ook het puzzelen niet tot het corpus, hoe gek sommige wiskundigen er ook op zijn, althans niet totdat het betreffende gepuzzel verwiskundigd is.

Maar let op: wiskunde is natuurlijk niet alleen maar de verzameling van bewezen stellingen. Misschien wel juist niet: wiskunde is vooral alle getob dat voorafgaat aan het mooi opschrijven van elegante bewijzen (Pólya, 1968). Pólya maakt een verrassend onderscheid tussen overtuigend redeneren, redeneren waar geen speld meer tussen is te krijgen, bewijzen dus, en en aannemelijk redeneren, het redeneren waarmee iedereen, van gewone stervelingen tot rechters en presidenten, het in het dagelijks leven moet doen. In het onderwijs is de verleiding dan heel groot om de wiskunde terug te brengen tot datgene wat mooi bewezen — ‘klaar’ — is, daarmee de werkelijke wiskunde van de vermoedens en het giswerk verdonkeremanend. Het belangrijkste deel van het corpus ontbreekt dan. Popper heeft wel eens beweerd dat de manier waarop je tot een briljante gedachte bent gekomen, privé is en van nul en generlei waarde voor anderen. Voor Pólya zit de kracht van de beoefening van de wiskunde integendeel juist de kwaliteit van de aanloop naar wat pas later bewijsbaar blijkt. Maar daar zal Popper het zeker ook mee eens zijn.

De werkelijkheid kan ontluisterend zijn. Milgram (2007 pdf) rapporteert dat in de V.S. een kwart van de wiskundevragen in toetsen op staatsniveau (voor accountability) wiskundig onjuist zijn, meest door misvattingen over wat wiskundig probleemoplossen is. Een enorme misvatting is dat men Polya’s (1957) heuristieken als wiskundige doelen opvat, dat wil zeggen als competentie zonder inhoud. Een kwart van de vragen valt inhoudelijk dus buiten het corpus! Voor details verwijst hij naar Cross, Rebarber, Torres & Finn (2004 pdf), een ongelooflijk omvangrijke en kritische evaluatie van staatstoetsen taal en wiskunde in basis- en voortgezet onderwijs in de VS. Ik kan daar de 25% van Milgram niet in terugvinden, maar de teneur van de evaluatie is dat het, op een handvol staten na, met deze toetsen droevig is gesteld, al heeft de NCLB-Act wel voor meer inspanningen van de betreffende staten gezorgd.

Ronald Giere (2006) werkt uit wat een wetenschappelijk corpus in filosofische zin is, binnen zijn perspectivisme: het corpus is abstract maar moet als werkelijk bestaand worden opgevat. Denk concreet aan wetenschappelijke publicaties, maar zeker ook aan wat aan kennis is neergeslagen in de taal. Zo begint Struik zijn geschiedenis van de wiskunde met hoe wiskundige kennis neerslaat in taal en zo ook wordt doorgegeven aan nieuwe generaties. Het is zinvol om te spreken van wiskundige kennis van kleine kinderen (Sophian, 2007), maar dat is dan net iets anders: hoe kleine kinderen al deelnemen aan wiskundige kennis, en dat is mijn volgende domein van validiteit.

Ik zal op een later moment de verwijzing naar het werk van Giere op dit punt, het corpus, nog iets uitwerken. Van enig belang is ook Anthony Chemero (2009). Radical embodied cognitive science. The MIT Press. Dit is een lijn van onderzoek en theorievorming die tegenover gevestigde cognitieve theorieën staat, theorieën namelijk die ervan uitgaan dat er in de hersenen heel veel rekenwerk gebeurt aan de hand van representaties van de waargenomen wereld. De radical embodied cognitive science is een radicale consequentie van het perspectivisme van Giere, zou je kunnen zeggen, hoewel Chemero het werk van Giere mogelijk niet kent. Bij Chemero zijn twee lijnen van denken van belang: de ecologische psychologie doe door James Gibson is gegrondvest, en dynamische systeemtheorie. Hoe dat ook zij, voor het onderwijs, leren, en dus ook toetsen is van belang hoe de leerling in zijn omgeving zit, zeg maar. De belofte van de theorie zou wel eens kunnen zijn (maar Chemero speculeert daar niet over) dat er radicaal andere onderwijs- leer- en toetsomgevingen zijn te ontwerpen die veel en veel doeltreffender zijn. En dus valider.

Wat is eigenlijk het corpus voor vakken in de propedeuse, het middelbaar onderwijs, of het basisonderwijs? Kun je zeggen dat voor het rekenen in het basisonderwijs de wetenschappelijke wiskunde het corpus is? Voor de algebra in het middelbaar onderwijs de wetenschappelijke algebra? Zoveel is duidelijk: het wetenschappelijke corpus moet in ieder geval het uitgangsunt zijn, voor die vakken waarin dat corpus aanwijsbaar is. Of er voor Nederlands als moedertaal een wetenschappelijk corpus bestaat is misschien betwistbaar, hier is de moedertaal primair: met de paplepel ingegoten. Maar mogelijk is er voor specifieke doeleinden een goede plaatsvervanger, zoals de Algemene Nederlandse Spraakkunst ANS. Voor algebra in het middelbaar onderwijs lijkt een veilige weg om de wetenschappelijke algebra als corpus te hanteren, waarmee de schoolalgebra niet al te hard mag botsen, waarvan de schoolalgebra is afgeleid in een aantal stappen die nu juist de hierbeneden te behandelen domeinen van validiteit zijn: om welke beperkte expertise gaat het bij schoolalgebra, etcetera.

wat is dan het corpus van het onderwijzen van bijvoorbeeld wiskunde?

Het corpus van de wiskunde, ook het selectieve corpus van de schoolwiskunde, is wiskunde. Wiskunde leren is een thema dat hoort tot het corpus van de leerpsychologie. Wiskunde onderwijzen hoort dan op zijn minst tot (het corpus van) de didactiek van de wiskunde. Het onderscheid tussen het ene en het andere corpus is scherp neergezet door Shulman (1986 pdf), die inventariseert wat bijvoorbeeld de leerkracht die het rekenonderwijs verzorgt, naast een stevige kennis van de nodige wiskunde, nog nodig heeft aan stevige kennis over typische moeilijkheden die leerlingen met de stof kunnen hebben, hoe je weet hoe ver de leerling is gevorderd, etcetera. Shulman onderscheidt reguliere kennis (propositional knowledge, kennis van casus (case knowledge, een begrip dat voor onderwijs in de rechten vanzelfsprekend is, maar dat Shulman dus tot alle onderwijs uitbreidt), en strategische kennis (jawel, strategic knowledge). Het laatste type is complex: “Strategic knowledge is developed when the lessons of single principles contradict one another, or the precedents of particular cases are incompatible.” Shulman lijkt hier af te stevenen op een niveau van expertise van de leraar dat het mogelijk maakt om ook in niet eerder ontmoete situaties adequaat te handelen tegenover leerlingen. Wat heeft dit met opgaven te maken: Shulman vraagt zich concreet af wat het corpus moet zijn voor een examen van leraren, vandaar. Tenslotte: het door Shulman bedoelde corpus is verwant met het specifieke corpus van kennis nodig voor de ontwerper van toetsvragen; het lastige hiervan is dat dit boek dat corpus juist wil ontwikkelen.

metadisciplines

Ieder vak kent grensgebieden die niet tot het corpus van het vak zelf behoren. Vaak worden die grensgebieden aangeduid met de verzamelnaam ‘metamathematica,’ ‘metajuridica,’ etcetera. Onder de kapstok ‘meta’ vinden we dan verzameld: geschiedenis, didactiek, sociologie, filosofie, etcetera van het vak. De dilemma’s rond dergelijke vakken zijn groot: moeten ze worden verzorgd door mensen die allereerst vertrouwd zijn met het corpus van het vak, of juist door mensen die allereerst historicus, filosoof, of leerpsycholoog zijn? Het is onmiddellijk duidelijk dat hieruit problemen met validiteit van toetsopgaven uit voort kunnen komen als de een categoriefout maakt: toch vragen naar de het aantal botjes van de leeuw, in plaats van naar wat Marietje weet over het aantal botjes van de leeuw. Het gaat er niet om of de vraag een goede biologievraag is — dat is voor onderzoekers in de biologie belangrijk — maar of de vraag een goede kennis-van-de-biologievraag is — wat is de kwaliteit van de kennis van Marietje over de botjes van de leeuw?

articuleren van het corpus

Ik vermoed dat het in het algemeen noodzakelijk is om binnen het corpus van een bepaalde discipline verder onderscheid aan te brengen, zoals dat naar wat formeel respectievelijk strategisch is. Neem schaken als prototypisch voorbeeld, een ‘wetenschap’ die gaat over een kunstmatige en daardoor netjes afgeperkte wereld. Wat in deze wereld toegestane zetten zijn, is vastgelegd in de spelregels van het schaken. Het is mogelijk om in korte tijd een perfecte beheersing van deze regels op te bouwen. Die perfecte beheersing is weliswaar een voorwaarde om een tegenstander behoorlijk partij te geven, maar in de verste verte is het niet voldoende voor zelfs maar een aardige amateurpartij. Voor een behoorlijk schaakspel is toch wel een vereiste dat beide spelers ook strategisch van wanten weten. Het is handig dat over strategisch inzicht bij schaken het proefschrift van A. D. de Groot (1946, tekst: dbnl) beschikbaaris. Op dat baanbrekende werk is later nog stevig voortgeborduurd, niet alleen wat schaken betreft, maar dit werk is dan ook een hoeksteen in de ontwikkeling van de cognitieve psychologie geweest.

Het springende punt is nu dat het voor het ontwerpen van valide toetsvragen noodzakelijk is dat onderscheid te maken tussen de formele grondslagen van een vak en de strategische verworvenheden. Tenzij het uitdrukkelijk de bedoeling is kennis van de regels te toetsen, zou het een kunstfout van de ontwerper en de didacticus zijn om het strategische te verwaarlozen ten gunste van het formele. Helaas is dat laatste wel wat in een aantal schoolse vakken gebeurt. Hintikka (1999, hoofdstuk 1) doet op dit punt een scherpe aanval op het onderwijs in de logica, en ik vrees dat zijn argumenten snijdend correct zijn. Erger nog: vul in dat hoofdstuk in plaats van ‘logica’ bijvoorbeeld ‘algebra’ in, en het vermoeden ontstaat dat het wiskunde-onderwijs ook gebukt gaat onder overbeladenheid van definities en alles wat daaruit stapsgewijs mag worden afgeleid, ten koste van wat de mens strategisch vermag met algebra als zijn instrumentarium.

Als Hintikka in het genoemde hoofdstuk niet direct kwesties van validiteit van onderwijs, en dus ook toetsvragen aanspreekt, dan weet ik niet waar ik nog verder moet zoeken. Wat een feest. Maar hij is sinds 1999 dan ook volop doorgestoomd naar een complete theorie over het bevragen van de wereld.

onderwijs en het corpus

Het onderwijs moet in goede relatie staan tot het corpus, en dat is iets anders dan dat het onderwijs zo getrouw mogelijk het corpus of althans een deel daarvan als leerstof zou moeten hanteren. Het laatste is een misvatting die niet zeldzaam is. In het reken- en wiskundeonderwijs is de New Math een voorbeeld van het streven in het onderwijs de meest strikte opvattingen uit het corpus in de leerstof in te werken. De didactische opvatting die daarbij past is dat scholieren gewoon die strenge wiskunde moeten leren, daarmee basta, dat is de opvatting waar Hans Freudenthal gelukkig tegen ten strijde trok (zijn anti-didactische inversie): de structuur van de wiskunde mag natuurlijk de didactiek niet dicteren. Freudenthal heeft de introductie van New Math in Nederland kunnen verhinderen.

Fred Goffree, Martinus van Hoorn en Bert Zwaneveld (Red.) (2000). Honderd jaar wiskundeonderwijs. Een jubileumboek. Leusden: Nederlandse Vereniging van Wiskundeleraren.

wat is expertise m.b.t. dat corpus?

Mensen zijn expert in tal van zaken. We zijn expert-begrippenbouwers, om maar eens met een niet gering voorbeeld te beginnen. We zijn bij de geboorte al toegerust met de capaciteit om ons begrippen te vormen, en zijn dan al snel in staat om bewegende voorwerpen, een gezicht bijvoorbeeld, als een en hetzelfde object te zien (en niet als een verschillende vlekken op verschillende plaatsen in verschillende belichting). We zijn hard-wired met de capaciteit om ons dit eerste begrip van constantie van objecten te vormen. Na dit eerste begrip zullen er nog vele volgen. Merk op dat deze expertise al meteen gesitueerd is in de wereld. Waarschijnlijk is dat met alle expertise het geval. Die gesitueerdheid komt in de volgende paragraaf aan de orde. Zo is er een nauwe verwevenheid tussen de woorden die de moedertaal heeft voor verschillende kleuren, en hoe we kleuren leren zien, als van elkaar onderscheiden. Ronald Giere (2006) geeft daar een instructieve uiteenzetting over. Het wonderlijke is dat de ervaring van kleuren zo overdonderend is, dat het moeilijk is voor te stellen dat we dit onszelf hebben geleerd, dat het een fictie is die door onze hersenen wordt gecreerd. Maar goed, de neurocognitieve invalshoek komt ook later aan de orde.

Sinds Einstein is er niet vaak zo'n krankzinnig idee geopperd als dat van João Magueijo (2003): dat de snelheid van licht uiteindelijk toch niet constant zou zijn. Zo'n idee kan het corpus van de natuurkunde aardig opschudden, zoals Einstein eerder deed met zijn idee dat uit de experimenteel aangetoonde constante snelheid van licht moet volgen dat tijd en ruimte niet constant kunnen zijn, en dus mee moeten buigen. Ziehier een enorm verschil tussen het corpus van de wetenschap, en het beoefenen van wetenschap. Nee, dat schrijf ik verkeerd op. Beter: Het corpus omvat deels de kennis die algemeen is geaccepteerd als ertoe behorend, en vooral de (soms juist niet algemeen geaccepteerde) methoden om dat kennis-deel van het corpus uit te breiden, of onderuit te schoppen. Gestolde wetenschap, versus levende wetenschap. Voor expertise is uiteraard kennis van relevante delen van het corpus een voorwaarde, maar expertise begint daar pas, in plaats van erdoor te worden uitgeput. Corpus en expertise zijn verschillende categorieën.

Expertise van de vakman of vakvrouw, de schaker, de natuurkundige, de automobilist ook (Ericsson, Charness, Feltovich en Hoffman (2006), is richtinggevend voor ontwerpers van onderwijs, en zeker voor ontwerpers van certificerende examens (Ericsson, 2009). Maar onderwijs is een situatie van op-weg-zijn, en dat betekent dat er spanning kan bestaan tussen presteren in onderwijssituaties en dat wat de expert schijnbaar moeiteloos in de ‘echte’ wereld presteert.

Robert Sternberg (2003, zie de box) poneert hier in een paar woorden een programma om het onderwijs grondig aan te pakken met als doel het meer valide te maken Dit is natuurlijk geen losse flodder van hem, het slaat op een onderzoekprogramma dat al decennia draait, en dat al heel wat evidence heeft opgeleverd voor veel doeltreffender onderwijs dan het traditionele waar we nog onder gebukt gaan.

Het is handig om zicht te hebben op verschillen tussen de kennis van de expert, versus die van de nieuwkomer: zie Chi (2007) voor methoden om die verschillen vast te stellen, althans in het laboratorium. Hoe dat ook zij, onderzoek zoals dat van Chi kan de ontwerper van toetsvragen gevoelig maken voor de kwesties die hier spelen.

Zie het probleem in bovenstaande box, denk eerst goed over na over uw antwoord voordat u verder leest. Een wetenschappelijke benadering van belangrijke problemen past ons allemaal, wanneer het bijvoorbeeld gaat over de rechtsstaat. We zouden niet graag zien dat het Openbaar Ministerie, de minister, of rechters er maar een potje van maken, niet? Dan zien we hier dus een minister die ogenschijnlijk een technisch verhaal afsteekt over de bewijskracht van DNA-analyses: valt u ervoor, of denkt u er zelf ook nog over na? Deze minister zegt dat bewijsmateriaal van nul en generlei waarde is wanneer het het grootste deel van de Nederlandse bevolking als mogelijke dader uitsluit. Zie: neem een beetje afstand tot de boodschapper, en onze hersencellen gaan er vanzelf zo actief mee aan de gang dat dit inzicht spontaan op lijkt te komen. Behalve bij de leden van de Tweede Kamer tijdens het debat zelf. Ook fragmentarisch bewijs kan daders uitsluiten, in dit geval had het de eerste (en onschuldige) verdachte kunnen vrijspreken. Onze minister van justitie heeft dit staan ontkennen. Juristen noemen zoiets een kunstfout, en meestal hebben ze het dan over een chirurg die het verkeerde been afzet. Ik ben geen jurist, maar begrijp toch dat feiten mogelijk schuld kunnen bewijzen, of onschuld. Crime fighters die alleen denken aan het bewijzen van schuld, horen in een menselijk rechtsbestel niet thuis. Vandaar.

Dit Donner-casus laat verschillende dingen zien. Hoe juridische expertise faalt wanneer de expert zich door zijn gebrekkige kennis van de wereld (van DNA) op het verkeerde been laat zetten. Hoe een leek met een beetje kennis van de wereld de expert dan kan betrappen op een kunstfout. Dat falende expertise slachtoffers maakt, evenals trouwens onoplettendheid van leken (zoals kamerleden niet-juristen) die het aanzien. Dat casus zoals deze, bij wijze van spreken dagelijks in uw dagblad te vinden, fantastisch onderwijsmateriaal leveren. Dat u, als ontwerper van toetsvragen, of als beoordelaar, mogelijk ook Donner-achtige fouten kunt maken — en wie kan u dan tegenhouden? Zorg voor intervisie.

schoolse kennis

Iedereen is bekend met het verschijnsel dat voor het examineren van kennis diezelfde kennis verschijnt als opgeknipt in talloze kleine afzonderlijke, geobjectiveerde, stukjes, opgaven, en problemen. Dat is te zien in de geschiedenis van de prestigieuze Mathematical Tripos examens in Cambridge, van de 18e naar de 20e eeuw. En het is dagelijks in onze scholen waarneembaar. Gek genoeg staat het verschijnsel niet echt in de belangstelling van onderzoekers. Mogelijk een sleutelpublicatie is het artikel van Poole (1994) dat aan de hand van concreet onderwijsmateriaal de problematiek karakteriseert. De laatste zin van het abstract vat samen dat de resultaten van dit onderzoek suggereren dat “... testing encourages and exaggerates the extent to which a positivistic view of knowledge prevails.’ Moet ik de conclusie nog onder woorden brengen? Als toetsen hapklare brokjes bevatten omdat die weinig of geen discussie uitlokken en gestandaardiseerd zijn na te kijken, en tegelijk de resultaten van onderwijs toetsbaar moet zijn, dreigt een afglijdende schaal naar infantilisering van het onderwijs.

gesitueerdheid van kennis

De geschiedenis van de meetkunde illustreert ook fraai die andere kant van de gesitueerdheid van kennis: het corpus zelf is in hoge mate bepaald door gewoonte, cultuur, toevalligheden, en de stand van altijd maar voortgaande ontwikkelingen en soms omwentelingen in het vak.

Neem als voorbeeld de gewoonte in de algebra om onbekenden aan te duiden met kleine letters x, y, etcetera, het platte vlak te ordenen naar een ordinaat x en abscis y, en functionele verbanden tussen wat ineens variabelen x en y heet in dat platte vlak af te beelden. Het is een gewoonte waar niets gewoons aan is, het gebruik is door Descartes geïntroduceerd, en wordt leerlingen bij de eerste kennismaking met de algebra zonder blikken of blozen voorgehouden als onderdeel van wat het is om wiskunde te doen in onze wereld. Maar dit gebruik heeft niet te maken met wat de kern van de wiskunde is, waaraan sommigen een platonisch bestaan in de werkelijkheid toe willen kennen. Het is een gesitueerde techniek. Fijn dat te weten, zult u denken, maar de didactische betekenis daarvan hoort enorm te zijn: want zo'n gebruik is tot op zekere hoogte puur toevallig zo uitgekristalliseerd, en tot op die hoogte ook alleen als zodanig goed te begrijpen door de leerlingen. Ik vermoed dat het laatste precies is wat er doorgaans op pagina 1 van de algebraboekjes op school gebeurt, maar dat valt na te zoeken. Voor de ontwerper van valide toetsvragen is van belang dat handigheid in het omgaan met dit cartesiaanse gebruik als zodanig geen wiskunde is, om de wiskunde te zien moet je door de techniek heen kijken. Bent u er nog? Ah, voor natuurkunde is er een vergelijkbaar probleem, kijk maar eens hoe de vrije val door lesboekauteurs wordt behandeld: vaak cartesiaans. De beschrijving van de vrije val in termen van afstanden en tijden is precies dat: een beschrijving, geen verklaring, precies wat sociale wetenschappen vaak wordt verweten, maar ja, zij beschikken niet over zo waanzinnig nauwkeurige gegevens. Zo zijn we gewend dat te doen met de beschrijving van de vrije val, maar er is natuurlijk niets gewoons aan: een fenomeen door en door goed kennen in beschrijvende zin, zonder oorzakelijke verbanden te kunnen aangeven, is verbazingwekkend. Waarom vertellen we dat die leerlingen niet meteen?

Vrije val: Figuur 1.5 in Marcelo Alonso en Edward J. Finn (1994). Fundamentele natuurkunde ten dienste van het wetenschappelijk onderwijs, deel I Mechanica. Delta Press.

Mathematische fysica als ‘alleen maar’ beschrijvend, in ieder geval in de negentiende eeuw: Danny Beckers (2006). Wiskunde in de negentiende eeuw. In Machiel Keestra: Een cultuurgeschiedenis van de wiskunde (p. 172). Uitgeverij Nieuwezijds.

Over kinematica en dynamica zie bijvoorbeeld de indringende analyse van Brian Ellis (1965). The origin and nature of Newton’s laws of motion. In R. G. Colodny: Beyond the edge of certainty. Essays in contemporary science and philosophy (p. 29-68). University Presss of America.

Fundamentele natuurwetten zijn precies wat de naam zegt: fundamenteel, dus niet verder te verklaren. Zie Strevens (2008) voor de filosofie van wat het is fenomenen te verklaren. Is de wet van Newton voor de wederzijdse aantrekkingskracht van twee lichamen (de vrije val is er een voorbeeld van) zo'n fundamentele wet? Nee. Het is een black box wet, er zit een verborgen mechanisme achter. De relativiteitstheorie specificeert dat mechanisme.

de neuropsychologie van kennis

Levende wezens, dieren, mensen zijn patroonherkenners, geen logische machines die rechtlijnig kunnen redeneren en daarom rationeel kunnen zijn. De ongelooflijke stand van zaken met een groot deel van ons onderwijs is nu juist dat het uitgaat van rechtlijnig redeneren, logisch redeneren, iets dat onze hersenen dus typisch niet zonder kunstgrepen kunnen. Het onderwijs lijkt een grote samenzwering om het leven van leerlingen zo moeilijk mogelijk te maken, door voortdurend dingen van ze te vragen die niet natuurlijk voorhanden zijn.

Neem even de tijd om over die tegenstelling tussen patroonherkennen en logisch redeneren mee te denken (rechtlijnig, of intuïtief, net wat natuurlijk komt). U loopt in een drukke winkelstraat in een vreemde stad. Een goede bekende komt u tegemoet in een stroom van honderden andere mensen. Wat denkt u: herkent u die bekende? En hoeveel tijd kost u dat om die bekende te herkennen? Precies, dat gaat bliksemssnel. Dat is heel wonderlijk, want onze zintuigen en hersenen zijn niet geweldig snel omdat veel processen relatief traag, chemisch, zijn. Het is absoluut onmogelijk dat onze hersenen zouden werken zoals een computer is te programmeren: met miljoenen logische stapjes. Voor zelfs de eenvoudigste taken zouden zulke hersenen telkens een spreekwoordelijke eeuwigheid nodig hebben om tot een besluit te komen: Hallo, Ben, dat ik je hier tegenkom! Of: De aardappels branden aan, kun je de pan van het gasfornuis zetten? Toch is waarschijnlijk een groot deel van het onderwijs ingericht op de veronderstelling dat de hersenen van die leerlingen werken als computers, dat ze alleen goed geprogrammeerd moeten worden, en dat de programmeur, de leerling, voortdurend goed op moet letten dat de zaken niet in het honderd lopen (dit is de homunculus-idee, dat kleine mannetje in ons hoofd dat ons denken stuurt .... ; zie Linschoten’ Idolen van de psycholoog (1968) hierover). Het is dus niet zo'n gekke gedachte dat onderwijs op verkeerde veronderstellingen is gebouwd, en mogelijk waanzinnig ondoeltreffend is. Inclusief veel van wat er aan terugkoppelen, beoordelen en examineren plaatsvindt.

Hoe zintuigen en hersenen dan wèl werken? Dat is een groot raadsel, maar er valt al wel heel veel over te weten op grond van neurocognitief onderzoek en slimme modellen die zijn opgesteld (Zie John Anderson, 2007, zonder enige twijfel het beste overzicht op dit moment voor de psycholoog en de belangstellende leek; een schat aan wetenschappelijke artikelen op de ACT-R website beschikbaar voor download). Voor een aardig voorbeeld over hoe we woorden produceren, zie Willem Levelt 1996 pdf; zijn 1995 geeft een soort multidisciplinaire introductie pdf. In die modellen is weinig meer over van de metafoor van de geprogrammeerde computer, laat staan van die metafoor uit vroeger tijd: het uurwerk/raderwerk.

Het laat zich raden dat al naar gelang de ontwerper van toetsvragen uitgaat van de veronderstelling van de hersenen als logische machine, danwel als patroonherkenner, het zelfonderzoek naar validiteit van de zo ontworpen vragen andere uitkomsten levert.

Dit neurocognitieve subdomein is met stip het meest interessante, het belangrijkste, en nog het minst bekende van de hier onderscheiden subdomeinen voor onderzoek naar validiteit van toetsvragen. Voor mooi onderzoek met neural imaging technieken naar hersengebieden betrokken bij probleemoplossen zie Anderson, Betts, Ferris, Fincham (submitted)

J. R Anderson, S. A. Betts, J. L. Ferris and J. M. Fincham (submitted). Can neural imaging investigate learning in an educational task? Cognitive, Affective and Behavioral Neuroscience. [http://act-r.psy.cmu.edu/publications/pubinfo.php?id=819]

Dan is er het niveau van de individuele kenner. Natuurlijk is kennis op een bepaalde manier gebonden aan individuele personen, de vraag is op welke manier precies. Het maakt voor het ontwerpen van toetsvragen veel uit of de ontwerper de overtuiging heeft dat alle kennis declaratieve kennis is, dus op de een of andere manier in de hersenen beschikbaar is in kant en klare uitspraken die de student alleen maar hoeft op te halen en te uiten, of integendeel de overtuiging dat kennen een constructief proces is dat alleen behoorlijk verloopt in geschikte omstandigheden en met adequate hulpmiddelen, gegeven dat de student zijn lessen adequaat beheerst. Zo’n geschikte omstandigheid kan de groepsdiscussie zijn, teamwork.

Op tal van plaatsen in de tekst van ‘Toetsvragen ontwerpen’ komt onderzoek van neuropsychologische aard aan de orde als bewijs voor de juistheid van een bepaalde techniek, of de mogelijkheid van kennis onder specifieke omstandigheden. Bijvoorbeeld de nadruk die ligt op een ordening van de wereld of het vak naar zijn begrippen en de relaties daartussen. Als dat zinvol is, moeten we zijn toegerust met de mogelijkheid om de wereld zo te kunnen zien, noodzakelijk zo te zien. Dan moet als het ware in de hardware van de hersenen de mogelijkheid van de vorming van het eerste of een eerste begrip gegeven zijn. Op basis van dat ene begrip kan dan de rest van de cognitieve ontwikkeling volgen.

In Nederland timmert Jelle Jolles sterk aan de weg (jellejolles.nl), maar zijn neurowetenschappelijke inbreng is niet precies wat hier wordt bedoeld. Daarvoor moeten we meer kijken naar werk van John Anderson (Lebiere en Anderson, 1998), Susan Carey, en onderzoek onder het label parallel distributed processing (Rumelhart and McClelland, 1986).

Een werkelijk aardige inleiding in neurocognitie, met in het bijzonder aandacht voor de betekenis van het nog onvolgroeid zijn van de hersenen van jongeren voor hun mogelijkheden om taal te leren, te rekenen, of hun huiswerk te plannen, biedt Eveline Crone (2008) Het puberende brein. Zij signaleert bijvoorbeeld voor rekenen (p. 70) dat daar complexe processen bij aan de orde zijn, waar we helaas nog maar heel weinig van weten (maar er wordt aan gewerkt, zie bijvoorbeeld Riviera, Reiss, Eckert en Menon (2005) . pdf), maar het ligt voor de hand dat onderzoek uit zal wijzen dat sommige rekenmethoden niet altijd terecht de beschikbaarheid van specifieke hersenfuncties vooronderstellen. Daaraan verwant is wat Crone flexibiliteit noemt, het vermogen om over te schakelen van een bekende procedure naar een nieuwe procedure. Kinderen beschikken niet over de mate van flexibiliteit die voor volwassenen vanzelfsprekend is. Dat voorspelt problemen bij didactische methoden zoals het kolomrekenen in de methoden van realistisch rekenen: niet voor dat kolomrekenen zelf dat als tussenfase moet dienen, maar voor de stap naar de traditionele methoden die nodig zijn om echt behoorlijk te kunnen rekenen. Zie ook www.brainanddevelopmentlab.nl

Het zich ontwikkelende brein is een cruciale factor in de hele onderwijsperiode. Om maar eens iets te noemen: meta-cognitieve vaardigheden zijn bij jongeren allerminst vanzelfsprekend aanwezig, en dat geldt zeker voor de leerlingen in de leeftijd van de basisschool (Brown, 1978). Weten wat je weet, en wat niet, is niet vanzelfsprekend. Dat kan bijvoorbeeld bij keuzevragen tot onvermoede problemen leiden: hoe antwoorden leerlingen die inzicht missen in wat zij wel en niet weten op keuzevragen? En als de interpretatie van antwoorden op keuzevragen al lastig is, hoe moet dat dan bij open vragen? La Greca (1990) is een goede vindplaats voor antwoorden op deze vragen.

Annette M. La Greca (Ed.) (1990). Through the eyes of the child. Obtaining self-reports from children and adolescents. London: Allyn and Bacon.

Ann L. Brown (1978). Knowing when, where, and how to remember: A problem of metacognition. In Robert Glaser: Advances in instructional psychology, volume 1 (77-165). Erlbaum.

een model van de kennis van de student

3 december 2010. Ik heb mij de laatste tijd verdiept in het werk van Robert J. Sternberg over successful intelligence en denkstijlen. Vooral zijn laatste boek College Admissions for the 21st Century, Harvard University Press, heeft enorme indruk op mij gemaakt. Zie een interview met Sternberg over dit boek. Het springende punt is dat naast de iedereen bekende analytische intelligentie ook praktische en creatieve intelligentie, en op wijsheid berustende capaciteit belangrijk samenhangen met bijvoorbeeld studieprestaties. Het zorgelijke is nu dat in het onderwijs eigenlijk alleen die anaytische intelligentie wordt benadrukt, vooral ook bij toetsen en examens. Dat zou wel eens een ernstig kwaliteitsgebrek van het onderwijs kunnen zijn, en in de beoordeling van leerlingen en studenten. Bij het ontwerpen van toetsvragen zou het dus een expliciet punt van aandacht zijn om kennis en vaardigheden niet alleen te toetsen op de analytisch-intelligente wijze, maar ook op de andere intelligente menaieren van omgaan met kennis. Dat is wel lastig, omdat juist meerkeuzevragen bij uitstek analytisch van karakter zijn. Afijn, dit betekent dus dat ik eigenlijk heel dit boek over het ontwerpen van toetsvragen moet herzien op deze verbreding van het inzicht in wat het is om leerlingen en studenten te toetsen op hun kennis.

Als we een kind kleden, moeten we zijn maat weten, en of het een jongen of een meisje is. Als we het kind onderwijzen moeten we het niet een ‘one size fits all’ pakket aanbieden. Een verdraaid passende vergelijking van Blanford, een eeuw terug. Waar komt dan het idee vandaan dat het juist en eerlijk zou zijn om al die kinderen, studenten, dezelfde toetsen voor te leggen? Is dat niet een categoriefout, het misplaatste idee dat een toetsvraag een ‘meetlint’ is dat zich plooit naar welke lengte en omvang dan ook?

In hun onderwijs zijn studenten op weg naar kennis, er is daarom een adequaat model voor het beschrijven van onvolledige kennis nodig, mogelijk ook van eventuele misvattingen. Bij de ontwikkeling van computergebaseerd onderwijs in de tachtiger jaren van de vorige eeuw bleek het noodzakelijk om met studentmodellen te werken: om adequaat te kunnen sturen moet de programmatuur immers over een model beschikken van hoe het staat met de vorderingen van de student, een model dat permanent wordt geactualiseerd (Sleeman, 1983; VanLehn, 1988).

Een uitgewerkt voorbeeld van zo'n model van kennis is het programma Perdix van Greeno (1978), dat meetkundige problemen oplost. Voorzover dat oplossen lukt, is dus precies bekend hoe de oplossing is gevonden, of beter: is geproduceerd. Zo'n computerprogramma moet dus een model zijn van de kennis van studenten die dezelfde problemen op vergelijkbare wijze weten op te lossen.

In algemene zin gaat het er bij toetsvragen om dat de vragensteller zich een beter beeld kan vormen van de vorderingen van de student. De leraar vraagt geen antwoord op de gestelde vraag, maar wil weten of Marietje dat antwoord kan geven of (nog) niet. Het bestaande beeld is de theorie T op basis waarvan de vragensteller aan de slag kan om via te stellen vragen dat beeld verder uit te breiden of preciezer te maken. Dit is de methode van Hintikka om kennis te verwerven, in dit geval kennis van de vragensteller of -ontwerper over de vorderingen van de student: theorie T = model van de vorderingen van student S.

Een leerlingvolgsysteem zou een deel van de inhoud voor het studentmodel kunnen leveren, maar daar zit een groot risico van bureaucratisering van het leren in. Aardiger is om in een-op-een vormen van onderwijs of training te kijken hoe de leerkracht voortdurend bezig is op basis van haar inzicht in hoe ver de trainee is gevorderd, specifieke terugkoppeling en nieuwe opgaven te geven.

Deze nadruk op de stand van de vorderingen is niet goed genoeg, of geen volledig studentmodel. De stilzwijgende vooronderstelling is dat gegeven de vorderingen of verschillen daarin, alle studenten gelijk zijn. Dat is geen handige vooronderstelling, weg ermee. Maar dan wat? Zijn alleen verschillen in algemene intelligentie van belang? Dit is een goede vraag om mee te beginnen.

Sleutelpublicaties zijn hier de publicaties voortvloeiend uit het onderzoekprogramma van Robert Sternberg naar triadische intelligentie, zoals hij dat noemt: creatieve, analytische en praktische intelligentie (2008). Het citaat in bovenstaande box hoort bij een onderzoek (zie o.a. Sternberg, Ferrari, Clinkenbeard en Grigorenko, 1996) dat precies doet wat het citaat zegt: uit de VS en landen daarbuiten zijn begaafde leerlingen geselecteerd die uitblinken op een van de drie aangegeven typen intelligentie, of die gelijkmatig hoog scoren op deze drie typen, resp. gelijkmatig laag; zij zijn vervolgens aan de universiteit van Yale onderworpen aan een experimenteel trainingsprogramma waarin creatieve, analytische en praktische condities experimenteel werden gemanipuleerd. En ja hoor: wat onderwijsonderzoekers decennialang niet is gelukt of althans zelden, lukt hier wel: er is een interactie tussen capaciteiten en condities in de aangegeven richting, dat wil zeggen dat een mismatch belemmerend werkt, een goede match bevorderend. Kijk, omdat het om vorderingen gaat, is dat een resultaat een mooi startpunt voor een studentmodel.

Jürg Wittwer, Matthias Nückles and Alexander Renkl (2008). Is underestimation less detrimental than overestimation? The impact of experts’ beliefs about a layperson’s knowledge on learning and question asking. Instructional Science, 36, 27-52. http://www.springerlink.com/content/g656g7r128960n4h/fulltext.pdf

Earl Hunt (2008). Improving intelligence: What’s the difference from education? In Patrick C. Kyllonen, Richard D. Roberts and Lazar Stankov (Eds) (2008). Extending intelligence. Enhancement and new constructs.. Erlbaum.

Heather C. Hill, Deborah Loewenberg and Stephen G. Schilling (2008). Unpacking pedagogical content knowledge: Conceptualizing and measuring teachers’ topic-specific knowledge of students. Journal of Research in Mathematics Education, 39, 372-400.

David C. Wilkins , William J. Clancey and Bruce G. Buchanan (1988). Using and Evaluating Differential Modeling in Intelligent Tutoring and Apprentice Learning Systems. In Joseph Psotka, L. Dan Massey and Sharon A. Mutter. (Ed.) (1988). Intelligent tutoring systems. Lessons learned (pp. 257-277). Lawrence Erlbaum. contents, full text of the book on questia.com.

Jim E. Greer and Gordon I McCalla (Eds) (1991). Student modelling: The key to individualized knowledge-based instruction. NATO ASI Series. books.google.com

een leermodel: hoe kennis groeit, verandert

Er is een model nodig voor hoe kennis groeit, een leermodel. In sommige contexten worden sterke leermodellen gehanteerd, zoals bij Realistisch Rekenen (zie de box), maar meestal zijn de opvattingen van docenten en van auteurs van leermateriaal impliciet en dus traditioneel.

Realistisch Rekenen, een sterk met traditionele didactische opvattingen contrasterende rekenmethode, is de methode die vrijwel alle basisscholen nu volgen. Zoals iedereen kan weten, betekent ‘realistisch’ dat opgaven worden ingekleed in een specifieke situatie, een context. De achtergrond daarvan is de claim dat alleen op deze manier is te voorkomen dat leerlingen wel goed leren rekenen, maar die vaardigheid onbenut laten bij op te lossen realistische probleem buiten de schoolse situatie. Dat is het probleem van transfer die uitblijft. Dat doet transfer wel vaker, en de claim van Realistisch Rekenen dat met deze methode transfer geen probleem meer is, is een sterke claim op validiteit. Welnu, analyses op oplosmethoden die leerlingen gebruiken, laten zien dat leerlingen de opgaven steeds meer uit het hoofd oplossen, in plaats van op papier, en daarbij heel veel fouten maken (zie Van Putten’s analyse van PPON-materiaal, 2004 pdf). Realistisch Rekenen, en voorganger Wiskobas, zijn het resultaat van een moedige poging om de traditionele rekenstof te verrijken op basis van een expliciet leermodel gericht op het verminderen van problemen met transfer van het geleerde naar andere situaties. Ondanks het succes zoals dat blijkt uit de verspreiding van de methode, is het inhoudelijk succes ervan omstreden, zoals vaak met experimentele methoden het geval is. Het onderliggende leermodel heeft met deze problemen mogelijk veel te maken, waar het niet goed is geworteld in relevante psychologische theorie.

Dit is tricky. De suggestie bij een ‘leermodel’ of een ‘groeimodel’ is dat het gaat om wat individuele personen leren, en desgevraagd kunnen (re)produceren. Dat is niet helemaal fout, maar toch wel voor een belangrijk deel. Alle aandacht hierboven voor het corpus en de gesitueerdheid van kennis is vergeefs wanneer het idee van een model voor leren in traditionele zin wordt opgevat. Het probleem is nu dat er geen kandidaten voor een in deze zin adequaat model voor leren voorhanden lijkt te zijn. Mogelijk is het handiger om het hele idee van een model voor leren of voor groei even te vergeten, en onbelast met oude psychologie te beschouwen wat er gebeurt in een ideale vorm van onderwijs zoals bijvoorbeeld door Deanne Kuhn (2005) beschreven: actieve en autonome exploratie van problemen door groepen leerlingen. In Wiskobas zijn dit soort vormen ook toegepast, zie de thema-opgaven in Treffers (1987). Hills, Huford en Stroup (2007) proberen er tastenderwijs modelmatige vorm aan te geven door zich te laten inspireren door complexiteitstheorie, laat ik het daar even bij houden, want het is wel een wild idee. Het aardige van dat idee, dat moet ik toch vast arresteren, is dat het leren van individuen, groepen, en groepen van groepen structureel identiek is: dat houdt de belofte in dat toetsen en dus ook toetsvragen zo zijn te ontwerpen dat ze tegelijkertijd informatie leveren over al die niveaus waarop er van leren sprake is.

Thomas Hills, Andrew C. Huford, and Walter M. Stroup (2007).Formalizing Learning as a Complex System: Scale Invariant Power Law Distributions in Group and Individual Decision Making. In Richard Lesh, Eric Hamilton and James J. Kaput, Foundations for the future of mathematics education (ch. 12). Erlbaum.

Aanhaken bij complexiteitstheorie is een sterk idee, dat maakt onrustig, het roept vragen op hoe zich die benadering verhoudt tot meer traditionele modellen voor leren en groei. Het sterke idee is dat leren een onoverzichtelijk complex gebeuren is, dat daardoor noodzakelijkerwijs op allerlei niveaus en manieren op ongeveer dezelfde manier verloopt: leren heeft een fractal-achtig karakter. De functionele beschrijving is met een machtsfunctie, jawel, een functie die geen plafond heeft! Alle of vrijwel alle leermodellen die in de literatuur zijn te vinden (zie mijn moduul voor leren in het SPA-model hier) zijn modellen met een plafond, al dan niet van glas. Dat plafond is, zeker weten, een artefact van de kunstmatige afgrenzing van wat tot de leerstof behoort, en wat niet. Voor traditioneel in vakken opgehakt onderwijs voldoet dat type leermodel, maar het is de vraag of dat type onderwijs wel voldoet, met zijn bijbehorende toetsvragen die dus ook kunstmatig in hun bereik zijn beperkt. In mijn werk aan het strategische model heb ik daar een praktische tussenoplossing voor gezocht (mijn 1998 hier) door iedere toetsvraag te modelleren als zijnde opgebouwd uit of vragend naar een combinatie van stukjes kennis: die combinatie is nodig voor een goed antwoord, ieder stukje dat ontbreekt is fataal. Dat is ook een manier om complexiteit in te bouwen, maar dat gebeurt hier onder het regime van het kunstmatige plafond dat er door de inperking van de leerstof aan wordt meegegeven.

In een sterke opvatting over validiteit van toetsvragen zou het leermodel een oorzakelijk model zijn, dus niet alleen maar een beschrijving van hoe het leren door de tijd heen typisch blijkt te vorderen in termen van procentuele beheersing van de stof (zie de figuur in de box). Dat meer tijd investeren een betere beheersing oplevert, is geen causaal model, maar een beschrijvend model. Dat is ook het probleem met het beheersingsleren van Benjamin Bloom, is het niet? Dat model beschrijft alleen maar, kent geen causale mechanismen, is ook gebaseerd op beschrijvend onderzoek naar hoe leerlingen groeien (letterlijk, zowel als figuurlijk)

Benjamin S. Bloom 1965: Stability and change in human characteristics. Wiley.

Ik heb geen haast met het uitwerken van dit deeldomein, omdat er een overvloed aan beschikbare theorie en onderzoek is. Daar een handige keuze uit maken is nog niet zo eenvoudig, maar er zijn om te beginnen al tal van deelterreinen die op andere plaatsen aan de orde komen, en die een plaats zullen vinden in een algemeen schema van wat het is om in kennis te groeien en te veranderen.

K. Anders Ericsson (Ed.) (1996). The road to excellence. The acquisition of expert performance in the arts and sciences, sports and games. Erlbaum.

heuristieken voor leren

In de onderzoeklijn van Gerd Gigerenzer zitten mogelijk ongelooflijk belangrijke aanwijzingen voor hoe leerprocessen typisch in hun werk gaan, waarom ze succesvol zijn, wat dus handige en wat minder handige didactiek is, en wat adequate ontwerpen voor vragen naar de zo opgedane kennis zijn, en wat niet. Ik waarschuw meteen maar: de gedachten die ik hier weergeef zijn puur speculatief, en dus uitsluitend bedoeld om verdere vragen over leerprocessen te kunnen stellen, niet om concrete aanwijzingen te geven voor het ontwerpen van vragen die valide zijn (met betrekking tot die leerprocessen).

De publicatie die deze gedachten heeft getriggerd is die van Henry Brighton en Gerd Gigerenzer (2008). Ik begrijp heel weinig van dit ongelooflijk geconcentreerd geschreven hoofdstuk, en ik begrijp ook nog niet of het in feite niet meer is dan een verwijzing naar een reeks sleutelpublicaties, of dat het bekendheid met die sleutelpublicaties veronderstelt en op die basis een wezenlijke toevoeging geeft. Het zou dat laatste kunnen zijn, en als dat zo is, dan horen we daar de komende jaren nog wel meer van. Waar het in wezen om lijkt te gaan is dat de mens in staat is begrippen te leren op basis van kleine aantallen voorbeelden van telkens diverse aard. Dat lijkt een open deur van jewelste, maar dat is het niet. Het leren van nieuwe begrippen aan de hand van voorbeelden die op heel veel punten van elkaar verschillen, is een complexe opgave waarvoor het nog knap lastig is om er bijvoorbeeld computersimulaties voor te ontwerpen (machine learning). Het probleem is onder andere hoe te voorkomen dat de vloed van irrelevante details het leren van het bedoelde begrip bemoeilijkt, op een moment dat de student de irrelevante details nog niet van de cruciale kenmerken van het bedoelde begrip kan onderscheiden, want die cruciale kenmerken zijn nog niet bekend. In zekere zin bestaat het leren er juist uit om uit alle opdoemende kenmerken die cruciale te isoleren. Ha, hier treffen we een verschil tussen vanzelfsprekend leren in natuurlijke context, en het typische leren in schoolse situaties. Het natuurlijke leren ontdekt zelf de cruciale kenmerken van het nieuwe begrip, in de schoolse situatie is de neiging niet te onderdrukken het de leerlingen ‘makkelijk’ te maken door ze de cruciale kenmerken mee te delen. Vergeet die school nog even. De menselijke geest (lees: zintuigen en hersenen) is zo ongelooflijk goed aangepast aan zijn omgeving dat hij in staat is over veel details heen te kijken, en met eenvoudige heuristieken snel een goede gok te maken wat het nieuwe begrip is (wat de regelmaat is zoals gezien in een klein aantal instanties van een tot dan onbekend fenomeen; dit is een formule die wel lijkt op wat wiskundigen wel als de kern van hun vak aanduiden: structuren abstraheren).

De conclusie ligt dan voor de hand: wanneer ik Brighton en Gigerenzer (2007) goed begrijp, dan moeten studenten op dezelfde manier leren (behalve waar het om uit het hoofd te leren zaken gaat), kan klunzige didactiek ze in dat leren hinderen, en kan inadequate toetsing ze straffen voor het zo geleerde (in plaats van ervoor te belonen). Brighton en Gigerenzer zetten deze verdere stappen niet, en hebben ook geen onderzoek gedaan hoe een en ander zit in typische onderwijssituaties. Maar het mag duidelijk zijn dat het voor de kwestie van validiteit van toetsvragen van enig belang is een onderbouwd idee te hebben van het proces van leren van nieuwe begrippen. Met dat proces is bedoeld hoe onze hersenen zoiets procesmatig, algoritmisch, uitvoeren. Daar doet Gigerenzer, de man van de heuristic toolbox, onderzoek naar. Houd dat onderzoek in de gaten. Wees in de tussentijd als ontwerper van toetsvragen behoedzaam met de nieuwe voorbeelden van begrippen uit de lesstof: die zouden typisch wel eens veel moeilijker voor de studenten kunnen zijn dan de ontwerper vermoedt dat ze zijn (en niet makkelijker, zoals de uiteenzetting over heuristieken mogelijk suggereert. Afijn, dat is een empirische kwestie, het wachten is op goed onderzoek hiernaar, of op het vinden van dat goede onderzoek als het al gedaan mocht zijn).

Henry Brighton and Gerd Gigerenzer (2008). Bayesian brains and cognitive mechanisms: harmony or dissonance? In Nick Chater and Mike Oaksford: The probabilistic mind. Prospects for Bayesian cognitive science (pp 189-208). Oxford University Press.

een diagnostiek van veranderende kennis

Er is een diagnostiek nodig om die nog niet volledige kennis te kunnen peilen en in de gaten te houden.

Het bericht in de box wijst op een probleem van nationale omvang dat direct heeft te maken met onvermogen van het onderwijs om capaciteiten van een grote groep leerlingen tijdig en goed te beoordelen. En dat terwijl er toch de laatste decennia bepaald niet weinig is getoetst, met als het meest in levens ingrijpende moment dat aan het eind van de basischool, waar de meeste leerlingen de Cito-toets maken. Als de uitkomsten van dit onderzoek van het IMES juist zijn geïnterpreteerd, is er een wezenlijk probleem met de validiteit van bijvoorbeeld de Cito-toets, en dus ook met de afzonderlijke vragen in deze toets. Het probleem hoeft niet noodzakelijk op het niveau van de vragen veroorzaakt te zijn — interpretatie van totaalscores (normering) is een andere mogelijkheid — maar ondanks de technische maatregelen (DIF-analyses) van bijvoorbeeld het Cito is het niet onwaarschijnlijk dat het probleem te maken heeft met het ontwerp van de toetsvragen.

Er zijn eerder enkele dissertaties verdedigd over eerlijkheid van vragen of voorspellende waarde van de Cito-toets, waarbij mogelijk niet de echt indringende vragen zijn gesteld en onderzocht: de uitkomsten van die onderzoeken waren dat er natuurlijk wel missers zijn, maar dat we er toch op mogen vertrouwen dat de Cito-basistoets een eerlijke toets is, ook voor leerlingen met Nederlands als tweede taal. Nee dus.

Let op: het IMES-onderzoek laat zien dat het voor de toppers onnodig lang heeft geduurd om te komen waar ze nu zijn. Dat wil niet zeggen dat het voor alle anderen wel geweldig goed is gegaan, eerder het tegendeel: waar de sterkste leerlingen al zoveel problemen op hun weg hebben gevonden, zal dat voor de overige leerlingen waarschijnlijk niet minder zijn geweest. Inderdaad een probleem van nationale omvang. Misschien wordt het tijd om na te gaan denken over constructies waarbij de borging van validiteit van landelijke toetsen is losgekoppeld van de producenten van diezelfde toetsen en examens, zeker waar de producent in feite een monopolist is.

Ik ben begonnen met onderzoek bijeen te brengen dat relevant is voor de vraag of de rekenopgaven in de Cito-basistoets wel eerlijk zijn voor leerlingen met Nederlands als tweede taal, zie hier. Mogelijk hebben wetenschappers begin tachtiger jaren de discrimerende werking van de rekenopgaven in de Cito-basistoets al gezien, en hebben zij dat mogelijk ook aangekaart bij het Cito of congrescommissies. Ik nodig iedereen uit die relevante informatie heeft, om die bij te dragen.

De subdomeinen zijn niet strikt van elkaar te onderscheiden, ze overlappen elkaar ook op verschillende wijze. De vraag is dus of een afzonderlijk subdomein voor een diagnostische systematiek (ik moet er nog een goed label voor zien te vinden) wel toegevoegde waarde heeft. De leidende gedachte is dat voor normale groei, voor een normale leerweg, alleen de mate van toegenomen vorderingen van belang is, en daar is geen bijzondere diagnostiek voor nodig anders dan door uitwerking van de overige subdomeinen al is gegeven. Komt er echter een kink in deze kabel, is de groei op een of andere manier onverwacht of bijzonder, dan is het zaak om daar nader onderzoek naar te doen, waarvoor onder andere gericht ontworpen toetsvragen een instrument kunnen zijn. Dan moet er dus enig idee zijn in welke richting naar oorzaken gezocht moet worden. Allerlei vormen van dysfunctioneren komen dan in beeld, maar ook eenvoudige inhoudelijke misvattingen, tot mentale modellen die het verwerven van geavanceerde kennis kunnen hinderen. Van dat laatste is bijvoorbeeld het werk van David Hestenes voor natuurkunde van belang. Pregnante vormen van dysfunctioneren zijn natuurlijk dyslexie, maar ook dyscalculie. En houd altijd in de gaten dat het niet vanzelfsprekend de individuele leerling is waarbij de oorzaak is te zoeken: het kan ook een emergent groepsproces zijn dat tot verstoringen leidt, en — last but not least — kan de docent of het onderwijssysteem zelf falen. Voorbeeld van dat laatste: het onderwijs is voor sommige leerlingen zo onverteerbaar, dat zij in feite de school uit worden gejaagd. Het gaat dan niet aan om hen het label ‘schooluitvallers’ of ‘spijbelaars’ op te plakken, zonder onderzoek te hebben gedaan naar de rol van het onderwijssysteem (en dus de wetgever) bij het vroegtijdig verlaten van school.

terugkoppeling, toetsen, examineren

Het onderwerp van dit subdomein is het ontwerpen van vragen proper. Ik ben nog op zoek naar een passende titel. De tweede poging, hierboven, geeft niet precies de goede associaties: het gaat niet om de vraag wat het is om te examineren etcetera. Ik wil veel dichter bij huis blijven, en kan dit subdomein misschien beter eenvoudig vragen noemen.

De basisgedachte van het project Toetsvragen ontwerpen kristalliseert zich langzamerhand uit, en dat is deze:

Het zou mij niet verbazen dat het mogelijk is om op basis van bovenstaande schets-theorie van wat het is om toetsvragen te ontwerpen, een uitgewerkte systematiek te bouwen. Mogelijk heeft Jaakko Hintikka (2007) zoiets in de laatste decennia gedaan, en kan ik dat gebruiken. Mijn probleem, for the time being, is dat Hintikka in jargon schrijft, en ik me een deel van dat jargon eerst eigen zal moeten maken om te kunnen beoordelen of zijn werk zich leent voor de praktische toepassing. Kijk, die A, D en T hierboven genoemd, zijn ook op andere manieren tot vragen te transformeren dan alleen het voor de hand liggende: gegeven D en T, leg uit A. Bijvoorbeeld: gegeven D en A1 en A2, welke beide laatste uit dezelfde theorie zijn te verklaren, welke is die T? Etcetera. Een land van belofte.

Misschien moet ik dit toch uitleggen, in de gewone betekenis van ‘me nader verklaren.’ Het vermoeden is dat veel ontwerpers van toetsvragen noodgedwongen uitgaan van vage noties over validiteit, en zo komen tot een klein aantal verschillende typen van vragen die ze bij voorkeur aanmaken. Wat valt er dan te zeggen over de kwaliteit van de zo aangemaakte vragen? Heel wat, blijkt, maar ook de meest kritische commentaar lijkt dan toch vaak ergens iets toevalligs te hebben, wat het knagende gevoel laat bestaan dat de criticaster misschien gelijk heeft, maar niet het hele plaatje overziet, zodat onduidelijk blijft of met de kritiek wel of niet iets moet worden gedaan. Kortom, er is voor de analyse van een partijtje ontworpen toetsvragen toch wel een theoretisch kader nodig. Dat kader zou in het werk van Hintikka en zijn collega’s misschien te vinden zijn. Dat is een abstract kader, en dat laat onverlet alle overwegingen die passen binnen de overige hier onderscheiden subdomeinen van validiteit. Of moet ik het zo zeggen: het abstracte kader uit het werk van Hintikka is springlevend te maken door het aan te kleden met de overwegingen zoals hier in de overige subdomeinen zijn gegeven, natuurlijk nader uitgewerkt voor het betreffende vakgebied, etcetera. Een uitdaging dus, en daar waren er al een paar van.

Als alle vragen om uitleg vragen, is in beginsel iedere vraag met zijn antwoord (uitleg) in logische symbolen uit te schrijven. Dit is een heel andere wereld dan die van de pseudo-logica van juist-onjuistvragen! Een correcte uitleg is dan in beginsel bewijsbaar correct, bijvoorbeeld door de tableau-methode van Beth (1955) toe te passen, tegenwoordig the waarheidsboom — truth tree — genoemd, zie bijvoorbeeld de behandeling daarvan in het inleidende boek van Lepore (2001). De ontwerper die ergens nog twijfel heeft over een juist ontworpen vraag en zijn als juist bedoelde uitleg, zou deze bewijsmethode kunnen gebruiken om alle twijfel weg te nemen. Studenten zouden de methode in beginsel kunnen gebruiken om te controleren of hun afgekeurde uitleg inderdaad niet correct is. Het probleem is dat voor het toepassen van de waarheidsboom-methode de vraag eerst logisch-symbolisch moet worden uitgeschreven, waarvoor het boek van Belnap en Steel (1976) een uitgelezen en rijke verzameling voorbeelden geeft. Het spannende van het geheel is dan de combinatie van 1) uitwerken van vraag-en-antwoord tot de volledige structuur van de verklaring (Hintikka), 2) deze volledige structuur in logisch-symbolische vorm vertalen (Belnap & Steel), en 3) daarop de methode van de waarheidsboom toepassen (Beth). Ik ben benieuwd of ik hier aardige voorbeelden van kan vinden in de literatuur. Ik geef hieronder enkele bronnen (de tableau-methode is zo belangrijk dat deze op tal van plaatsen, ook op internet, is te vinden, de beide andere bronnen zijn online vrij beschikbaar).

Naar de erotetic logic van Belnap en Steel heb ik al verwezen in mijn 1983 ‘Toetsvragen schrijven.’ Het was mij destijds niet duidelijk of investeren in symbolische logica nuttig rendement zou kunnen afwerpen voor het ontwerpen van toetsvragen. In combinatie met de oude methode van Beth en het nieuwe werk van Hintikka komt dat nuttig rendement wel in zicht. Waar ik nog mee worstel is met de levensvreemdheid van de logica die de wereld alleen ziet in termen van uitspraken en argumenten, die bovendien ofwel waar ofwel vals zijn. Mijn eerste gedachte daarbij is en blijft dat zo'n beperkte visie in ieder geval niet 100% waar kan zijn. Contrasteer het bijvoorbeeld met de middeleeuwse methode van de disputatie, waar juist als waar geponeerde stellingen worden aangevallen door er nuanceringen op aan te brengen, etcetera. Dat gezegd zijnde, zie ik als belangrijke toepassing van de erotetische logica, in combinatie met de stelling dat iedere vraag-en-antwoord een verklaring van een specifiek verschijnsel vanuit een specifieke theorie is (Hempel), een verklaring waarvan de waarheid met de methode Beth is te toetsen: onder de vereenvoudigende aannamen van de waarheid van de gegeven feiten en theorie, is ieder gegeven antwoord in beginsel te toetsen op 1) of het geldt als een antwoord, en zo ja 2) of dat antwoord waar is of niet. Na het uitvoeren van die toets op de validiteit van de gegeven verklaring, is er altijd nog ruimte voor verdere discussie over de waarheid van de gegeven feiten en van de gegeven theorie. Ziet u het mogelijke nut van deze hele gang van zaken al voor u? Het is met een beetje kritische instelling heel makkelijk om gebreken in toetsvragen, of in op die toetsvragen gegeven antwoorden, aan te wijzen, maar iets anders is of die kritiek ook met een bewijs valt te onderbouwen. Welnu, in beginsel moet deze erotetische logica de bewijsmethodiek kunnen leveren. Totdat ik erin ben geslaagd de nodige casus uit de literatuur te traceren, of deze zelf te construeren, blijft dit allemaal een tikje speculatief. Dat wordt niet er niet beter op wanneer duidelijk wordt dat toetsvragen een gelaagde structuur hebben: het zijn vragen over wat leerlingen weten over de facto gestelde vragen, etcetera (zie de box hierbeneden).

Wat heeft dit allemaal met validiteit te maken? Wel, als een bepaalde combinatie van vraag en antwoord niet logisch valide is, dus ofwel waar ofwel onwaar, kan deze niet valide zijn in welk ander opzicht dan ook. Het is dus een noodzakelijke voorwaarde voor de validiteit van een ontworpen vraag-antwoord combinatie, of voor het nakijken en beoordelen van een vraag-antwoord combinatie, dat deze logische validiteit heeft, en dat is een bewijsbare eigenschap. Voor in toetsen en examens veelgebruikte typen van vraag-antwoord combinaties is die validiteit onderzoekbaar, en door dergelijk onderzoek te doen is het daarna niet meer nodig de bewijsvoering voor ieder afzonderlijk ontwerp het bewijs opnieuw te leveren. Dat is vooruitgang.

Belnap en Steel’s fundamental concepts

“... what does it mean to say that a question is ‘valid’?“

Belnap en Steel (1976) hoofdstuk 3, p. 113

Belnap en Steel’s logica van vragen en antwoorden is nuttig, maar het is net als met de bekende vraag ‘Wat is de leeftijd van de kapitein?’: wees er altijd op bedacht dat de vragen in die logica van een andere orde zijn dan die welke leraren aan leerlingen stellen. De leraar weet het antwoord op haar vraag wel, en stelt toch die vraag; wat is dit dan voor spel, wat is hier de logica van? Belnap en Steel schijnen zich dit niet te realiseren, hoewel ze er even heel dicht bij zijn waar (p. 112) ze zeggen dat een vraag kan dienen om te toetsen of de ondervraagde wel goed oplet. De ‘vraag naar de leeftijd van de kapitein’ vraagt zeker oplettendheid.

Het punt is dat Belnap en Steel uitsluitend spreken over eenvoudige vragen om opheldering, over vragen naar informatie: hoeveel botjes heeft een leeuw? — Is Jan opgehouden zijn vrouw te slaan? — Welke priemgetallen liggen tussen 10 en 20? Leraren die dergelijke vragen stellen zijn helemaal niet geïnteresseerd in de directe antwoorden op die vragen, die weten ze al. Deze leraren hebben wel degelijk vragen waar ze antwoorden op willen hebben, maar dat zijn heel andere vragen, zoals ‘Weet Marietje hoeveel botjes een leeuw heeft’? Het probleem hiermee is dat vragen van leraren — vragen in toetsen of in eindexamens — vragen in vragen zijn, dus complexer dan de vragen die Belnap en Steel in hun logica van vragen en antwoorden behandelen. Als Marietje ‘127’ antwoordt, is dat een direct antwoord, althans de code voor een direct antwoord, op de botjes-vraag, maar mogelijk niet op de vraag van de leraar. Als ‘127’ als direct antwoord op de botjesvraag correct is, of niet correct, heeft de leraar dan ook een direct antwoord gekregen op de vraag over de kennis van Marietje? Dat laatste is een vraag van een heel andere orde. Daar kunnen we ons met een jantje-van-leiden van afmaken door af te spreken dat er een een-op-een relatie is tussen directe antwoorden op de botjes-vraag, en directe antwoorden op de kennis-vraag, maar dat is struisvogelpolitiek, of, vriendelijker, een fictieve werkelijkheid. Die fictieve werkelijkheid misleidt leraren ondertussen wel tot het meestal niet verder kijken dan de gegeven antwoorden lang zijn.

NB: een direct antwoord is een van de fundamentele begrippen in de logica van vragen en antwoorden. Als zodanig komen directe antwoorden in werkelijkheid zelden voor, meestal zijn antwoorden sterk ingekort, een code voor wat het directe antwoord zou moeten zijn. Dat is een nuttige analyse van Belnap en Steel, die analyse maakt het mij onmiddellijk mogelijk om van toetsvragen te zeggen dat ze code zijn voor de veel meer omvattende vraag naar wat de examinandus weet over wat de vraag vraagt. Voor de validiteit van een toetsvraag is dan een noodzakelijke voorwaarde dat er directe antwoorden zijn op de in logische zin volledige vraag over wat de examinandus weet. Ofwel: wat is eigenlijk een direct antwoord op een examenvraag? Goede vraag, niet?

Nuel D. Belnap, Jr., and Thomas B. Steel, Jr. (1976). The logic of questions and answers. London: Yale University Press.

Zie ook het lemma Epistemic knowledge in de Stanford Encyclopedia of Philosophy html.

Debra Thomas Burhans (2002). A question answering interpretation of resolution refutation. A dissertation submitted to the Faculty of the Graduate School of State University of New York at Buffalo in partial fulfillment of the requirements for the degree of Doctor of Philosophy. Een recente studie in de lijn van Belnap en Steel PostScript

Evert W. Beth (1955). Semantic entailment and formal derivability. Mededelingen van de Koninklijke Nederlandse Akademie van Wetenschappen, Afdeling Letterkunde, N. R. Vol. 18, no. 13 (Amsterdam), pp. 309-342, reprinted 1961. Reprinted in Jaakko Hintikka (1969). The philosophy of mathematics (pp. 9-41). Oxford University Press.

Ernest Lepore (2000). Meaning and argument. An introduction to logic through language. Blackwell. [in het bijzonder de hoofdstukken over de methode van de truth tree]

John Alan Robinson (2000). Computational logic: Memories of the past and challenges for the future. Invited paper in John W. Lloyd, Verónica Dahl, Ulrich Furbach, Manfred Kerber, Kung-Kiu Lau, Catuscia Palamidessi, Luís Moniz Pereira, Yehoshua Sagiv, Peter J. Stuckey (Eds.): Computational Logic - CL 2000, First International Conference, London, UK, 24-28 July, 2000, Proceedings. Lecture Notes in Computer Science 1861 Springer 2000. pdf

cites on page 1: “The basic notions of proof theory converge with those of machine computing. ... The utterly pure theory of mathematical proof and the utterly technological theory of machine computation are thus at bottom one, and the basic insights of each are henceforth insights of the other” W.V. Quine (1966). The Ways of Paradox and Other Essays, Random House.p. 41

Irving H. Anellis (1990). From semantic tableaus to Smullyan trees: A history of the development of the falsifiability tree method. Modern Logic 1, 1, 36-69. abstract html full text pdf[Evert Beth semantic tableau, etc.]

Het is een goed idee om als noodzakelijke voorwaarde voor de validiteit van vragen en antwoorden te stellen dat deze logisch valide moeten zijn. Maar pas op, denk nu niet dat het ook een goed idee zou zijn bij het ontwerpen gebruik te maken van logica. De wereld van de logica is een andere dan de wereld waarin wij leven. Het voorbeeld in de box hierboven laat het een tikje extreem zien: de redenering is logisch valide, omdat het niet mogelijk is dat de beide premissen waar zijn, en tegelijk de conclusie vals. U en ik weten dat ieder van de drie uitspraken in de box onzin is, maar daar gaat het in de logica niet altijd om. De waarschuwing is nu deze: het komt veel voor dat ontwerpers een scheutje logica in hun vragen doen, zonder zich daar echt bewust van te zijn, met als gevolg dat studenten moeten gissen naar de bedoeling van de vragensteller. Sterker nog, er zijn soorten vragen die alleen al door hun vorm het misverstand uitlokken: ja-neevragen. Uitspraken zijn zelden ofwel volstrekt waar, ofwel volstrekt vals. Dus wat heeft de ontwerper van vraag x. in dit speciale geval bedoeld: gaat het om de bijzondere manier waarop deze uitspraak vals kan zijn, of gaat het erom dat de uitspraak doorgaans waar is? Voor vraag y. kan het ineens omgekeerd zijn. Bijvoorbeeld de NWQ (wetenschapsquiz) heeft tal van voorbeelden waar de ontwerper heel bijzondere omstandigheden in gedachten heeft gehad, en andere waar dat nadrukkelijk niet het geval is. Dat laat Nederlandse deelnemers in verbijstering achter.

Toetsen, toetsvragen, en alles wat daaraan verwant is zijn geen doel op zich. Wat dan wèl het doel is, kan ongelooflijk uiteenlopend van aard zijn. Een algemene formule is dat het gaat om het uitwisselen van informatie tussen belanghebbenden. De meest eenvoudige methodiek is gewoon en direct vragen wat je wil weten: is deze leerling volleerd, kan deze leerling door naar een bepaalde vorm van vervolgonderwijs, is dit proefschrift goed genoeg om te verdedigen? Die directe benadering is helemaal niet vreemd, ook al is er de laatste decennia steeds groter druk op komen te staan omdat om onnavolgbare redenen velen meer vertrouwen lijken te hebben in toetsen en examens dan in het oordeel en advies van docenten die de leerlingen op dagelijkse basis door en door hebben leren kennen.

De promotie is een mooi casus: de prestatie is al geleverd en OK bevonden, de promotie zelf is een rituele oefening waarin soms alleen voor de vorm, maar soms ook echt scherp, vragen op de promovendus worden afgevuurd. De vorm van het examen als een publieke afsluiting van een met succes doorlopen onderwijstraject stamt uit de middeleeuwen. De eigen meester meldt de student aan voor het examen wanneer die laatste daar ‘klaar’ voor is; het examen wordt formeel afgenomen door andere meesters, en zakken voor het examen is niet iets dat bij het ritueel hoort. Er is dan alle ruimte voor de kandidaat om op een directe manier te laten zien dat hij (vroeger altijd een ‘hij') het vak beheerst, een werkstuk kan maken, een college kan geven, of een dispuut kan leiden.

Mogelijkheden om op een directe manier informatie te krijgen, in plaats van indirect via toetsen etcetera, berusten op vertrouwen in de informant, het schoolhoofd, en de promotor. Een samenleving waarin dat vertrouwen erodeert moet op zijn tellen gaan passen. Een nieuw probleem zou wel eens kunnen zijn dat docenten in deze tijd van toetsfanatisme niet meer op het eigen oordeel vertrouwen, dat eigen oordeel niet meer durven geven, of mogelijk ook onvoldoende geschoold zijn om een voldragen eigen oordeel over de vorderingen van eigen leerlingen te geven.

Er is ook een technische manier om naar hetzelfde fenomeen te kijken. Neem bijvoorbeeld de voorspellende waarde van het advies van het hoofd van de basisschool, en vergelijk dat met de voorspellende waarde van de uitkomst op een afsluitende toets basisonderwijs. Het is voor de introductie van een basistoets niet voldoende dat de toets ongeveer dezelfde voorspellende waarde heeft: het advies van het schoolhoofd is immers veel goedkoper. Voor de introductie van een toets, waar dan ook, ter vervanging van of aanvulling op een deskundig oordeel, geldt dat de toets een informatieve meerwaarde moet hebben die tenminste de extra kosten ruimschoots dekt (Cronbach and Gleser, 1957). Met andere woorden: voorafgaand aan het ontwerpen van toetsvragen is aan de orde of de betreffende toets wel gewenst en functioneel is. Zo niet: dan geen toets. Zoals de staatssecretaris van onderwijs in april 2008 heeft besloten geen landelijke toets bij het begin van het basisonderwijs te wensen. [Komt er eindelijk een eind aan de gekte van het idee van een kleutertoets?]

In zekere zin de meest algemene methodiek is beschreven door Jaakko Hintikka (2007): hoe kennis is te verwerven door het stellen van vragen. Als dat lukt, dan moeten de vragen wel valide zijn. Of is het omgekeerd? Ik moet deze streng-filosofische benadering nog bestuderen. De kennis waar het de vragensteller om gaat is die van de student: hoe staat het met de vorderingen van de student in zijn of haar expertise van het vak? Dit is een specifiek casus dat Hintikka als zodanig natuurlijk niet behandelt, maar zijn bijzondere insteek, in afwijking van wat meestal bij kennisleer aan de orde is — is mijn kennis waar? — is dat het vragenstellen in dienst staat van allereerst het verkrijgen van kennis, of van informatie zoals Hintikka dat liever noemt.

De methode van Hintikka moet de inhoud waarborgen. Dan is er vervolgens nog een hoop techniek nodig om de verkregen informatie te vergelijken met het studentmodel, en niet te vergeten de techniek van het vragenstellen zelf (Blooker’s cacaomeisje laat zich hier weer zien). Deze paragraaf zal zodoende uiteenvallen in een filosofische onderbouwing en een meer technische uitwerking. Die uitwerking zal overigens alleen in algemene lijnen worden geschetst, het is aan de volgende hoofdstukken om de details in te vullen.

Het vermoeden bekruipt mij dat er een relatie is tussen de conjunction fallacy, althans de analyse die Hintikka ervan geeft, en het ‘eenvoudige’ statistiekprobleem van Bar-Hillel (Een kennis vertelt Jan dat hij twee kinderen heeft. Hij heeft een dochter bij zich. Wat is de kans dat zijn andere kind een jongen is? Twee hoogleraren statistiek hadden hier vlot een antwoord op, maar dat waren verschillende antwoorden, en via zorgvuldige analyse laat Bar-Hillel zien dat ze beide fout of tenminste onvolledig redeneerden). Het is van enig belang om beide casus, die van Hintikka en die van Bar-Hillel, goed uit te pluizen en tegen elkaar te vergelijken, omdat het gaat om een type interpretatie van gegevens tegen achtergrondgegevens zoals dat dagelijks in het onderwijs gebeurt: de instructeur interpreteert voortdurend wat zij waarneemt bij het pianospel van haar leerling tegen de achtergrond van wat zij al weet over zijn vorderingen (het studentmodel). Wow.

Het is denkbaar in de methodiek een klassificatie aan te brengen naar de hierboven onderscheiden domeinen van validiteit. Ik weet nog niet of dat een geweldig idee is, maar ik vermoed dat het noodzakelijk is. Ik geef vooruitlopend op de verdere uitwerking alvast een paar ideeën.

het corpus — afstemming met de arbeidsmarkt?

Bovenstaand casus wijst op een spanning die er blijkt te zijn tussen de specifieke programmatische inhoud van het onderwijs, en de specifieke kennis die afgestudeerden nodig hebben in de functies waarin zij terecht komen. De student die macro-economie studeert kan even goed in een typisch micro-economische functie terechtkomen als ineen typisch macro-economische. De student medische biologie die in de studie een bepaalde complexe techniek in de vingers heeft gekregen, zal deze techniek in latere functies waarschijnlijk nooit hoeven tegebruiken, maar zal zich andere technieken snel eigen moetn kunnen maken . De positie die de opleiding of de docent kiest in deze kwestie heeft gevolg voor de wijze van ontwerpen van toetsvragen. Wie inziet dat het belang van het algemene dat van het specifieke overstijgt, zal er op zijn minst voor zorgen dat vragen met een specifiek karakter ook dat algemene niveau stevig raken. Geen vakidiote vragen macro-economie, maar vragen waarvan de kern is dat de kandidaat in staat is in economische termen met de wereld om te gaan, waarvoor specifieke kennis van de macro-economie de noodzakelijke stoffering van de vragen levert.

Ben Wilbrink, Mik van Es en Erna van der Weerd (1988). Arbeidsmarkt medische biologie. Amsterdam: SCO. (rapport 169) pdf

Rating van expertise

In kunstmatige werelden is het nauwer omschreven wat expertise is, en zijn er vaak systemen die deze expertise in zekere zin definiëren. Voor het schaken is dat meen ik de ELO-rating (moet ik nakijken), en in diverse andere individuele wedstrijdsporten bestaan vergelijkbare systemen: het Japanse go, sumo-worstelen, tennis, golf. Overal is de rating een direct resultaat van de wedstrijden die men heeft gespeeld tegen wie, met welk resultaat. Iedere wedstrijd is als het ware een toets, of een examen. De marktwaarde van voetbalspelers is iets totaal anders, op zijn best een indicator voor hun expertise. Iets ingewikkelder wordt het bij toernooien; het is boeiend om te zien hoe verschillende vormen van organisatie van een toernooi van invloed kunnen zijn op de uitkomsten van zo'n toernooi. (Ik zal nog nagaan wat hier de literatuur is, de term ‘tournament’ moet een behoorlijk aantal hits geven in een zoekmachine).

Het aardige van deze voorbeelden uit de kunstmatige werelden in onze vrijetijdssector is dat er wel degelijk een verwantschap is met hoe in het onderwijs de expertise van studenten aan het eind van hun studie wordt beoordeeld. In de latere middeleeuwen vinden we bij universitaire studies en examens ook tweekampen in disputeren, en konden geleerden zoals Abélard een enorme reputatie opbouwen door publieke disputen met sterke tegenstanders op overtuigende wijze te winnen. Kijk, dat is een vorm van vaststellen van verworven expertise waarvan huidige beoordelingsgewoonten in het onderwijs zijn afgeleid (Wilbrink, 1997 html).

studentmodel

leermodel

diagnostisch systeem

methodieken

ja-neevragen

Het lijkt zo simpel: een ja-neevraag beantwoorden. Maar hoe moet dat eigenlijk? Is er een duidelijke instructie bij gegeven? Bij meerkeuzevragen is vaak de instructie om het beste antwoord te kiezen, de instructie is dus niet om het enig juiste te kiezen, hoewel soms het beste antwoord ook het enig juiste is. Bij ja-neevragen is de semantiek een andere: de suggestie is dat het antwoord een absoluut karakter heeft: ‘ja’ is ‘ja', er is niet zoiets als 95% ‘ja’ of 80% ‘juist’ of 99% ‘waar.’ Het wordt er niet beter op door logische analyse op vragen en antwoorden los te laten: de wereld van de logicus bestaat uit absolute waarheden en onwaarheden, desnoods worden ze absoluut gemaakt door handige vooronderstelling als ‘waar’ aan te nemen. Dat laatste schuift het probleem alleen maar een stap terug, maar daar gaat het hier even niet om.

McKenzie en anderen (2001), zie het citaat in de box, maken onmiddellijk een eind aan alle flauwiteiten door te stellen dat antwoorden op ja-neevragen altijd een marge van waarschijnlijkheid hebben, voor de beantwoorder van de vraag. Sluit nooit uit dat de achterkant van de Maan van groene kaas is. En daarmee wordt het even onmiddellijk een heel lastig verhaal, want de absolute zekerheden zijn ons nu ontvallen, en wat houden we over? Zijn alle partijen bij het vragen en antwoorden in toetssituaties zich van deze lastige situatie bewust? Zijn er duidelijke instructies gegeven, of zijn betrokkenen min of meer adequaat gedresseerd in jarenlange ervaringen met ja-neevragen en hoe die te uiden en er antwoorden op te geven, of die antwoorden op kwaliteit te beoordelen? Ik zou er graag onderzoek over zien, maar kan dat niet vinden. Er is natuurlijk dit onderzoek van McKenzie en anderen, dat staat in bepaalde onderzoektradities buiten het onderwijsveld, en buiten de psychologische testleer. Lees het, leg de manier van onderzoeken, evenals de uitkomsten van het onderzoek, naast wat gebruikelijke vragen en antwoorden in onderwijs en examens zijn. Merk dan op hoe de ingeschatte waarschijnlijkheden voor A respectievelijk B afhankelijk zijn van de vooronderstellingen in de vraagstelling, al dan niet expliciet gemaakt. Of A, respectievelijk B, waar zijn, kan bijvoorbeeld tegelijkertijd 75%, respectievelijk 60% zijn. Maar bij de tweekeuzevraag of A, danwel B, waar is, is er ineens een stilzwijgende vooronderstelling dat A en B niet tegelijk waar zijn! Dat verandert de aard van de vraagstelling ingrijpend. Bijvoorbeeld waar A en B twee onderscheiden ziektebeelden zijn, gaat de vraagvorm verschil maken voor wat als antwoord, en wat als juist antwoord geldt, en hoe zo'n juist antwoord zich verhoudt tot de werkelijk zich voordoende situatie (bij patient C).

Het is een verre van neutrale kwestie welke vraagvorm te kiezen voor de te ontwerpen vragen. In veel situaties is het onmiddellijk evident, of zou dat moeten zijn, dat de informatie waar het om gaat niet valt te verkrijgen met een bepaalde vraagvorm, zoals de vierkeuzevraag. In andere situaties is dat mogelijk verborgen, of is er nog geen deugdelijk onderzoek naar gedaan. Ik noem als voorbeeld de aloude vraag of keuzevragen en open vragen dezelfde kennis opleveren (ik formuleer het nu op een in de literatuur minder gebruikelijke manier, maar in overenstemming met het voorgaande in deze paragraaf 2.6). In psychometrisch onderzoek is de basisgedachte dat toetsen bestaande uit ofwel de ene vraagvorm, ofwel de andere, een groep leerlingen op dezelfde manier zou moeten ordenen. Dat is niet echt subtiel uitgedrukt, maar daar komt het wel op neer. Daardoor zien psychometrisch geschoolde onderzoekers mogelijk belangrijke onderscheidende kenmerken van deze vraagvormen over het hoofd. Een illustratie van wat mogelijk over het hoofd gezien is: onderzoek door McKenzie en anderen (2001), in een totaal andere nis van de psychologie en daardoor onbelast met testtheoretische bagage. Dat onderzoek pluist uit welke heel eigen rol ja-neevragen en keuzevragen spelen bij het verkrijgen van informatie van proefpersonen. Ik roep maar even in herinnering dat de leraar die Marietje vraagt naar het aantal botjes dat een leeuw heeft, alleen wil weten of Marietje het antwoord weet; daar is Marietje de proefpersoon, niet een uitgeprepareerde leeuw.

framing effects

Framing effects zijn effecten van de bewoording van een bepaald gegeven, zoals de kans op goed doorstaan van een operatie versus de kans diezelfde operatie niet te overleven. Logisch bezien gaat het in beide gevallen om exact dezelfde kansverhouding, laten we zeggen 5% tegen 95%, maar mensen blijken typisch voorkeur te hebben, en daar ook naar te handelen, voor de in dit geval positief geformuleerde kans, en omgekeerd. Een beetje gechargeerd: de chirurg die met de 95% goede uitkomst aan komt zetten, wordt begrepen als de patient uit te nodigen die kans aan te grijpen; komt de chirurg met 5% overlijdenskans, dan wordt dat verstaan als een uitnodiging om er eerst nog maar eens heel goed over na te denken. Heel lang is dat in de psychologische literatuur beschouwd als een typische misvatting bij de luisteraar, en als zodanig is het ook bestudeerd. Pas recent hebben onderzoekers zich gerealiseerd dat mensen niet zouden moeten handelen naar de logica van de aangeboden alternatieven, maar naar de informatieve lading die deze hebben. En ja hoor, uit empirisch onderzoek blijkt dat de ene, dan wel de andere formulering surplus-informatie bevat die verschillend is. Dat geldt zowel voor de luisteraars, als voor de sprekers: de sprekers leggen surplus-informatie in hun mededelingen, en de luisteraars pikken die informatie op. Het is te ingewikkeld om het in het kort uit te leggen, maar zie recente literatuur over framing effects, zoals Sher en McKenzie (2008).

Deze framing effects kunnen ook in het onderwijs, bij vragen en antwoorden, een niet onbelangrijke rol spelen. Specifiek daarop gericht onderzoek ken ik niet (maar is er mogelijk wel). Twee opmerkingen. Allereerst ligt het erg voor de hand dat bij een psychometrische benadering van het ontwerpen van keuzevragen het makkelijk zo kan zijn dat er surplus-informatie wordt meegegeven, en dat dat effect heeft op de moeilijkheid van de toetsvragen, en in een psychometrische benadering wordt die moeilijkheid bij voorkeur op een relatief hoog niveau gehouden (p-waarden rond .7). Ik ben benieuwd of het mogelijk is greep te krijgen op eventuele framing effects bij toetsvragen, en zeker bij keuzevragen. En ten tweede een dit keer wel heel bekend onderzoekresultaat (o.a. Verschaffel, Greer en De Corte, 2000), dat naar de verwachtingen die leerlingen hebben bij het oplossen van rekenopgaven: dat gaat helemaal de mist in bij opgaven van het soort ‘Wat is de leeftijd van de kapitein’? (Gegeven dat de kapitein 12 geiten en 17 schapen aan boord heeft, of iets dergelijks). Dit is evident een buitengewoon grof soort framing effect: leerlingen hebben geleerd dat er uit rekensommen altijd een getal komt, dat zo'n getal een bewerking is van de getallen in de vraag, dat hun leraar dat zo bedoelt (surplus-informatie), en dat dus ook bij deze vraag zo bedoelt. Voorzover mij bekend hebben Verschaffel en anderen dit fenomeen van schoolse interpretatie van rekenopgaven niet in verband gebracht met de literatuur over framing effects.

Shlomi Sher and Craig R. M. McKenzie (2008). Framing effects and rationality. In Nick Chater and Mike Oaksford: The probabilistic mind. Prospects for Bayesian cognitive science (pp 79-96). Oxford University Press.

Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

logica versus dagelijkse taal

Nog steeds op het gebied van de logica is er de mogelijkheid dat ontwerpers vormen van logisch redeneren gebruiken die niet goed sporen met hoe mensen in het dagelijks leven redeneren, zodat er een serieuze communicatiestoornis kan ontstaan tussen de ontwerper van de vraag, en de leerlingen die deze beantwoorden. Want leerlingen zijn mensen, en rederen in het dagelijks leven niet zoals logisch redeneren in de logica gaat. Niet dat mensen verkeerd zouden redeneren: zij kunnen gewoon andere vooronderstellingen hebben en daarbinnen heel logisch redeneren. Zo wordt de logische implicatie als het regent dan word je nat makkelijk opgevat als een dubbele implicatie, dus tevens betekenend: als je nat wordt, dan regent het. De logicus zal dan zeggen: zo heb ik het niet bedoeld, zo heb ik het ook niet gezegd, je moet dus beter naar mij luisteren. Heeft de logicus gelijk? Ook als hij ontwerper van toetsvragen is?

Is logisch ook logisch?

Het is niet ondenkbaar dat er problemen kunnen ontstaan bij toets- en examenvragen omdat de ontwerper de vraag op het niveau van de logica heeft ontworpen, en de kandidaten de vragen lezen zoals ze in het dagelijks leven met logische uitspraken omgaan. Naar de mate waarin dit zo is, is er een validiteitsprobleem met dergelijke vragen. Helaas ken ik geen onderzoek dat hier direct op is gericht; wie mij kan tippen, graag. Ik zal kort uitleggen wat het probleem is, en wat psychologisch onderzoek erover heeft te melden.

Er zijn in de logica twee basisvormen, de modus ponens en de modus tollens. De modus ponens is tamelijk eenvoudig: alle mensen zijn sterfelijk, Socrates is een mens, dus Socrates is sterfelijk. De modus tollens is net een slag anders: iedereen die goed zijn best doet, zal slagen, Marietje is niet geslaagd, dus Marietje heeft haar best niet gedaan. Wie logisch ‘verkeerd’ redeneert, kan concluderen dat een kat geen mens is, en dus onsterfelijk; respectievelijk dat Marietje geslaagd is, en dus haar best gedaan heeft.

Het springende punt is nu dat in psychologisch onderzoek blijkt dat proefpersonen in een kwart van de gevallen aan de modus tollens verkeerde conclusies verbinden, en nog vaker de beide andere verkeerde logische redeneringen volgen. Voor een meta-analyse van onderzoeken met bijna 3000 proefpersonen zie Schroyens en Schaeken, 2003.

Dit ziet er ernstig uit. Toetsdeelnemers wordt meestal voorgehouden dat ze de vragen heel zorgvuldig moeten lezen. Maar wanneer vragen gebruik maken van de modus tollens of van de omgekeerden van de modus ponens en de modus tollens, dan is het absoluut zeker dat alleen zorgvuldig lezen van de vragen niet voldoende is. Kijk, op dit punt zou ik graag een aantal aansprekende casus hebben. Ik heb geen flauw idee of, en zo ja in welke mate, ontwerpers van toetsvragen dergelijke logica in hun vragen stoppen, bewust of onbewust. En of in beroepszaken dit type probleem met enige regelmaat aan de orde is, terwijl betrokken partijen niet in staat zijn te zien wat hier werkelijk aan de hand is. Wie een casus heeft: laat mij het weten. Waarom heb ik zelf geen casus: ik ben pas sinds kort serieus bezig met de bijzondere relaties tussen logica en het spel van vraag en antwoord, waaruit ook eerdere paragrafen zijn voortgekomen. Ik heb dus nog geen gelegenheid gehad om het hier gesignaleerde probleem te herkennen in toetsvragen die ik op een of andere manier onder ogen heb gehad.

W. Schroyens and W. Schaeken (2003). A critique of Oaksford, Chater and Larkin’s (2000) conditional probability model of conditional reasoning. Journal of Experimental Psychology: Learning, Memory & Cognition, 29, 140-149.

NB: dit artikel bevat niet de hierboven bedoelde meta-analyse; de verwijzing die Oaksford en Chater (2008) geven klopt dus niet. De meta-analyse is: W. J. Schroyens, W. Schaeken, and G. d'Ydewalle, 2001, The processing of negations in conditional reasoning: A meta-analytic case study in mental model and/or mental logic theory. Thinking and Reasoning, 7, 121-172. Dat is nou net weer een tijdschrift waar ik geen toegang toe heb. Heel vervelend.

Mike Oaksford and Nick Chater (2008). Probability logic and the Modus Ponens — Modus Tollens asymmetry in conditional inference. In Nick Chater and Mike Oaksford: The probabilistic mind. Prospects for Bayesian cognitive science (pp 97-120). Oxford University Press. [Moeilijk geschreven, moeilijke stof, veel drukfouten, maar een mogelijk belangrijk onderwerp dat ik eerder ook wel ben tegengekomen, maar nu mogelijk veel beter kan relateren aan ontwerpen van vragen en antwoorden. In het bijzonder ben ik benieuwd hoe deze probability logic mijn eeuwige probleem met de veronderstelde absolute waarheden van de logica kan helpen oplossen]

Craig R. M. McKenzie (2004). Framing effects in inference tasks — and why they are normatively defensible. Memory and Cognition, 32, 874-885. pdf

Het gaat om het tweede onderwerp in de titel, de referentie hoort wel degelijk bij deze paragraaf, maar past natuurlijk ook bij de voorgaande over framing effects.

Strategieën

In analogie met schaken is het ontwerpen van een enkele toetsvraag te zien als het doen van een enkele zet. Alles binnen de regels van het spel is aanvaardbaar, maar daarmee nog niet goed, laat staan dat het de best denkbare zet is. Een goed ontworpen en overigens ook valide toetsvraag is mooi, maar het aaneenrijgen van dergelijke goede toetsvragen levert niet vanzelf een goede toets of een goed examen op. Het ontwerpen van toetsvragen mag dus niet op incidentele basis gebeuren, maar moet onderdeel zijn van een adequate strategie. Jaakko Hintikka (2007) benadrukt dat onbemerkte verwaarlozen van het strategische in een aantal vakgebieden (de zijne), en hij heeft daar zeker een punt. Voor ons is het niet echt nieuws, want het ontwerpen binnen een kader van validiteit is precies de algemene strategie die bedoeld wordt, dat kader is het corpus voor de toetsvragenontwerper, en zijn of haar expertise is de voorwaarde voor in strategische zin excellent ontwerpen van toetsvragen. De vraag is dan: wat zijn ‘winnende’ strategieën? Anders dan bij wedstrijden zoals schaken is er geen directe tegenstrever en dus ook geen eenvoudige beslisregel voor ‘gewonnen hebben.’ Dus terug naar af, en zoals De Groot destijds deed voor het denken van de schaker, hier het denken van de expert-ontwerper onderzoeken? Als gedachte is dit geen slecht begin, want de tweede vraag is: zijn er expert toetsvragenontwerpers te vinden? Hoe ze te herkennen? Ze zouden bijna spontaan zinvolle dingen moeten kunnen zeggen over vrijwel alle hierboven onderscheiden domeinen, en dan uiteraard toegespitst op het eigen vakgebied.

Het strategische in het denken van iemand als Eric Rogers over toetsvragen is dat hij in zo'n mijnenveld van kritische overwegingen, waarin de ene ingediende toetsvraag na de andere in het gezicht van zijn ontwerper ontploft, onmiddellijk komt tot het springende punt voor deze specifieke vraag, zonder te verzanden in oeverloos plussen en minnen. En dat alles natuurlijk als creatieve destructie, ruimte makend voor wat wèl een valide ontwerp voor de vraag is, al dan niet in de context van andere gelijktijdig te stellen vragen.

Dat er in de literatuur weinig expert toetsvragenontwerpers zijn te vinden, heeft mogelijk als reden dat voor het verwerven van die expertise een enorme ervaring nodig is, denk in de orde van grootte van de typisch voor expertise benodigde 10.000 uren gerichte inzet. Dat is een volledige dagtaak voor een behoorlijk aantal jaren, er zijn maar weinig mensen die dat kunnen doen. Maar neem het ‘ontwerpen van toetsvragen’ minder letterlijk, dan valt er ook onder wat veel leraren een groot deel van hun tijd doen: vragen stellen aan hun leerlingen als onderdeel van het instructieve proces. Leraren kunnen makkelijk de nodige ervaring opbouwen die voor expertise nodig is, de vraag is alleen of ze de nodige kwaliteit kunnen bereiken. Veel leraren lukt dat, een aardig publiek voorbeeld zijn de masterclasses van meester-musici. Ik kan zo uit de losse pols geen onderzoek noemen naar de expertise van leraren in het stellen van vragen (maar zie het onderzoek van Hill e.a. 2008), er is wel het nodige onderzoek naar hun opvattingen over het vak en over onderwijs maar dat is niet precies genoeg. Het is ook van belang te weten of leraren als expert vragenstellers in staat zijn die expertise te benutten wanneer zij meer formele toetsvragen ontwerpen.

Het strategische bij het ontwerpen van toetsvragen zit dus niet in de platheden van hoeveel vragen er in een toets gesteld moeten worden, dat is meer een technische kwestie dan een strategische.

Dit alles gaat dan de ontwerper van toetsvragen direct aan, maar er zijn andere partijen die eveneens strategisch gedrag kunnen tonen: overheid, leraren, studenten. Vooral studenten kunnen sterk strategisch opereren, ook al hebben zij mogelijk niet altijd goed zicht op hun belang op lange termijn (procrastinatie: uitstelgedrag), en al kunnen zij niet perfect met de kanstheoretische eigenschappen van nog af te leggen toetsen omgaan (statistici kunnen dat zelf ook niet).

In de klasse van specifieke strategische zaken staat het strategisch handelen van studenten bovenaan: met informatie over de komende toets kunnen zij in de voorbereiding nog hun voordeel doen. Studenten laten zich niet zomaar toetsen afnemen. Sterker nog, het is in het onderwijs typisch de bedoeling dat ze zich er goed op voorbereiden, en als het even kan beter dan dat. Er is daarom zeker altijd ook sprake van terugkoppelingseffecten, al was het maar omdat studenten willen welke onderwerpen op welke manier aan de orde kunnen komen (en welke dus niet). Er zijn tal van omstandigheden denkbaar die ertoe kunnen leiden dat studenten in hun voorbereiding selectief zijn, gegeven de overgangs- of examenregeling, gegeven wat zij weten over hoe de docent over de stof zal vragen, of waar hun eigen voor- en afkeur ligt. Het gevolg kan zijn dat afzonderlijke vragen in een toets best valide kunnen zijn, zonder dat zij gezamenlijk een valide resultaat leveren.

Omdat studenten belangen hebben bij dit alles, is het zaak te borgen dat hun strategische voorbereiding op toetsen op een juiste manier gebeurt. De klasse van modellen is die van de tentamenmodellen (Van Naerssen, 1970 html; Wilbrink, 1998 html, in bewerking html, in zekere zin gebaseerd op transparantie als validiteitseis (De Groot, 1970 html). Tentamenmodel en de eis van transparantie moeten elkaar hier aanvullen, omdat de eis van transparantie direct de inhoud van de toetsheel bijzonder betreft, en tentamenmodellen juist van die inhoud abstraheren.

Raakt dit wel het niveau van de afzonderlijke toetsvraag? Jazeker, maar daar moet je dan wel op uit zijn. Er zijn altijd meerdere wegen waarlangs de gevraagde beheersing kan zijn verworven. Dat is maar goed ook, omdat er meerdere stijlen van leren zijn, en waarschijnlijk niet iedere student even makkelijk een andere stijl van leren kan aanwenden. Maar uiteindelijk kan het niet de bedoeling zijn dat inzichtelijke vragen goed worden gemaakt door studenten die de antwoorden op de betreffende vragen uit het hoofd hebben geleerd. Of bij de vijfde herkansing net een ‘voldoende’ resultaat boeken. Kijk, en bij dat laatste is een goed tentamenmodel belangrijk om adequaat beleid te kiezen.

Docenten, en zeker docenten als ontwerpers van examenvragen, kunnen allerlei overwegingen en strategieën hebben die mogelijk ernstige bedreigingen voor de validiteit van hun vragen vormen. In de paragraaf over validiteit, hierbeneden, komt als casus aan de orde hoe onder de druk van extreem competitieve examens docenten hun toevlucht nemen tot vraagstellingen waarbij over de beoordeling van de antwoorden zo weinig mogelijk discussie en onenigheid kan ontstaan. Ongelooflijk oneigenlijk dus.

stilzwijgende onderhandeling tussen docenten en studenten over de cijfergeving

Een bijzonder en tegelijk universeel fenomeen is dat van de stilzwijgende onderhandeling tussen docenten en studenten over de strengheid van de beoordeling. Ha, de wetmatigheid van Posthumus zult u denken. Zeker, maar het gaat nu om het achterliggende mechanisme, om het strategisch handelen van docenten — prachtig beschreven door Adriaan de Groot in zijn Vijven en zessen van 1966 — waar studenten als groep hun eigen strategie — een vorm van de lijn trekken, ‘zesjescultuur’ heet dat sinds een platte opmerking van onze eerste minister Balkenende — tegenover die van hun docenten zetten. Klinkt dit bekend, of juist vaag? Welnu, het fenomeen is prima te onderzoeken (Coleman (niet gepubliceerd), Wilbrink 1992a, 1992b), Becker, Geer en Hughes (1968) hebben een sociologisch casus beschreven, James Coleman (1990) heeft er een methodologisch apparaat voor gegeven. In theorie hoeft deze stilzwijgende onderhandeling geen impact te hebben op de wijze van ontwerpen van examenvragen, in de praktijk is het een illusie te menen dat de validiteit hier geen bedreiging van ondervindt.

H. Becker, B. Geer & E. C. Hughes (1968). Making the grade: the academic side of college life. New York: Wiley. http://home.earthlink.net/~hsbecker/ http://home.earthlink.net/~hsbecker/grades.html

James S. Coleman (1990). Foundations of social theory. Harvard University Press.

James S. Coleman (1994 unpublished). What goes on in school: A student’s perspective. html

Ben Wilbrink (1992). Modelling the connection between individual behaviour and macro-level outputs. Understanding grade retention, drop-out and study-delays as system rigidities. html

Ben Wilbrink (1992). The first year examination as negotiation; an application of Coleman’s social system theory to law education data. html

Op het eerste gezicht minder interessant, maar in potentie een bedreiging van onderwijskwaliteit, is het sluiten van compromissen overal waar het lastig of onmogelijk is om op een directe manier te vragen naar specifieke kennis. Bijna iedere formele beoordelingssituatie is een kunstmatige situatie, zodat in deze zin toetsvragen per definitie geen perfecte match kunnen vormen met de kennis waar het in de cursus om gaat.

Het probleem van de lichtelijk beschonken gast die zijn gevallen fietssleuteltje gaat zoeken op de plek waar er licht is, in plaats van op de plek waar het gevallen moet zijn, is constructeurs van psychologische tests niet onbekend. Talrijk zijn de waarschuwingen in de literatuur, onder andere door Lee Cronbach, voor de verleiding om, daar waar het moeilijk is vragen te ontwerpen die doeltreffend zijn, dan maar de vragen te maken die wèl zijn te ontwerpen, maar niet on the mark zijn.

Neem bijvoorbeeld zoiets als toetsen op het begrijpen van een gelezen tekst. Het is makkelijk genoeg om vragen te bedenken die met de boodschap in de tekst iets hebben te maken, maar raakt dat dan het begrijpen van die tekst? Als dat zo zou zijn, dan zou er een hoge mate van consensus moeten bestaan over wat het is om teksten te begrijpen, en zou iedere docent dat uit kunnen leggen. Maar dat blijkt dus niet zo te zijn. Een wetenschappelijke poging om hier greep op te krijgen, is onderzoek van Sternberg en zijn collega’s naar wat het is om tekst te begrijpen, elders al aangehaald.

Het toetsen op natuurkundige kennis lijkt eenvoudig genoeg, maar wat diepergravend onderzoek bevestigt de ervaringen van leraren, zoals Dijksterhuis, dat het heel goed mogelijk is voor leerlingen om de kunstjes in de vingers te hebben, zonder goed begrip van de natuurkundige beginselen. Zie ook Hestenes, Wells, and Swackhamer,1992 pdf.

Het ritselt dus in het onderwijs van de compromissen en de handigheidjes, traditioneel gegroeid ook, die niet noodzakelijk valide vragen opleveren.

technische bedreigingen van validiteit

Tenslotte kunnen overigens valide vragen nog technische fouten heben: drukfouten, onjuist taalgebruik, onvolledige instructie of voorlichting aan studenten, etcetera.

Nu wordt het menens. Vragen kunnen uiterlijk perfect zijn — glashelder geformuleerd, zonder storende raadkansen, evident over de opgegeven stof gaan — en toch het onderwijs onwaardig zijn. Dat kan heel simpel door allerlei manieren van verkeerd aansluiten: verkeerd ingeschatte moeilijkheid, te veel details en voetnoten, meer toetsen op intelligentie dan op beheersing, wel de feiten maar niet de samenhang, zo abstract vragen dat niet meer zeker is waar het eigenlijk over gaat, enzovoort. Het is niet zeker dat na het weggooien van al dergelijke niet valide vragen de overblijvende dus valide zijn. Een positieve benadering is handiger, maar ook razend moeilijk en een grote uitdaging: zorg er bij het ontwerpen al voor dat de vragen valide zijn, dat wil zeggen dat een goed antwoord het aannemelijk maakt dat de gevraagde kennis er inderdaad is. Wie de toetsliteratuur ook maar een beetje kent, voelt hier een nattigheid: het begrip validiteit is kennelijk een andere dan gebruikelijk, en het begrip kennis, zoals hier gebruikt, roept meer vragen op dan het beantwoordt. Voor beide begrippen is een rotsvaste verankering in de literatuur nodig om er voor het ontwerpen van toetsvragen gebruik van te kunnen maken. Voor het begrip validiteit is het werk van Denny Borsboom (zie beneden) de hoeksteen. Borsboom heeft daarbij sterke veronderstellingen over het bestaan van kennis nodig, maar ik ben ervan overtuigd dat recent werk van Ronald Giere de hoeksteen voor het begrip kennis moet zijn. Het realistische standpunt van Borsboom, realistisch in filosofische zin, ruil ik in voor het perspectivisme van Giere, dat als een belangrijke nuancering van het realisme is op te vatten, een brug slaand naar constructivistische opvattingen, ook deze in filosofische zin, die nu juist van eminent belang zijn in het onderwijs. Onderwijzen, leren, is immers een bij uitstek constructieve activiteit. Of zo lijkt het. Deze paragraaf wordt een ritje in een achtbaan.

Een absolute kwaliteitseis voor een toetsvraag is dat deze valide is: dat een goed antwoord op de vraag laat zien dat de gevraagde kennis aanwezig is. Voor deze absolute validiteit maak ik dankbaar gebruik van het werk van Borsboom, Mellenbergh en van Heerden (2004 pdf) over validiteit, die in deze publicatie ruim afstand nemen van gebruikelijke opvattingen over validiteit. Deze gebruikelijke opvattingen gaan overigens meestal over toetsen in hun geheel, dus niet over individuele toetsvragen. Met goed recht zijn deze gebruikelijke opvattingen daarom opvattingen over geaggregeerde validiteit te noemen, en dat is in ieder geval een ander concept dan dat van validiteit van afzonderlijke vragen.

Ik laat in het volgende in het midden wat precies die ‘kennis’ is, in ieder geval is het niet de enge onderwijskundige opvatting van kennis tegenover of op zijn bestnaast inzicht en toepassing. Kennis in de gewone Nederlandse betekenis van het woord is zowel kennis van feiten, als begrijpen en weten toe te passen, allesomvattend dus.

casus 1.

In de literatuur is een bijzonder verschijnsel beschreven, door Noel Entwistle knowledge objects genoemd: een tamelijk plotseling, maar wel na diepe studie, ontstaan perfect inzicht in de stof, zie de box hierboven (Entwistke & Marton, 1994). Dit casus laat fraai zien waar het bij de validiteit van toetsvragen om gaat: de gevraagde kennis moet echt bestaan wil er een goed antwoord op de vragen komen, en als de kennis er echt is komt er zeker een goed antwoord. De perfecte beheersing bij het knowledge object betekent dat de student zelfverzekerd is, en wel zo zelfverzekerd dat een misser in een gestelde vraag ook zo zal worden benoemd, althans dat vermoed ik dat het geval zal zijn.

Het knowledge object verankert in zekere zin wat het ideaal is bij validiteit van toetsvragen. Zijn er voor een bepaald vak vrijwel nooit studenten die met zo'n zelfverzekerde perfecte beheersing examen komen afleggen, dan is de stof voor dat examen mogelijk een rommeltje, of de vragen van dat examen zijn het, of beide. Een voorbeeld waarbij de vragen verdacht zijn is het volgende.

De Citotoets aan het eind van het basisonderwijs heeft van de 140.000 deelnemende leerlingen maar drie perfecte scores, en acht bijna perfecte. Het is voor de leerlingen die de basisschoolstof perfect beheersen, en dat moeten er echt heel veel van die 140.000 zijn, dus niet mogelijk om die perfecte beheersing terug te zien in hun score op de Citotoets. Er is met het ontwerp van de Citotoets in dit opzicht dus echt iets aan de hand dat nader onderzoek nodig maakt. Deze leerlingen met perfecte beheersing kunnen wel tegen een stootje, het is niet zielig of zo, maar het ontbreken van echt hoge scores is een aanwijzing dat de toets onnodig moeilijk en daarom onnodig kwellend is voor grote groepen deelnemende leerlingen. In termen van validiteit van individuele vragen van de Citotoets: het is onwaarschijnlijk dat deze allemaal valide zijn in de betekenis daaraan gegeven in deze paragraaf.

Wie wat wil experimenteren met hoe het gaat met 140.000 leerlingen die een toets van 200 vragen maken, zodanig dat de hoogst scorenden het minimale aantal aan de top van de verdeling zijn, met bovendien scores die precies de top aanraken, kan gebruik maken van een Java-applet dat ik voor dit soort doel heb ontwikkeld (hier, vul bij ‘runs’ 140.000 in, bij ‘items’ 200, 199 voor ‘cutoff', en 0,94 voor ‘mastery'. Als 140.000 studenten mastery 94% hebben dan scoren 6 van de 100.000 199 of 200. Minder simplistische analyses zijn mogelijk met applet 3 hier, waar de beheersing van de leerlingen een betaverdeling kan worden gegeven in plaats van een puntwaarde zoals in applet 1).

Een kennisobject is niet letterlijk iets dat in de hersenen is opgeborgen. Het voorbeeld van perfecte beheersing van analytische meetkunde suggereert dat wel, maar dat komt vooral omdat ons onderwijs traditioneel zo enghartig op het individueel kennen van van alles en nog wat is gericht. ‘Analytische meetkunde’ is wat Giere (2006) een abstract model zou noemen, iets dat in abstracte vorm werkelijk bestaat en in beginsel voor iedereen toegankelijk is, maar wat beter voor wie ‘het’ beter beheerst. Hersenen en kennis hebben zeker veel met elkaar te maken, maar voor het (re)produceren van kennis is meestal ondersteuning in de buitenwereld nodig. Zoals twee grote getallen met elkaar vermenigvuldigen: daarvoor is ook papier en potlood nodig, een rekenmachine, of een telraam. Improviserende muziek maken in een trio, daar is wel een trio voor nodig. Dit thema komt straks nog uitvoeriger terug, in feite loopt deze paragraaf enigszins vooruit op het behandelde in hoofdstuk 3.

Kennis van de wereld is perspectivisch, is een relatie met de wereld, is dus niet iets dat binnen de hersenen plaatsvindt. Giere (2006, hoofdstuk 6).

De inzichtelijke sprongen die musici in een masterclass kunnen maken horen mogelijk ook tot deze familie van kennisobjecten. Een bekend voorbeeld zijn de masterclasses door Isaac Stern in China, met heel jonge violisten. Ieder nieuw optreden is een valide toets op deze nieuwe inzichten van de jonge musici.

Murray Lerner filmde de documentaire From Mao to Mozart: Isaac Stern in China. Een fragment hieruit is vertoond in VPRO’s Zomergasten hier

casus 2.

perfect valide: toetsen in psychologisch onderzoek

Een hoog smal glas en een laag breed glas bevatten ieder evenveel kralen. Vraag een jong kind welk glas de meeste kralen bevat.

Heel jonge kinderen zeggen nog dat het hoge glas ‘meer’ kralen heeft. Dit is een toets, een experiment, om na te gaan of het kind al een getalbegrip — number conservation — heeft dat een goed antwoord mogelijk maakt.

Jean Piaget heeft talloze proefjes van bovenstaand type gedaan om de ontwikkeling van het denken van kinderen te bestuderen (zie bijv. Flavell, 1963). Het zijn proefjes die binnen zijn theorie valide zijn. Maar ja, theorieën zijn altijd door betere te vervangen. Het is dan ook boeiend te zien hoe bijvoorbeeld Sfard en Lavie (2005 pdf) hetzelfde type proef doen en de resultaten een heel andere theoretische duiding geven. Wie de proefjes van Sfard en Lavie ziet als toetsvragen, kan er veel uit leren over hoe valide toetsvragen te ontwerpen, en dan vooral over de innige samenhang tussen vragen zoals gesteld, antwoorden zoals gekregen, en hoe die relatie valide te duiden. Eenvoudig lijkende proefjes blijken helemaal niet zo eenvoudig te duiden, dat leert ons nederigheid waar het gaat om de validiteit die we voor onze ontworpen toetsvragen claimen. Kennis blijkt niet iets in de hoofden van deze kinderen te zijn, maar een een kwestie van adequaat communiceren, een sociale activiteit zoals deze auteurs zeggen. Die communicatie heeft voor volwassenen sterke vanzelfsprekende trekken waardoor we ons wijs laten maken dat kennis iets objectiefs is en in hoofden huist. Leraren zijn volwassenen, hun onbewaakte opvattingen over wat kennis is, en wat vragen naar kennis is, kunnen validiteit van hun vragen in de weg staan, evenals de kwaliteit van hun onderwijs.

perfect valide: toetsen in experimentele psychologie

Halford en Busby (2007) ontwerpen een abstracte structuur, een relationeel schema. Proefpersonen in een laboratoriumsituatie leren dat schema, dat zij zelf niet kennen, aan de hand van concrete voorbeelden van afzonderlijke relaties uit dat schema. Halford en Busby toetsen het geleerde met opgaven waarvan er onbeperkt veel verschillende zijn te maken, en die perfect valide zijn voor dat relationele schema.

In het algemeen geldt dat in de experimentele psychologische literatuur royaal voorbeelden van perfect valide ‘toetsopgaven’ te vinden zijn. Dat ligt voor de hand: zonder valide opgaven geen valide experiment. Waarom niet ook: alleen goed onderwijs met valide toetsvragen? De metafoor van het meten in een wetenschappelijk experiment biedt houvast. Uit de theorie volgt een bepaalde stand van zaken die onder bepaalde condities zal optreden. Het optreden van die stand van zaken moet valide worden vastgesteld: manifestatie van de voorspelde meetresultaten als veroorzaakt door de stand van zaken, niet door enige andere gebeurtenis. Het instrumentarium om die meting te verrichten is de kern, maar tal van voorwaarden moeten procedureel gewaarborgd zijn. Beschouw het gegeven onderwijs als een experimentele behandeling. Jaarlijks herhalen van het experiment met nieuwe leerlingen maakt het alleen maar sterker. Hoe sterker de theorie over wat de resultaten van het onderwijs — als toegevoegde waarde — moeten zijn, des te sterker een valide vaststelling daarvan kan zijn.

casus 3.

De box toont optellen en vermenigvuldigen van getallen onder de tien, als feiten te leren en beschikbaar te hebben. Voorwaarde is dat de leerlingen hebben begrepen wat optellen en vermenigvuldigen voor deze kleine getallen is. De aanbiedingsvorm mag variëren, er zijn veel computerspellen die dit oefenen. Er is een sterke theorie in cognitieve psychologie en neuropsychologie beschikbaar — bijvoorbeeld Lebiere (1998 pfd), Lebiere en Anderson (1998) — en er is uit onderzoek naar dyscalculie veel over bekend. Let op: deze rekenfeiten worden mee-geoefend en mee-getoetst in alle opgaven met getallen groter dan negen, waardoor een al verkregen vaardigheid in rekenfeiten op peil blijft of verbetert. Natuurlijk is het mogelijk op zich valide vragen verkeerd of misplaatst te gebruiken, dat maakt ze alsnog niet valide.

Toch is er ook bij de eenvoudige opgaven in bovenstaande box mogelijk meer aan de hand dan alleen de wiskunde suggereert. De rekenkundige bewerkingen zelf zijn allesbehalve eenvoudig, en de leerling moet de procedure — de algoritmen — goed begrijpen voordat het mogelijk is om deze eenvoudige rekenkundige bewerkingen op ‘objectniveau’ te doen, dus geautomatiseerd. Tussen het leren van het algoritme en het kunnen spelen met deze eenvoudige rekenkundige feiten ligt een lange leerweg. En dat geldt in het algemeen voor het vak rekenen en wiskunde. Er is goede theorie nodig, zie bijvoorbeeld Sfard (1991, 2008), om dan greep te krijgen op de validiteit van te ontwerpen opgaven. Nee, die goede theorie is zelf geen wiskunde, maar een psychologische theorie over het leren van wiskunde, en dat is een onderscheid waar Hans Freudenthal mee heeft geworsteld.

casus 4.

[Het gaat om cognitie, maar dat is niet iets dat alleen in hersencellen plaatsvindt, maar in verschillende vormen van verdeeldheid. Een klassiek voorbeeld is het vermenigvuldigen van twee grote getallen met elkaar (o.a. aangestipt door Giere (2006, p. 97), gaat terug op Rumelhart, 1986): de cognitie is verdeeld over het weten hoe het proces op papier te doen, de tafels van vermenigvuldiging kennen, en vooral het op papier uitwerken. Die uitwerking op papier is een belangrijk aangrijpingspunt voor de ontwerper die valide vragen wil maken: bij distributed cognition hoort die papieren uitwerking erbij, niet zozeer als antwoord (want dat is gewoon de uitkomst van de opgegeven som), maar als onderdeel van het weten, van de cognitie, een weten dat dus niet meer als uitsluitend in het hoofd van de leerling wordt beschouwd. Een stap verder, hetzelfde met meerdere leerlingen: casus 5.]

casus 5.

[De verdeling kan ook over meerdere personen zijn, die gebruik maken van instrumenten bijvoorbeeld. Een bekend voorbeeld is het een haven binnenbrengen van een schip, waarbij nogal wat mensen in verschillende functies en op verschillen plaatsen op verschillende manieren direct zijn betrokken (Giere, 2006). Is dit een prototypisch casus voor goede groepsactviteiten in onderwijs (Deanna Kuhn, 2005), en hoe proces en resultaat en bijdrage van inviduele partners daarin op valide wijze blijken?]

wat is het voor vragen om niet valide te zijn?

[Veel platvloerser zijn dan de voor de hand liggende, soms minder voor de hand liggende, mogelijkheden dat toetsvragen niet valide zijn. Enkele illustraties zijn in deze paragraaf wel nodig, om vanuit dat contrast beter duidelijk te maken wat validiteit inhoudt, maar eigenlijk hoort dit onderwerp meer in hoofdstuk 8 thuis (kwaliteitscontrole, hoe constateer je of vragen valide zijn of mogelijk niet?).]

En betrouwbaarheid dan?

In de literatuur vormt het begrip validiteit een vast koppel met het begrip betrouwbaarheid. De bedoelde literatuur is die over toetsen en testen. Wie niets heeft met betrouwbaarheid, kan deze paragraaf overslaan. Is het een boeiend thema, dan? Een casus kan dat verduidelijken.

De prestatie op het Mathematical Tripos examen was in de 19e eeuw in hoge mate bepalend voor de verdere loopbaan van de serieuze Cambridge student, en dat was maar zelden een loopbaan in de wiskunde. De geleverde prestatie was de plaats in de rangorde. Iedereen moest daarom de overtuiging hebben dat die rangorde stond als een huis, en dat overstemde luid en duidelijk alles wat met de inhoud van dat examen te maken had. Een volkomen uit de hand gelopen obsessie met betrouwbaarheid dus, maar het bleek gedurende meer dan een eeuw niet mogelijk om een eind aan de wantoestand te maken. Pas in 1907 kwam er in de plaats van de hitlijst een uitslag in groepen, in cijfers dus, waarmee de meest ergerlijke van de eeuwenoude uitwassen ook konden verdwijnen.

De basale betekenis van betrouwbaarheid is: de mate waarin replicaties van een meting, proef of de productie met elkaar overeenstemmen. Zo is er in de 19e eeuw een euforische obsessie met de nauwkeurigheid van standaarden en dus van natuurkundige metingen (Wise, 1995), want het kan altijd nauwkeuriger. Psychologen wilden graag in de euforie delen, maar helaas hebben zij zich laten verleiden tot een verschuiving en verenging in de betekenis van betrouwbaarheid: de mate waarin een rangorde van meetresultaten bij replicatie in stand blijft. U voelt hem al aankomen: de rangorde is die van leerlingen naar hun score op de betreffende toets. Wie betrouwbaarheid op zo'n kromme manier opvat, moet dat ook met validiteit doen. Natuurlijk, er kunnen situaties zijn waarin dat een adequate benadering kan zijn, bijvoorbeeld bij vergelijkende selectie omdat daar die rangorde van belang is. Maar onderwijs gaat niet over rangordenen van leerlingen, hoewel dat rangordenen vaak een consequentie is die de samenleving trekt uit verschillen in onderwijsprestaties. Ergo, bij een heldere visie op validiteit van toetsvragen, is er geen enorme behoefte aan daarnaast ook nog een begrip betrouwbaarheid.

Wie hierin niet meteen mee wil gaan, kan het volgende bedenken. Een valide toets op beheersing maakt onderscheid tussen verschillen in beheersing, in het bijzonder ook onderscheid tussen degenen die het betreffende onderwijs hebben gevolgd, en een controlegroep die dat onderwijs niet heeft gevolgd. Een onafhankelijke replicatie van deze toetssituatie zou een vergelijkbaar verschil tussen onderwijs- en controlegroep moeten laten zien, en dan is het zinvol te spreken over betrouwbaarheid van de eerste toets en/of zijn replicatie. Het is merkwaardig dat in de psychometrische literatuur die controle-conditie zelden figureert, zodat de dubbelzinnige situatie overblijft dat alleen verschillen binnen de onderwijsgroep voor analyse beschikbaar zijn: de psychometricus probeert zich aan de eigen haren uit dit moeras te trekken. Dat is bijvoorbeeld te zien aan de koddige stelling dat een toets die geen betrouwbare verschillen [binnen de onderwijsgroep] oplevert, van nul en generlei waarde is. U kunt het tegenvoorbeeld nu zelf wel bedenken (zie Borsboom, Mellenbergh en Van Heerden, 2004, p. 1066 over variabiliteit; zij draaien de versleten stelling dat betrouwbaarheid een voorwaarde voor validiteit is 180 graden om: zonder validiteit heeft het geen zin om over betrouwbaarheid te spreken).

Toch verdient dat willen meten van verschillen binnen groepen meer aandacht. Op de een of andere manier is dat sinds het begin van de vorige eeuw een eigen leven gaan leiden. Ook Borsboom ontkomt er niet geheel aan, waar hij in zijn proefschrift aan ‘verschillen in intelligentie’ een ontologische status geeft: zij bestaan los van het bestaan van individuele intelligentie, en kunnen toch een oorzakelijke rol in deze wereld spelen. Ik zou graag helder krijgen wat hier aan de hand is.
Mijn eerste vermoeden is het volgende. Bij het meten van gewicht is het heel veel eenvoudiger om met hulp van een balans verschillen in gewicht te meten — is deze diamant zwaarder dan die andere ? — dan het is om in absolute zin het gewicht van iedere diamant afzonderlijk te bepalen. Wat voor fysische eigenschappen zoals gewicht geldt, doet dat ook voor eigenschappen zoals intelligentie. Het is echt niet lastig om verschillen in intelligentie te meten, dat was het ook niet voor Binet die een instrument wilde maken om zwakbegaafde van andere kinderen te kunnen onderscheiden [dit moet ik nog wel even controleren bij Binet zelf]. We kunnen ons — net als de wiskundigen bij de Mathematical Tripos — naar hartelust uitleven in het bedenken van allerlei opgaven die verschil maken tussen verschillend intelligentie kinderen. Het bijzondere is dat we dat kunnen doen zonder ooit het probleem op te lossen hoe intelligentie van een enkele persoon op een goede manier meten, dus zonder die noodzakelijk te vergelijken met die van anderen, zoals we dat in de fysica met het gewicht van afzonderlijke leerlingen wel degelijk kunnen doen. Het is nu wel duidelijk dat het niet handig is om die verschillen te reïficeren: dan gaat de eenvoudige meetprocedure met ons inzicht op de loop. Maak dan ook nog even het overstapje naar schoolprestaties: ook daar zijn we samen heel erg bezig vooral verschillen te meten. Op zich hoeft dat laatste geen strijd met de geldigheid op te leveren, maar het gebeurt maar al te makkelijk dat de betrouwbaarheid van die verschillen op de loop gaat met de validiteit van dat waar het bij onderwijs en examen om gaat (Tripos!).
Deze analyse is zeker niet nieuw of origineel, maar hij is wel zeldzaam; ik zal nog proberen enkele zeldzame vindplaatsen op te sporen.

Wie graag wat wil rekenen of simuleren, kan het SPA_model html gebruiken: gegeven de ware beheersing van een student, dan is de voorspellende verdeling voor de score op de af te leggen toets een binomiaalverdeling. De verschillen die volgen uit de mogelijke scores voor die binomiaalverdeling, zijn strikt toevallige verschillen voortvloeiend uit de specifieke steekproef van toetsvragen. Wie enig onderwijs in steekproeftrekken heeft genoten, kan het vervolg nu wel aanvullen: niet toevallig en dus ‘betrouwbaar’ is de verwachte waarde voor de score op de toets, strikt toevallig, en dus onbetrouwbaar, zijn de verschillen tussen waargenomen scores en deze verwachte waarde. De onbetrouwbaarheid in de laatste betekenis is kleiner bij grotere steekproeven; dit is waar statistici hun discipline ooit een vliegende start mee hebben gegeven. Lord en Novick (1968, hoofdstuk 23) geven inderdaad ook materiaal over binomiaalmodellen, maar komen aan de beschouwing van toepassing op de individuele leerling niet toe.

Let op dat in het bovenstaande twee soorten bronnen voor onnauwkeurigheid stilzwijgend zijn samengenomen: a) allerlei onbedoelde invloeden in de categorie van leesfouten en herrie tijdens de toets die uitkomsten minder betrouwbaar maken, en b) de trekking van de in de toets op te nemen vragen uit een domein van valide toetsvragen waardoor de ene leerling pech, de andere misschien geluk heeft.
Die laatste bron van toevalligheden wil ik niet graag als bron van onbetrouwbaarheid aanmerken: er is niets onbetrouwbaars in deze methode van samenstellen van een toets. Natuurlijk, bij een klein aantal vragen kan de uitkomst makkelijk over een groot deel van de hele uitkomstenschaal vallen, en als dat bezwaarlijk is — wat het voor examens zeker is — moet het aantal vragen veel groter zijn (niet noodzakelijk altijd voor alle deelnemers, maar dat is een kwestie van techniek). Het is moeilijk te begrijpen dat steekproefverschillen geen fouten zijn, omdat we geneigd zijn — en ons altijd geleerd is — dat toetsen iets meten, en voor ons het prototypische meetinstrument het meetlint is: daar komt geen steekproeftrekken aan te pas, iedere meting is exact, op afleesfouten etcetera na. Welnu, in de sociale wetenschappen is meten van een andere orde van complexiteit dan in de exacte wetenschappen veelal (maar zeker niet altijd) het geval is, zie Krantz, Luce, Suppes and Tversky (1971/2007).
En dan is er nog zoiets als raden dat een onnodig grote rol kan spelen bij keuzevragen, maar ook bij andere typen vragen natuurlijk een rol mee kan spelen.
Dat brengt het aantal te onderscheiden bronnen van variabiliteit in de scores op toetsen of toetsvragen op drie: 1. steekproeftrekken, 2. fouten van allerlei slag, 3. raden. En zo leg ik onbedoeld toch weer heel veel uit dat minder met het ontwerp van afzonderlijke toetsvragen heeft te maken, als met dat van de toets in zijn geheel. Op de een of andere manier ontkom ik daar niet aan, om het begrip betrouwbaarheid een beetje af te bakenen, smoel te geven. Kortom, veel van wat in de toetsliteratuur onbetrouwbaar heet te zijn, heeft te maken met gewoon valide steekproeffluctuaties. Iets anders is dat men zich een genomen steekproef groter kan wensen: stel dan de volgende keer meer vragen. Voor de wiskundige beschrijving, en handige instrumentjes om situaties door te rekenen, zie het SPA-model hier, of een oudere presentatie uit 1998 html.

Ronduit gevaarlijk en onprofessioneel is de vaak gegeven aanbeveling om toetsvragen die niet bijdragen aan de klassieke betrouwbaarheid van de toets, om die reden te vervangen door andere vragen, of ze achteraf buiten beschouwing te laten. Niet doen, als de vraag valide is en er geen wonderlijke drukfouten etcetera zijn te bekennen, dan is het een valide vraag en dat is het. Borsboom, Mellenbergh en Van Heerden (2004, p. 1067, optimaliseren van voorspellende waarde) waarschuwen dat toch vervangen van deze vragen de validiteit van de toets in gevaar brengt. NB: validiteit op het niveau van de toets is niet noodzakelijk hetzelfde als validiteit van de betreffende afzonderlijke toetsvragen; de validiteit van de toetsvraag is zeker niet gedefinieerd als wat de vraag bijdraagt aan validiteit van de toets of van de beslissingen op basis van de toets — de validiteit zoals die in Richtlijnen en Standards is besproken. Moet ik hier nog aan toevoegen dat het ook beter is de goedbedoelde raad te streven naar een moeilijkheid van 0,7 voor toetsvragen geheel te negeren? Ja, dat moet ik toevoegen. Die moeilijkheid is ook weer beperkt tot de groep voor wie de toets is bedoeld, geen controlegroep te bekennen .... . Vergeet dat streven liever.

Een goed uitgangspunt lijkt nu te zijn om een enkele ontworpen toetsvraag op zijn validiteit te onderzoeken, analytisch of experimenteel of hoe dan ook, gerefereerd aan de inhoud van de vraag zowel als aan het doel van het betreffende vak, maar ook gerefereerd aan de doelgroep van leerlingen. Hun wereldkennis en taalbeheersing mogen doorgaans niet van invloed zijn op het kunnen beantwoorden van de vraag, tekorten daarin zouden de validiteit van de vraag aantasten. Een eventuele tekortschietende voorbereiding mag dat doorgaans wel, want dat is immers de vraag die bij iedere beoordeling aan de orde is: is de voorbereiding adequaat geweest, en zo nee wat is dan de vervolgactie? Dit is een bruggetje naar de opmerking dat toetsvragen tekortschieten in validiteit wanneer op foute antwoorden geen adequate actie volgt. Met andere woorden: de validiteit van de toetsvraag is niet begrensd tot de vraag zelf, maar is inclusief het didactisch handelen contingent op het niet goed beantwoorden van de vraag. Wat betekent dat het wenselijk is, zo niet essentieel, dat de beoordelaar altijd actie neemt op foute antwoorden, nimmer volstaat met foute antwoorden alleen maar te turven en het resultaat in een leerlingvolgsysteem in te voeren, or whatever. Ik vermoed dat veldonderzoek uitwijst dat veel docenten in de praktijk slechts incidenteel achter foute antwoorden proberen te kijken naar mogelijke oorzaken daarvan, en slechts zelden met de individuele leerling naar een adequate remedie zoeken. Een gevolgtrekking voor het ontwerpen van toetsvragen lijkt dan te zijn, en ook dat moet ik verder onderzoeken, dat het wenselijk is in het ontwerp ruimte te maken voor waarom-vragen: waarom is het gegeven antwoord het goede antwoord? Bij open vragen is dat natuurlijk minder een probleem dan bij keuzevragen.

Overigens is deze didactische benadering ook toepasbaar op toetsen in zijn geheel, zie een pleidooi daarvoor in mijn (1991 html) over huiswerkbeleid, een pleidooi van een ouder voor een eenvoudige vorm van kwaliteitsbewaking van het beoordelingsproces zoals dat uiteindelijk leidt tot overgangsbeslissingen.

In al die gevallen waarin er gerede twijfel is over de wijze waarop antwoorden op een bepaalde vraag tot stand komen, is validiteit in het geding. Ongeveer zoals begin 17e eeuw er problemen waren om de toen nieuwe telescoop in te zetten voor het doen van astronomische waarnemingen, omdat er tal van onbegrepen problemen waren over de breking van het licht (F. J. Dijksterhuis, 2004). Men kon er dus niet zeker van zijn, om het in moderne termen te zeggen, dat de verwachte waarden van telescopische waarnemingen overeen zouden komen met die gedaan met instrumenten voor het blote oog. Een onbekende afwijking is een validiteitsprobleem. Inderdaad: hier gaat het validiteitsprobleem vooraf aan kwesties over de grootte van toevallige fouten in de waarneming, de betrouwbaarheid.

het eerste concept van de herziene versie van paragraaf 2.6 is op 8-3-2008 verwijderd, en geplaatst in het bestand over validiteit hier. Het materiaal is best goed en nuttig, maar te veel en te ingewikkeld voor ‘Toetsvragen ontwerpen.’ Vandaar. Het onderwerp is lastig, en de manier waarop het hier is behandeld is drastisch anders dan gebruikelijk vanwege de Borsboom e.a. benadering, dus echt makkelijk zal het nooit worden.

2.7 literatuur

In deze herziening 2006 is de literatuurlijst niet echt evenwichtig, en is gekozen voor eerder te veel dan te weinig. Voor suggesties: email mij.

Voor annotaties bij de hier gegeven literatuur zie annotaties, voor meer literatuuropgaven zie meer literatuur

John R. Anderson (2007). How can the human mind occur in the physical universe? Oxford University Press.

John R. Anderson (1984). Acquisition of proof skills in geometry. In Ryszard S. Michalski, Jaime G. Carbonell & Tom M. Mitchell: Machine learning. An artificial intelligence approach (pp 191-219). Berlin: Springer.

John R. Anderson, Christian Lebiere, and others (1998). The atomic components of thought. Erlbaum. questia

John R. Anderson, Lynne M. Reder, and Herbert A. Simon (1996). Situated learning and education. Educational Researcher, 25(4), 5-11. pdf

John R. Anderson, Lynne M. Reder, and Herbert A. Simon (2000, Summer). Applications and Misapplications of Cognitive Psychology to Mathematics Education. Texas Educational Review, Summer. html

John T. Behrens, Dennis Frezzo, Robert Mislevy, Marc Kroopnick and Daisy Wise (2008). Structural, functional, and semiotic symmetries in simulation-based games and assessments. In Eva Baker, Jan Dickieson, Wallace Wulfeck and Harold F. O'Neil: Assessment of problem solving using simulations (pp. 59-80). Lawrence Erlbaum Associates. A concept of the chapter is available as pdf

Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden (2004). The concept of validity. Psychological Review, 111, 1061-1071. pdf

Gerrit Breeuwsma (2008). Het vergeten weten. De teloorgang van klassiekers in de psychologie. De Psycholoog, 202-209.

Hasok Chang (2004). Inventing temperature. Measurement and scientific progress. Oxford University Press.

Michelene T. H. Chi (2006). Methods to assess the representations of experts’ and novices’ Knowledge. In K. A. Ericsson, N. Charness, P. Feltovich and R. Hoffman (Eds.), Cambridge Handbook of Expertise and Expert Performance (Pp. 167-184). Cambridge University Press. [pdf available on Michele Chi’s website]

Michelene T. H. Chi & Marguerite Roy (2010). How adaptive is an expert human tutor? In J. Kay, & V. Aleven (Eds.), International Conference on Intelligent Tutoring Systems (ITS '10) (pp. 401-412). pdf op pagina Chi

Eveline Crone (2008). Het puberende brein. Over de ontwikkeling van de hersenen in de unieke periode van de adolescentie. Uitgeverij Bert Bakker.

R.W. Cross, J. T. Rebarber, J. Torres, and J. Finn, C. E., Grading the systems: The guide to state standards, tests and accountability policies,Washington,DC: Thomas B. Fordham Foundation and Accountability Works, January 2004. pdf. Extended state reports: html.

Ulrich Daepp and Pamela Gorkin (2003). Reading, writing, and proving. A closer look at mathematics. Springer.

Fokko Jan Dijksterhuis (2004). Lenses and waves. Christiaan Huygens and the mathematical science of optics in the seventeenth century. Kluwer Academic Publishers.

James T. Dillon (1982). The multidisciplinary study of questioning. Journal of Educational Psychology, 74, 147-165.

Wim van Dooren, Dirk de Bock, Dirk Janssens and Lieven Verschaffel (2008). The linear imperative: An inventory and conceptual analysis of students’ overuse of linearity. Journal of Research in Mathematics Education, 39, 311-342.

Stillman Drake (1990) Galileo: Pioneer scientist. University of Toronto Press.

Entwistle, N. J. and Marton, F. (1994). Knowledge objects: understandings constituted through intensive academic study. British Journal of Educational Psychology, 64,161-78.

K. Anders Ericsson (Ed.) (2009). Development of professional expertise: Toward measurement of expert performance and design of optimal Learning Environments. Cambridge University Press.

K. Anders Ericsson, Neil Charness, Paul J. Feltovich & Robert R. Hoffman (Eds) (2006) The Cambridge Handbook of Expertise and Expert Performance. Cambridge University Press.

James H. Fetzer (Ed.) (2001). The philosophy of Carl G. Hempel. Studies in science, explanation, and rationality. Oxford University Press.

J. H. Flavell (1963). The developmental psychology of Jean Piaget. Van Nostrand Reinhold.

Ronald N. Giere (2006). Scientific perspectivism. The University of Chicago Press. isbn 0226292126, 151 pp. black cloth silver, dustjacket

Lee J. Cronbach and Goldine C. Gleser (1957/1965). Psychological tests and personnel decisions. Urbana, Illiois: University of Illinois Press.

Ronald N. Giere (2006). Scientific perspectivism. The University of Chicago Press. [Table of contents pdf. Read chapter one pdf]

James H. Greeno (1978). A study of problem solving. In Robert Glaser: Advances in instructional psychology. Volume 1. (pp. 13-75). Erlbaum.

A. D. de Groot (1946). Het denken van den schaker. Een experimenteel psychologische studie. Amsterdam: Noord-Hollandsche Uitgevers maatschappij. dbnl

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376.html

Graeme S. Halford and Janie Busby (2007). Acquisition of structured knowledge without instruction: The relational schema induction program. Journal of Experimental Psychology. Learning, memory and Cognition, 33, 586-603.

David Hestenes, Malcolm Wells, and Gregg Swackhamer (1992). Force Concept Inventory. The Physics Teacher, Vol. 30, 141-158. pdf

Heather C. Hill, Merrie L. Blunk, Charalambos Y. Charalambous, Jennifer M. Lewis, Geoffrey C. Phelps, Laurie Sleep and Deborah Loewenberg Ball (2008). Mathematical knowledge for teaching and the mathematical quality of instruction: An exploratory study. Cognition and Instruction, 26, 430-511.

Jaakko Hintikka (Ed.) (1999). Inquiry as inquiry: A logic of scientific discovery. Kluwer Academic Publishers.

Jaakko Hintikka (2007). Socratic epistemology. Explorations of knowledge-seeking by questioning. Cambridge University Press.

Jim Kaput (1979). Mathematics and learning: Roots of epistemological status. In J. Lockhead and J. Clement, Cognitive process instruction (pp. 289-303). Philadelphia: Franklin Institute Press. questia

Brenda Jennison and Jon Ogborn (Eds) (1994). Wonder and delight. Essays in science education in honour of the life and work of Eric Rogers 1902-1990. Bristol: Institute of Physics publishing.

D. H. Krantz, R. D. Luce, P. Suppes, and A. Tversky (1971/2007). Foundations of Measurement. Volume I: Additive and Polynomial Representations. Dover (reprint appearing January 30, 2007).

Deanna Kuhn (2005). Education for thinking (2005). Harvard University Press. excerpt.

Christian Lebiere and John R. Anderson (1998). Cognitive arithmetic. In John R. Anderson, Christian Lebiere, and others: The atomic components of thought (297-342). London: Lawrence Erlbaum. questia

Levelt, W.J.M. (1993). Spreken als vaardigheid. In C. Blankenstein & A. Scheper (Eds.), Taalvaardigheid (pp. 1-16). Dordrecht: ICG Publications. http://www.mpi.nl/Members/PimLevelt/pdf/1993_Levelt_Spreken.pdf Willem J. M. Levelt (1995). Chapters of psychology. In R.L. Solso and D.W. Massaro (Eds), The science of Mind: 2001 and Beyond (pp. 184-202). Oxford University Press.pdf.

Willem J. M. Levelt (1996). Waar komen gesproken woorden vandaan? De Psycholoog, 434-437. pdf

Frederick M. Lord and Melvin R. Novick (1968). Statistical theories of mental test scores. Addison-Wesley.

Jose P. Mestre (Ed.) (2005). Transfer of learning: from a modern multidisciplinary perspective. San Francisco: Sage. commentaar en samenvatting

R. James Milgram (2007). What Is Mathematical Proficiency? In Alan H. Schoenfeld:. Assessing mathematical proficiency (pp. 31-58). Cambridge University Press. pdf

R. F. van Naerssen (1970). Over optimaal studeren en tentamens combineren. Rede. html

George Pólya (1954/68). Mathematics and plausible reasoning. Volume I: Induction and analogy in mathematics. Volume II: Patterns of plausible inference. Princeton University Press.

Deborah Poole (1994). Routine testing practices and the linguistic construction of knowledge. Cognition and Instruction, 12, 125-150. questia

C. M. van Putten (2005). Strategiegebruik bij het oplossen van deelsommen. In Jan Janssen, Frank van der Schoot en Bas Hemker: Balans [32] van het reken-wiskundeonderwijs aan het einde van de basisschool. 4. Uitkomsten van de vierde peiling in 2004. (125-131). Cito. pdf.

Joan L. Richards (1988). Mathematical visions. The pursuit of geometry in Victorian England.. Academic Press.

S. M. Riviera, A. L. Reiss, M. A. Eckert and V. Menon (2005). Developmental changes in mental arithmetic: evidence for increased functional specialization in the left inferior parietal cortex. Cerebral Cortex, 15, 1779-1790. pdf

David E. Rumelhart, James L. McClelland, and the PDP Research Group (1986). Parallel distributed processing. Explorations into the microstructure of cognition. Volume 1: Foundations. Vol. 2 Psychological and biological models. The MIT Press.

Anna Sfard (1991). On the dual nature of mathematical conceptions: reflections on processes and objects as different sides of the same coin. Educational Studies in Mathematics, 22, 1-36. pdf 3Mb Anna Sfard’s website

Anna Sfard (2008). Thinking as communicating. Human development, the growth of discourses, and mathematizing. Cambridge University Press.

Anna Sfard and Irit Lavie (2005). Why cannot children see as the same what grown-ups cannot see as different? — Early numerical thinking revisited. Cognition and Instruction, 23, 237-309. pdf

L. S. Shulman (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15 #2, 4-14. pdf (PCK: pedagogical content knowledge)

Derek H. Sleeman: Inferring student models for intelligent computer-aided instruction. In Ryszard S. Michalski, Carbonell, Jaime G., & Mitchell, Tom M. (1984). Machine learning. An artificial intelligence approach (pp 483-510). Berlin: Springer.

Robert Sternberg (1998). Principles of Teaching for Successful Intelligence. Educational Psychologist. 33 Also in questia

Robert Sternberg (2003). What is an ‘expert student?’ Educational Researcher, 32, #8, 5-9.

Robert J. Sternberg (2003). A broad View of Intelligence The Theory of Succesful Intelligence. Consulting Psychology Journal: Practice and Research, 55, 139-154. pdf

Robert Sternberg (2008a). Applying psychological theories to educational practice. American Educational Research Journal, 45, 150-165. abstract

Robert J. Sternberg (2008b). Assessing what matters. Educational Leadership, 65, 20-26. html

Robert Sternberg, M. Ferrari, P. R. Clinkenbeard & E. L. Grigorenko (1996). Identification, instruction, and assessment of gifted children: A construct validation of a triarchic model. Gifted Child Quarterly 40, 129-137.

Patrick Suppes (2002). Representation and invariance of scientific structures. MIT Press.

Adrian Treffers (1978/1987). Three dimensions. A model of goal and theory description in mathematics instruction - The Wiskobas project. Dordrecht: Reidel. (De editie 1978 is zijn proefschrift, in het Nederlands; de 1987-editie is daarvan een vertaling, en een uitbreiding over o.a. kolomrekenen).

Kurt VanLehn (1988). Student modeling. In Martha C. Polson and J. Jeffrey Richardson (Eds) (1988). Foundations of intelligent tutoring systems (55-77). Erlbaum. [books.google questia.com]

Terry P. Vendlinski, Eva L. Baker en David Niemi (2008). Templates and objects in authoring problem-solving assessments. In Eva Baker, Jan Dickieson, Wallace Wulfeck and Harold F. O'Neil: Assessment of problem solving using simulations (pp. 309-335). Lawrence Erlbaum Associates. See also the 2008 report, based on this chapter: pdf

Ben Wilbrink (1998). Inzicht doorzichtig toetsen. In Theo H. Joostens en Gerard W. H. Heijnen (Red.). Beoordelen, toetsen en studeergedrag. Groningen: Rijksuniversiteit, GION - Afdeling COWOG Centrum voor Onderzoek en Ontwikkeling van Hoger Onderwijs, 13-29. html

M. Norton Wise (Ed.) (1995). The values of precision. Princeton University Press. isbn 0691016011

Robert C. Daniel & Susan E. Embretson (2010). Designing Cognitive Complexity in Mathematical Problem-Solving Items. Applied Psychological Measurement, 35, 27-47. abstract

Laura S. Hamilton, E. Michael Nussbaum & Richard E. Snow (1997). Interview procedures for validating science assessments. Applied measurment in Education, 10, 181-200. researchgate.net

Daniel T. Willingham (2017). A Mental Model of the Learner: Teaching the Basic Science of Educational Psychology to Future Teachers.Min, Brain, and Education. pdf

Er is een korte versie in de maak, zonder details en zonder inkadering in de literatuur. Maar nog steeds beargumenteerd: de ontwerper moet immers weten wat zij/hij aan het doen is, en waarom dat klopt.

Toetsvragen ontwerpen

Handreiking bij het maken van toetsvragen over de leerstof

2. Vragen: beschikbare vormen en inhoudelijke validiteit

Ben Wilbrink