Oorspronkelijke uitgave 'Toetsvragen schrijven' 1983 Utrecht: Het Spectrum, Aula 809, Onderwijskundige Reeks voor het Hoger Onderwijs ISBN 90-274-6674-0, nu in publiek domein, auteursrechten B. Wilbrink. De tekst is sinds 2006 in bewerking (zie menu op deze pagina). Voor de oorspronkelijke 1983 tekst zie http://www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf.

De onderstaande ‘korte versie‘ is afgeleid van de volledige tekst die hoofdstuksgewijs beschikbaar is, zie bovenstaand menu.




Toetsvragen ontwerpen: De korte versie

Handreiking bij het maken van toetsvragen over de leerstof

Ben Wilbrink





Inhoud van ‘de korte versie’


0 Voorwoord

1   Inleiding

1.1   Toetsvragen ontwerpen: kunst of kunde?
1.2   Uitgangspunten
1.3   Inhoudsoverzicht

2   Vragen: beschikbare vormen en inhoudelijke validiteit

2.1   Korte open vragen
2.2   Keuzevragen
2.3   Open vragen
2.4   Doorzichtigheid
2.5   Rompvragen: meervoudig bruikbare vraagstellingen
2.6   Validiteit: goed antwoord bewijst kennis

3   Leerstofinventarisatie

3.1   (Indirect) waarneembare zaken
3.2   Abstracte begrippen en constructen
3.3   Theoretische begrippen
3.4   Onderlinge verknooptheid van begrippen
3.5   Varianten van ‘definities’

4   Toetsvragen ontwerpen bij afzonderlijke begrippen

4.1   Vertalen
4.2   Definiëren
4.3   Voorbeelden geven
4.4   Voorbeelden herkennen en benoemen
4.5   Herkennen en benoemen bij formeel gedefinieerde begrippen
4.6   Beschrijvende uitspraken

5   Toetsvragen ontwerpen bij relaties tussen begrippen

5.1   Vertalen en afbeelden
5.2   Onderscheiden
5.3   Classificaties
5.4   Stappenschema’s, algoritmen, routines
5.5   Wetmatige relaties

6   Toetsvragen ontwerpen bij tekst

6.1   Participatiecontrole
6.2   Thema’s en hoofdpunten
6.3   Analyse
6.4   Inferentie
6.5   Compositie
6.6   Tekst en de naïeve lezer

7   Problemen stellen

7.1   Over problemen gesproken
7.2   Inventarisatie
7.3   ontwerpregels

8   Kwaliteit van toetsvragen

8.1   Regels bij het examineren
8.2   Punten om op te controleren
8.3   Onafhankelijke beoordeling van kwaliteit
8.4   Controlelijsten in beknopte vorm

Literatuur



Bij deze korte versie


De tekst van 1983 is onderhevig aan een ingrijpende herziening, de hoofdstukken zijn beschikbaarop deze website (zie het menu). Deze korte versie berust op de herziening, met weglaten van details en vooral van theoretische kaders. Toch zal alles wat de korte versie met stelligheid poneert, dat met argumenten doen, gebruikmakend van een kleine set sleutelpublicaties en eigen publicaties. De korte versie is een enkele webpagina met alle hoofdstukken samengevoegd. Is mijn ‘korte versie’ u nog te lang, gebruik dan het boekje van 74 pagina’s van Wim Bender (2003).

Het maken van deze korte versie is een tijdrovende klus, maar wat (deels) gereed is komt meteen in deze file beschikbaar. De klus gaat een aantal ronden nemen: een eerste ronde waarin theoretische kaders deels verdwijnen, evenals moeilijker passages en onderwerpen. Een tweede ronde waarin de tekst zelf op de schop komt, en een derde ronde waarin ik er een samenhangend en als het kan alsnog weer korter geheel van maak. Op dit moment, 1 november, is de ‘eerste ronde’ gevorderd tot en met paragraaf 3.2. Het hele hoofdstuk 3 is al wel aan deze pagina toegevoegd, maar moet ik nog in kleine stapjes ‘verk orten.’


Het onderwijs hoort een voortdurende uitdaging te zijn. De nodige didactiek bestaat uit het stellen van adequate vragen, en het daarop terugverlangen van beredeneeerde antwoorden. Omdat summatieve toetsvragen niet principieel verschillen van de didactische of formatieve vragen, is de ontwerptechnologie voor al deze typen van vragen in wezen dezelfde. Over formatief toetsen zie Black & Wiliam (2009).




Voorwoord


De bedoeling is dat dit boek ontwerpregels geeft die in beginsel geldig zijn voor toetsvragen voor alle disciplines. De verschillende disciplines van deze wereld — denk aan geneeskunde, wiskunde, geschiedenis, de beheersing van de eigen taal — hebben zich soms in splendid isolation van elkaar ontwikkeld, zeker ook binnen het onderwijs. Die eigen ontwikkeling geldt ook de didactiek van de vakken, en daarmee de onderwijsmethoden en de tradities bij het beoordelen van leerlingen. Een voorbeeld van een uit de hand gelopen beoordelingsgewoonte is de redactiesom in het reken- en wiskundeonderwijs. Let op, die redactiesommen zijn ook in andere vakken een gebruikelijke vorm van toetsvragen! Dit boek gaat dus met zijn pretentie om algemene ontwerpregels te bieden, roeren in diverse wespennesten.

Zo'n algemene benadering is in zekere zin natuurlijk gebruikelijk voor boeken over toetsen en de enkele boeken die specifiek het ontwerpen van toetsvragen behandelen, maar daar beperkt de algemene behandeling zich tot de vormaspecten van toetsvragen. Globaal zijn dat de onderwerpen die dit boek in hoofdstuk twee en acht behandelt, wat afgezonderd van de inhoudelijke ontwerpregels in hoofdstukken drie tot en met zeven.


Het belang van goede ontwerpregels voor het ontwerpen van toetsvragen is evident: bij gebrek daaraan loopt de kwaliteit van het onderwijs sluipenderwijs weg. Waar het bedenken van toetsvragen een zaak van intuïtie of van de creatieve inval is, en niet van een helder ontwerp, blijft het lastig om de kwaliteit van het onderwijs te verbeteren. Dit boek wil een samenhangend geheel van ontwerpregels bieden voor de vertaalslag van (beheersing van) leerstof naar toetsvragen. Deze nadruk op de adequate inhoud van toetsvragen onderscheidt dit boek van andere waar het ideaal juist lijkt om leerstofonafhankelijke technieken te hanteren. Het is het aloude dilemma van vorm of vent, maar omdat het ontwerpen van toetsvragen geen literaire oefening is, is het beter zowel de vorm als de inhoud in het ontwerp mee te nemen.

De te presenteren ontwerpregels zijn geen oplossing voor alle problemen. De behandeling is beknopt, slechts enkele bladzijden behandelen het leggen van dwarsverbanden — analyse en inferentie — waar eerder een behandeling in afzonderlijke hoofdstukken op zijn plaats zou zijn. Toetsen op het oplossen van problemen krijgt een karige behandeling in slechts een enkel hoofdstuk. Geen kant-en-klare ontwerpregels voor het eigen vakgebied, want de lezer kan deze afleiden van de algemene regels.





1 Inleiding


Dit boek geeft een technologie voor docenten die hun eigen toetsvragen ontwerpen. De nadruk ligt op vragen voor proefwerken of tentamens: de kwaliteitseisen zijn hier strenger, hoewel de aard van de vragen niet wezenlijk anders is dan die waarmee de docent leerprocessen richting geeft of bijstuurt. Het bedenken van telkens weer nieuwe toetsvragen heeft docenten en professionele schrijvers van toetsvragen altijd al veel moeite gekost. Iedere nieuw te bedenken vraag als een nieuwe en vooral creatieve uitdaging zien lijkt romantisch, en inderdaad kan dat bedenken een lijdensweg zijn. Dan is het voor iedereen handiger, en voor de kwaliteit van de vragen beter, wanneer de ontwerper beschikt over een gereedschapskist met goede technieken om gericht te ontwerpen.


schema van alles

Figuur 1. Schema van alles. De getallen staan voor de hoofdstukken. Voor software om zo te schematiseren zie http://cmap.ihmc.us/



Er is een technologie nodig voor het inhoudelijke ontwerp van toetsvragen, voor het maken van de vertaalslag van mate en aard van beheersing van de leerstof naar vragen erover. Dat kan een verzameling van ontwerpregels zijn om rechtstreeks de aard van beheersing van de leerstof om te vormen tot vragen over zichzelf. Dit boek blijft om te beginnen zo dicht mogelijk bij de leerstof zelf, legt deze uiteen in in zijn samenstellende delen, waarop vervolgens de ontwerpregels zijn toe te passen. De leerstof is niet de tekst van het leerboek op zich, maar de inhoud waar deze tekst voor staat, als deel van het corpus van het betreffende vak. Belangrijk is dat de te ontwerpen vragen niet gaan over de leerstof, maar over de leerlingen en de studenten die die stof hebben bestudeerd: wat hebben zij ervan geleerd en begrepen. De ontwerper neemt niet zomaar genoegen met goede antwoorden, maar wil weten hoe de leerling tot het goede antwoord komt, en zal daar dan ook naar vragen. Resultaten vanuit diverse disciplines, waaronder ook neurocognitieve wetenschappen, dragen de nodige bruikbare inzichten aan.


1.1 Toetsvragen ontwerpen: kunst of kunde?


Toetsvragen ontwerpen is een kunst.       ja - nee

Motiveer het gegeven antwoord (kies een of meer alternatieven).

  1. Deskundigen zeggen dat.
  2. Wilbrink zegt dat
  3. Er is ervaring voor nodig
  4. Er is vakdeskundigheid voor nodig.
  5. Een ontwerp moet gemotiveerd zijn.
  6. Anders:

Het is een wijdverbreide opvatting dat het ontwerpen van toetsvragen alleen goed mogelijk is door creatieve geesten die dat van nature in de vingers hebben en veel ervaring hebben. In een vroege publicatie is dat al kenmerkend geformuleerd (zie de box).

de ideeëngenerator (NL)


“Is de itemschrijver zich van de doelstellingen bewust, dan moet hij de items gaan bedenken. Waar haalt hij nu een idee voor een item vandaan? Dit probleem wordt door sommigen opgelost door aan het bureau te gaan zitten en na te denken. Anderen komen gemakkelijker op ideeën wanneer zij met iets heel anders bezig zijn, zoals afwassen, of douchen. Vaak komt men ook op een idee naar aanleiding van problemen, die in de klas bij de behandeling van de stof naar voren zijn gekomen.”

W. Lans en G. J. Mellenbergh (1969). Constructie en beoordeling van items: formele aspecten. In A. D. de Groot en R. F. van Naerssen: Studietoetsen construeren, afnemen, analyseren. Mouton. (65-125).

ontwerpregels bestaan niet?


Op dezelfde wijze als er geen verzameling formules bestaat voor het maken van een goed verhaal of schilderij, kan er geen verzameling regels bestaan die de vervaardiging van goede toetsvragen garanderen.

Wesman (1971, p. 81). Writing the test item. In Robert L. Thorndike:Educational measurement. American Council on Education.

De auteur in bovenstaande box spreekt ontwerpers aan op hun kunst om ideeën voor toetsvragen te genereren: hij houdt een kunde voor onmogelijk. Een kwarteeuw later is deze gedachte helaas nog steevast in de literatuur aanwezig. De onvermijdelijke tegenhanger van toetsvragen die uit de kunst zijn, is dat het beantwoorden van die vragen ook een kunst is. En dat mogen we studenten niet aandoen. Er is nog een andere, praktische, reden waarom het primaat van de creatieve inval zorgelijk is. Er zijn meestal veel vragen over toch maar beperkte hoeveelheden leerstof nodig. Dan moeten duistere krochten van creativiteit worden opgezocht om nog weer eens iets ‘nieuws’ te bedenken, want die oude toetsvragen zijn bij studenten bekend en daarom meestal niet meer bruikbaar. Voor de ongewapende ontwerper van toetsvragen is iedere nieuw te bedenken vraag zodoende een hersenbreker. Dit boek geeft ontwerpregels om die impasse te doorbreken, voor de vorm van toetsvragen, maar vooral voor de adequate inhoud van de vragen. Hoofdstuk twee behandelt de keuze van een geschikte vraagvorm, zoals open vragen of juist meerkeuzevragen, en de zorg voor kwaliteit en validiteit van de vragen. Hoofdstuk drie werkt uit wat precies de inhoud van een vak of een leerboek is — wat is het dat we in brede zin ‘kennis’ van het vak noemen — en latere hoofdstukken werken dat voor de verschillende soorten van kennis uit naar het ontwerpen van passende toetsvragen.

redactiesom

Mark woont 300 meter van school, Piet woont 500 meter van school. Hoe ver is het van het huis van Mark naar het huis van Piet?

Aan de vraag in de box is af te lezen dat hier een verhaaltje bij een som is bedacht, in plaats van omgekeerd, maar daar gaat het even niet over: er is met deze vraag iets bijzonders aan de hand dat hem anders maakt dan gebruikelijke redactiesommen. Het blijkt dat leerlingen van 12 jaar deze experimentele opgave vooral fout beantwoorden. Inderdaad: 800 meter, of 200 meter, is geen goed antwoord. Er is van alles geprobeerd om leerlingen te bewegen realistische antwoorden op dit type redactiesommen te laten geven, met gering succes. Redactieopgaven komen ook bij andere vakken uitbundig voor, maar bij rekenen komen de relevante kenmerken scherper uit. Terug naar het voorbeeld. Leerlingen die ‘800’ antwoorden, vatten de redactiesom op als een optelsom, zo hebben ze dat — waarschijnlijk onbedoeld — geleerd door de vele redactiesommen die ze zo redenerend wèl goed hebben gemaakt. De redactiesom wil een aantal dingen tegelijk, en doet zodoende niets echt goed. Een redactiesom is volgens welke rationele regels voor het opstellen van toetsvragen dan ook, geen adequate vorm voor het toetsen van de beheersing van (de regels voor) het optellen. Optelsommen zijn gewoon optelsommen. Optelsommen horen tot de categorie opgaven over relaties tussen begrippen, en dat is hoofdstuk vijf in dit boek. Optellen is iets met de relatie tussen getallen. Het getalbegrip is een verhaal apart en toetsvragen voor dat getalbegrip horen tot de categorie vragen over begrippen, hoofdstuk vier in dit boek. Maar hoe zit het dan met redactiesommen? De meerwaarde van de redactiesom boven gewone sommen zit nu juist in de vertaalslag van de gegevens naar een adequaat wiskundig model, de daaruit afgeleide aanpak voor de oplossing, en de controle of de gevonden oplossing inderdaad het gestelde probleem beantwoordt. Redactiesommen zijn dus een prototype voor opgaven in de categorie probleemoplossen, in dit boek behandeld in hoofdstuk zeven. Redactiesommen zijn eigenlijk geen sommen, het zijn probleemstellingen. Dat karakter miskennen, leidt tot tamelijk rampzalig onderwijs dat vervreemd is van de door leerlingen ervaren werkelijkheid. Dat is precies wat onderzoek over redactiesommen — word problems — heeft aangetoond. Wie niet is overtuigd dat het met die redactiesommen zo erg is gesteld, zie de Nationale Rekentoets 2006 hier. Neem voorlopig maar even als werkhypothese aan dat dit type probleem niet beperkt is tot het onderwijs aan twaalfjarigen, en evenmin tot rekenen en wiskunde, maar dat het een probleem is dat het hele onderwijs doortrekt. Omdat het zo nauw verweven is met tekorten in het ontwerpen van toetsvragen en dus ook van oefenmateriaal, dicteert het mede de inhoud van dit boek. Hoofdstuk zes is niet genoemd: dat gaat over vragen bij teksten, en neemt een positie in tussen vragen over relaties (hoofdstuk vijf) en probleemoplossen (hoofdstuk zeven): het gaat verder dan vragen over gegeven relaties, en bereidt voor op enkele van de afzonderlijke stappen bij het oplossen van problemen.

Er kan over redactiesommen dus pittige strijd ontstaan tussen bijvoorbeeld ouders en leraren, al naar gelang de interpretatie van bepaalde sommen. Kijk, dat is het gebied van de rechtmatigheid, en dat is in hoofdstuk acht aan de orde. Door hun talige karakter zijn redactiesommen ook vatbaar voor ontwerpgebreken in die sfeer: het Nederlands is te moeilijk voor zelfs de gemiddelde leerling, of bepaalde woorden zijn onbegrijpelijk voor veel leerlingen met Nederlands als tweede taal. In de mate waarin dat het geval is, toetsen de sommen vooral achtergrond van de leerlingen, en geen rekenvaardigheid. Ook dat is onderwerp van hoofdstuk acht.

Het is mogelijk om technieken voor het ontwerpen van toetsvragen mede te baseren op empirisch bewijs dat juist buiten het gebruikelijke onderzoek naar toetsen — educational measurement — is verzameld, vaak in cognitief-psychologisch onderzoek, maar ook in de nissen van vakspecifiek onderzoek zoals binnen wiskunde of natuurkunde. Want het mag uit De mechanisering van het wereldbeeld van Dijksterhuis bekend zijn dat er voor natuurkundeopgaven een probleem is dat analoog is aan dat van de redactiesommen in de wiskunde: leerlingen of ook volwassen studenten leren wel the tricks of the trade, maar blijken daarmee, tot starre verbazing van hun leraren, nog niet bevrijd van naïeve opvattingen over natuurkunde. Er zijn spectaculaire resultaten te verkrijgen in iedere willekeurige klas of groep aan de hand van toch in wezen heel eenvoudige vragen over kogelbanen en dergelijke die velen beantwoorden op basis van naïeve — Aristoteliaanse — natuurkundige opvattingen, en dus ‘fout’ beantwoorden. Een en ander heeft alles te maken met hoe toetsvragen inhoudelijk adequaat te ontwerpen.


1.2 Uitgangspunten


Een examen is niet een vrijplaats waar alles maar moet kunnen, ten dienste van het toetsen van kennis.

Dit boek berust op een aantal nadrukkelijke uitgangspunten die het karakter van de ontwerpregels bepalen. Examens, en vrijwel alle andere beoordelingen in het onderwijs, zijn inherent ongelijke situaties van beoordeelden tegenover beoordelaars. Het is daarom goed dat het recht grenzen stelt aan de vrijheid van handelen van beoordelaars. Niet alleen moeten zij zich aan de wet houden, maar ook aan in het algemeen rechtsbewustzijn levende regels van behoorlijk gedrag. Maar ook zonder het recht te schenden, kunnen beoordelaars gekke dingen doen in een klimaat dat voor het beoordelen van kennis alle kunstgrepen geoorloofd acht. Het mag natuurlijk niet zo zijn dat er op lange termijn schade ontstaat. Een direct aansprekend voorbeeld is het laten raden bij keuzevragen: de verborgen boodschap aan de leerling is dat het OK is om er maar een slag naar te slaan wanneer je iets niet weet, en dat is strijdig met de hoogste doelen van onderwijs. Voor een enkele toets hoeft niemand zich over dat raden druk te maken, maar de werkelijke situatie is natuurlijk dat keuzetoetsen intensief worden voorgelegd van de kleutergroepen tot en met examens in het hoger onderwijs. Laten raden bij niet weten, of niet laten raden, maakt dan een enorm verschil in het onderwijs.


bereiken studenten de doelen? niet: verschillen ze van elkaar?


Omdat er tussen mensen — en dus ook tussen leerlingen — enorme verschillen zijn, is de (verborgen) verleiding altijd aanwezig om het beoordelen te richten op die verschillen, in plaats van op de vraag of Jan, Piet en Marie de doelen hebben bereikt. Eeuwenoude onderwijscultuur (Wilbrink, 1997 html) is ook al gericht op belonen van de ‘best presterende’ studenten, wat in de praktijk niet de studenten hoeven te zijn die in de cursus het meest hebben geleerd, zich hetmeesthebben ingespannen, of beide.

Wie verschillen wil testen kan het best vragen maken zoals ze ook in intelligentietests voorkomen, en dat heeft met het gegeven onderwijs dus niets van doen. Toetsvragen daarentegen, moeten representatief zijn voor wat er in het onderwijs is behandeld: iedereen moet, althans in beginsel, in staat zijn daar een goede score op te behalen, ongeacht de eigen intelligentie (binnen brede grenzen). Natuurlijk, onderwijs stopt ergens voordat perfectie is bereikt, en waar dat ongeveer is hangt af van hoe moeilijk of makkelijk de te ontwerpen vragen zijn. Let op: omdat perfecte stofbeheersing een fictie is, is het noodzakelijk het geval dat op voorhand de kans dat een student een bepaalde vraag correct beantwoordt kleiner is dan honderd procent. Dat betekent dat toeval de score meebepaalt.

steekproeffluctuaties: zijn dat fouten dan?


Een toets is altijd een steekproef van mogelijke vragen over de beheersing van de betreffende leerstof. De uitslag van zo'n steekproef is daarom ook afhankelijk van toevalligheden: het hadden immers andere vragen kunnen zijn, dan was de totaalscore vrijwel zeker een andere geweest. Het probleem is nu dat in de educational measurement literatuur de steekproeffluctuaties als fouten van de meting worden behandeld. Wat klinkklare onzin is. Fouten zijn afwijkingen die door ongelukkig ontworpen vragen ontstaan, maar niet door een correct uitgevoerde steekproef. Er is een enorme spraakverwarring over wat heet betrouwbaarheid van toetsen, en in het kielzog daarvan ook over wat validiteit van toetsen is. Een artikel van Borsboom, Mellenbergh en Van Heerden (2004) maakt korte metten met deze warboel. Het heeft met het ontwerp van toetsvragen te maken: sterke nadruk op de eis om aannemelijk te maken dat antwoorden op de vraag specifieke beheersing bewijzen, en afwijzen van de gedachte dat eventuele tekortkomingen wegvallen als de toets maar voldoende (mogelijk slechte) vragen telt.

Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071. pdf

Verschillen tussen studenten zijn deels dus ook toeval, wat weinigen zich ten volle realiseren. Deze toevallige verschillen zijn niet echt tegen te gaan door toetsvragen beter te ontwerpen, anders dan onnodig moeilijke vragen te vermijden. Sta er even bij stil: op onnodig moeilijke toetsvragen doen buitenstaanders het weinig minder beroerd dan goed voorbereide studenten. Toevallige verschillen zijn inherent aan het beoordelen in het onderwijs, maar dat is niet altijd even makkelijk in te zien omdat, al even typisch, ook leerlingen sterk van elkaar verschillen in voorbereiding, capaciteiten, en combinaties van die twee.

Voor de juiste interpretatie van al die verschillen is een helder referentiepunt nodig, en zo'n referentiepunt is beschikbaar. Studenten die redelijk studeren moeten duidelijk beter presteren dan een groep die dat onderwijs nog niet heeft gevolgd en de stof evenmin al heeft bestudeerd. Een toets die dat verschil niet kan aantonen, bestaat mogelijk uit vragen die niet goed zijn ontworpen; een alternatieve verklaring is dat het onderwijs uit algemene babbels bestaat, dat studenten er met de pet naar hebben gegooid, of beide.

Nu is het ook mogelijk aan te geven waarom ‘makkelijke’ vragen toch goede ontwerpen kunnen zijn: als ze makkelijk zijn voor de studenten die het onderwijs hebben gevolgd, terwijl ze tegelijk moeilijk zijn voor wie dat nog niet heeft gedaan.


De toets werp zijn schaduw vooruit: feedforward, of ook wel backwash genoemd.


Studenten hebben belang bij hun toetsresultaten, en zullen er het nodige aan willen doen om er goed mee weg te komen. Dat is ook de reden voor al dat toetsen in het onderwijs: gewoon om iedereen bij de les te houden. Studenten willen graag weten welke vragen ze kunnen krijgen — en welke niet — om zich zo doeltreffend te kunnen voorbereiden. Docenten doen er verstandig aan dit spel goed mee te spelen. De kwaliteit en inhoud van de toets heeft een sterk effect op op hoe studenten zich op die toets voorbereiden, dus voorafgaand aan de toetsafname zelf, ik noem dat feedforward — in de literatuur ook backwash genoemd. Deze feedforward staat tegenover feedback die achteraf tot effecten leidt, maar in de toetspraktijk vaak een slag in de lucht is omdat op dat moment voor de leerling/student niets meer van die feedback afhangt. Geef goede informatie over de te verwachten toetsvragen, en stem onderwijs en toets op elkaar af. Toets wat is onderwezen, onderwijs wat in de toets terugkomt.

Wat geldt voor ieder afzonderlijk vak, geldt des te sterker voor het hele onderwijs zoals de leerling dat doorloopt. De dominante manier van toetsen is onderdeel van het informele curriculum, en leert als zodanig de leerling een bepaalde kijk op de wereld. Wat er zo gebeurt, is zelden nadrukkelijk de bedoeling van het onderwijs. Door vrijwel altijd vragen te stellen waar eenduidig goede of foute antwoorden op mogelijk zijn, werkt het onderwijs aan het vestigen van een wereldbeeld dat niet strookt met de zelden perfect voorspelbare werkelijkheid van alledag.

wat nu met de doelen?


Toetsen moeten representatief zijn voor het voorafgaande onderwijs. Niet dat in de toets nog weer eens alle opgaven voorkomen die in het onderwijs behandeld zijn, maar het is wel de bedoeling dat de toets representatief is voor het bedoelde eindniveau van stofbeheersing.

In het gesprek over onderwijs, ook het politieke gesprek, is veel te doen over de doelen, ja soms zijn daar hele waslijsten van opgesteld. Maar doelen zijn nog geen toetsvragen, en het is niet altijd even vanzelfsprekend hoe doelen in vragen zijn te vertalen. Het is ook wel een tikje ingewikkeld: naast leerstof en toetsvragen, ook nog een set doelen. Dit boek gaat er eenvoudig van uit dat bij het ontwerper de toetsvragen direct afleidt uit wat het is om de leerstof te beheersen.

Aan het eind van de cursus telt alleen de toets. De toets legt vast wat studenten van de stof kennen en kunnen. Maar toch is dit een hopeloos tekortschietende beschrijving. Als de doelen verder gaan dan wat de toets in feite vraagt, zijn die doelen daarmee gereduceerd tot overbodige franje. Ook hooggestemde doelen — of ze op papier staan of niet — moeten een vertaling krijgen in adequate ontwerpen voor toetsvragen. Het is best mogelijk — en heel praktisch — dat een verzameling zorgvuldig ontworpen toetsvragen beter weergeeft wat de doelen van een cursus zijn, dan een reeks expliciete doelformuleringen.


competenties?


Onderwijs is een tijdelijke vrijplaats waarin het mogelijk is kennis en vaardigheden, vorming zo men wil, op te doen waarvoor later in het naschoolse leven weinig of geen gelegenheid meer is. Die vrijplaats verdient bescherming, maar het snel om zich heen grijpende virus van beleid geformuleerd in termen van competenties bewerkt het tegenovergestelde. In een vriendelijke interpretatie van de competentie-filosofie gaat het daar om het idee dat kennis en vaardigheden gebonden zijn aan specifieke contexten, en dan zou ‘dus’ het onderwijs in die kennis en vaardigheden ook in die contexten plaats moeten hebben. Of tenminste in situaties die daar nauw bij aansluiten of erop lijken, en daarom ‘authentiek’ zouden zijn. Niks onderwijs als vrijplaats, integendeel, het onderwijs moet bij voorkeur zo dicht mogelijk bij typische situaties in de beroepspraktijk staan. In meer extreme varianten van compententiegericht onderwijs komen kennis en vaardigheden zelf tussen haakjes te staan, en gaat het om het vermogen om informatie op internet te vinden, die vlot te communiceren, assertief zelfs als dat van pas komt. Dit is een agressieve vorm van erosie van ongeveer alles wat er aan serieuze onderwijsopvattingen in de recente Westerse cultuur is te vinden. Beoordelen van competenties is een onmogelijkheid, maar die onmogelijkheid wordt botweg ontkend. De ontwikkelaar van toetsvragen/opdrachten krijgt het hier dus vol voor de kiezen.


Een grondgedachte van competentiegericht onderwijs lijkt te zijn dat het traditionele onderwijs tekortschiet omdat daar verworven kennis niet vanzelfsprekend buiten of na de scholing wordt toegepast, en dat het dus beter is om die kennis niet op een schoolse manier te laten leren, maar in authentieke contexten. Natuurlijk zal dan ook blijken dat een deel van die schoolse kennis eigenlijk niet nodig is, en dat in die authentieke contexten andere vaardigheden dan de typisch schoolse nodig zijn. Ziedaar: een heel nieuw onderwijsprogramma.

Natuurlijk is er onderwijs waarvoor de competentiegerichte filosofie adequaat kan zijn. Voor het basisonderwijs is ze in ieder geval niet adequaat, ook niet voor het rekenonderwijs. Het achterliggende fenomeen staat in de literatuur bekend als het probleem van de transfer van kennis, de overdracht van kennis naar nieuwe omstandigheden. Dat is een reëel probleem, zeker. Maar het is geen oplossing die nieuwe omstandigheden dan maar het onderwijs binnen te halen.

In de competentie-filosofie moet de ontwerper van toetsvragen competenties toetsen door opdrachten binnen een adequate context. Het kan nog lastiger: waar studenten zelf hun competenties kiezen waaraan ze in de opleiding willen werken — echt, dat bestaat — moet de ontwerper maar zien opdrachten op die individuele competenties toe te snijden. In de praktijk worden dan allerlei vage oefeningen en situaties gebruikt die een oppervlakkige gelijkenis hebben tot opdrachten zoals die in assessment centers (AC’s) voorkomen. Voor serieuze beoordeling zijn die methoden ongeschikt, want zij hebben een onbewezen validiteit; sterker: als die validiteit niet is onderzocht, is een veilige voorspelling dat validiteit voor zo'n toets of examen ontbreekt. Dit boek zal bepaald geen handreikingen doen voor het ontwerpen van AC-achtige opdrachten. Het ontwerpen van een serieus AC is een buitengewoon kostbare zaak, het is ondenkbaar zoiets te doen voor competentiegericht onderwijs. Althans, niet volgens minimale normen van validiteit (zie par. 2.6).


toetsanalyse etcetera.


De kwaliteit van de toetsvragen is bepalend voor alles wat volgt. Maar met kwaliteit alleen zijn alle problemen nog niet opgelost. Het kan zijn dat er onopgemerkte kwaliteitsproblemen zijn, dan kan een klassieke item-analyse helpen bij het opsporen. Ook al zijn alle vragen goed, dan is het nog de vraag hoeveel er nodig zijn om een goede toets te hebben. Een grove aanwijzing is: neem er iets meer dan gebruikelijk. Wie het naadje van deze kous wil weten, kan eens eens wat rondkijken in het project over studiestrategieën hier op deze site.

En dan is er nog een slag te maken: van score naar cijfer. Dat is een kwestie van onderwijscultuur, daar blijft dit boek verder buiten. Het is fair en daarom ernstig gewenst om tevoren aan te geven welke scores welk cijfer opleveren.

Over het bepalen van de grens tussen zakken en slagen het volgende. De ‘methoden’ die de literatuur daarvoor geeft zijn vooral ongefundeerde trucs, u kunt ze niet begrijpen, en u mag ze daarom niet gebruiken. Twee punten zijn bij de cesuurbepaling van belang. Studenten moeten het risico van zakken kunnen dragen. Studenten die de voorgeschreven tijd hebben besteed en dus redelijk voorbereid zijn, moeten een hoge kans van slagen hebben. Het risico om te zakken kan worden uitgerekend, zie hier. De tijdbesteding van studenten moet u kunnen inschatten, desnoods door daar regelmatig een onderzoekje naar te doen.

Uiteindelijke doelen.


Iedere pragmatische benadering heeft zijn grenzen, zo ook die voor toetsen. Wat voor een enkele toets een goede benadering lijkt, kan verwoestend uitwerken wanneer die altijd en overal wordt gebruikt, en alle jongeren daar decennialang aan zijn blootgesteld.

Het beginsel van doorzichtigheid verdient uitbreiding en verdieping. Zo is toetsen op intelligentie in hoge mate ongewenst, dat is een vorm van discriminatie omdat leerlingen niets kunnen doen aan hun eigen intelligentie, persoonlijkheid, en sociale achtergrond. Verschillen in intellectuele capaciteiten en motivatie zijn belangrijk, en in het basisonderwijs zijn die verschillen enorm. Die verschillen zijn op geëigende momenten aan de orde: niet alleen bij beslissende keuzen voor en over individuele leerlingen, maar ook bij de keuze van didactische methoden en het ontwerp van het onderwijs. Dus niet ook nog bij iedere opdracht, proefwerk of toets opnieuw.

Het brede uitgangspunt voor het onderwijs is dat leerlingen en studenten het vertrouwen moeten krijgen, hebben en houden dat zij hun talenten kunnen ontwikkelen, en dat de eigen inspanningen daarvoor worden gezien en erkend. Iedere afzonderlijke toets is ook op dat uitgangspunt een test, de vragen in die toets moeten uiteindelijk daarmee in overeenstemming zijn ontworpen. Waarom is dit weidse perspectief van belang? Wel, zeker in het leerplichtig onderwijs is toetsen een vorm van institutioneel geweld waaraan leerlingen zich niet kunnen onttrekken, anders dan de institutie vaarwel te zeggen. Dat laatste gebeurt overigens ook massaal, zowel zichtbaar tussentijds vertrek, als onzichtbaar de rit maar uitzitten. Kwaliteit van toetsen is zo ongelooflijk belangrijk, dat is nauwelijks te overschatten.


1.3 Inhoudsoverzicht


In dit boek is niet alles voor iedereen relevant. Het is de bedoeling dat de lezer met de te geven ontwerpregels zelf toetsvragen kan ontwerpen. Daarom geven de verschillende hoofdstukken vooral concrete aanwijzingen, mogelijke varianten, en geboden en verboden, met daaromheen een funderend verhaal. De verschillende hoofdstukken vormen een eenheid in deze zin dat globaal kennisnemen ervan een goede achtergrond geeft om van de ontwerpregels in dat ene hoofdstuk van uw interesse verstandig gebruik te maken.

Hoofdstuk twee bespreekt de diverse typen toetsvragen met hun voor- en nadelen, en gaat uitvoerig in op enkele misverstanden over keuzevragen. De nadruk ligt op de aard van de te toetsen beheersing van de leerstof, die bepaalt soms een voorkeur voor een bepaald vraagtype. Wie al een bescheiden verzameling van vragen heeft, is misschien geïnteresseerd in technieken om deze snel en goed uit te bouwen tot een grotere verzameling (zie 2.5 over rompvragen). Er is aandacht voor het juiste niveau van abstractie in toetsvragen, en dat is vooral een lager — meer concreet — niveau dan gebruikelijk. Met vragen die blijven hangen in algemeenheden en definities is het lastig meer dan een handvol vragen over de stof te schrijven zonder in gekunstelde vragen te vervallen. Erger: het nodigt de student niet uit de leerstof wat dieper te bestuderen. Minder abstract, meer concreet, levert kwaliteit. Overigens komt abstractie op een heel andere manier toch weer prominent in zicht: in het grote belang van het kunnen verklaren en dus begrijpen van verschijnselen door ze te verbinden met algemene wetten bijvoorbeeld.

Hoofdstuk drie lijkt een omtrekkende beweging: het geeft geen ontwerpregels voor het ontwerpen van toetsvragen, maar voor het inventariseren van de leerstof. Toch is dit een noodzakelijke tussenstap: het maakt expliciet waarover wel en waarover geen vragen te stellen. Het geeft ook een betere kijk op de aard van de leerstof, om welk soort abstractie het gaat, en hoe die abstracties zijn af te breken tot concrete voorbeelden. De basis voor dit hoofdstuk is eenvoudige kennistheorie, hoe uiteen te leggen wat wij weten over een bepaald domein van kennis waaruit de leerstof is samengevat. Boeiend is dat er verschillende manieren zijn om zaken en verschijnselen te beschrijven of te definiëren, houd die verschillen in de gaten! Het gaat hier om reflectie op de leerstof, een aanloop die nodig is om over die leerstof op een verantwoorde manier vragen te ontwerpen.

De hoofdstukken vier en vijf geven concrete uitwerking aan de technologie voor het ontwerpen van toetsvragen bij, respectievelijk, de begrippen en hun relaties uit de leerstofinventarisatie van hoofdstuk drie. Hoewel basaal van karakter, want dicht blijvend bij de leerstof zelf, zijn deze technieken toch niet op alle punten vanzelfsprekend. Funderende achtergronden zijn naast de al genoemde kennistheorie — beschrijven van kennis — ook wetenschapsfilosofie — wat is kennis en hoe komen we tot kennis — en leerpsychologie — hoe is kennis over te dragen. Maar ook helpt nuchtere bezinning op waar het in het onderwijs wel of juist niet om gaat, omdat onhandige ontwerpen voor toetsvragen makkelijk over deze schreef gaan. Een eclectisch geheel dus, onvermijdelijk. Het onderscheid tussen declaratieve en procedurele kennis helpt om de inhoud van hoofdstuk vier af te bakenen tegen die van hoofddstuk vijf: weten wat, versus weten hoe. Dan is conditionele kennis, weten wanneer wat hoe te gebruiken, in het hoofdstuk over aanpakken van problemen aan de orde.

Hoofdstuk zes gaat op verschillende manieren in op het literatuurtentamen, met nadruk op toetsen van het hebben van een overzicht over breed beschreven onderwerpen. Deze vorm van vragen is in de literatuur — de klassieke studie is Hartog en Rhodes (1936) — berucht omdat docenten er ongelooflijk verschillend mee omgaan, en studenten daarom willekeur ervaren. De vragen gaan verder dan de gegeven leerstof zelf omdat studenten iets met die leerstof moeten doen dat nieuw is, dat stelt bijzondere eisen aan de ontwerpen. Let op: het begrijpen van gestelde vragen is ook begrijpen van tekst: hoofdstuk zes kan makkelijk een verbindende schakel zijn voor het hele boek.

Hoofdstuk zeven behandelt het oplossen van problemen. Het bouwt voort op het voorgaande, zoals het behoorlijk formuleren van de probleemstelling (zie 5.l), het analyseren van het probleem (zie 6.3). en het gebruiken van eigen kennis en inzichten (inferentie, zie 6.4). Het accent ligt op typische structuren van het aanpakken en oplossen van problemen. Het ontwerpen van probleemstellingen benut die structuurkenmerken. De nadruk ligt op het expliciteren van de probleemaanpak zoals de student die zich eigen moet maken. De achterliggende psychologische theorie heeft veel te danken aan de studie van Adriaan de Groot (1946 dbnl) over het denken van de schaker, zodat schaken een handig veld voor voorbeelden levert.

Hoofdstuk acht vormt de logische afsluiting van het ontwerpen: nagaan of de ontworpen toetsvragen voldoen aan redelijke kwaliteitscriteria. Houvast voor wat ‘redelijk’ is biedt de jurisprudentie van Colleges van Beroep voor de Examens, zie oo hoofdstuk acht. De nadruk ligt op controle vooraf, omdat het achteraf niet meerekenen van slechte toetsvragen vervelende gevolgen heeft. De controle hoort streng te zijn: het mag niet zo zijn dat belangrijke verschillen in oordeel — die er vaker zijn dan we wensen te denken — in onderlinge gedachtenwisseling weggemasseerd raken. Van minstens zo groot belang is het om schaarse middelen zoveel mogelijk aan het onderwijs zelf, en niet aan toetsing-achteraf (nakijken van schriftelijke tentamens) te besteden: ook in dit opzicht moet er een goede balans tussen onderwijs en toetsing-achteraf zijn.

prototype dubbele verklaring

Meneer Jansen is al enkele jaren somber en komt moeilijk tot dagelijkse bezigheden. Hij is hierdoor in het normale functioneren belemmerd. Wat is hier aan de hand? Motiveer je antwoord.

  1. Dit heet depressief.
  2. Dit is een depressie.
  3. Dit komt door een depressie.

Dehue (2008, hoofdstuk twee). DSM IV labelt samengaan van bepaalde verschijnselen als ‘dysthyme stoornis’ (depressieve stoornis)


verklaren


In dit eenvoudige voorbeeld komen een aantal belangrijke thema’s samen. De vraag is op zichzelf een vraag naar een verklaring van de situatie waarin meneer Jansen verkeert, waarbij volgens DSM IV het juiste antwoord alternatief a. is: maar dat is juist een antwoord dat geen verklaring is, en het is het juiste antwoord omdat mogelijke verklaringen zo omstreden zijn dat ze in de wetenschap geen behoorlijke consensus verwerven. Kortom: verklaren is niet altijd mogelijk. De beide andere alternatieven zijn onjuist; de reden dat in dit geval onjuiste alternatieven toch samengaan met een goed ontwerp van de toetsvraag, is dat de student in dit geval ook moet weten waarom die beide alternatieven onjuist zijn. De student verklaart zijn antwoord nader, en kan daarin aangeven waarom alternatief b. en c. onjuist zijn (reïficatie van wat alleen maar een label is), of waarom alternatief a. juist is, of beide. In dit geval is de keuzevraag een goede vorm, omdat de student de geboden alternatieven alle drie moet weten te wegen, ook tegen elkaar. De alternatieven vormen een homogene set omdat zij als het ware een schaal vormen van geen verklaring (want alleen maar een label), naar een oorzakelijke verklaring (een depressie is er oorzaak van), met ertussen een pseudo-verklaring (het is een depressie, alsof een depressie een ding is, geen label). ‘Dubbele’ verklaring: 1.) de vraag zelf vraagt een verklaring van een specifieke stand van zaken, de klachten van meneer Jansen, en 2.) de student moet het gegeven antwoord verklaren (= rechtvaardigen, motiveren).

Op deze keuzevraag is een reeks varianten mogelijk: vervang het begrip depressie door het begrip ADHD, etcetera — DSM heeft er honderden — en pas het vignet aan. Het vignet, casus, of case is het in de vraag beschreven specifieke geval. Deze keuzevraag is zodoende een sjabloon of rompvraag die het mogelijk maakt om heel vlot een reeks verwante vragen te ontwerpen.

syndromen zoals depressie

Geef aan of de volgende uitspraken wetenschappelijk juist zijn, of niet, en motiveer de antwoorden. Aanwijzing: denk aan DSM (of Dehue 2008, ‘De depressie-epidemie’ hoofdstuk twee).

  1. Het immuunsysteem heeft niet met psychiatrische aandoeningen te maken.       juist / onjuist
  2. Auto-immuun-schildklierziekte en manisch-depressieve stoornis hangen deels genetisch samen.       juist / onjuist

Voor de gebruikte uitspraken: Malou van Hintum (7 maart 2009). Met schildklierziekte naar de psychiater. De Volkskrant. Kennis, p. 3. Uitspraak a.): door hoogleraar immunologie Hemmo Drexhage toegeschreven aan zijn collega-immunologen. Uitspraak b.): uitspraak van hoogleraar psychiatrie Willem Nolen.


verklaren van juistheid van uitspraken over depressie


Merk op dat de keuzevraag in de voorgaande box zo'n hoog niveau van abstractie heeft, dat er waarschijnlijk geen echte varianten op te maken zijn (Mevrouw Pieters opvoeren is niet echt een variant), althans niet als de vraag over depressie moet gaan. Omdat de vraag een belangrijk onderwerp heeft, en eigenlijk iedere student er een goed antwoord op moet kunnen geven met een rechtvaardiging in eigen woorden, is er geen bezwaar tegen een vraag als deze met vlotte regelmaat in toetsen te laten terugkeren. Een goede ontwerper is hiermee natuurlijk niet tevreden: als het zo belangrijk is, dan zijn er ongetwijfeld ook andere soorten vragen mogelijk waarop wèl betekenisvolle varianten zijn te ontwerpen. Het ligt voor de hand om uitspraken van actoren uit het depressie-veld te nemen, naar de juistheid ervan te vragen, en het antwoord te laten motiveren. Er kan eventueel een aanwijzing bij worden gegeven. Waarschijnlijk brengt alleen al de wekelijkse bijlage van uw kwaliteitskrant telkens nieuw materiaal voor nieuwe varianten op dit type vraag.

Dit voorbeeld illustreert hoe op zich onjuiste uitspraken, of vanuit een bepaald perspectief onjuiste uitspraken, op zinvolle wijze door de ontwerper zijn te gebruiken. Deze uitspraken zijn niet uit de duim gezogen of onzinnig, want ze zijn gedaan door actoren die ertoe doen in het betreffende veld (dat kunnen overigens ook cliënten zijn); het kan dus van belang zijn hoe een student hiermee omgaat, en dan hebben ze zeker een plekje in toetsen verdiend. Omdat het meestal ook verklarende uitspraken zijn, brengen ze ons terug naar het onderwerp van deze sectie: verklaren.

Het boek van 1983 ruimt expliciet geen plaats in voor vragen naar verklaringen. Het is verdraaid lastig om greep te krijgen op dit type vragen. In de herziene tekst komt het vragen van verklaringen nadrukkelijk wèl aan de orde. Het is zelfs zo dat het uitgangspunt moet zijn dat antwoorden altijd komen met een verklaring voor het gegeven antwoord. Bij keuzevragen en korte open vragen is dat niet gebruikelijk, hoogste tijd dus om die wonderlijke traditie te doorbreken. Een verklaring voor een gegeven antwoord geeft aan hoe het antwoord volgt uit een relatie tussen gegevens uit de vraag met meer algemene kennis. Kijk, verklaren past dus in hoofdstuk vijf. Maar omdat de algemene kennis, of een onderdeel van een theorie, niet in de vraag zelf gegeven hoeft te zijn, is er ook sprake van inferentie, en past het verklaren ook in hoofdstuk zes. Is de ‘theorie’ niet meer dan een bepaald begrip, dan is dit verklaren iets dat in hoofdstuk vier thuishoort. Nog interessanter is het wanneer de verklaring in feite een voorspelling is: dat past in hoofdstuk vijf wanneer de voorspelling de uitkomst van een algoritme is, in hoofdstuk zes als de voorspelling de resultante is van inferenties, en in hoofdstuk zeven wanneer de voorspelling de oplossing van een gesteld probleem is. Een bewijsvoering is een verklaring, en al naar gelang de complexiteit van het bewijs kan dat ook in hoofdstuk zeven thuishoren, of in een van de andere hoofdstukken vier tot en met zes. Deze korte uiteenzetting maakt duidelijk dat een verklaring een containerbegrip is, met als wezenlijke kern het verbinden van het gegevene in de vraag, met een algemeenheid.

oorzakelijke verklaring


Op 28 januari 1986 verongelukt het ruimteveer Challenger 73 seconden na lancering. Wat was de oorzaak van ongeluk?

  1. falende leiding nam bewust risico’s bij de lancering
  2. te lage temperatuur bij lancering
  3. de controle vooraf was niet sluitend
  4. de vloeibare waterstof en zuurstof in de tanks kwam met elkaar in contact
  5. een ontwerpfout in de stuwraketten
  6. een afdichtring van de stuwraket was defect


De directe oorzaak is de heftige verbranding van de met elkaar in contacte gekomen waterstof en zuurstof uit bezweken brandstoftanks. De andere problemen zijn geen directe oorzaken, maar hebben het ongeluk wel mogelijk gemaakt, en zijn op zich ieder waarschijnlijk juist.

De fysicus Feynman had zich vastgebeten in het onderzoeken van het ongeluk. Zie bijvoorbeeld de Wiki

Filosofen, zoals recent nog Strevens (2008), worstelen met problemen zoals in de box, want hoe valt te onderbouwen wat ‘de’ oorzaak van het ongeluk met de Challenger is? Daar hebben we dan het probleem bij de staart gepakt, want het lijkt niet echt handig om toetsvragen te stellen waarbij stevige discussie mogelijk is over wat goede antwoorden zijn. Maar als hier nu de crux ligt van onderwijs, of van wetenschap, hoe kunnen we het geven van verklaringen dan wegschrappen uit toetsen en examens? Niet doen. Als toetsvraag zou deze vraag vooral interessant door de discussie die hij kan uitlokken onder studenten. Het interessante is ook dat dit geen speelgoedprobleem is, en dat nobelprijswinnaar Feynman zich heeft gestort in de vraag hoe dit ongeluk heeft kunnen gebeuren. Overigens zijn er dagelijks nieuwe voorbeelden te vinden in de krant. Bijvoorbeeld: als de slachtoffers van de Schipholbrand zijn omgekomen door rookvergiftiging, en er nog een veelvoud van relevante omstandigheden zijn die dit mogelijk hebben gemaakt, waarom daar dan met enige willekeur één veronderstelde omstandigheid — een mogelijk onvoorzichtig weggeworpen peuk — uitkiezen om daar een rechtszaak tegen een persoon op te voeren? Is dat recht, of is het iets anders?


Dat verklaringen eigenlijk overal in de hoofdstukken vier tot zeven aan de orde zijn, doet vermoeden dat de scheidslijnen tussen de afzonderlijke hoofdstukken een tikje kunstmatig zijn. Dat is inderdaad zo. Een voorbeeld maakt dat nog eens duidelijk. Hoofdstuk zes behandelt wat het is om een gegeven tekst te begrijpen. Dat levert onmiddellijk het inzicht op dat ook iedere toetsvraag de leerling voor de opgave stelt om allereerst de vraag goed te begrijpen: wat dat is, is in hoofdstuk zes uitgewerkt. Hoewel, wat het is om een wiskundig probleem te begrijpen, is briljant uitgewerkt door George Pólya (1945/1957); het onderwerp is in hoofdstuk zeven aan de orde, en levert onmiddellijk het inzicht op dat het werk van Pólya ook betekenis heeft voor het beantwoorden van andere soorten toetsvragen, zoals die in de hoofdstukken vier en vijf. Zo komt alles bij elkaar.


Samenvattend. Hoofdstuk twee is een algemeen hoofdstuk over vormen en inhouden (2.6) van toetsvragen. Hoofdstuk drie behandelt de voorbereidende schematisering van de leerstof. De hoofdstukken vier en vijf geven ontwerpregels voor het ontwerpen van toetsvragen bij begrippen en relaties, de bouwstenen van alle leerstof. De hoofdstukken zes en zeven bouwen daarop voort, waarbij hoofdstuk zes speciaal van belang is voor toetsen over tekst en hoofdstuk zeven voor toetsen in de vorm van probleemstellingen. Hoofdstuk acht behandelt de kwaliteit van toetsvragen.

Dit boek behandelt het ontwerpen van toetsvragen. Voor allerlei andere toetskwesties die op de onderwijsvloer spelen, moet de lezer het heil elders zoeken, bijvoorbeeld bij Van Berkel en Bax (2006).

 



2. Vragen: beschikbare vormen en inhoudelijke validiteit




Dit hoofdstuk behandelt in algemene zin de vorm en inhoud van toetsvragen. De mate waarin een toetsvraag inhoudelijk adequaat is, is zijn validiteit. Omdat die validiteit niet altijd even bekend terrein bestrijkt, is het als laatste onderwerp in dit hoofdstuk geplaatst. De mogelijke vormen voor toetsvragen zijn vanzelfsprekend de drie typen van korte open vragen, keuzevragen en open vragen. Welke vorm wanneer de voorkeur heeft, hangt af van wat er, didactisch gezien, valt te vragen over hoe de leerling de stof beheerst, is dus ondergeschikt aan de stof en de context van het onderwijs. Daarbij is het van belang dat betrokkenen beter gaan begrijpen wat de mogelijkheden en wat de beperkingen zijn van deze of gene vraagvorm. Om dat begrip gaat het, het zicht op mogelijke verbeteringen in een bestaande toetspraktijk komt dan vanzelf wel.


inhoud en vorm

Figuur 1. De natuurlijke inhoud van de vraag tegenover de vorm van de vraag. Het is riskant om over een van nature open inhoud een keuzevraag te stellen.

rekenen onder de tien?


Rekenen met getallen onder de tien bestaat eigenlijk maar heel kort, voor de hele kleintjes die de eerste rekenstappen leren zetten. De oudere scholier moet geautomatiseerd hebben wat drie maal vier is. Faalt dat automatisch weten, dan valt de leerling even terug op tellen op de vingers. Het zou zwakzinnig zijn om voor dit rekenen onder de tien meerkeuzevragen te gebruiken, een didactische kunstfout ook, omdat die keuzevragen het automatiseren van deze rekenkennis in de weg gaan zitten.

Dit voorbeeld illustreert een paar hoofdzaken bij het ontwerpen van toetsvragen. Het is mogelijk de verkeerde vraagvorm te kiezen, wat vragen oplevert die niet valide zijn (par. 2.6). Vragen die niet valide zijn, zetten het leren op zijn kop: de leerlingen doen de verkeerde kennis op. Al was het maar dat leerlingen de ongelukkige foute alternatieven in keuzevragen lezen, en daardoor ook leren! De docent die zelf opgaven maakt of leerlingen vragen stelt, is afhankelijk van de gebruikte methode, maar dat is geen excuus om maar mee te gaan met onhandige of absurde vragen.

Er is een nauwe band tussen onderwijs en toets. De toetsvragen maken duidelijk waar het echt om gaat in het onderwijs. Daar zitten twee kanten aan. Leerlingen en studenten letten vooral op de dingen die de toets vraagt, een kwestie van verstandige strategie. Docenten doen er goed aan glashelder te zijn over de vragen die mogelijk zijn. Ook de gekozen vraagvorm stuurt de manier van studeren. Zo maakt het verschil of de student (denkt) alleen maar zaken te hoeven herkennen, of zelf antwoorden te moeten formuleren. Let op: dit is niet hetzelfde als het onderscheid tussen open vragen en keuzevragen, omdat de eerste om herkenning kunnen vragen, en de laatste om een redenering of berekening.


Dit boek geeft bijzondere aandacht aan het abstractieniveau van vragen. Het prototype van de abstracte vraag is die naar de reproductie van definities; met dat type vragen — grote stappen, snel thuis — is de stof met een handvol vragen al gedekt, vaak met als gevolg dat al die extra vragen die nog nodig zijn, over de marges en de details gaan in plaats van over de kern van de stof. Meestal is het goed mogelijk om in plaats van abstracte vragen juist met concrete voorbeelden van het abstracte begrip te werken. Praktisch mondt dat uit in het gebruiken van de rompvraag: een kwalitatief goede vraag die draait om een voorbeeld, en daarom als sjabloon is te gebruiken met andere geschikte voorbeelden zodat telkens ‘nieuwe’ vragen ontstaan.


De volgende paragrafen zijn ingedeeld naar verschillende typen vragen, wat niet wegneemt dat bijvoorbeeld bij de korte open vragen ook algemene zaken zoals taalgebruik en het gebruik van afbeeldingen aan de orde komen, zaken die evenzeer van belang zijn bij keuze- en open vragen. Bekijk dus ook even de paragrafen die niet direct voor uw eigen situatie van belang lijken. Dat geldt ook voor zoiets als raden, dat op het eerste gezicht alleen bij keuzevragen lijkt te spelen, maar natuurlijk kan dat ook bij korte open vragen voorkomen, en zelfs bij open vragen waar handige leerlingen ruimte krijgen hun onkunde te verbergen door op te lepelen wat ze wèl weten maar wat nìet is gevraagd.


2.1 Korte open vragen


enkele voorbeelden


1. Wat is de hoofdstad van Zeeland?
2. 4 × 7 = ..
3. Noem een zoogdier dat in het water leeft.
4. Noem drie kabinetten uit de 20e eeuw.
5. Benoem de lichaamsdelen in de afbeelding [niet getoond].
6. Welke van bovenstaande 5 vragen zijn als rompvragen te zien? Leg uit.

Korte open vragen, zijn die niet achterhaald, want subjectief? Dat is een misvatting. Bij de keuzevragen komt aan de orde waarom ook keuzevragen gewoon subjectief zijn. Dat mysterie even het mysterie latend, nu terzake. De voorbeelden in de box tonen enkele grondvormen van de kortantwoordvraag, die ik liever de ‘korte open vraag’ noem, ter onderscheiding van open vragen die langere antwoorden vergen, en van de gesloten keuzevragen.

aanvulvraag: geen aanrader

Amerika is ontdekt door ____________.

De invulvraag is daar een variant op.

invulvraag: afrader

____________ ontdekte Amerika.

Een ‘echte’ korte open vraag ontstaat door een volledige vraag te stellen.

korte open vraag

Wie ontdekte Amerika? ____________

Deze vraagvormen hebben een aantrekkelijke eenvoud. Ze drukken direct uit wat de docent van de student wil horen. Ook wie keuzevragen gaat ontwerpen, kan dat vaak het best doen door eerst korte open vragen te ontwerpen, en ze pas daarna tot keuzevragen uit te bouwen.

Invulvragen zijn bedrieglijk eenvoudig: ze moeten twee keer worden gelezen: eerst om de betekenis van de vraag te doorgronden, en dan nog eens bij het passen van het antwoord. Dit probleem is erger bij tweekeuzevragen. Ook de aanvulvraag is een tikje gekunsteld, en niet echt fijn om leerlingen voor te leggen.

De vraagvorm zelf kan het denken van de leerling onbedoeld in een knoop leggen: een vraag twee keer moeten lezen leidt maar tot fouten, en dat zijn fouten die direct afbreuk doen aan de kwaliteit van de toetsvraag. Onhandigheden in de formulering van de vraag zelf kunnen hetzelfde effect hebben, en zijn dus vormgebreken zoals in hoofdstuk 8 behandeld. Een berucht gebrek is de ontkennende vorm: ‘Welk dier is GEEN zoogdier.’ Dat moet toch na te voelen zijn: de leerling wordt op een zoektocht gezet naar ongeveer het hele dierenrijk BEHALVE de zoogdieren, zij kan dat alleen oplossen door de alternatieven te bestuderen, en dan voor de zekerheid de vraag nog eens over te lezen. Dat alles vraagt zenuwen, naast biologische kennis.


Stel zo mogelijk altijd een volledige vraag. De vorm van de korte open vraag is dan wel eenvoudig, maar eenvoudig gestelde vragen zijn niet meteen ook goede vragen. Bedenk eens welke goede — maar mogelijk niet bedoelde — antwoorden er op de vraag naar Columbus mogelijk zijn.

een Italiaans kapitein zeevaarders
Spanjaarden Chinezen
Vikingen Feniciërs
Bjarni of Leif ikzelf in 2003

Zoals de korte open vraag is gesteld, sluit hij geen van de onbedoelde antwoorden uit. Bovendien zit er een zeker cultureel vooroordeel in de Columbusvraag, en is het niet uitgesloten dat sommige studenten erop antwoorden met een uiteenzetting dat Columbus een land ontdekte dat al bewoond was ... .

Onbedoelde antwoorden die niet evident fout zijn, moeten goed worden gerekend. Dat kan wel eens problemen geven, bijvoorbeeld wanneer de beoordelaar zich niet realiseert dat Columbus een Italiaan was, of bij twijfelachtige antwoorden, zoals ‘zeevaarders.’ Ontwerp de vraag dan zo, dat de meeste onbedoelde antwoorden uitgesloten zijn. Geef extra informatie. Die extra informatie, hier ‘in 1492,’ is niet hetzelfde als het geven van een hint: de vraag hoeft er niet makkelijker door te worden.

Hoe heet de man die Amerika in 1492 ontdekt? ____________

Korte open vragen zijn vrijwel universeel bruikbaar. Dat is handig, omdat ze meestal goed als eerste stap in een meer complex ontwerp zijn te gebruiken.

1.   Een bal valt van een 28 meter hoog balkon; hoe lang duurt zijn val? ____________

2.   Wat is de vergelijking van de raaklijn in het punt x = 2 aan de kromme met de vergelijking y = 2x2 + 5x - 1 ? ____________

3.   Wat is het meest voorkomende mineraal in de aardkorst ? ____________

4.   Geef de formule voor de tweede bewegingswet van Newton. ____________

5.  Geef de vier meest voorkomende stikstofbasen van DNA. ____________
____________
____________
____________.


Korte open vragen zijn er in soorten. De Columbusvraag is een voorbeeld van de quiz-vraag: een korte vraag, een snel en kort antwoord. Quiz-vragen zijn doeltreffend wanneer beperkte stof vrijwel perfect moet worden beheerst, ze zijn de pest wanneer ze in feite vooral over trivia gaan. Rekenopgaven vragen al gauw meer tijd, ook als ze kort zijn. Binnen het genre van de rekenopgaven valt er eindeloos te variëren door accenten anders te leggen, complexe berekeningen te laten uitvoeren, of alleen de oplosmethode te laten benoemen. Soms is er veel tekst nodig alleen al om de vraag te stellen, terwijl het antwoord toch met een enkel woord is te geven, en dat is niet altijd doelmatig.

Korte open vragen kunnen altijd onvoorziene goede antwoorden opleveren, zoals de columbusvraag al liet zien. Het is vaak maar al te gemakkelijk om een opgave of vraag anders te interpreteren dan de vragensteller bedoelt. Wie wel eens programmeert, weet hoe lastig het is om opdrachten aan een computer eenduidig te laten zijn. Gelukkig begrijpen leerlingen al snel wat voor antwoorden ze moeten geven, terwijl een computerprogramma het bij de minste dubbelzinnigheid laat afweten. De leerling heeft onderwijs gevolgd en stof bestudeerd, en weet dus wat de context is van de gestelde vragen, en wat telt als een adequaat antwoord en wat niet. De ontwerper benut die impliciete context om tot doeltreffende vragen te komen met weinig omhaal van woorden. Is er achteraf discussie, dan kan het context-argument helpen afbakenen wat nog een redelijke interpretatie is en wat niet meer.


Het onderscheid tussen korte open vragen en keuzevragen lijkt dat tussen het antwoord herinneren of het herkennen. Dat is een te simpele typering, denk aan wiskundeopgaven in meerkeuzevorm, waarbij het goede antwoord alleen valt te berekenen. Ook het idee dat korte open vragen nakijkwerk opleveren terwijl keuzevragen met de computer zijn te scoren, is net iets te simpel. Keuzevragen zijn handig handmatig na te kijken, terwijl voor het scoren van open vragen gebruik valt te maken van karakterherkenning.


richtlijn: formuleer vragen helder en duidelijk

dubbelzinnig

In 1985 werden er iedere seconde ergens op de aardbol 4 baby’s geboren. Hoeveel baby’s zijn dat er per dag?


Beter:

In 1985 werden er op aarde iedere seconde ongeveer vier baby’s geboren. Ongeveer hoeveel baby’s zijn dat er per dag?

De Nationale Rekentoets 2007 html

Mogelijk leest u er overheen, net als de ontwerper moet hebben gedaan, maar de betekenis van het bovenstaande gegeven is dat er, althans in 1985, iedere seconde ergens ter wereld een vierling werd geboren met hulp van een keizersnede-goochelaar. Daar kunnen we hartelijk om lachen, maar zo’n blunder kan zeker voor leerlingen met Nederlands als tweede taal een echt struikelblok zijn. Het tweede probleem is dat het gegeven onzinnig is, ook als ‘ergens op de aardbol’ is veranderd in ‘op aarde': geboorten vinden niet met de regelmaat van een tikkend metronoom plaats. Er hoort ‘ongeveer vier’ te staan, wat van de opgave een schattende opgave maakt.


Voor het goed formuleren van korte open vragen zijn er enkele eenvoudige stelregels. Wie dat wil, kan ze zien als afgeleide van de richtlijnen voor het schrijven van adequate keuzevragen (volgende paragraaf). De stelregels in de volgende box zijn samen te vatten als: formuleer de vraag helder en duidelijk.

Stelregels voor korte open vragen


Het taalgebruik is eenvoudig, passend bij het niveau van de leerlingen etc. die de toets maken.

Spelling, grammatica, interpunctie, hoofdletters, etc. moeten correct zijn.

De omvang van de te lezen gegevens is zo klein mogelijk.

Zorg er voor dat de vraagstelling ondubbelzinnig is.

Formuleer altijd positief, tenzij het echt niet anders kan, dan woorden als NIET, BEHALVE, etc. vet kapitaal afdrukken.

Zie ook: Thomas Haladyna, Steven M. Downing, and Michael C. Rodriguez (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15, 309-334. guidelines 8, 12-14, 17

Bijzondere zorg is nodig daar waar een toets ook is bedoeld voor leerlingen of studenten die Nederlands als tweede taal hebben of anderszins tot een culturele minderheidsgroep behoren. Zie Bügel en Sanders (1998 pdf) voor richtlijnen en tips bij het ontwerpen van toetsvragen die aan deze eisen kunnen voldoen.


Afbeeldingen bij toetsvragen zijn een zorg apart. Tabellen zijn ook afbeeldingen, wat de zorg groter maakt. Allereerst geldt ook hier alles wat voor tekst vereist of gewenst is: helderheid etcetera. Plus allerlei speciale aandachtspunten, denk aan veelvoorkomende vormen van kleurenblindheid, en natuurlijk de relatie tussen tekst en beeld. Kan de vraag ook zonder die extra afbeelding, dan moet hij echt weg. Afbeeldingen kunnen overigens ook in didactische zin een eigen bijdrage hebben: recente ontwikkelingen in de cognitieve psychologie wijzen erop dat het denken een proces is dat deels in de hersenen, deels in de afbeeldingen zelf plaatsvindt. Dat laatste klinkt wat wonderlijk, maar is een fantastische doorbraak in opvattingen over wat denken is. Meer hierover in de laatste paragraaf over validiteit.


Een belangrijk punt bij het gebruik van afbeeldingen is de relatie tussen afbeelding en tekst. Hoe dat bij toetsvragen problematisch kan zijn, valt af te leiden uit onderzoek naar hoe dat in het leerproces problematisch kan zijn. Wie weet dat visuele en tekstuele informatie op een andere manier door de hersenen wordt opgenomen en bewerkt, vermoedt al dat er dan dus een extra probleem ontstaat wanneer de lezer verband moet leggen tussen de twee, wat meestal het geval is. Het gaat om mentale belasting — cognitive load. Als voorbeeld:

Het split attention principle


“Studenten leren beter wanneer het instructiemateriaal niet van ze vraagt hun aandacht te verdelen over meerdere bronnen van naar elkaar verwijzende informatie.“

Dan is onmiddellijk in te zien dat overbodige plaatjes bij toetsvragen doodzonden zijn voor de ontwerper. Dus ook wanneer met een kleine ingreep in de tekst het plaatje overbodig is te maken.

citaat vertaald uit: Roxana Moreno and Richard E. Mayer (2000). A Learner-Centered Approach to Multimedia Explanations: Deriving Instructional Design Principles from Cognitive Theory. Interactive Multimedia Electronic Journal of Computer-Enhanced Learning, 2, nr 2 html

Koppel het gegeven van afzonderlijke korte-termijn geheugens voor visuele en verbale informatie aan het bestaan van belangrijke individuele verschillen in ruimtelijk inzicht, en het vermoeden rijst van een mogelijk belangrijk probleem voor grote groepen leerlingen bij toetsvragen met zowel belangrijke verbale als visuele informatie. Specifiek voor toetsvragen en zeker voor examenvragen is dat daar vaak de grenzen van de intellectuele vermogens van leerlingen worden opgezocht. Combineer een en twee, en er ontstaat een in beginsel explosief mengsel. Waarom weten we daar eigenlijk zo weinig van? Het is gewoon nog weinig onderzocht, althans niet in deze combinatie van ingrediënten. In de tussentijd: wees in het bijzonder bedacht op het risico van overladen met informatie van verschillende soort, verwijs bij twijfel het ontwerp naar de prullenbak, en ga in andere gevallen na of er in het verleden signalen zijn geweest van kenmerkende moeilijkheden die sommige leerlingen bij vergelijkbare vragen hebben.


Ook al is ruimtelijk inzicht onmisbaar voor het begrijpen van bijvoorbeeld natuurkunde, dan is dat nog geen vrijbrief om toetsvragen te ontwerpen die verschillen in ruimtelijk inzicht meten. De vragen over natuurkundige verschijnselen moeten immers zo zijn ontworpen dat blote verschillen in ruimtelijk inzicht niet mede verschillen in toetsscores tussen leerlingen bepalen. Dat laat onverlet dat leerlingen die minder sterk zijn in ruimtelijk inzicht, dat moeten compenseren door meer tijd in de studie te investeren dan anders nodig zou zijn geweest. Voor dat laatste moeten ze dan wel, in redelijkheid, goede gelegenheid en ondersteuning krijgen. Voor meer over eisen van transparantie, zie De Groot (1970 html).


2.2 Keuzevragen


De keuzevraag stamt uit de wereld van psychologische tests, waar de techniek van keuzevragen de automatisering van het nakijken mogelijk maakte. De voorwaarde voor deze automatisering is dat het beantwoorden van vragen een logisch spel is: een alternatief is ofwel fout, ofwel goed (of driewaardig: ik weet het niet, ik laat het open). Een handige jongen heeft ooit bedacht dat daaraan valt te ontsnappen door de student de alternatieven te laten ordenen, en bijvoorbeeld ‘het beste’ antwoord als het juiste antwoord aan te laten merken, maar ook dan blijft de basis een zaak van logica (dit alternatief is ofwel het beste, ofwel het is dat niet). Die logica is alleen maar nodig omdat rekenautomaten logische machines zijn, en het is dus de vraag of deze injectie van logica in toetsvragen niet onnodig veel schade berokkent aan waar het in het onderwijs uiteindelijk om gaat. We zijn ondertussen aan het gif gewend, maar het is nog steeds gif. Be careful. Logica heeft zijn verdiensten en toepassingen, sommige ook heel handig voor de ontwerper van toetsvragen, maar de modale keuzevraag is een onhandig compromis tussen droom en werkelijkheid.

Nog een opmerking op voorhand. De stelling dat alle toetsvragen vragen om uitleg, leidt onmiddellijk tot de conclusie dat veel keuzevragen gedegenereerde toetsvragen zijn omdat het alleen om de uitkomst van de uitleg (berekening, gedachtengang, etc) gaat, niet om de uitleg zelf. Het probleem wordt er niet beter op door het vaak expliciete verbod aan studenten om bij hun antwoorden een uitleg te geven; dat zou juist omgekeerd moeten zijn: geef altijd ook een uitleg, ook bij antwoorden op keuzevragen. Een cultuuromslag?

Keuzevragen altijd over feitjes?


Een wijd verbreide opvatting is dat keuzevragen als vraagtechniek uitlokken dat vragen vooral over eenvoudige feiten gaan. Ik zet daar graag een stelling tegenover, dat het de ontwerper van de toetsvragen is die om te beginnen vooral denkt in termen van weetjes en feiten, dat is haar naïeve theorie over wat het is om een onderwerp, een hoofdstuk of een vak te ‘kennen.’ Ik kan dat meteen bewijzen door naar een publieke toets te wijzen, bijvoorbeeld De Grote Geschiedenis Quiz 2007. Niemand heeft de ontwerpers van de 25 vragen in die quiz gedwongen om naar triviale kennis, feiten of gebeurtenissen te vragen, toch doen ze dat met gretigheid. Terwijl er achter die triviale feitjes soms (altijd?) werelden van historisch begrip en belang liggen. Grijp dat historisch begrip aan voor het ontwerp van de vragen, dat lijkt me een redelijke aansporing. Zie voor een commentaar op het ontwerp van de vragen in deze quiz hier

Welk dier legt eieren in het water?

  1. slang
  2. kikker
  3. schildpad
  4. walvis
  5. zwaan.

Bij keuzevragen zijn een aantal mogelijke antwoorden voorgedrukt, dat is het opvallende verschil met de korte open vragen in 2.1. Andere algemene kenmerken van keuzevragen zijn er niet. Dat hier alleen maar het beste antwoord herkend hoeft te worden, is geen algemeen kenmerk; voor rekenopgaven, bijvoorbeeld, gaat dat herkennen al niet meer op. Zo is het ook met het idee dat er naast een juist alternatief alleen onjuiste alternatieven mogen zijn. Het aantal juiste alternatieven hoeft niet tot één beperkt te zijn. En in plaats van juist of onjuist is het vaak beter om een enkel beste alternatief te hebben naast een aantal die een minder goed antwoord op de vraag geven. Kortom: de ontwerper heeft alle ruimte om kwalitatief hoogwaardige keuzevragen te maken, en veel kansen om daarin te mislukken.

Het eerste voorbeeld laat ook een typisch gebrek in het ontwerp zien: als de ontwerper wil weten of de leerling weet dat kikkers eieren in het water leggen, wat doen die andere dieren er dan bij? Het ei van Columbus zou hier toch zijn een gewone korte open vraag te stellen. De antwoorden nakijken is een fluitje van een cent, en als ook dat echt bezwaarlijk is: maak er een tweekeuzevraag van.

Waar legt een kikker eieren? ____________.

Waar legt een kikker eieren?

  1. in het water
  2. op het land

Voor de ontwerper zit het probleem in het bedenken van de foute antwoorden. Die heten ook wel afleiders, maar het is een didactisch verwerpelijk idee om bij toetsen te proberen studenten op het verkeerde been te zetten. Historisch is de gedachte geweest dat het slim kan zijn foute alternatieven te ontwerpen die juist aantrekkelijk zijn voor de student die zijn huiswerk niet heeft gedaan. Dit soort slimheid is niet professioneel, weg ermee. Probeer niet te denken in termen van ‘afleiders,’ maar wees eerlijk en ontwerp adequate foute antwoorden. Alternatieven die berusten op een bekende misvatting kunnen adequaat zijn wanneer leerlingen dat ook moeten weten (meta-kennis).

Er is al bijna een eeuw geleden op gewezen dat de leerling onjuiste informatie in toetsvragen zal leren: zij vormt associaties — bonds — met die onzin. Op dezelfde manier kunnen onjuiste alternatieven ertoe leiden dat de leerling de combinatie van die onzinalternatieven en de stam van de vraag leert. Haal hier niet de schouders over op want leerlingen brengen in hun onderwijsloopbaan heel veel tijd door met het bestuderen van onjuiste alternatieven op keuzetoetsjes. De conclusie is niet lijnrecht dat onjuiste alternatieven altijd ontwerpfouten zijn, maar sommige zijn dat wel, andere niet. Het kunnen weten dat en waarom foute alternatieven fout zijn, moet tot de stof horen, anders is de vragenontwerper niet echt goed bezig geweest. Het fenomeen hoeft overigens niet beperkt te zijn tot opties bij keuzevragen: ook studenten die verkeerde oplossingen proberen kunnen die oplossingen niet zomaar vergeten, en dat belemmert het herinneren van informatie die wèl kan leiden tot een goede oplossing.

Aan de overkant van de grote plas denkt men over ‘afleiders’ heel anders: “ ... the main idea is that distractors should appeal to low-scoring test-takers and not appeal to high scoring test-takers. Any contradiction to this state of affairs signals an ineffective distractor.”
Toch is het eenvoudig in te zien dat deze zienswijze niet klopt. Dezelfde redenering kan immers worden toegepast op constructed response vragen — korte open vragen — die dan in de vraagstelling een valkuil voor de minder goed voorbereide studenten zouden moeten hebben, een valkuil die goede studenten vanzelfsprekend mijden. Is dit wat we met onderwijs willen, studenten in valkuilen lokken? Dat heet — in gewoon Nederlands — kwade trouw.
Deze afleider-filosofie is ook armzalig als ontwerp omdat het miskent dat voor keuzevragen de stam en de alternatieven als geheel een bij de mogelijk gebrekkige beheersing van de leerling passende — authentieke zo men wil — opgave moeten vormen.

citaat uit: Thomas M. Haladyna (1999 2nd). Developing and validating multiple-choice test items. Erlbaum.

De verleiding is nu om te snel tevreden te zijn met de eerste de beste foute alternatieven die langskomen, zie bijvoorbeeld de in dit opzicht slordige vragen in de Wetenschapsquiz 2008 hier. En dat terwijl het er bij keuzevragen juist om gaat die foute alternatieven weloverwogen te kiezen: dat kan leiden tot briljante vragen, en bij verzuim tot mislukte vragen.

Los x op uit   x / 3 = x - 1.

  1.   1 / 2
  2.   3 / 2
  3. - 3 / 2

Hier een eenvoudig voorbeeld hoe zoiets aan te pakken, het juiste antwoord is 3/2. Voor een driekeuzevraag zijn twee foute alternatieven nodig, dat moeten getallen zijn, maar welke? Zomaar een paar getallen — 12, -8/3, 21 — zijn op afstand al herkenbaar als fout. Getallen die lijken op het juiste antwoord — zoals -1/2, 2/3, en 3/4 — zijn bruikbaar; de student die de opgave niet kan berekenen, en ook niet kan terugrekenen vanuit de alternatieven, zal dan moeten raden. Soms is het goed om getallen te nemen die volgen uit fouten bij het berekenen: uit de foute stap x = 3x - 1 volgt zo het antwoord x = 1/2. zo’n vraag toetst ook of de student heeft geleerd dit type fout niet (meer) te maken, dat moet dan wel in het onderwijs zo zijn behandeld. Met dergelijke alternatieven is er geen sprake van dat het juiste antwoord valt te herkennen, het is de uitkomst van een berekening die de student moet maken. O ja, geef leerlingen de gelegenheid hun kladpapier samen met de toets in te leveren; dat is niet alleen nuttig wanneer de leerling achteraf claimt via een goede berekening tot een ‘verkeerd’ antwoord te zijn gekomen, maar geeft ook inzicht in hoe leerlingen de opdrachten aanpakken.

Wat nu als het geen rekenopgaven zijn? Ontwerp de vraag inclusief de foute alternatieven dan zo dat de student het juiste antwoord moet weten of beredeneren (= berekenen), eventueel vanuit de alternatieven weten of beredeneren welke fout zijn (= terugrekenen). Kortom, laat de student het gegeven antwoord motiveren — het kladpapier met de berekening inleveren is ook goed. In beginsel is dit de hele aanpak voor het ontwerpen van keuzevragen, uitgaande van open-eind vragen.

Welke getallen ook als alternatieven zijn gekozen, het blijft bij deze keuzevragen altijd mogelijk om het juiste antwoord op averechtse wijze te vinden door vanuit de genoemde alternatieven terug te redeneren of terug te rekenen: bij het goede alternatief lukt dat immers in beginsel. Hier heeft de keuzevraag toegevoegde waarde ten opzichte van de open vraag. Bij rekenopgaven is overigens dat terugrekenen te ontmoedigen door geen getallen als alternatieven te nemen, maar intervallen waarin het juiste antwoord ligt. Als zoiets gekunsteld is, zoals hieronder, doe het dan niet.

gekunsteld

De naam van Socrates’ beroemdste discipel begint met de letter:
  1.   A   t/m   E
  2.   F   t/m   J
  3.   K   t/m   O
  4.   P   t/m   T
  5.   U   t/m   Z.

Wesman (1971, p. 81). Writing the test item. In Robert L. Thorndike:Educational measurement. American Council on Education. Wesman geeft dit voorbeeld, en raadt het niet af.

Uitzonderingen daargelaten, zijn de alternatieven altijd belangrijk genoeg om er in het ontwerp ruimschoots aandacht aan te geven. Het is echt niet zo dat de keuzevraag eigenlijk net een open vraag is, zelfs niet voor de student die het juiste antwoord zeker weet. Door de toegevoegde alternatieven verandert de vraagstelling ten principale, omdat de spelregel is dat alleen het aangestreepte juiste of het beste alternatief telt. Meer of minder nadrukkelijk moet de student altijd nagaan of er misschien een beter alternatief is dan wat zij aanvankelijk dacht dat het juiste antwoord was. En ook hier geldt: verre van een nadeel, kan dit juist een sterk punt zijn waar het ontwerp op in kan spelen.

Overal waar de student ook op een open vraag al kiest uit een klein aantal mogelijkheden, laat op soepele wijze het ontwerp van de keuzevraag toe om hetzelfde doen. De stam van de vraag geeft die mogelijkheden door het noemen van een categorie: eilanden, hoofdsteden, kabinetten, eigenschappen, scheikundige stoffen.

Wat is de hoofdstad van Gelderland? ____________.

Waarom zijn walvissen zoogdieren? ____________.

Welk kabinet liet kruisraketten toe in ons land? ____________.

Bij opname in het beendergestel vervangt Strontium-90 er welke andere stof? ____________.

Door van deze open vragen keuzevragen te maken krijgt de goed voorbereide student geen informatie cadeau. Waarom dan keuzevragen maken? Als automatisch scoren van belang is. Studenten die niets van de stof weten krijgen nu een raadkans, wat geen geweldig probleem is. Raadkansen komen nog apart aan de orde.

Op welk eiland ligt Nes?

  1. Texel
  2. Vlieland
  3. Terschelling
  4. Ameland
  5. Schiermonnikoog

Voor een kaartje zie Wiki

De stam van de vraag hoeft niet te zeggen dat het om waddeneilanden gaat, en kan dus kort blijven. De keuzevraag maakt het zo mogelijk om de abstracte categorie — waddeneilanden — te vervangen door een goed gekozen — in logische want geografische volgorde — aantal voorbeelden uit die categorie. De keuzevraag geeft meer ruimte om te spelen met de spanning tussen abstract en concreet. Hoeven leerlingen niet te weten dat dit waddeneilanden heten, dan biedt de keuzevraag de mogelijkheid met concrete voorbeelden te werken uit een categorie die als abstractie niet tot de stof hoort. Hetzelfde geldt waar er voor een complexe categorie geen eigen naam beschikbaar is. Als het maar geen heterogeen — samengeraapt, creatief bedacht — stel alternatieven is, dat heeft niets met behoorlijk ontwerpen te maken.

Bij keuzevragen moet de student altijd alert zijn op de mogelijkheid dat toch een ander alternatief ‘beter’ is. Niet zeker weten dat Nes op Ameland ligt, zet een ingewikkelde afweging in gang welk antwoord de beste kans biedt. Maar dan moet het ook zo zijn dat keuzevragen bij uitstek een goede ontwerpkeuze zijn bij het toetsen van onderscheidend vermogen, van onderscheidende kennis, zoals ‘welke van deze dieren zijn zoogdieren?’ Die vraag past niet goed in de standaardvorm dat maar één alternatief correct is. Het is ondoelmatig om het ene zoogdier van de vier genoemde dieren te vragen. Beter is om aan te geven dat meerdere alternatieven goed kunnen zijn (tenminste één is goed), of er een meervoudige ja-neevraag van te maken.

Kruis de zoogdieren aan (tenminste één)

  1. struisvogel
  2. walvis
  3. veldmuis
  4. vleermuis
  5. pinguïn

Is dit een zoogdier?

 
1. struisvogel ja / nee.
2. walvis ja / nee.
3. veldmuis ja / nee.
4. vleermuis ja / nee.
5. pinguïn ja / nee.

Bij onhandige ontwerpen kan een student die de open vraag weet, de keuzevraag toch fout maken omdat alternatieven haar op het verkeerde been zetten. De ontwerper moet oppassen voor de nonchalante opvatting dat de student gewoon het correcte antwoord moet weten, en dat het voor deze student ‘dus’ niet uitmaakt wat als onjuiste of minder juiste alternatieven is opgevoerd. Bijvoorbeeld zijn het juist de studenten die naast de opgegeven stof nog een stapel boeken hebben verslonden, die dan voor de bijl gaan, een fenomeen dat in onderwijsonderzoek telkens weer blijkt, vaak tot verrassing van de onderzoekers.

Het nieuwe Tijdschrift voor Onderwijsresearch opende in 1975 met een onderzoek over studeergedrag en prestaties. Het enige statistisch aangetoonde verband was dat het in eigen woorden verwerken van de leerstof een gevaarlijke gewoonte is, want bij de onderzochte studies rechten, psychologie, geneeskunde en scheikunde voorspelt dat lagere cijfers. De ontwerpers van die tentamens hebben een enorm probleem: het valt niet vol te houden dat juist studenten die er geen bal van begrijpen, proberen de stof diep te verwerken.

Hans F. M. Crombag, Jerry G. Gaff, and Ten M. Chang (1975). Study behavior and academic performance. Tijdschrift voor Onderwijsresearch, 1, 3-14.


richtlijnen voor het schrijven van keuzevragen
Naast de hierboven al genoemde richtlijnen voor het schrijven van adequate kort-antwoordvragen, komen er voor het schrijven van keuzevragen nog een aantal bij.

Richtlijn voor de formulering van alternatieven


Twee of drie keuzealternatieven is vrijwel altijd het maximaal zinvolle.

Zorg ervoor dat één alternatief het correcte antwoord is.

Rangschik de alternatieven in logische of alfabetische volgorde.
De alternatieven zijn onafhankelijk van elkaar (geen overlappende betekenis etc.)

De alternatieven zijn homogeen van inhoud (geen ratjetoe) en gelijk geformuleerd.

De alternatieven zijn ongeveer even lang.

Thomas Haladyna, Steven M. Downing, and Michael C. Rodriguez (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15, 309-334. p. 312.

Aanbevelingen voor afleiders zijn in bovenstaande box weggelaten, evenals dingen die men beter kan vermijden — dat ene correcte alternatief is een randgeval, de ratjetoe maakt duidelijk wat met ‘homogeen’ is bedoeld — zie daarvoor hoofdstuk acht.

Het ontwerpen van keuzealternatieven is ten principale niet verschillend van dat van het ontwerpen van de vragen zelf. Het gaat dus niet aan om allerlei creatieve wegen te bewandelen om aan foute alternatieven te komen. Wie ondanks dat toch een aanbeveling doet zoals use typical errors of students to write your distractors, moet klip en klaar duidelijk maken wat in specifieke gevallen de didactische grondslag precies is. In het geval van typische fouten van studenten is de zaak natuurlijk deze: als ze geleerd is deze fouten niet meer te maken, of ze moeten dat leren (formatief toetsen), is dat op zich een leerdoel dat voor de toets relevant is; maar als dat niet zo is dan beweegt de ontwerper zich in een schemergebied van misleiding.


matchingvragen
Varianten in het domein van de keuzevragen zijn de matchingvraag en de ja-neevraag. De matchingvraag is bruikbaar wanneer de leerstof reeksen gepaarde zaken bevat.

Schrijf het nummer van de titel voor de naam van de auteur ervan.

1. In Babylon ______ Boon
2. De Kapellekensbaan ______ Hermans
3. De tranen der acacia’s ______ Möring
4. Archibald Strohalm ______ Mulisch
5. De ontdekking van de hemel  
6. Onder professoren  

Kruis bij de titel de letter van zijn auteur aan.

  1. Boon
  2. Hermans
  3. Mulisch
  4. Möring

1. In Babylon a   b   c   d
2. De Kapellekensbaan a   b   c   d
3. De tranen der acacia’s a   b   c   d
4. Archibald Strohalm a   b   c   d
5. De ontdekking van de hemel a   b   c   d
6. Onder professoren a   b   c   d

Bij een match tussen vier boeken en auteurs, zijn er vier goed te maken door er drie te weten, dat levert maar gepuzzel op. Een opzet zoals hierboven vermijdt dat.


ja-neevragen
Het bijzondere van zowel ja-neevragen als juist-onjuistvragen (hierbeneden) is dat ze alleen mogelijk zijn wanneer ongeveer de helft van de vragen inderdaad als ‘nee,’ respectievelijk ‘onjuist’ zijn gesleuteld: anders kunnen kandidaten blind altijd bevestigend antwoorden. Voor de kwaliteit van dit type keuzevragen is dus het springende punt of die negatieve vormen valide zijn (paragraaf 2.6. De argumenten zijn hier verdeeld over twee paragrafen, maar ja-neevragen zijn ook kwetsbaar voor specifieke problemen bij onjuiste stellingen, en omgekeerd.

ja-neevragen over auteurs en hun boeken zijn af te raden, dat bedelft de leerling onder een hoop onzin omdat er onvermijdelijk ongeveer de helft als nee moet zijn gesleuteld. Dat gaat in tegen de draad van onderwijs. ‘Wat niet het geval is,’ bijvoorbeeld dat Mulisch Onder professoren schreef, valt in de regel buiten de leerstof.

afrader

Schreef Mulisch Onder professoren ? ja / nee

Waar het nonsens is te eisen dat leerlingen weten wat Mulisch niet heeft geschreven, zijn er toch veel zaken waar leerlingen een bepaald onderscheid moeten kennen, daar kunnen ja-neevragen ook in hun ontkennende vorm bij passen.

Het is goed — maar ik moet hier nog onderzoek naar doen — om altijd de vragende vorm te gebruiken zoals ‘Is een walvis een vis?,’ in plaats van de stellende ‘Een walvis is een vis.’ Een onjuiste uitspraak die in het geheugen blijft hangen, is hinderlijk. Een vraag naar een stand van zaken is gewoon een vraag.

Vraag geen stelling; stel een vraag.


Is een walvis een vis? ja/ nee

Er zijn maar weinig korte uitspraken die ongeclausuleerd juist of onjuist zijn. Studenten komen in moeilijkheden wanneer zij zelf omstandigheden kunnen bedenken die de uitspraak waar of onwaar maken. Ze moeten dan gissen of de ontwerper van de vragen dezelfde omstandigheden in gedachten had, of juist niet. De Wetenschapsquiz kent heel wat vragen die in dit opzicht niet ideaal zijn, terwijl door het algemene karakter van de quiz — de wetenschap, dat is nogal wat — de context toch al verre van vanzelfsprekend is. Een eenvoudig voorbeeld is de baan van de aarde om de zon, die zeker geen perfecte cirkel is. Geen cirkel dus, maar een perfecte ellips is het al evenmin. Misschien bedoelt de ontwerper te vragen of de aarde om de zon draait? Maar ook dat is te absoluut gevraagd, op dezelfde wijze draait de zon ook om de aarde, omdat zij beide draaien om hun gezamenlijke zwaartepunt.

De tweekeuzevraag, met de instructie het beste alternatief aan te strepen, kan de moeilijkheid vermijden. Als het de bedoeling is dat de student weet dat de baan geen cirkel maar een ellips is, vraag daar dan direct naar.

afrader

Is de baan van de aarde om de zon een cirkel? ja / nee

van ja-neevraag naar tweekeuzevraag

Wat is de vorm van de baan van de aarde om de zon ?

  1. een cirkel.
  2. een ellips.

Het gebruik van ja-neevragen impliceert dat ongeveer de helft ervan ‘nee’ is gesleuteld, anders zouden onvoorbereide studenten een hoge score kunnen behalen door alle vragen met ‘ja’ te beantwoorden. Die negatieve ja-neevragen passen niet altijd naadloos bij het gegeven onderwijs. Het werkt dus niet om zinnen uit het studieboek te knippen, en daar ‘ja/nee’ achter te plakken, als zulk knip- en plakwerk zelf al zou deugen. Een ander probleem met dit type vragen is dat mensen verschillen in hun neiging om ‘ja’ te antwoorden als ze in feite raden. Opsommend is het advies om waar mogelijk ja-neevragen te vermijden, en in plaats daarvan tweekeuzevragen te ontwerpen.

juist-onjuistvragen


3 + 4 = 8.                 juist / onjuist

Het lijkt zo simpel: feitenkennis toetsen door uitspraken uit de leerstof te nemen, en de helft daarvan te verdraaien tot onzin. Heel pesterig laat ik daarom een afrader zien waarvan hopelijk niemand het in zijn hoofd zal halen deze ooit in een toets te gebruiken: ‘3 + 4 = 8.’ Als dit evident didactisch vergif is, waarom zouden andere onjuist gesleutelde stellingen dan wèl valide vragen kunnen zijn? Precies, dit is een ja-neevraag waarop u uw antwoord moet onderbouwen.

Er zijn tal van problemen met onjuiste stellingen in studietoetsen. Er is hierboven al op gewezen dat kandidaten de onzin kunnen leren, en dat kan niet de bedoeling van onderwijs zijn. Een enorm probleem is dat de onjuiste stelling als zodanig niet geleerd is, dus niet in het geheugen opgeslagen: de onjuiste stelling zet de kandidaat dus aan het zoeken naar iets dat er niet is.

onjuiste uitspraken, wat zijn dat eigenlijk voor uitspraken?


Er is empirisch onderzoek dat laat zien dat juist kandidaten die de stof goed kennen — wat op het moment van toetsen het geval pleegt te zijn — er lang over doen voordat zij concluderen dat zij de onjuiste stelling niet kennen en dat hij daarom onjuist moet zijn.

L. M. Reder (1988). Strategic control of retrieval strategies. In G. H. Bower: The psychology of learning and motivation. volume 22, 227-259. Academic Press. pdf

Het is een goed idee om nooit juist-onjuistvragen te gebruiken. Omzetten naar ja-neevragen haalt iets van de scherpte af, maar lost het onderliggende probleem niet op. Het vragen om een onderbouwing van het antwoord ‘onjuist’ helpt wel: het dwingt de ontwerper alleen die onjuiste stellingen te gebruiken die een onderbouwing hebben die zinvol is, gegeven de stof. Laat de ontwerper zich afvragen wat zij graag van de kandidaat wil weten, en daar rechtstreeks een vraag op te ontwerpen: ‘Is de baan van de aarde om de zon cirkelvormig of ellipsvormig?’

De baan van de aarde om de zon is een cirkel.
                juist / onjuist
Is de baan van de aarde om de zon een cirkel?
                ja / nee
Licht je antwoord toe.
Is de baan van de aarde om de zon een cirkel?
                ja / nee
Leg uit waarom de baan van de aarde om de zon geen cirkel is.
Wat is de vorm van de baan van de aarde om de zon?
  1. een cirkel
  2. een ellips.
Is de baan van de aarde om de zon beter te beschrijven als een cirkel, of als een ellips?
  1. als een cirkel
  2. als een ellips.

De juist-onjuistvraag is een typisch voorbeeld van pseudo-logisch denken van de ontwerper van de toetsvraag. Alsof kennis tweewaardig is: ofwel waar, ofwel niet waar. De logica kan met de onjuiste stelling natuurlijk goed uit de voeten: de kandidaat neemt aan dat de stelling juist is, en leidt vervolgens een tegenspraak af, zodat de conclusie is dat de stelling inderdaad ‘onjuist’ is.

Als tot de doelen van het onderwijs hoort onjuiste beweringen te kunnen weerleggen, dan passen juist-onjuistvragen. Maar dan gaat het altijd om de rechtvaardiging van het antwoord ‘onjuist,‘ niet om dat antwoord als zodanig. Dan is het een goed idee gewoon mee te delen dat de stelling onjuist is: ‘Leg uit dat de baan van de aarde om de zon niet cirkelvormig is.

Kortom, de ontwerper die vraagt naar dingen die er niet zijn of die niet zo zijn, moet daar heel goede redenen voor hebben. Anders zijn de vragen een vorm van pesterij.


aantal alternatieven
In Nederland is eind zestiger jaren het idee gevestigd dat keuzevragen vier alternatieven zouden moeten hebben. Dat idee bestaat nog steeds, ook nu het Cito niet alleen meer vierkeuzetoetsen maakt, en een spectaculaire Wetenschapsquiz driekeuzevragen heeft. De ervaring wijst keer op keer uit dat bij de meeste vierkeuzevragen, zeker de door docenten voor eigen gebruik ontworpen vragen, er vaak een alternatief is dat door vrijwel geen enkele student is gekozen. Dat is vaak ook het alternatief dat de meeste moeite heeft gekost om nog te bedenken. Weglaten dat vierde alternatief, dat levert een veel betere toets op, de vrijgekomen ruimte en leestijd maakt het mogelijk meer vragen in de toets op te nemen. Hier is minder meer, altijd doen. Wie nog een stap verder wil zetten, en met tweekeuzevragen — alternate-choice vragen — wil werken: prima.

Computerprogramma’s die zijn ingesteld op vier keuzen per vraag, verwerken twee- en driekeuzevragen ook goed. De computer hoeft niet te weten of er in feite een alternatief minder is. Dat is anders wanneer bij vijf alternatieven er een alternatief extra is, dan is een aanpassing van de programmatuur nodig. Voor antwoordformulieren geldt hetzelfde, al is het eleganter een antwoordformulier te hebben met precies het juiste aantal alternatieven per vraag.

dit is een ernstige ontwerpfout

A. Moeten meerkeuzevragen vier alternatieven hebben?

B. Slaat een computerprogramma voor vierkeuzevragen de driekeuzevragen over?

  1. A. ja, B. nee
  2. A. ja, B. ja
  3. A. nee, B. ja
  4. A. nee, B. nee

De afrader toont een geforceerde manier om vier keuzen te maken. Als iets de indruk geeft geforceerd te zijn, kies dan een ander ontwerp. In dit geval is een klein probleem dat de tekst van de stam niet logisch doorloopt in die van de alternatieven; dat kan ook niet, er staat een tweede vraag tussen. En een groot probleem is dat de student heel goed op moet letten om geen vergissing bij het aankruisen te maken, en dat moet ze doen tegelijk met het nagaan van de juistheid van de afzonderlijke vragen. Dat levert mentale overbelasting op. De student die net goed bezig is een serie vragen te beantwoorden, stuit hier op een hobbel, raakt uit haar ritme, moet goochelen met informatie. Een variant is die van de dubbele juist-onjuistvraag: gestoord kan een leerling ervan raken. Nooit meer gebruiken, het gaat hier om een ernstige ontwerpfout. Deze vragen meten mogelijk meer koelbloedigheid en intelligentie dan kennis.

Een variant die in de praktijk ook nogal eens voorkomt is de vierkeuzevraag met als alternatieven verwante uitspraken met telkens twee of meer onderdelen die juist of onjuist zouden kunnen zijn. Dit stapelt ontwerpfout op ontwerpfout, dit is de leerlingenhel op aarde. Breng zo’ n vraag allereerst terug tot een of meer rechtlijnige juist-onjuistvragen, en maak dan een herontwerp in de vorm van bijvoorbeeld tweekeuzevragen.


  raden

Figuur 1. Honderd apen doen een toets van 10 driekeuzevragen.


raadkansen
Keuzevragen geven de leerling die niets weet een kans om goed te gokken. Een klas met honderd apen die een toets met driekeuzevragen invult, zal er gemiddeld een derde van ‘goed’ gokken. zo’n toetsresultaat is hier afgebeeld, 5 van de 100 apen scoren 6 of 7 van de 10 vragen goed. Experimenteer hier zelf met andere getallen. Er nemen wel eens apen aan toetsen deel, bijvoorbeeld studenten die eerst eens willen verkennen hoe een toets gaat; de vraag is dan of die aan hun scores zijn te herkennen, maar helaas kan dat voor een concrete Marie of Kees niet zomaar. Het vervelende is namelijk dat studenten die zich redelijk voorbereiden, toch pech kunnen hebben en scores halen die met een beetje geluk ook door raden zijn te krijgen.


In Nederland is het nog steeds gebruikelijk dat leerlingen op keuzevragen altijd moeten antwoorden, desnoods door raden, omdat ze zichzelf anders zouden benadelen. Bijvoorbeeld bij de keuzevragen in de eindexamens VO anno 2009. Dit gedwongen raden levert een maatschappelijk probleem op, omdat het onderwijs leert dat het OK is om, als je iets niet weet, dan maar wat te roepen. Dat is een wonderlijke en ongewenste stand van zaken. De reden is historisch. In het begin van de 20e eeuw was het gewoon om keuzevragen die je niet wist, open te laten. Zo ontdekten kandidaten bij de Amerikaanse dienstkeuring in WO I dat ze hun kansen op inlijving konden vergroten door altijd iets aan te strepen, dus door te raden als je het niet weet of geen tijd meer hebt erover na te denken. Omdat anderen daardoor in het nadeel komen, is het probleem opgelost door iedereen te instrueren altijd een antwoord aan te kruisen, desnoods door te raden. Betere oplossingen zijn denkbaar, zoals het toekennen van een kleine bonus bij onbeantwoorde vragen, gelijk aan of een fractie groter dan de raadkans zou zijn. Apen kun je zo niet instrueren, studenten gelukkig wel. Als foute antwoorden op keuzevragen ‘strafpunten’ opleveren, dan kunnen niet-geweten vragen gewoon onbeantwoord blijven. Bij meerkeuzevragen is dat toch iets ingewikkelder: kan de student een alternatief als onjuist afstrepen, dan is raden op de overgebleven alternatieven nog steeds voordeliger dan de vraag open laten.


Nu bestaan er formules die toetsresultaten zouden corrigeren voor raden. Voor de evaluatie van het onderwijs mag dat zinvol zijn, niet voor de score van Jan, Piet of Klaas. Niet alleen is het echt onbekend welke van de vragen ‘goed’ zijn geraden, het is bovendien een volslagen gok welke van de ‘foute’ fout zijn geraden, of fout zijn gemaakt. Toetsdeskundigen gaan er vaak stilzwijgend vanuit dat ‘foute’ vragen fout zijn geraden, maar dat is een slag in de lucht omdat leerlingen echt veel vragen met overtuiging fout kunnen maken. Dat betekent dat formules die op groepsniveau zouden kunnen corrigeren voor raden, daarin in feite jammerlijk falen.


gif/06tvr2.2.648326.gif

Figuur 2. Raadkansen maken de toets onnauwkeuriger. Links: toets 40 vragen, voldoende is 25 vragen (verticale grijze lijn geeft dat aan), beheersing 70%, slaagkans 88,5%. Rechts: met raadkans 33% is 30 vragen voldoende, bij beheersing 70% is de slaagkans 83,5%, aanzienlijk minder. De blauwe lijn geeft theoretische kansen, de solide figuur is een simulatie van 1000 ‘leerlingen.’ Klik op de figuur voor brede afbeelding op ware grootte van de twee analyses. Let op: de aanname is hier dat een vraag ofwel correct wordt beantwoord, ofwel wordt geraden; foute antwoorden bestaan hier niet, alleen fout geraden antwoorden.


‘fout weten’

Een bus heeft 36 zitplaatsen voor passagiers. Als 1128 leerlingen een excursie gaan maken, hoeveel bussen zijn dan nodig?


Op een Amerikaanse nationale toets (NAEP) maakten 45.000 leerlingen deze vraag. Zij antwoordden zo:

Alan H. Schoenfeld (2007). What Is Mathematical Proficiency and How Can It Be Assessed? In Alan H. Schoenfeld (Ed.) (2007). Assessing mathematical proficiency (59-73). Cambridge University Press. p. 69-70. pdf gezien 8-2009

De ‘busvraag’ in bovenstaande box is een beroemd casus, ook in onderzoek naar woordproblemen. Er zijn 47% foute antwoorden gegeven op basis van correcte berekeningen. Dan zijn er nog 30% die hun berekening fout hebben. Dus 77% van de leerlingen komt tot een fout antwoord, en hoewel sommigen vermoed kunnen hebben dat ze verkeerd zaten, zal het merendeel toch met overtuiging een fout antwoord hebben gegeven. Zou de ‘busvraag’ een meerkeuzevraag zijn, dan zou het merendeel van de foute antwoorden niet fout zijn geraden, maar fout zijn gemaakt. Het is een wonderlijke ervaring om het hoofdstuk van Van Naerssen (1969) over raden er nog eens op na te lezen, en te moeten concluderen dat Van Naerssen alleen maar fout geraden alternatieven op keuzevragen kent. Hier maakt Van Naerssen een fout in commissie met de meeste psychometrici.


Voor Jan, Piet en Klaas maakt het raden geen verschil als hun beheersing van de stof op de grens van voldoende ligt, maar daarboven maakt raden hun slaagkans kleiner, daarbeneden juist groter, en geen van beide effecten zijn gewenst. In de in figuur twee afgebeelde situatie zou voor keuzevragen een bonusregeling die 1/3e punt oplevert voor iedere niet beantwoorde vraag, de slaagkans bij beheersing 70% weer op 88,5% brengen. Voor leerlingen die de stof onvoldoende beheersen is gebruik maken van de bonuspunten evenwel nadelig; omdat gebruik van bonuspunten niet afdwingbaar is, is een bonusregeling dus geen oplossing voor alle raadproblemen. Voor leerlingen die van zichzelf niet zeker weten of ze aan de onvoldoende of juist aan de voldoende kant van de zak-slaaggrens zitten, maakt het strategisch geen verschil te raden, danwel vragen open te laten. Experimenteer hier zelf met andere getallen. Let op: de aanname bij deze modelberekeningen is dat een vraag weten gelijk is aan de vraag ‘goed’ weten; ‘fout’ weten heeft ten onrechte nog geen plek gekregen in dit ideaalmodel. Maar omdat ‘fout’ weten het aantal ‘niet geweten’ vragen vermindert, vermindert dat ook het aantal vragen waarbij raden een rol speelt voor deze individuele kandidaat. Dat lijkt goed, maar dat is het helemaal niet: u, docent, kunt niet zien welke vragen fout zijn gemaakt, fout zijn geraden, en al evenmin welke vragen goed zijn gemaakt, welke goed zijn geraden. Doe iets aan dat probleem, door een redelijke bonus toe te kennen voor open gelaten keuzevragen, door een motivering te vragen van gegeven antwoorden, of andere maatregelen (en laat mij dan weten welke andere oplossingen er nog zijn, anders dan de door Van Naerssen (1969) al genoemde, en door hem en mij niet aanbevolen mogelijkheden).

Een volgende storende punt is natuurlijk dat goede leerlingen die vragen niet weten, vaak een of twee van de foute alternatieven kunnen uitsluiten. Dan zouden zij zich door het open laten van de vraag tekort doen. Dan maar dubben, en kiezen tussen de vaste bonus of de hogere verwachte score bij raden tussen twee van de vier alternatieven. Hier is het mogelijk toe te staan meerdere alternatieven aan te kruisen, en zo de deelkennis gehonoreerd te krijgen. Zo’n maatregel maakt het dan weer gecompliceerd, wat op zich ongewenst is. Toch zou de scoring een goede afbeelding moeten zijn van wat de student weet en niet weet, en dat pleit voor toepassen van deze wijze van scoren. Een eenvoudiger alternatief is een bonus van 1/2 bij driekeuzevragen, en 1/3 bij vierkeuzevragen. Hieronder een paar varianten van toetsinstructie, waar overigens echt complexe methoden zoals zekerheidsscoring niet bij zijn (gebruik nooit complexe methoden!).

Instructie (eenvoudig, maar unfair; aanvechtbaar)

Instructie (eenvoudig, fair genoeg)

Instructie (fair, tikje ingewikkeld, daardoor niet gewenst)

Interessant is in dit verband dat De Groot en Van Naerssen (1969 p. 17) aanbevelen om altijd voor open gelaten vragen een bonus toe te kennen. “... alleen indien ‘niet-invullen’ in het algemeen zéér zelden voorkomt is deze scoringswijze [niet-ingevuld = fout] verantwoord. Is dit niet het geval, dan moet men een ‘bonus’ van één vierde maal het aantal niet-ingevulde items aan de score toevoegen (...) [bij vierkeuzevragen, de enige die zij aanbevelen]. Ook deze scoringswijze moet dan natuurlijk vooraf aan de proefpersonen worden bekend gemaakt; ook dan blijft het trouwens voordeliger niets over te slaan.”


‘fouten’ maken


Een met raden vergelijkbaar probleem is dat van het maken van fouten. Traditioneel zien docenten fouten als fouten, daarom heten ze ook zo. Nader onderzoek laat nogal eens zien dat in het denken van de student de fouten geen vergissingen, slordigheden of verwardheden zijn, maar consistent met wat er is geleerd. De betekenis hiervan is moeilijk te overschatten: iedere toetsontwikkelaar die makkelijk roept dat onjuiste alternatieven voor keuzevragen zijn te ontwikkelen door te bedenken wat typische ‘fouten’ van studenten zijn, moet zich wel realiseren dat mogelijk veel van deze ‘fouten’ berusten op falend onderricht, omdat door een onhandige keuze van uitgewerkte voorbeelden in de leerstof de studenten niet in staat zijn geweest om zich het juiste begrip te vormen. Hier dreigt een omdraaiing van de beoordeling: waar het de bedoeling is het begrip van de student te toetsen, staat in feite de kwaliteit van het gegeven onderwijs ter beoordeling. Reken daar dan niet de student op af, maar het onderwijs, en verbeter dat onderwijs dan.

Waarachtig, ook leerkrachten maken fouten!


Er is in de literatuur zelden sprake van docenten die fouten maken, laat staan van onderzoek waarbij het juist gaat om fouten van leerkrachten. Recent observeerden Amerikaanse onderzoekers rekenlessen, met bijzondere aandacht voor rekenfouten. In de Amerikaanse situatie blijken fouten bepaald niet incidenteel zijn, sommige leerkrachten lijken niet anders te doen dan fouten te maken. Eigenlijk sensationeel, dit onderzoek. Het suggereert dat fouten en slordigheden van docenten schering en inslag zijn in het onderwijs. Koppel die suggestie aan het gestelde in de voorgaande alinea’s, en het vermoeden groeit dat het best zou kunnen dat leerlingen inderdaad uit onhandige instructie het ‘verkeerde’ leren. Wat bij uitleg en bij vragen en antwoorden in de klas fout kan gaan, kan dat natuurlijk ook bij toetsopgaven die leerkrachten zelf ontwerpen, of zelf moeten nakijken. Ik ben wel verrast door dit onderzoek, het wijst op het bestaan van een onvoldoende bekend probleem in het onderwijs. Achterblijvende resultaten van het reken- en taalonderwijs in de basisscholen van Nederland zouden ook met dit probleem te maken kunnen hebben.

Heather C. Hill, Merrie L. Blunk, Charalambos Y. Charalambous, Jennifer M. Lewis, Geoffrey C. Phelps, Laurie Sleep and Deborah Loewenberg Ball (2008). Mathematical knowledge for teaching and the mathematical quality of instruction: An exploratory study. Cognition and Instruction, 26, 430-511. pdf (voorbeelden van toetsvragen voor Mathematical Knowledge for Teaching zie Learning Mathematics for Teaching 2005 html)


objectiviteit

Keuzevragen zijn vaak aanbevolen omdat ze objectief zouden zijn: de sleutel bepaalt immers welke alternatieven goed en welke fout scoren. De computer doet het werk, beoordelaars komen er niet meer aan te pas. Maar dezelfde beoordelaars kunnen het oneens zijn over de scoringssleutel zelf, en ontwerpers kunnen bij eenzelfde vraag geheel verschillende sets van alternatieven ontwerpen, ook met telkens andere goede alternatieven. Wat is dan nog het verschil met open vragen, wat subjectiviteit betreft? De pseudo-objectiviteit van de scoringssleutel heet in de Amerikaanse literatuur heel toepasselijk frozen subjectivity. Het punt is natuurlijk om bij het ontwerpen van keuzevragen het risico van die frozen subjectivity te beheersen. In de vergelijking met korte open vragen zijn keuzevragen ongeveer even objectief. En inderdaad rekent de Amerikaanse literatuur zowel korte open vragen als keuzevragen tot de objectieve vragen. De tegenstelling is niet zozeer die tussen korte open vragen en keuzevragen, als wel die tussen objectieve schriftelijke vragen en open mondelinge vragen, zie paragraaf 2.3, en zo is het pleidooi van De Groot (in De Groot en Van Naerssen, 1973) voor het gebruik van keuzevragen ook maar beter te lezen.


In de geschiedenis van het toetsen (Wilbrink, 1997 html) is op vele plaatsen aan te wijzen dat verschillen van inzicht tussen beoordelaars, of tussen beoordelaar en beoordeelde, leiden tot verschuivingen in de methode van toetsen. Zo kan een docent zelf belang hebben bij de uitslag van de beoordeling. In de middeleeuwen was dat reden dat de docent zijn studenten wel kon en moest voordragen voor examens, maar niet zelf in de examencommissie voor zijn studenten mocht zitten. Bepaalde vormen van subjectiviteit bij het ontwerpen van toetsvragen zijn binnen redelijke grenzen te houden door intervisie te organiseren. Een ander eeuwig fenomeen is dat van achteraf protesterende studenten, met de reactie van docentenzijde om dan maar toetsen te maken waarop inhoudelijk minder makkelijk iets valt aan te merken. Zo gaat rond 1800 de ontwikkeling van de keihard vergelijkende examens in Cambridge in de richting van toetsen met heel veel kleine opgaven, waarover achteraf minder makkelijk discussie ontstaat. Dat betekent een trivialisering van het examen, en mag dienen als waarschuwing tegen te makkelijk de voorkeur geven aan toetsvormen waarin minder ruimte is voor divergerende oordelen van professionele beoordelaars.


2.3 Open vragen


Bij open vragen gaat het om een korte uiteenzetting, verklaring, bewijsvoering, een analyse, opsomming, schets, samenvatting, en dergelijke. In beginsel laten antwoorden op open vragen zich naar hun inhoud schematiseren (zie hoofdstuk drie) omdat er sprake is van meerdere relaties tussen begrippen of gebeurtenissen — anders zou het immers gaan om een korte open vraag. Een schemaconcept map — maken van bedoelde, gewenste of gegeven antwoorden bij een mogelijk ontwerp voor een open vraag is een handig hulpmiddel om een ontwerp als het ware te visualiseren. Natuurlijk kan de onderbouwing van een antwoord op een korte open vraag ook wel complex genoeg zijn om er een zinvol schema van te kunnen maken, zodat er in deze zin geen principieel verschil met korte open vragen hoeft te zijn, maar practisch gesproken is een korte open vraag in zo’n geval natuurlijk gewoon een open vraag, en kan maar beter ook zo worden gesteld.

Open vragen worden typisch in een of meer zinnen beantwoord, terwijl het bij korte open vragen om een woord, getal of een paar woorden gaat. De overgang tussen korte open vragen en open vragen is niet scherper dan dat af te bakenen. De open vraag laat de student vrijheid bij het formuleren, en de keuze van wat te vermelden. Die vrijheden scheppen ook meer ruimte voor subjectieve verschillen tussen beoordelaars. Ook het opstel en het werkstuk hebben deze vrijheid in de beantwoording en de kwetsbaarheid voor subjectieve beoordeling, zoals ook met het in hoofdstuk zeven te behandelen oplossen van problemen het geval is. In het volgende is ‘open vragen’ de generieke term voor al deze open vormen van vragen.

plaats een dranghek

Opgave 22. Welke positieve invloed heeft, blijkens alinea 22, de ‘hogere’ literatuur op onze beleving van de werkelijkheid? Gebruik voor je antwoord maximaal 15 woorden.

Herman Koch: “Als ik dan toch iets positiefs over het examen zeggen moet: die laatste clausule, van maximaal 15 woorden, vind ik wel goed. Het is goed om je best te doen je te beperken in het antwoord. Als mensen me vragen: waar gaat je volgende boek over, zeg ik ook het liefst bijvoorbeeld: Man gaat op zoek naar verborgen schat. En vindt die niet. of zoiets. Verder niets. Het is goed mensen beknoptheid te leren.”

Robin Gerrits (19 mei 2009). Eindexamens 2009. Herman Koch. Over het examen Nederlands. De Volkskrant, p. 2.

Het open karakter van open vragen stelt wel bijzondere eisen aan de ontwerper. Om te voorkomen dat antwoorden alle kanten op zwerven, moet er een duidelijke instructie zijn. Een beperkte ruimte waar het antwoord in moet passen — maar kleinschrijvers kunnen daarmee sjoemelen — , een maximaal aantal woorden voor het antwoord (zie de box), zijn mogelijke oplossingen. De algemene instructies bij de huidige eindexamens zijn minder fraai dan Herman Koch aangeeft. Zo zijn er tal van regels voor kandidaten die meer antwoorden geven dan gevraagd. De strekking daarvan is telkens dat geteld wordt vanaf het begin: zijn het van Herman Koch 19 woorden, dan zouden bij wijze van spreken de laatste vier niet meetellen. Geeft de kandidaat drie voorbeelden in plaats van de gevraagde twee, dan tellen alleen de eerste twee. Ik moet zeggen dat ik ook niet goed zie hoe dit anders zou kunnen, maar elegant is het niet, en laten beoordelaars in vredesnaam royaal van deze regels afwijken omdat de meeste kandidaten te goede trouw zijn. De docent met eigen toetsen moet natuurlijk niet zo bot met haar studenten omgaan zoals bij landelijke examens onvermijdelijk lijkt.

Op het niveau van de toets kan het probleem ontstaan dat het aantal open vragen zo klein is dat de leerling enorme pech kan hebben met de onderwerpen van die vragen. Een oplossing voor dat probleem is wel bekend waar het gaat om het schrijven van een opstel: de examenkandidaat kan kiezen uit meerdere opgegeven thema’s.

Overigens komen de ontwerpeisen voor korte open vragen hier ook weer terug: glashelder formuleren, etcetera. Uit de vraag en de instructie moet nu bovendien glashelder zijn wat een adequaat antwoord op de open vraag is, althans wat de vorm van het antwoord betreft. Triviaal, maar in de praktijk zorgt het wel voor problemen: zorg ervoor dat een vraag waar ‘ja’ een correct antwoord op is, ook om een motivering van dat antwoord vraagt.


Open vragen zijn geschikt om (mede) te toetsen op helderheid van formuleren, compositie of structuur in de beantwoording, nauwkeurigheid, oorspronkelijkheid, diepgang van analyse, en dergelijke. Maar het is niet vanzelfsprekend dat antwoorden op de genoemde kenmerken worden beoordeeld: maak daarover tevoren afspraken met studenten, terwijl ook de beoordelaars enige instructie nodig hebben. Het blijkt telkens weer dat docenten van elkaar verschillen in de speciale punten die zij van belang vinden (Wilbrink, 2004 html), en dus in de zaken waarop zij bij het beoordelen vooral letten, daarom moet daar tevoren duidelijkheid over zijn. Voor tijdrovend nakijken zijn soms adequate oplossingen voorhanden, zoals in eerste aanleg alleen globaal beoordelen en in werkgroepen eventueel details invullen. Open vragen altijd door meerdere beoordelaars laten nakijken is niet een vanzelfsprekend ‘eerlijke’ oplossing: linksom of rechtsom komen die kosten ten laste van de leerlingen of studenten. Extra inspanningen voor ‘eerlijk’ nakijken legt immers beslag op schaarse middelen, het is tijd die gestolen is van de voor onderwijs geven beschikbare tijd, en dat is ‘oneerlijk’ tegenover diezelfde studenten. Het is een lastige afweging, maar handiger is om toetsen zo te ontwerpen dat ze op zich een belangrijk leermoment kunnen zijn.


zijn open vragen uitwisselbaar met korte open vragen of keuzevragen?


Of open vragen en objectieve vragen ‘hetzelfde meten,’ is niet zo’n geweldig zinvolle kwestie, en resultaten van onderzoek zijn navenant. Aan het eind van de dag is alleen van belang of de vraagvorm voor de eindtoets past bij het onderwijs zoals gegeven: is zij daarmee goed geïntegreerd? Zijn er dan nog logistieke problemen, of is er een te groot tijdsbeslag voor docenten, los die dan bij voorkeur op een andere manier op dan door overschakelen van open vragen op keuzevragen. Het is eenvoudig: de stof, de didactiek en de doelen dicteren wat de daar naadloos op aansluitende — formatieve danwel summatieve — vraagvormen zijn. In plaats daarvan andere vormen kiezen is spelen met vuur. Psychometrici kiezen graag andere vormen omdat die ‘handiger’ etcetera zijn, maar zijn zich niet altijd bewust van de risico’s van negatieve backwash effecten.


open vragen eerlijk nakijken


Het nakijken van schriftelijk werk is in de editie 1983 behandeld als iets dat vooral eerlijk en zorgvuldig moet gebeuren, met antwoordmodellen, meer dan een enkele beoordelaar, etcetera. In de praktijk blijkt het echter zo te zijn dat deze maatregelen eigenlijk alleen eindtoetsen betreffen: het onderwijs is achter de rug, studenten zijn al lang met andere dingen bezig, terwijl docenten dan nog druk zijn met nakijken. Dat lijkt een wel heel ondoeltreffende aanwending van schaarse middelen. Het is dus zaak afwegingen te maken: hoeveel tijd besteden aan onderwijs, hoeveel aan nakijken? Een bekend advies is hier toch dat van A. D. de Groot, begin zeventiger jaren, om practica en onderwijs dat daarmee vergelijkbaar is, niet ook nog te belasten met afsluitende toetsen. De drastische ingreep is dan de eindtoets te vervangen door intensieve begeleiding van studenten in werkgroepen etcetera, waar continue terugkoppeling immers tevens continue beoordeling is. In andere gevallen kan het nakijken van schriftelijke eindtoetsen veel zuiniger, en kan een mogelijk tekort in eerlijkheid voor studenten aanvaardbaar zijn wanneer het onderwijs dat zij krijgen er kwalitatief op vooruit gaat.

bureaucratisering van de beoordeling


Het is niet ongebruikelijk dat bestuurlijke gremia dwingend voorschrijven dat er tevoren modelantwoorden voor het nakijken moeten worden opgesteld. Dat is schadelijke bureaucratie, tenzij het gaat om landelijke toetsen waar de vele beoordelaars van een gemeenschappelijk beoordelingskader uit moeten gaan. Natuurlijk is het goed tevoren uit te werken welke varianten in antwoorden mogelijk zijn, dat kan de professionele docent prima zelf doen, bij voorkeur met enige intervisie van collega’s. Het dwingende voorschrift lokt evenwel de verwachting uit dat met zo’n modelantwoord alle eerlijkheid is gegarandeerd, wat een aanfluiting is. Helaas lokt het ook het honoreren van deelkennis uit, anders zullen studenten dat wel op basis van het modelantwoord gaan eisen.

Het gaat om de positionering van de beoordeling: als instructief middel, of als eindafrekening. Als instructief middel is enige subjectiviteit in de beoordeling geen probleem omdat die beoordeling onderdeel is van een voortgaand leerproces. Als eindafrekening is het een ander verhaal, dan gaat iedereen op zijn strepen staan en is een eerlijk oordeel een issue.

Tabel 1. Beoordeling van tandheelkundige werkstukken door drie instructeurs

werkstuk:        1  2  3  4  5  6  7  8  9 10 
----------------------------------------------------- 
instructeur a    8 11 14  7 10 11  7 14  9 10 
instructeur b    8 14  9  9 11 14 12  9  9 12 
instructeur c    6  9  6 13 10 14 13  8 11  9 
----------------------------------------------------- 
hoogste oordeel  8 14 14 13 11 14 13 14 11 12 
laagste oordeel  6  9  6  7 10 11  7  8  9  9 

Dick Tromp (1979). Het oordeel van studenten in een individueel-studie-systeem. Onderwijs Research Dagen, 1979. De gegevens van Tromp zijn uitgebreider dan de tabel kan laten zien.

Tabel 1 laat de forse verschillen tussen beoordelaars zien, zelfs waar zij gebonden zijn aan een lijst van 15 criteria en hun oordeel dus gestructureerd is. Het gaat hier om een practicum waar studenten aan werkstukken werken, de instructeurs beoordelen de voortgang.


Een punt van aandacht bij open vragen is dat er minder van in een toets gaan dan korte open vragen of keuzevragen, waardoor de steekproef uit de kennis en vaardigheden van de student in feite te klein kan zijn voor een verantwoord oordeel. Dit is natuurlijk ook een belangrijke verklaring van de grote verschillen die onderzoek van de beoordeling van opstellen laten zien: vaak gaat het om een enkel opstel van iedere leerling, waar beoordelings-technisch er beter een reeks van kunnen worden gevraagd. Een oplossing voor dit probleem is wel gezocht in een gedetailleerde beoordeling van ieder gegeven antwoord: tellen hoeveel elementen uit een criterialijst in het antwoord voorkomen, etcetera. Dat maakt kunstmatig van iedere open vraag in feite een serie deelvragen. Dat is geen bevredigende oplossing. Als zo’n opsplitsing inderdaad zinvol is te maken, stel dan de vragen ook op dat detailniveau. Dan treedt meteen een belangrijke ontwerpeis in werking: vermijd vragen waarvan antwoorden afhangen van antwoorden op voorgaande vragen. Kijk, dat toont wat het bezwaar is tegen open vragen die slordig zijn ontworpen. Het is meestal niet de bedoeling om open vragen uiteen te laten vallen in deelvragen, want het gaat er toch om te toetsen of studenten een wat groter of lastiger probleem adequaat weten aan te pakken. Dan gaat het niet aan om bij een falend antwoord toch te gaan kijken of het antwoord blijk geeft van deelkennis, en die deelkennis dan te honoreren. Studenten kunnen dit misbruiken door het alleen te hebben over wat ze weten en zo verbloemen dat ze het eigenlijke antwoord niet weten; dat is door een strak beoordelingsplan wel tegen te gaan. Maar wat erger is, de toets degenereert tot een toets op deelkennis in plaats van op de vaardigheden de gestelde opgaven in hun geheel adequaat aan te pakken. Studenten kunnen dan immers voldoende resultaten halen op deelkennis, zonder ooit een enkele opgave in zijn geheel afgerond te hebben. Dit is een lastig onderwerp, ik heb het in 1998 voor het eerst uitgewerkt.

Deelkennis belonen degradeertinzichtvragen tot vragen naarfeitenkennis


Krediet geven voor goede deelantwoorden op een inzichtvraag ondergraaft het eigen karakter van inzichtvragen ten opzichte van kennisvragen. De toetsing degradeert dan tot kennistoetsing, en de bijzondere prikkel om door te studeren tot een hoog niveau van kennisbeheersing vervalt daarmee. Het spoort studenten aan tot oppervlakkige verwerking van de stof, dus hettegendeel van de bedoeling van diepere verwerking.

Ben Wilbrink (1998). Inzicht doorzichtig toetsen. In Theo H. Joostens en Gerard W. H. Heijnen (Red.). Beoordelen, toetsen en studeergedrag. Groningen: Rijksuniversiteit, GION - Afdeling COWOG Centrum voor Onderzoek en Ontwikkeling van Hoger Onderwijs, 13-29. html, paragraaf Sturende werking


2.4 Doorzichtigheid


Doorzichtigheid is een spijkerharde eis aan toetsen: kandidaten moeten zich toetsen en examens doeltreffend en doelmatig kunnen voorbereiden (De Groot, 1970 html). Het is een spijkerharde eis, omdat ondoorzichtige toetsen het wezen aantasten van het onderwijs als vrijplaats om te leren. Doorzichtigheid is niet zo vanzelfsprekend als het lijkt, omdat velen het onderwijs (ook) zien als institutie voor selectie naar verschillende maatschappelijke posities. Het gaat er in die laatste visie bij toetsen dan vooral om wie de beste capaciteiten heeft, niet wie zich het best heeft voorbereid. Doorzichtigheid is bovendien een bijzonder lastig thema, omdat er ook oneigenlijke manieren zijn om bepaalde vormen van doorzichtigheid te bereiken. Meest in het oog springend is de behoefte van docenten om hun beoordelingen op eenvoudige wijze te kunnen rechtvaardigen, en dat kan het makkelijkst door opknippen van de stof in kleine partjes waarover inhoudelijk ondubbelzinnige vragen zijn te stellen, formaliseren van de toetsing zoals bij keuzetoetsen, verschuilen achter regels die aantal getelde fouten omzetten naar cijfers, etcetera. Het is onaardig om het zo te zeggen, maar deze behoefte van docenten en instellingen naar objectivering van de beoordeling — makkelijk te verwarren met doorzichtigheid — leidt tot infantilisering van het onderwijs. Misschien is het contrast als volgt onder woorden te brengen. Uit doorzichtigheid volgt dat de vraagstelling ondubbelzinnig is, niet noodzakelijk ook het gevraagde. De beoordelaar die geen toestanden wil, zal vragen stellen die een ondubbelzinnig correct antwoord hebben; dat doorzichtig noemen beledigt De Groot. Laat er over gegeven antwoorden vooral discussie mogelijk zijn, daar is het onderwijs juist voor. Maar ik geef toe, dit is een ideaal dat een stap verder gaat dan De Groot (1970 html). In dit hoofdstuk komt dit ideaal terug in de vorm van studenten te vragen hun antwoorden te rechtvaardigen, ook hun antwoorden op keuzevragen.

Iedereen wil dat leerlingen zich goed voorbereiden op toetsen, maar dan moet dat de leerlingen ook wel mogelijk worden gemaakt, ze ertoe verleiden mag ook. Ziedaar de kwestie zoals door Adriaan de Groot in 1970 html aan de orde gesteld met zijn eis dat het toetsen doorzichtig moet zijn voor leerlingen en studenten. Het opmerkelijke hiervan is dat deze benadering diametraal tegenovergesteld is aan die bij psychologische tests, waar de hoogste eis van kwaliteit is dat niemand zich daar gericht op kan voorbereiden. Op dit werkelijk gigantische verschil tussen toetsen en testen past ook een heel andere methodologische benadering van toetsen dan de bij tests gebruikelijke psychometrie. Het feit dat de statistische methoden voor tests niet zomaar voor toetsen mogen worden gebruikt, is ook de voornaamste reden dat in dit boek aan statistische methoden vrijwel geen aandacht is gegeven.


Toetsvragen moeten niet alleen voorbereidbaar zijn, maar ook, voor de student die de toets aflegt, begrijpelijk in hun relatie tot de onderwijsdoelen en de leerstof. Er zitten twee kanten aan deze doorzichtigheid: het is ten eerste duidelijk wat de vraag toetst, en ten tweede hoe de student zich daarop kan voorbereiden.

het is duidelijk wat de vraag toetst


Het moet de goed voorbereide student duidelijk zijn waar de vraag over gaat en welke beheersing hij vraagt. Het moet duidelijk zijn wat weten van het antwoord heeft te maken met de leerstof. Ideaal is dat de vragen zo doorzichtig zijn dat ook studenten die het antwoord schuldig blijven, weten welk inzicht zij hier missen. Onhandig ontworpen keuzevragen zijn hier spelbrekers. Wanneer studenten na afloop van een keuzetoets werkelijk geen idee van hun score hebben, is er evident sprake van ondoorzichtigheid. Een oorzaak van dit specifieke probleem is vaak de misvatting bij de ontwerpers van de toets dat de vragen vooral moeilijk moeten zijn. Het onnodig moeilijk maken van vragen is een directe aanslag op doorzichtigheid. De misvatting, in stand gehouden door vele handleidingen, is dat de toetsvragen moeilijk zouden moeten zijn voor de reguliere deelnemers aan de toets. De correcte regel voor het ontwerpen van toetsvragen is dat deze moeilijk moeten zijn voor wie de betreffende cursus niet heeft gevolgd of in de toekomst pas zal volgen, dat is iets heel anders. Op dezelfde manier geldt een en ander uiteraard ook voor andere vraagvormen.

hierop kan de student zich gericht voorbereiden


Wanneer het niet duidelijk is wat een vraag toetst, is het de student niet mogelijk zich gericht op zo’n vraag voor te bereiden. Andersom kunnen vragen doorzichtig zijn in de eerste betekenis van die term, en desondanks vrijwel onvoorbereidbaar zijn. Voor iedere toetsvraag moet gelden dat studenten weten dat zo’n soort vraag mogen verwachten, en dat zij zich daar doeltreffend op kunnen voorbereiden. Deze tweede betekenis kan ook omgekeerd uitgelegd worden: wanneer een slimme student die weinig van de stof af weet in het voordeel is boven de minder briljante student die de stof tot in de puntjes beheerst, dan is de vraag zeer ondoorzichtig en is vooral het verschil in intelligentie bepalend.

De student moet een rechtstreeks verband zien tussen de manier waarop hij de stof bestudeert, en wat de toets erover vraagt. Dan kan zij zich gericht zo voorbereiden dat er bij de eerste gelegenheid een behoorlijke slaagkans is. Ontbreekt dat rechtstreekse verband, dan is er geen natuurlijk eind aan een goede voorbereiding op de toets. Dat dwingt de student tot behelpen, zoals minimaal voorbereiden, met de gedachte: slaag ik de eerste keer niet, dan wel in de herkansing. vrijgeven van vragen


Het is goed dat de student kan oefenen op vragen zoals in de toets gebruikt. Zo krijgt de student beter zicht op het niveau van de eigen beheersing. Ook dat is een aspect van de doorzichtigheid van de toets: weten wanneer je de stof voldoende beheerst om met een gerust hart de toets af te kunnen leggen.

student neemt tentamenvragen mee ...


Bij een psychologietentamen in het najaar van 1978 nam een student de tentamenvragen mee, tegen het daartoe ingestelde verbod in. Het College van Bestuur van de Universiteit van Amsterdam, de bezwaren tegen geheimhouding afwegend tegen de bezwaren van vrijgeven, de principiële tegen praktische bezwaren, stelde vast dat studenten de vragen na afloop van het tentamen mee mogen nemen.

student moet inzage in de vragen kunnen hebben ...


“Met deze openbaarheid (van examens, Academisch Statuut art. 190 derde lid), die voor schriftelijke examens beperkt kan zijn tot openbaarheid van de stukken (achteraf), wordt bereikt dat vragen, antwoorden en beoordeling voor de belanghebbende controleerbaar zijn. Dit is niet alleen van betekenis voor de student die wil nagaan of hij juist is beoordeeld, bijvoorbeeld met het oog op een in te stellen [beroepsprocedure] (...). Het is naar de mening van de Commissie ook van onderwijskundig belang dat studenten kennis kunnen nemen van dit materiaal om een inzicht te krijgen in de omvang en zwaarte van de eisen die bij het examen worden gesteld, ten einde zich daarop zo goed mogelijk voor te bereiden.”

De Commissie voor de Bestuurshervorming (commissie-Slagter) (9 december 1980, advies aan de C-3 examencommissie van de subfaculteit geneeskunde van de Universiteit van Amsterdam.


geheim houden


Geheimzinnig doen over eerder gebruikte vragen is ernstig te ontraden. Voor belangrijke toetsen zullen studenten hoe dan ook proberen die oude vragen te bemachtigen. Bijvoorbeeld door na afloop van ieder tentamen de vragen te reconstrueren, en openbaar te maken — prima — of ze in misplaatst ondernemerschap binnen een klein circuit te houden of te verkopen — niet zo prima.

Als gebruikte toetsvragen in het vrije circuit komen, dan kan het niet anders of voor iedere nieuwe toets zijn telkens ook veel nieuwe vragen nodig. Dit boek is juist geschreven om het ontwerpen van telkens weer nieuwe toetsvragen te vergemakkelijken en systematiseren om zo ook een blijvend goede kwaliteit te mogelijk te maken. Zonder goede ontwerpregels is het vrijwel onmogelijk te voorkomen dat toetsvragen steeds vaker over triviale details in de stof gaan, of — en dat is de andere hoorn van het dilemma — dat er in feite maar een kleine verzameling van toetsvragen is waardoor de studie van deze toetsvragen in de plaats komt van de studie van de leerstof zelf.

makkelijke vragen


Eerder is er al op gewezen dat toetsvragen moeilijk moeten zijn voor naïeve deelnemers, niet voor studenten die goed zijn voorbereid. Vragen kunnen dus best makkelijk, tot heel makkelijk zijn, zolang het tegelijk ook zo is dat ze voor buitenstaanders moeilijk zijn.

Hoe kan het zijn dat vragen juist makkelijk zijn? Juist onderwerpen die tot de kern van de stof behoren, zijn uitvoerig behandeld en studenten zullen deze goed beheersen. Vragen kunnen makkelijker zijn naarmate ze meer de kern van de stof betreffen. Het omgekeerde verband is beter bekend: naarmate vragen meer over bijzaken, details en voetnoten gaan, worden ze lastiger te beantwoorden voor de goed voorbereide student, die kan zich hier niet goed van buitenstaanders onderscheiden!

Weglaten van makkelijke vragen over de kern van de stof zal er bovendien toe leiden dat studenten de aandacht alleen nog op bijzaken richten, waardoor uiteindelijk een goede beheersing van de kern van de stof niet meer vanzelfsprekend is. De ontwerper van toetsvragen schiet zich hier in eigen voet, de kwaliteit van het onderwijs is in het geding, en toetsen zijn niet representatief voor het onderwijs-zoals-bedoeld.


bonusvragen
Niet alle vragen over de kern van de stof zijn gemakkelijk, ook niet waar er in het onderwijs veel aandacht aan is besteed. Sommige onderwerpen zijn nu eenmaal moeilijk. Goede voorbereiding en uitgebreide oefening kunnen niet altijd garanderen dat dan ook alle vragen goed gemaakt worden. Er is geen enkel bezwaar tegen het gebruik van zulke moeilijke vragen.

Anders ligt dat met vragen die hun moeilijkheid daaraan danken dat ze buiten de behandelde stof gaan, en die veeleer een beroep doen op intelligentie dan op verworven kennis en inzicht. Zulke vragen worden wel bedacht en gebruikt onder het motto dat ook de geniale student aan zijn trekken moet komen, dat bonusvragen de gelegenheid geven om extra punten of een ‘tien’ te verdienen, enz. Dat zijn persoonlijke, maar zeker geen professionele opvattingen. Daarmee wordt de overige studenten geen recht gedaan. Vragen die buiten de opgegeven stof gaan, horen in een toets niet thuis, daar kan geen discussie over zijn. Die vragen zijn ook niet voor te bereiden, hoe goed de stof ook is bestudeerd. Als voor het kunnen beantwoorden van bonusvragen het veeleer van belang is dat je slimmer dan anderen geboren bent, dan zijn ze — en dat is anders dan in bijvoorbeeld selectie-situaties — ronduit discriminerend en moet er worden ingegrepen.


2.5 Rompvragen: meervoudig bruikbare vraagstellingen


Voor de eerste keer een handvol vragen bedenken over een hoofdstuk valt niemand echt moeilijk. Het is al lastiger wanneer het er tenminste vijftig moeten zijn, en zeker wanneer het de tiende keer is dat er vijftig nieuwe vragen moeten komen. Als het een kunst is met deze taak op een goede manier in het reine te komen, dan is dat niet door iedere vraag kunstig te bedenken, maar juist om dat te voorkomen. Door de bomen het bos blijven zien. Het baanbrekende inzicht moet hier toch zijn dat er bepaalde grondvormen voor vragen over leerstof zijn, grondvormen waarop vervolgens vrijwel onbeperkt kan worden gevarieerd door er andere invulling voor te kiezen. Het eenvoudige voorbeeld waar zoiets voor iedereen zichtbaar is gerealiseerd, is het rekenonderwijs. Voor andere leerstof ligt dezelfde aanpak iets minder voor de hand, maar is ook daar altijd te realiseren. Tenzij er niets is dat de moeite van het leren waard is, maar daar hebben we in het onderwijs geen last van, toch? De structuur van de leerstof wordt uitgebuit, daar gaat hoofdstuk drie en alles wat volgt nog over. Deze paragraaf geeft een vooruitblik op de uiterlijke vorm die dit alles aanneemt.


Iedereen is vertrouwd met vraagstellingen die qua vorm aan elkaar identiek zijn, maar waarbij de inhoud gevarieerd is.

23 + 56 = ?
23 + 20 = ?
23 + 11 = ?

De vorm van deze vraagstelling is te schrijven als ‘23 + ... = ?,’ op de opengelaten plaats wordt een getal tussen 10 en 100 gekozen om de opgave te completeren. Deze open vorm samen met de specificatie van wat op de opengelaten plaats(en) ingevuld kan worden, noemen we een vraagvorm — item form — of rompvraag. Om verwarring met de gewone betekenis van ‘vraagvorm’ uit de weg te gaan gebruik ik meestal ‘rompvraag.’

... + ... = ?

specificatie: getallen van 10 tot 90, maar zodanig dat de som niet groter is dan 100.

Rompvragen zijn een krachtig hulpmiddel bij het aanmaken van grotere hoeveelheden toetsvragen. De specificatie van wat in de rompvraag kan worden ingevuld is een lijst van dingen, getallen, etcetera, of het is een omschrijving, zoals in het gegeven voorbeeld, per definitie (zie ook 3.5), per constructievoorschrift, etcetera. Een nieuwe vraag is te ontwerpen door de rompvraag in te vullen met een getal, voorbeeld enz. uit de specificatie. De rompvraag is natuurlijk op tal van gelijkwaardige manieren uit te schrijven, in tekst of in symbolen, naar layout, etcetera.

23
...
___+
?

23 + ? = ...

Dergelijke varianten kunnen de vraag inhoudelijk vrijwel onveranderd laten (de eerste gegeven variant), of ook de inhoud zelf veranderen (de tweede variant). Wat mogelijk is met de vorm van sommen, kan natuurlijk ook met de redactie van verbale opgaven.

Rompvragen zijn vanzelfsprekend als het gaat om rekenen, maar hoe is dat voor andere leerstof? Wel, op analoge wijze. In de rekenopgave is een abstracter vorm te onderkennen, zie het eerste voorbeeld, en daarvan is nog weer een abstractie mogelijk, zie het tweede en derde voorbeeld, met in het vierde en vijfde voorbeeld enkele van de oneindig vele mogelijkheden voor concrete invulling.

rompvragen

Het bij elkaar voegen van een getal en een getal resulteert in welk getal?

De bewerking op een begrip en een begrip resulteert in begrip?

De relatie tussen een begrip en een begrip heet begrip?

concrete vragen

Hoe heet de bewerking om van een stuk glas met welk materiaal een lens te maken?

Schat de afstand tussen de Aarde en de Maan in kilometers.

Bovenstaande voorbeelden maken duidelijk dat voor het gericht ontwerpen van vragen over de (mate van beheersing van de) leerstof, deze in kaart gebracht moet zijn naar de onderwerpen en hun onderlinge relaties, inclusief eventuele naïeve opvattingen die bij de aanvang van de cursus nog aanwezig konden zijn. In alle literatuur over toetsen komt die eis in een of andere vorm voor. Kaarten maken kan dan weer op heel wat verschillende manieren, en ook daarvan geeft de literatuur blijk. De mogelijkheden gaan van een uitvoerige inhoudsopgave als kaart van de leerstof, tot gedetailleerde doelstellingen gekruist met de verschillende manieren waarop leerlingen die doelen kunnen beheersen. Dit boek probeert boven het niveau van de inhoudsopgave uit te stijgen, zonder in het formuleren van doelstellingen te verzanden. Een flexibele techniek voor het schematiseren van (beheersing van) leerstof combineert het — in hoofdstuk drie — met een eenvoudige filosofische techniek voor het beschrijven van (het hebben van) kennis in een bepaald domein of vakgebied.

Dan zijn rompvragen te maken door een verzameling van voorbeelden aan te leggen of anderszins te omschrijven.

Is Three Mile Island, Harrisburg, een kernreactor waar een ernstig ongeluk mee is gebeurd?       ja / nee


Specificatielijst (alleen USA, tot 1983)

Merk op dat een specificatie van voorbeelden soms uitgebreid moet worden met een lijst van niet-voorbeelden (zie ook hoofdstuk vier). De vraag in het voorbeeld hierboven zou een ‘onbenullige toetsvraag’ kunnen zijn, bedoeld om te toetsen of de student een artikel of boek over ongelukken met kernreactoren tenminste gelezen heeft (zie over deze wijze van toetsen verder 6.1).

Bijgaande foto [hier niet afgedrukt] is van een

  1. hazepootje.
  2. muizeoor
  3. vogelpootje.
  4. cypreswolfsklauw.

De specificatie bij een rompvraag kan vaak op heel verschillende manieren ingevuld (of aangelegd) worden. Het plantje ‘muizeoor’ uit bovenstaand voorbeeld kan op verschillende manieren getekend zijn, gefotografeerd zijn, foto’s die al dan niet een belangrijk stuk van de omgeving laten zien waarin het muizeoor groeit. De verzameling kan zelfs gedroogde exemplaren bevatten, of ongerepte exemplaren op locatie (dan maakt de vraag onderdeel uit van het veldwerk). Het opstellen van een specificatie hoeft voor een deskundige op het desbetreffende vakgebied niet lastig te zijn. Wanneer de verzameling uit voorbeelden bestaat, is te bedenken dat voorbeelden op hun beurt ook weer in soorten komen. Doe een passende keuze uit de volgende mogelijkheden.

Wat voor voorbeelden geldt, gaat ook op voor toepassingen van wetten, wetmatigheden, technieken en dergelijken. De hoofdstukken vier en vijf gaan op voorbeelden en toepassingen verder in.

Het ontwerpen van rompvragen is niet altijd even eenvoudig — daar gaat eigenlijk de rest van dit boek over — zodat het economisch gebruik maken van al bedachte en in de praktijk beproefde vraagvormen en voor verwante onderwerpen altijd de moeite waard is. Sommige rompvragen zijn wel heel algemeen:

Benoem ________ [foto, voorwerp e.d.]

Evalueer ________ [wiskundige uitdrukking]

Maak ________ [en dan volgt een specificatie]

De suggestie bij dit alles is dat een vraagvorm het mogelijk maakt om onder verwisseling van voorbeelden dezelfde vraagstelling herhaalde malen te gebruiken in opeenvolgende toetsen. Hoe verschillend moeten twee vraagstellingen zijn om van de tweede vraag te kunnen zeggen dat het ‘nieuwe’ vraag is, vergeleken met de eerste?

Kan het zo eenvoudig?

“Met behulp van een specifiek werkwoord in de vraag kan een bepaald cognitief niveau worden getoetst (...).” Een uitvoerige tabel gaat erbij, met rijtjes zoals ‘deduceren, illustreren, onderscheiden, ontrafelen, relateren, schetsen, toelichten’ die van vragen ‘analytische’ vragen zouden maken.

Van Berkel en Bax (2006, p. 99, p. 100)

Het opnemen van woorden als ‘relateer’ of ‘ontrafel’ in de stam van een vraag maakt er op zich geen inzichtvraag van. Alle beetjes helpen, zeker, maar dit is geen recept voor succes. De reden is makkelijk na te voelen: geoefend inzicht ligt dicht bij reproductie. Dat is ook anders te formuleren: een interessant deel van ‘inzicht’ is gewoon hard werk, zoals expertise het resultaat is van duizenden uren investering. Zou dat niet zo zijn, dan zou het toetsen op het ‘cognitieve niveau’ van ‘inzicht’ vooral neerkomen op het toetsen van intelligentie. Dat is niet het doel van onderwijs, het zou geestelijke mishandeling zijn — wat overigens in de geschiedenis van het onderwijs geen onbekend fenomeen is.

Welnu, een ‘nieuw’ probleem of een ‘nieuwe’ vraag zal doorgaans moeten passen in een bekend slag, type of soort probleem of vraag. Het nieuwe kan bestaan uit een andere formulering of een andere vorm, maar dat is doorgaans van tamelijk ondergeschikt belang. Wat een vraag ‘nieuw’ maakt, is veeleer een voorbeeld dat de studenten nog niet bekend is, een nieuwe situatie of gebeurtenis. Met andere woorden: rompvragen leveren verzamelingen vragen op, waarbij de vragen ten opzichte van elkaar ‘nieuw’ zijn doordat nieuwe voorbeelden uit de specificatie erin gebruikt worden. Tenzij de specificatie voorbeelden bevat die als twee druppels water op elkaar lijken, levert ieder voorbeeld een nieuwe vraag op. De nieuwigheid kan nadruk krijgen door een variant op een bekende rompvraag te ontwerpen. De keerzijde van vaste rompvragen met wisselende inhouden is dat er een risico is dat leerlingen de rompvraag zèlf gaan leren: dan leren ze een misvatting over deze leerstof.

de leeftijd van de kapitein

Een schip vervoert 26 schapen en 10 geiten. Hoe oud is de kapitein?

Op de vraag over de leeftijd van de kapitein antwoorden bijvoorbeeld twaalfjarigen vaak ‘36’, en houden daaraan vervolgens ook in discussie vast. Zij hebben geleerd dat redactiesommen altijd een getal als antwoord hebben, dat het antwoord meestal een eenvoudige optelling etcetera is van de getallen in de opgave, dat het woordje ‘samen’ betekent dat je die getallen moet optellen, ‘over’ dat je moet aftrekken, enzovoort. Het antwoord ‘36’ is consistent met wat is geleerd, het is falend onderwijs, en natuurlijk is het een idioot antwoord, maar wie valt dat aan te rekenen? Traditionele redactiesommen blijken in feite extreem doorgevoerde vaste rompvragen te zijn, waardoor de kwaliteit van het rekenonderwijs ernstige schade lijdt. Verbazingwekkend?

gif/bartjens69a.jpg

Een el kost 10 schellingen. Hoeveel kost 12½ el? Antw. 6 pond Vlaams 5 schelling [er gaan 20 schellingen in een pond, Bartjens p. 77]

Vlas kost 6 stuivers per pond. Hoeveel kost 80½ pond? Antw. 24 gulden 3 stuivers.

Willem Bartjens (1604/1779). De vernieuwde cyfferinge van Mr. Willem Bartjens, waar uyt men meest alle de grond-regulen van de reeken-konst leeren kan. By Joannes Kannewet. p. 69. Voor de hele bladzijde, klik hier. Het boek is gescand beschikbaarop books.google.nl.

Een schokkend detail: deze opgaven zijn vrijwel identiek aan de opgaven in de eerste editie van 1604, zie de facsimile op p. 172 in: Danny Beckers en Marjolein Kool (2004). Willem Bartjens (1604/2004). De Cijfferinghe (1604). Het rekenboek van de beroemde schoolmeester. Hilversum: Verloren.

Kijk eens naar een bladzijde redactiesommen in ‘Bartjens’ (zie de box), een rekenboekje gericht op wat kooplieden nodig hebben: natuurlijk hebben al die redactiesommen over hoeveelheden en prijzen eenduidige antwoorden, en zijn het eenvoudige bewerkingen van de gegeven getallen. Sterker nog: bijna alle opgaven in Bartjens, en dat geldt ook voor de oudere rekenboekjes uit de 15e en 16e eeuw, zijn van dit type redactiesom. In de twintigste eeuw is er niet meer zo’n directe koppeling tussen leren rekenen en rekenen in het beroep, maar het fantastische is dat de redactiesommen nog steeds gevierd zijn. Wees erop voorbereid dat ook andere vakken onder dergelijk vraagvorm-extremisme lijden, dit boek zal er nog tal van voorbeelden van geven. De validiteit van toetsvragen ontworpen op basis van een kritiekloos gevolgde traditie is onbepaald — wat de gek ervoor geeft — zie paragraaf 2.6. Laat ‘Bartjens’ een waarschuwing zijn: die el stof in de opgave in de box kost 10 schelling in 1604, en nog steeds in 1779!


2.6 Validiteit: een goed antwoord bewijst kennis


Validiteit van toetsvragen is ongeveer zoiets als de feitelijke overeenkomst met de bedoelingen achter het stellen van die vragen. De claim van validiteit is dus een empirische claim. Omdat bijvoorbeeld een examen niet volledig de doelen dekt van het onderwijs dat het afsluit, blijft er een spanning bestaan tussen een nauwe opvatting van validiteit en bredere doelen van onderwijs. Deze paragraaf wil die spanning nadrukkelijk ook zichtbaar maken.


Mogelijk is het lastige begrip validiteit te koppelen aan een relatief glashelder begrip uit de wetenschapsfilosofie. De gedachte is dat een valide vraag een gegeven oplevert die in samenhang met de theorie een verklaring toestaat. Langs die weg kunnen valide toetsvragen aannemelijk maken dat de kennis aanwezig is. De ontwerper staat voor de uitdaging om eerst een adequate theorie op te stellen, en dan afzonderlijke vragen te ontwerpen die gegevens opleveren die zinvolle verklaringen binnen die theorie of met hulp van die theorie mogelijk maken. Denk bij ‘een adequate theorie’ bijvoorbeeld aan een model van de vorderingen van een afzonderlijke leerling, of van een hele klas, of een jaargroep studenten. Al naar gelang de doelen, prioriteiten, en middelen kan zo'n meer of minder uitgewerkte theorie raken aan de diverse onderwerpen die deze paragraaf 2.6 kort uitwerkt. In beginsel is iedere toetsvraag zelf ook een vraag naar een verklaring, zodat er bij de validiteitskwestie sprake is van een gelaagdheid van verklaringen. Dat klinkt ingewikkeld, maar beide vormen van verklaring zullen doorgaans een zekere verwantschap met elkaar hebben. Bovendien gaat het om een type verschijnsel dat leerkrachten bekend voor zal komen: om goed rekenonderwijs te kunnen geven is zowel voldoende wiskundige kennis nodig, als didactisch inzicht in het begeleiden van wiskundige kennisverwerving van leerlingen. Ook hier dus zo'n dubbelslag.

de uitvinding van temperatuur


De wetenschap heeft twee eeuwen gedaan over de uitvinding van temperatuur, met steeds meer geavanceerde waarnemingen, zonder nog maar een begin van een theorie in handen te hebben. Twee eeuwen van waarnemingen met een onbekende validiteit?

Zie: Hasok Chang (2004). Inventing temperature. Measurement and scientific progress. Oxford University Press.

‘vrije val’ op Galileo’s hellingbaan


Galileo Galileï deed een fantastisch experiment met een bronzen bal die van een flauwe hellingbaan rolt — een vrije val. Galileo bepaalde gelijke tijdsintervallen door een deuntje te zingen, en bepaalde waar de bal precies was op welke maat. Hij kon vervolgens de snelheden (=afgelegde afstanden) bij iedere maat berekenen, en vond de volgende verhoudingen: 1, 3, 5, 7 ..... . Een eenparig versnelde beweging. Schoonheid.

Zie: Stillman Drake (1990) Galileo: Pioneer scientist. University of Toronto Press. p. 9 e.v., ook de noot op p. 11

Het voorbeeld van wetenschappelijk onderzoek naar temperatuur (zie de eerste box) herinnert eraan dat er ook belangrijke gevallen zijn waarin de gegevens voor zich spreken, zonder die verbinding met een theorie. Hiermee is gezegd dat het verklaren op basis van een theorie geen heilig moeten is. Een ander mooi voorbeeld van waarnemingen die op zich geen doorkoppeling naar een theorie nodig hebben, is de proef van Galileï (de tweede box) met een beheerste vrije val. Ook hier geen theorie, dus, behalve dan het briljante idee om op deze manier de versnelling in de vrije val empirisch te onderzoeken.

Niet alles valt te verklaren, een verklaring is ook niet altijd nodig. Maakt dat onrustig? Ik hoop het, dat zou heel gezond zijn. Als iets ‘begrijpen’ gelijk is aan iets kunnen ‘verklaren,’ wat tot op zekere hoogte het geval is, dan kunnen we sommige verschijnselen dus kennen zonder ze te (kunnen) begrijpen. Horen de bewegingswetten van Newton daarbij? Kijk, het vermoeden is dat veel inhouden van onderwijs, van kleuter tot student, een eenzijdig beeld van de werkelijkheid geven: het zijn vaak de zaken die we goed kennen, de fenomenen die helemaal zijn uitgezocht en in kaart gebracht, de kennis die zo uit de encyclopedie gehaald zou kunnen zijn. Soms heet de cursus ook zo: zoals ‘encyclopedie’ van het recht. In natuurkundeboeken komen systemen van twee om elkaar heen bewegende objecten voor, zoals dat van de Aarde en de Maan, want daar is een elegant wiskundig model voor op te zetten op basis van de bewegingswetten van Newton en zijn wet van de wederzijdse aantrekkingskracht. En dan kunnen daar allerlei berekeningen over worden gevraagd, en gemaakt. Is dat natuurkunde? Ik dacht het niet. Wat wel in de buurt komt: begrijpen dat een eenvoudig systeem zoals dat van Aarde en Maan zich bij benadering op basis van Newton’s wetten wiskundig laat modelleren, maar dat zoiets niet kan voor een systeem zoals dat van Venus en Aarde, met de Zon. Hetzelfde voor de inhoud van geneeskundige opleidingen, economie, psychologie, en ga zo maar door. De crux is: gaat het in het onderwijs om overdracht van de kennis die voorgaande generaties hebben veroverd op het onbekende, of gaat het om overdracht van de methoden en technieken waarmee die kennis verder is uit te breiden? Het is te simpel, natuurlijk, en fundamentele onderzoekers zullen er anders over denken dan toepassende onderzoekers. Maar de rode draad doorheen belangrijke beschouwende publicaties over onderwijs is wel degelijk dat ons onderwijs te vol is gepropt met trivia waarmee leerlingen en studenten hun kostbare tijd moeten verspillen, ten koste van diepere inzichten waarmee ze een heel leven vooruit zouden kunnen. Hoeveel eindexamenvragen in 2009 deden er in deze zin iets toe? Een voorbeeld van een stokoude examenvraag die er in ieder geval niet toe doet geeft De Miranda in 1955, zie de box in hoofdstuk vijf.

doelen ≠ validiteit


“No matter what the reason, a student who wishes to learn the material in this book likes mathematics, and we hope to keep it that way.”

“We also hope that students will make the transition to thinking of themselves as members of a mathematical community.”

Ulrich Daepp and Pamela Gorkin (2003). Reading, writing, and proving. A closer look at mathematics. Springer. pp. vii, x.

Ongetwijfeld is een belangrijk onderwijsdoel dat enthousiast binnenkomende studenten ook aan het eind van de rit enthousiast zijn over het vak en over hun ervaringen.

Er bestaat geen een-op-een relatie van globale doelen op de validiteit van toetsvragen, al zijn de globale doelen wel in te zetten als grote verdelger van wat er aan onkruid kan groeien in de inhoud en daarmee ook in de opdrachten aan studenten. Verdelgen is nuttig en noodzakelijk onderhoud. Het is wel zeker dat geen enkele verzameling van op zich valide toetsvragen volledig afdekt wat met het onderwijs is bedoeld. Er blijft dus een onbestemde ruimte over, een mogelijke blinde vlek, een zwart gat, tussen onderwijsdoelen en het geheel aan toetsen en examens. Er zal altijd iets ontbreken, en het ligt in de aard van het ontbreken dat zoiets zich niet zelf meldt. Het blijft met die validiteit dus oppassen.


Opvattingen over nut en noodzaak van examens, en hun specifieke vorm en inhoud, zijn cultureel bepaald. In de late middeleeuwen is een universitair examen vooral een ceremoniële demonstratie van weten en kunnen, zoals bij de huidige promotie nog steeds het geval is. Tegenwoordig zijn examens vooral competitief, ook de Cito Basistoets is dat in feite al: zij bepalen welke maatschappelijke posities bereikbaar zijn. Dat competitieve is een cultureel element, het heeft te maken met het humanistische stempel op het post-middeleeuwse onderwijs. Beter presteren dan anderen krijgt een prijs (Wilbrink, 1997 html). Dat is echt iets anders dan eigen prestaties verbeteren en daar een prijs voor krijgen. Dit humanistische maar competitieve idee leidt direct tot de wat malle praktijk dat examens liever niet naar de bekende weg vragen, maar het de kandidaten zo lastig mogelijk maken. Dat is een praktijk die een directe bedreiging van validiteit van examens vormt omdat het ten onrechte een premie zet op het ‘onderscheidend vermogen’ van examenvragen (zie voor dit punt: Borsboom, Mellenbergh en Van Heerden, 2004 pdf). Let wel: deze term bedoelt niet het onderscheid tussen wat Marie vandaag weet en gisteren nog niet wist, of wat zij weet en behoort te weten, maar het onderscheid tussen wat Marie en Jan weten.

Dat toetsen en tests maar gebrekkige middelen zijn om de wereld te onderzoeken, is door scherpe geesten zoals in de psychologie altijd al benadrukt. Dat examens maar gebrekkig kunnen afbeelden wat in het onderwijs in feite is bereikt, in termen van zijn globale doelen, leidt onmiddellijk tot de volgende conclusie. In plaats van het belang van het centraal schriftelijk in afsluitende examens te benadrukken, zoals Jaap Dronkers in de Nederlandse landelijke pers telkens weer bepleit, zou zijn impact juist een beetje minder behoren te zijn, als daar dan kwaliteit in het voorafgaande jarenlange onderwijs tegenover staat. Het is een dilemma, Jaap. Het met goed gevolg doorlopen hebben van een stevig onderwijsprogramma is de beste kwaliteitsgarantie die scholen hun afstudeerders mee kunnen geven. Het is een middeleeuwse gedachte, ik geef het toe, maar gek genoeg kan dit de ontwerper van toetsvragen meer ruimte geven om kwaliteit en validiteit te leveren.

Voor de ontwerper van opdrachten en examenvragen houdt dat in dat beide categorieën van vragen over de stof qua karakter uit elkaar zullen groeien: de dagelijkse opdrachten voor studenten zijn zo veel belangrijker voor de kwaliteit van het onderwijs dan wat er in eindexamens aan hakmes-vragen wordt gesteld. Creëer de kwalitatieve ruimte om centraal schriftelijke eindexamens een meer ceremoniële functie te geven dan begin van de 21e eeuw het geval is en dan wij als pseudo-meritocratie de laatste twee eeuwen in West-Europa gewend zijn. Een eindexamen of een Cito Basistoets hoort geen zwaard van Damocles te zijn voor de leerlingen, dat is onze samenleving onwaardig. Is een stukje van dit ideaal te vangen in de manier waarop we de vraag naar validiteit van toetsvragen van antwoorden voorzien?




subdomains of validity


Figuur 1. Het schema van onderscheiden gebieden waarop validiteit is te bevechten, is bedreigd, etcetera. Dwarsverbindingen zijn talrijk en van verschillende aard, en daarom in het schema niet aangegeven. Hierbeneden komt ieder van de subdomeinen aan de orde.


Wat maakt een vraag tot een toetsvraag?


  1. Hoeveel botjes heeft een leeuw?
  2. Weet Marietje hoeveel botjes een leeuw heeft?

technische aantekening

Het schema in Figuur 1 biedt een mooie kapstok voor het maken van een technische aantekening meteen bij de opening van deze paragraaf over validiteit over toetsvragen. Het springende punt is dat toetsvragen geen vragen zijn in de normale betekenis van het woord. ‘Gewone’ vragen zijn vragen om informatie. Een vragensteller die zelf het antwoord al weet, is niet integer bezig, òf is leraar, grof gesproken. Aan de hand van de vraag ‘hoeveel botjes heeft een leeuw&rsquo is het verschil aan te geven tussen een ‘gewone’ vraag en een toetsvraag — de toetsvraag hier opgevat als representant van een scala van typen vragen die in onderwijs voorkomen. De toetsvraag is de vraag van de leraar of Marietje weet .... hoeveel botjes een leeuw heeft; zèlf weet de leraar dat antwoord wel, de leraar speelt een spel met Marietje, het onderwijsspel. Het antwoord moet de kennis van Marietje bewijzen, niet hoeveel botjes een leeuw heeft. Een toetsvraag is in feite, bij uitschrijven van de bijbehorende vooronderstelling, een vraag gebouwd rond een andere vraag, een vraag die gebruik maakt van een andere vraag. Het is spannend om met dat onderscheid aan de slag te gaan. Of een toetsvraag goed is ontworpen, heeft alles te maken met wat de ontwerper wil weten over de kennis van Marietje, pas als afgeleide daarvan gaat het om de anatomie van de leeuw. De ontwerper die dat omdraait en vragen maakt bij de lesstof in plaats van bij mogelijk veranderde kennis van leerlingen, is even kwijt wat onderwijs is. Zie de checklist intervisie.

Uit deze summiere analyse vloeit voort dat voor de thematiek van validiteit van toetsvragen er een onderscheid nodig is tussen de vraag die de ondervrager heeft — ‘weet Marietje ....’ — en de concreet te stellen vraag die hij nodig heeft om antwoord op die eigen vraag te krijgen. Ik zou beide typen vragen een naam moeten geven, om ze te onderscheiden, laat ik ze eenvoudigheidshalve noemen de eigenlijke vraag — zoals ‘Weet Marietje ... ?’ — en de concrete vraag — zoals ‘Hoeveel botjes heeft een leeuw?’ Ieder type vraag heeft zijn eigen kenmerken, ook in de thematiek van validiteit, waar nog de combinaties van eigenlijk met concreet bijkomen. Er is geen denken aan om dit complex te analyseren zoals dat in de logica met alleen concrete vragen kan; we zullen genoegen moeten nemen met een meer intuïtieve behandeling.

Refererend aan de figuur, is het duidelijk dat het corpus van het vak, laten we zeggen dat het wiskunde is, van belang is voor validiteit van concrete vragen, het studentmodel voor de validiteit van de eigenlijke vraag, expertise voor combinaties van eigenlijke en concrete vraag, enzovoort. Er kunnen pittige problemen bestaan in het samenspel tussen eigenlijke en concrete vragen, met validiteitslekken wanneer die problemen niet onderkend zijn.


Nut en noodzaak van reflectie op de validiteit van toetsvragen is niet onmiddellijk evident: die ene toetsvraag lijkt in alle denkbare opzichten OK, of zelfs die ene toets waar hoe dan ook weinig op aan te merken lijkt, waarom is zelfpijniging dan nog nodig? De reden daarvoor is de reusachtige schaal waarop toetsvragen in het leven van jongeren figureren: ze bepalen in hoge mate hun schoolse leven, en de lengte van dat schoolse leven meten we in de orde van grootte van het mensenleven: daar is het ongeveer een kwart van. Kleine onvolkomenheden in afzonderlijke toetsvragen, als deze een systematisch karakter hebben, kunnen het onderwijs dan behoorlijk op zijn kop zetten. En wel des te sterker, omdat de toetsvragen die ze krijgen te beantwoorden, voor studenten de belangrijkste signalen zijn van waar het in het onderwijs in de dagelijkse praktijk om gaat, los van alle mooie woorden en beginselen. Hoewel deze beschrijving van wat het is voor toetsvragen om valide te zijn, wel richting geeft en aanwijzingen genereert hoe validiteit empirisch is te onderzoeken, is het een te grootse visie om makkelijk te hanteren. Afbreken dus, tot hanteerbare delen of aspecten, maar het wel als kadergedachte vast blijven houden. Wie dit te idealistisch vindt, mag er een financiële vertaling aan geven: onderwijs als investering in menselijk kapitaal is kwetsbaar voor alles wat tijd van studenten verspilt. Gebrekkige toetsen kosten dan goudgeld.

Validiteit van toetsvragen, hun waarheid zeg maar, is niet iets om achteraf nog eens te onderzoeken, wat het gangbare idee onder psychometrici lijkt te zijn (Borsboom e.a. 2004 zetten zich daartegen juist af). Integendeel, bouw validiteit van meet af aan in. Het ontwerpproces zelf moet doordrenkt zijn met validiteit. Dat betekent niet voor iedere te ontwerpen toetsvraag opnieuw fundamentele twijfel: als het goed is, berust het ontwerpen van valide vragen op al bewezen technieken, voorbeelden, sjablonen, expertise, etcetera. De vraag naar validiteit van toetsvragen, of van deze ene toetsvraag, moet door het oppervlakkige vernisje van vanzelfsprekendheid heenbreken, op zoek naar nut en noodzaak. Niets is heilig, en zeker de gewoonte niet, maar evenmin het lesboek. Of de wet — denk aan wat de Commissie Dijsselbloem daarover meldt — die zonder blikken of blozen details kan regelen die validiteit in de weg staan.


Op zoek naar een knallend beeld dat meteen scherp stelt waar het bij validiteit om gaat, is Jaakko Hintikka mij behulpzaam (1999, hoofdstuk 1). Tot nu toe, bij bovenstaande ontwerpregels voor keuzevragen etcetera, gaat het in essentie alleen maar om wat de axioma’s en de definities in de meetkunde zijn, de regels in het schaakspel: welke zetten mag je op welke manier doen op dat schaakbord. Het is handig en verstandig om de verkeersregels te beheersen, je kunt er goed mee van A naar B komen. Maar de verkeersregels zeggen er niets over of het verstandig is om nu van A naar B te rijden. De regels van het schaakspel kun je nog zo goed kennen, ze hebben geen wezenlijke relatie tot wat het is om strategisch te schaken, om schaken te ‘denken’ (De Groot, 1946 dbnl). De definities en de handigheidjes van de logica kunnen de filosoof behoeden voor fouten, maar leiden op zich niet tot excellerende filosofie, misschien wel in tegendeel — en dat is juist de stelling van Hintikka.

Validiteit is niet het toetje voor de ontwerper van toetsvragen, maar dekt waar het bij uitstek om hoort te gaan: welke strategische mogelijkheden zijn er om toetsvragen te ontwerpen die er werkelijk toe doen? Het aardige is natuurlijk dat deze korte analyse op zich al aangeeft wat daar voor nodig is: naar welke B wil de vragensteller eigenlijk, en via welke mogelijk nog ongebaande wegen zou dat avontuur het best tot een goed einde zijn te brengen?


Validiteit is een diepsnijdende kwestie. Ik wil het net breed uitwerpen, en toetsvragen beschouwen als een specifieke vorm van vragen die aan de wereld zijn te stellen. Komt dat bekend voor? Het idee is om toetsvragen te zien als een bijzondere vorm van het experimenteel ondervragen van de natuur, van de wetenschappelijke methode dus. De natuur geeft nooit kant-en-klare antwoorden terug, maar antwoorden die nog enige logische bewerking en interpretatie nodig hebben.

alsof dit vak al af is, zo’n dik tekstboek ...


“[... we moeten] ons realiseren dat we een hele generatie studenten opvoeden, die al haar kennis over psychologie uit de tweede hand heeft. Ze krijgen de stand van zaken op een presenteerblaadje, alsof het vak min of meer af is. Maar psychologie is geen opsomming van feitjes en onderzoeken, maar veeleer een manier van denken over het menselijk gedrag. Niet zozeer een eindproduct, de totale verzameling aan psychologische kennis, maar een proces, niet zelden een zeer wankelmoedige poging om tot kennis te komen.”

Gerrit Breeuwsma (2008). Het vergeten weten. De teloorgang van klassiekers in de psychologie. De Psycholoog, 202-209. p. 208

De filosofische basis die Borsboom e.a. onder hun werk leggen is die van het realisme: dat wat de psycholoog pretendeert te meten, moet wel werkelijk bestaan, anders slaat dat meten werkelijk nergens op. Dat realisme leidt wel tot problemen, want hoe is het voor ons stervelingen mogelijk om kennis te nemen van deze werkelijkheden? Voor onderwijzers moet dit ook een klemmende vraag zijn, hoewel de dagelijkse praktijk lijkt te bewijzen dat alles ook wel goed loopt zonder deze zelfkwellende vragen. Maar dat is niet goed genoeg, en in afwijking van de opvattingen van Borsboom e.a. maak ik voor de ontwerptheorie gebruik van het perspectivisme van Ronald Giere (2006). Giere legt bij uitstek die relatie tussen een werkelijk bestaande wereld en hoe wij mensen daarmee omgaan, er kennis van nemen en er vorm aan geven, en er onderwijs over geven. Dat is ook een filosofische benadering die handvatten oplevert voor het ontwerpen van onderwijs in de diverse wetenschappen, en daarmee dus ook hoe kennis van deze wetenschappen zich laat ‘toetsen.’

En zo blijkt een eenvoudige vraag naar validiteit van toetsvragen te leiden tot diepe kwesties. En dat is maar goed ook, want het toetsen van kennis is minder vanzelfsprekend eenvoudig dan op het eerste gezicht lijkt. Er is een reeks modellen bij nodig: een model van de objectieve kennis, een model van wat het voor een leerling is om kennis te hebben (cognitief-neurologisch: hoe werken die hersenen), een model van wat het is om kennis te verwerven, en dus ook een model van hoe ver de leerling kan zijn met die verwerving, en — last but not least — een model van wat het is om uit te vinden hoe dat laatste model zich leent om te kunnen onderzoeken hoe ver de leerling met de kennisverwerving is. Begrijpt u nu waarom het zo duivels moeilijk blijkt om realistisch computergestuurd onderwijs te implementeren? Het ontwerpen van dergelijke programmatuur eist implementatie van al die modellen tegelijk. Nee, dan doen we dat in traditioneel onderwijs wel anders. Het model voor de objectieve kennis is eenvoudig de stof zoals in het leerboek gepresenteerd. Het model van wat het is om kennis te hebben is dat van opgeslagen declaratieve kennis, dus ongeveer de informatie zoals die in het leerboek staat, maar dan in de grijze hersencellen opgeslagen. Het model voor kennisverwerving is herhaling en oefening. Het model voor toetsen is eenvoudig terugvragen van wat als declaratieve kennis aanwezig wordt verondersteld te zijn, als de leerling echt haar best heeft gedaan. Maar met deze rampzalige tradities mogen we niet langer genoegen nemen, het moet echt drastisch anders en beter.

De validiteitskwestie is hiermee wel gesteld. Nu de uitwerking nog. Toetsvragen zijn kunstmatig, of ze nu formatief zijn of summatief. Het gaat om gekunstelde situaties, want het onderwijs gaat er niet over of studenten typische onderwijsvragen redelijk kunnen beantwoorden, maar of zij toegerust zijn voor hun rol in de samenleving. Het is best mogelijk dat er nog een opleiding tussengeschoven is, maar uiteindelijk gaat het om de toerusting voor het leven, niet voor de school. Er kleeft dus een bijzonder vormaspect aan toetsvragen: of zij ondanks hun gekunstelde karakter recht doen aan waar het in het onderwijs (deze school, dit vak, dit proefwerk) om gaat. Dat is de vraag naar validiteit van toetsvragen. Daarom is validiteit al in dit hoofdstuk twee aan de orde, volgt een inhoudelijke uitwerking in hoofdstuk drie, en de toepassing van dit alles in de hoofdstukken vier tot en met zeven, en op een speciale manier ook in hoofdstuk acht.




subdomains of validity

domeinen van validiteit


Er zijn meerdere niveaus waarop de validiteit van toetsvragen aan de orde is, waarin deze geworteld is, etcetera. Het geheel lijkt wat onoverzichtelijk, maar het is zeker niet zo dat voor iedere nieuw te ontwerpen vraag met alles opnieuw rekening gehouden moet worden. Ieder van deze domeinen is op zich ook al wel bekend, het verrassende van deze opbouw zit vooral in het samenbrengen van deze al langer beschikbare inzichten tot een soort landkaart om het begrip validiteit in te herbergen.




validity thumbnail

het corpus: onze wiskundige etcetera kennis


Euclides: alles in een


De Elementen van Euclides is ongetwijfeld het grootste wetenschappelijke boek in de Westerse geschiedenis. Het is tegelijk de kern van het corpus van de meetkunde, lesstof, opgavenboek, een model voor de axiomatische opbouw van kennis, historische canon, voorbeeld van wat het is om rationeel te denken, denken bovendien met hulp van passer en lineaal dus gesitueerd in de wereld en in die zin dus empirisch, allesbehalve abstract. Onze cultuur, en zeker onze schoolcultuur, is sterk door deze twaalf boeken van Euclides gevormd, ook al is meetkunde zelf de laatste decennia uit veel schoolprogramma’s geschrapt. Als er iets over validiteit van toetsvragen valt te melden, zal dat Euclides raken (of snijden).

Voor een opsomming van Nederlandse bewerkingen: zie deze webpagina van Jan Hogendijk. De pagina verwijst door naar edities die vrij en online beschikbaar zijn.

Een recente uitwerking is Robin Hartshorne (1997). Geometry: Euclid and beyond. Springer

Op een hoog en algemeen niveau moet het zo zijn dat het onderwijs en de vormen van beoordeling in goede verhouding staan tot dat wat het vak behelst, de kennis die binnen de discipline is vergaard, maar zeker ook wat het is om die kennis te vergaren, om wiskunde te bedrijven bijvoorbeeld. Die gezamenlijke kennis noem ik het corpus, omdat het handig is er een naam voor te hebben. Het corpus van de wiskunde is dan te denken als de gezamenlijke actuele en geaccepteerde kennis en methodieken om kennis te verkrijgen, zoals neergeslagen in publiek toegankelijke publicaties. Waar dat niet tot verwarring leidt, kan ‘het corpus van’ gewoon worden weggelaten: ‘de wiskunde’ is ‘het corpus van de wiskunde.’ De wiskunde is actueel, de wiskunde van 1850 hoort daar niet bij, althans niet vanzelfsprekend.

corpus van wat?: een reflectie op wat het is dat wiskunde is


Niet alleen bij het publiek, maar ook bij wiskundigen zelf bestaat het beeld dat wiskunde een zuivere discipline is, vrij van subjectivisme, en vooral heel erg waardenvrij, en van Europese (Griekse) oorsprong. Wie even tijd voor reflectie neemt, beseft hopelijk al snel dat dit toch niet waar kan zijn. Wiskunde is gewoon een vak als vele andere, met een grote geschiedenis (wereldwijd), met rap wisselende opvattingen over wat ‘goede’ of ‘echte’ wiskunde is, en is behoorlijk autoritair in het anderen opdringen van deze cultuur-bepaalde opvattingen. Dat schept spanningen, omdat het tegelijk zo is dat wiskunde in het dagelijks leven talloze kleine en grote rollen speelt. Het corpus kan dus onmogelijk alleen maar onthechte wiskunde zijn, de wereld als context hoort daar ook bij. Ik hoef hier niet uit te leggen dat die plaats van de wiskunde in de wereld van enorm belang hoort te zijn in de vormgeving van het (wiskunde-)onderwijs. Maar wat er in de praktijk van terug is te vinden, is een armzalig concept dat sommen vooral contextrijk moeten zijn — er moet een verhaaltje bij — uit vrees dat het geleerde anders buiten de school onbenut blijft.

Bovenstaande box laat zien dat er een pittig risico is dat het corpus van vak X eenzijdig door X-kundigen omschreven raakt als een waardenvrij geheel van X-kennis. Dat geldt niet alleen wiskunde, maar ook andere disciplines met een sterke organisatie van hun beroepsbeoefenaren. In de praktijk blijkt menige beroepsgroep erin te slagen het beeld te vestigen dat zij de enige is die over de relevante kennis beschikt om bijvoorbeeld een voorstel voor onderwijsprogrammering te doen. Ik noem nog een enkel voorbeeld: psychologie is een laatkomer, heeft het niet gebracht tot een plek in het voortgezet onderwijs, maar heeft de laatste eeuw grote invloed op de samenleving gekregen, de testpsychologie zelfs een verpletterende invloed in vooral ook het onderwijs. Het corpus van de psychologie, losgekoppeld van deze context, is geen waarachtig corpus. Het springende punt is dan dat het bij kennis in een corpus ook altijd gaat om de vraag ‘waarom juist deze of alleen deze kennis?’

Het is voor experts op een bepaald vakgebied mogelijk om af te bakenen wat wel, en wat niet tot het corpus behoort, zoals wat medische kennis is, en wat kwakzalverij. Voor buitenstaanders, rechters bijvoorbeeld, is het heel wat lastiger om de grens tussen geneeskunde en kwakzalverij te trekken. Dat belooft nog wat voor maatschappelijke discussies over wat wel en wat niet tot bepaalde onderwijsprogramma’s kan horen.

Conflict tussen juridisch en medisch corpus


Het Gerechtshof Amsterdam beslist op 31 mei 2007 dat de Vereniging tegen Kwakzalverij onrechtmatig heeft gehandeld door een manueel therapeute kwakzalver te noemen. Het gerechtshof heeft twee dingen gedaan die misschien juridisch slim zijn — waarmee het Hof de kwaliteit van het juridisch corpus ter discussie stelt — maar wetenschappelijk onaanvaardbaar: een ondeugdelijk proefschrift als bewijs van de wetenschappelijkheid van manuele therapie gebruiken, en voor de betekenis die in het Nederlands de term kwakzalver heeft knoeien met de verschillende betekenissen die Van Dale aan de term geeft.

Peter J. van Koppen (2008). Van juridische retorica en kwakfeiten. De Psycholoog, 227-228.

juni 2009: in hoger beroep is de Vereniging tegen Kwakzalverij vrijgesproken.

Voor het leven, of voor de aardigheid?


“Brahmagupta schrijft ergens in zijn boek dat hij sommige vraagstukken alleen ‘voor de aardigheid’ had opgenomen. Dit bewijst nog eens ten overvloede dat deze wiskunde van het Oosten zijn zuiver utilitaristisch karakter had verloren — iets dat we reeds bij de oude Babylonische wiskunde hadden opgemerkt. Honderdvijftig jaren na Brahmagupta vinden we dit speelse karakter ook in de Vraagstukken voor het scherpen van de geest der jongeren (Propositiones ad acuendos iuvenes), vermoedelijk geschreven door Alcuin van York, door Karel de Grote met het oprichten van scholen belast (ca. 800). Wiskunde in de vorm van puzzels heeft vaak tot nieuwe resultaten geleid en heeft zelfs nieuwe gebieden geopend, b.v. de analysis situs. Dit geldt ook heden nog, en sommige puzzels wachten nog steeds op hun opname in de hoofdgebieden der wiskunde. Eerst in onze dagen heeft men zich b.v. ernstig met de wiskundige theorie der knopen beziggehouden.”

Struik, 1990, p. 90 noot 1. html

Voor wiskunde hoort naast historische wiskunde bijvoorbeeld ook het puzzelen niet tot het corpus, hoe gek sommige wiskundigen er ook op zijn, althans niet totdat het betreffende gepuzzel verwiskundigd is.

Maar let op: wiskunde is natuurlijk niet alleen maar de verzameling van bewezen stellingen. Misschien wel juist niet: wiskunde is vooral alle getob dat voorafgaat aan het mooi opschrijven van elegante bewijzen (Pólya, 1968). Pólya maakt een verrassend onderscheid tussen overtuigend redeneren, redeneren waar geen speld meer tussen is te krijgen, bewijzen dus, en en aannemelijk redeneren, het redeneren waarmee iedereen, van gewone stervelingen tot rechters en presidenten, het in het dagelijks leven moet doen. In het onderwijs is de verleiding dan heel groot om de wiskunde terug te brengen tot datgene wat mooi bewezen — ‘klaar’ — is, daarmee de werkelijke wiskunde van de vermoedens en het giswerk verdonkeremanend. Het belangrijkste deel van het corpus ontbreekt dan. Popper heeft wel eens beweerd dat de manier waarop je tot een briljante gedachte bent gekomen, privé is en van nul en generlei waarde voor anderen. Voor Pólya zit de kracht van de beoefening van de wiskunde integendeel juist de kwaliteit van de aanloop naar wat pas later bewijsbaar blijkt. Maar daar zal Popper het zeker ook mee eens zijn.  

25% van de vragen vallen buiten het corpus, can you believe that?

“Too often test designers and textbook authors do not have a clear idea of what mathematics is. Indeed, something on the order of 25% of the questions on a typical state mathematics assessment are mathematically incorrect.”

Milgram (2007, p. 32). pdf

De werkelijkheid kan ontluisterend zijn. Milgram (2007, p. 56 pdf) rapporteert dat in de V.S. een kwart van de wiskundevragen in toetsen op staatsniveau (voor accountability) wiskundig onjuist zijn, meest door misvattingen over wat wiskundig probleemoplossen is. Een enorme misvatting is dat men Polya’s (1957) heuristieken als wiskundige doelen opvat, dat wil zeggen als competentie zonder inhoud. Een kwart van de vragen valt inhoudelijk dus buiten het corpus!

een scherpe waarneming over het corpus van de wiskunde


“The result of the mathematician’s creative work is demonstrative reasoning, a proof; but the proof is discovered by plausible reasoning, by guessing. If the learning of mathematics reflects to any degree the invention of mathematics, it must have a place for guessing, for pausible inference.”

Pólya, 1968, p. vi.

de lange schaduw van het verleden


In het onderwijs, bijvoorbeeld wiskunde in het voortgezet onderwijs, is op historisch navolgbare wijze maar overigens meer langs toevallige dan langs rationele lijnen gekozen voor een ‘schoolcorpus’ dat mogelijk op gespannen voet staat met het academische corpus, zeg maar, of met het wiskundige corpus zoals technici, ingenieurs, natuurkundigen dat in hun beroepspraktijk gebruiken. Dat is onmiddellijk duidelijk wanneer blijkt dat wiskunde in het begin van de negentiende eeuw in het geheel niet voor enige relevante beroepspraktijk was bedoeld, maar om de geest te vormen. Dat laatste sprookje geloven we nu niet meer, maar we hebben nog wel in grove trekken hetzelfde wiskundeprogramma dat destijds de Latijnse school binnen werd gebracht voor zijn vormende waarde.

Zie voor historische lijnen bijvoorbeeld:
Danny Beckers (2003). Het despotisme der mathesis. Opkomst van de propaedeutische functie van de wiskunde in Nederland 1750-1850.. Verloren. (ook: proefschrift Nijmegen) [books.google]

Wat is het ‘corpus’ voor de wetenschapsquiz?


Voor de Nationale Wetenschapsquiz (NWQ) bestaat het corpus op de een of andere manier uit de optelling van de corpus voor de afzonderlijke wetenschappen. Laten we om te beginnen zeggen dat dit corpus bestaat uit hetgeen naar de samenleving toe beschikbaar is, van belang is, is gecommuniceerd, etcetera. Dat is bepaald iets anders dan het corpus van een of ander specialisme, dat in feite alleen direct toegankelijk is voor de betreffende specialisten zelf.

Waarschijnlijk zijn voor het corpus van de NWQ enkele meta-disciplines van belang, zoals geschiedenis en filosofie van wetenschappen, ook deze begrepen als geworteld in de samenleving en niet als de specialismen zelf.

Dit abstracte corpus is mogelijk hanteerbaar te maken door het enigszins metaforisch op te vatten als een (ongelooflijk lange) tekst die voor iedereen beschikbaar is. Deze metafoor kan handig zijn voor de verdere uitwerking, want dan is het mogelijk gebruik te maken van bijvoorbeeld Randi, Grigorenko en Sternberg (2005), die uitwerken wat het is om een tekst te ‘begrijpen,’ dus ook deze superlange wetenschappelijke tekst die door geen mens in zijn geheel is ‘af te lezen.’

Judi Randi, Elena L. Grigorenko, R. J. Sternberg: Revisiting Definitions of Reading Comprehension: Just What Is Reading Comprehension Anyway? In Susan E. Israel, Cathy Collins Block, Kathryn L. Bauserman, Kathryn Kinnucan-Welsch (Eds) (2005). Metacognition in literacy learning: theory, assessment, instruction, and professional development. Erlbaum.

Hoofdstuk zes, toetsvragen bij teksten, maakt van Randi e.a. gebruik als fundament.

Voor de Nationale Wetenschapsquiz (NWQ) kan een verdere uitwerking van wat hier als het corpus is op te vatten, leiden tot het afbakenen van een aantal groepen van mogelijke vragen. Bijvoorbeeld is zo'n groep het vragen naar mogelijke wetenschappelijke onderbouwing van dingen, zaken of handelingen die we in het dagelijks leven tegen kunnen komen. Denk aan het groeperen en beoordelen dat bijna sinds mensenheugenis in het onderwijs gebeurt, routinehandelingen in de verpleging (zie de box hierbeneden), etcetera. Ook het begrip ‘wetenschappelijke onderbouwing’ zelf leidt tot een groep vragen die goed past in het concept van een NWQ, het is immers typisch bedoeld als informatie gericht op belanghebbenden die zelf geen wetenschappelijk onderzoeker zijn.

evidence based practice? I

In de zorg en de verpleging blijkt een aantal van de dagelijkse handelingen nutteloos en mogelijk schadelijk te zijn. Zo levert het voor een operatie ontharen van de operatieplek juist meer kansen op infectie in plaats van minder. Het na een operatie regelmatig temperatuur opnemen zegt weinig tot niets over de aanwezigheid van complicaties, het aanbrengen van een maagsonde is belastend en levert geen bijdrage aan de genezing. Het zijn gewoonten die zo diep geworteld zijn, in een cultuur waarin artsen zich weinig of niet met het doen en laten van de verpleging inlaten, dat de verwachting is dat het lang zal duren voordat hier orde op zaken is gesteld.
Voorzover dergelijke handelingen nog in de opleiding voorkomen, zijn opgaven, oefening en vragen daarover niet valide, omdat deze handelingen niet tot het corpus van de huidige geneeskunde behoren, de wetenschappelijke basis ervoor ontbreekt.

NRC Handelsblad 1 februari 2008: Routinehandelingen in de zorg nutteloos.

Landelijk Expertisecentrum Verpleging en Verzorging LEVV: rapport Doorbreek de rituelen

evidence based practice? II

Er is begin 21e eeuw een brede stroom van veranderingen in het onderwijs, waarbij inhoud wordt ingewisseld tegen vaardigheid-zonder-inhoud, met de modeterm ‘competentie’ aangeduid. Het beoordelen van competenties in examens berust niet op enig wetenschappelijk onderzoek, is niet evidence-based: er is geen corpus dat correspondeert met competenties. Het beoordelen van competenties is niet valide, kwakzalverij dus, tenzij in specifieke gevallen de onderbouwing wordt meegeleverd.

Een artikel dat dit thema uitwerkt, lang voordat competenties hypen, en specifiek voor de opleiding van leraren waar altijd al een spanningsveld bestaat tussen vakkennis en instructievaardigheden is van Shulman (1986 pdf.

Wat is eigenlijk het corpus voor vakken in de propedeuse, het middelbaar onderwijs, of het basisonderwijs? Kun je zeggen dat voor het rekenen in het basisonderwijs de wetenschappelijke wiskunde het corpus is? Voor de algebra in het middelbaar onderwijs de wetenschappelijke algebra? Zoveel is duidelijk: het wetenschappelijke corpus moet in ieder geval het uitgangsunt zijn, voor die vakken waarin dat corpus aanwijsbaar is. Of er voor Nederlands als moedertaal een wetenschappelijk corpus bestaat is misschien betwistbaar, hier is de moedertaal primair: met de paplepel ingegoten. Maar mogelijk is er voor specifieke doeleinden een goede plaatsvervanger, zoals de Algemene Nederlandse Spraakkunst ANS. Voor algebra in het middelbaar onderwijs lijkt een veilige weg om de wetenschappelijke algebra als corpus te hanteren, waarmee de schoolalgebra niet al te hard mag botsen, waarvan de schoolalgebra is afgeleid in een aantal stappen die nu juist de hierbeneden te behandelen domeinen van validiteit zijn: om welke beperkte expertise gaat het bij schoolalgebra, etcetera.


wat is dan het corpus van het onderwijzen van bijvoorbeeld wiskunde?


Het corpus van de wiskunde, ook het selectieve corpus van de schoolwiskunde, is wiskunde. Wiskunde leren is een thema dat hoort tot het corpus van de leerpsychologie. Wiskunde onderwijzen hoort dan op zijn minst tot (het corpus van) de didactiek van de wiskunde. Het onderscheid tussen het ene en het andere corpus is scherp neergezet door Shulman (1986 pdf), die inventariseert wat bijvoorbeeld de leerkracht die het rekenonderwijs verzorgt, naast een stevige kennis van de nodige wiskunde, nog nodig heeft aan stevige kennis over typische moeilijkheden die leerlingen met de stof kunnen hebben, hoe je weet hoe ver de leerling is gevorderd, etcetera. Shulman onderscheidt reguliere kennis (propositional knowledge, kennis van casus (case knowledge, een begrip dat voor onderwijs in de rechten vanzelfsprekend is, maar dat Shulman dus tot alle onderwijs uitbreidt), en strategische kennis (jawel, strategic knowledge). Shulman lijkt hier af te stevenen op een niveau van expertise van de leraar dat het mogelijk maakt om ook in niet eerder ontmoete situaties adequaat te handelen tegenover leerlingen. Wat heeft dit met opgaven te maken: Shulman vraagt zich concreet af wat het corpus moet zijn voor een examen van leraren, vandaar. Tenslotte: het door Shulman bedoelde corpus is verwant met het specifieke corpus van kennis nodig voor de ontwerper van toetsvragen; het lastige hiervan is dat dit boek dat corpus juist wil ontwikkelen.


metadisciplines


Ieder vak kent grensgebieden die niet tot het corpus van het vak zelf behoren. Vaak worden die grensgebieden aangeduid met de verzamelnaam ‘metamathematica,’ ‘metajuridica,’ etcetera. Onder de kapstok ‘meta’ vinden we dan verzameld: geschiedenis, didactiek, sociologie, filosofie, etcetera van het vak. De dilemma’s rond dergelijke vakken zijn groot: moeten ze worden verzorgd door mensen die allereerst vertrouwd zijn met het corpus van het vak, of juist door mensen die allereerst historicus, filosoof, of leerpsycholoog zijn? Het is onmiddellijk duidelijk dat hieruit problemen met validiteit van toetsopgaven uit voort kunnen komen als de een categoriefout maakt: toch vragen naar de het aantal botjes van de leeuw, in plaats van naar wat Marietje weet over het aantal botjes van de leeuw. Het gaat er niet om of de vraag een goede biologievraag is — dat is voor onderzoekers in de biologie belangrijk — maar of de vraag een goede kennis-van-de-biologievraag is — wat is de kwaliteit van de kennis van Marietje over de botjes van de leeuw?


articuleren van het corpus


Ik vermoed dat het in het algemeen noodzakelijk is om binnen het corpus van een bepaalde discipline verder onderscheid aan te brengen, zoals dat naar wat formeel respectievelijk strategisch is. Neem schaken als prototypisch voorbeeld, een ‘wetenschap’ die gaat over een kunstmatige en daardoor netjes afgeperkte wereld. Wat in deze wereld toegestane zetten zijn, is vastgelegd in de spelregels van het schaken. Het is mogelijk om in korte tijd een perfecte beheersing van deze regels op te bouwen. Die perfecte beheersing is weliswaar een voorwaarde om een tegenstander behoorlijk partij te geven, maar in de verste verte is het niet voldoende voor zelfs maar een aardige amateurpartij. Voor een behoorlijk schaakspel is toch wel een vereiste dat beide spelers ook strategisch van wanten weten. Het is handig dat over strategisch inzicht bij schaken het proefschrift van A. D. de Groot (1946, tekst: dbnl) beschikbaaris. Op dat baanbrekende werk is later nog stevig voortgeborduurd, niet alleen wat schaken betreft, maar dit werk is dan ook een hoeksteen in de ontwikkeling van de cognitieve psychologie geweest.

Het springende punt is nu dat het voor het ontwerpen van valide toetsvragen noodzakelijk is dat onderscheid te maken tussen de formele grondslagen van een vak en de strategische verworvenheden. Tenzij het uitdrukkelijk de bedoeling is kennis van de regels te toetsen, zou het een kunstfout van de ontwerper en de didacticus zijn om het strategische te verwaarlozen ten gunste van het formele. Helaas is dat laatste wel wat in een aantal schoolse vakken gebeurt. Hintikka (1999, hoofdstuk 1) doet op dit punt een scherpe aanval op het onderwijs in de logica, en ik vrees dat zijn argumenten snijdend correct zijn. Erger nog: vul in dat hoofdstuk in plaats van ‘logica’ bijvoorbeeld ‘algebra’ in, en het vermoeden ontstaat dat het wiskunde-onderwijs ook gebukt gaat onder overbeladenheid van definities en alles wat daaruit stapsgewijs mag worden afgeleid, ten koste van wat de mens strategisch vermag met algebra als zijn instrumentarium.

Als Hintikka in het genoemde hoofdstuk niet direct kwesties van validiteit van onderwijs, en dus ook toetsvragen aanspreekt, dan weet ik niet waar ik nog verder moet zoeken. Wat een feest. Maar hij is sinds 1999 dan ook volop doorgestoomd naar een complete theorie over het bevragen van de wereld.


onderwijs en het corpus


Het onderwijs moet in goede relatie staan tot het corpus, en dat is iets anders dan dat het onderwijs zo getrouw mogelijk het corpus of althans een deel daarvan als leerstof zou moeten hanteren. Het laatste is een misvatting die niet zeldzaam is. In het reken- en wiskundeonderwijs is de New Math een voorbeeld van het streven in het onderwijs de meest strikte opvattingen uit het corpus in de leerstof in te werken. De didactische opvatting die daarbij past is dat scholieren gewoon die strenge wiskunde moeten leren, daarmee basta, dat is de opvatting waar Hans Freudenthal gelukkig tegen ten strijde trok (zijn anti-didactische inversie): de structuur van de wiskunde mag natuurlijk de didactiek niet dicteren. Freudenthal heeft de introductie van New Math in Nederland kunnen verhinderen.





validity thumbnail

wat is expertise m.b.t. dat corpus?


Wat expertise in ieder geval niet is

Het perfect beheersen van de definities en de regels van het schaakspel is geen expertise. Vul verder in: schaakspel - meetkunde - algebra - logica - psychometrie - etcetera.
Zijn we dan zo onhandig om deze fout te maken? Op gezag van Jaakko Hintikka (1999) geldt dat inderdaad voor het onderwijs in de logica, zoals dat aan studenten typisch wordt voorgeschoteld. Wie zijn betoog leest — let wel, hij motiveert er zijn theorie van het vragenstellen mee — herkent dat hetzelfde tot op zekere hoogte voor veel schoolse en universitaire vakken zou kunnen gelden. Direct gevolg: veel toetsvragen op het verkeerde niveau van expertise.

Mensen zijn expert in tal van zaken. We zijn expert-begrippenbouwers, om maar eens met een niet gering voorbeeld te beginnen. We zijn bij de geboorte al toegerust met de capaciteit om ons begrippen te vormen, en zijn dan al snel in staat om bewegende voorwerpen, een gezicht bijvoorbeeld, als een en hetzelfde object te zien (en niet als een verschillende vlekken op verschillende plaatsen in verschillende belichting). We zijn hard-wired met de capaciteit om ons dit eerste begrip van constantie van objecten te vormen. Na dit eerste begrip zullen er nog vele volgen. Merk op dat deze expertise al meteen gesitueerd is in de wereld. Waarschijnlijk is dat met alle expertise het geval. Die gesitueerdheid komt in de volgende paragraaf aan de orde. Zo is er een nauwe verwevenheid tussen de woorden die de moedertaal heeft voor verschillende kleuren, en hoe we kleuren leren zien, als van elkaar onderscheiden. Ronald Giere (2006) geeft daar een instructieve uiteenzetting over. Het wonderlijke is dat de ervaring van kleuren zo overdonderend is, dat het moeilijk is voor te stellen dat we dit onszelf hebben geleerd, dat het een fictie is die door onze hersenen wordt gecreerd. Maar goed, de neurocognitieve invalshoek komt ook later aan de orde.

“ (...) psychologie is geen opsomming van feitjes en onderzoeken, maar veeleer een manier van denken over het menselijk gedrag. Niet zozeer een eindproduct, de totale verzameling aan psychologische kennis, maar een proces, niet zelden een zeer wankelmoedige poging om tot kennis te komen.”

Gerrit Breeuwsma (2008). Het vergeten weten. De teloorgang van klassiekers in de psychologie. De Psycholoog, 202-209. p. 208

Expertise van de vakman of vakvrouw, de schaker, de natuurkundige, de automobilist ook (Ericsson, Charness, Feltovich en Hoffman (2006), is richtinggevend voor ontwerpers van onderwijs (Ericsson, 2009), en zeker voor ontwerpers van certificerende examens. Maar onderwijs is een situatie van op-weg-zijn, en dat betekent dat er spanning kan bestaan tussen presteren in onderwijssituaties en dat wat de expert schijnbaar moeiteloos in de ‘echte’ wereld presteert.

Wat is het om te weten of een leerling een goede verklaring geeft?


Nog steeds op algemeen niveau, maar al afgebakend hebbend wat de kennis is die tot het vak behoort, is het de vraag hoe de beoefenaar en de student van het vak zich tot die vakkennis verhouden. Wat betekent het om wiskundig met de wereld bezig te zijn, wat betekent het wanneer we zeggen dat iemand wiskundige kennis toont? Of natuurkunde, psychologie, de eigen taal, een geneeskunde? Het antwoord op deze vraag bepaalt ook wat valide toetsvragen zijn, omdat het aan toetsvragen stringente beperkingen oplegt om ze valide te kunnen noemen.

Voor een aantal groepen van disciplines breng ik elders materiaal bijeen uit onderzoek dat direct op dit soort vragen is gericht, maar ook inzichtvolle uitspraken van vakbeoefenaren zoals hierboven het citaat van Breeuwsma over wat het is om psychologisch met de wereld om te gaan: physics educationmathematics educationwiskundeonderwijslife sciences educationhumanities educationlanguage education


schoolse kennis


Iedereen is bekend met het verschijnsel dat voor het examineren van kennis diezelfde kennis verschijnt als opgeknipt in talloze kleine afzonderlijke, geobjectiveerde, stukjes, opgaven, en problemen. Dat is te zien in de geschiedenis van de prestigieuze Mathematical Tripos examens in Cambridge, van de 18e naar de 20e eeuw. En het is dagelijks in onze scholen waarneembaar. Gek genoeg staat het verschijnsel niet echt in de belangstelling van onderzoekers. Moet ik de conclusie nog onder woorden brengen? Als toetsen hapklare brokjes bevatten omdat die weinig of geen discussie uitlokken en gestandaardiseerd zijn na te kijken, en tegelijk de resultaten van onderwijs toetsbaar moet zijn, dreigt een afglijdende schaal naar infantilisering van het onderwijs.




validity thumbnail

gesitueerdheid van kennis


kunnen lopen en autorijden


Beter dan voorbeelden uit de school, maakt kunnen lopen of autorijden meteen duidelijk dat dit kennis is die vooral in je lijf en in de wereld ‘zit.’ Ook leren autorijden is leren ‘aan de wereld,’ niet in een schoolbank.

Over ons kunnen autorijden kunnen we mogelijk nog wel iets beschrijven, maar lukt dat ook nog met ons kunnen lopen? Kunnen we zomaar een robot bouwen die in nieuwe omgevingen kan lopen?

De expert-autorijder, net als de expert-loper, lost lastige situaties op in een split-second, en doet dat ook nog binnen de beperkingen van verkeersregels en jurisprudentie over wat behoorlijk gedrag in het verkeer is. Wat denkt u, is het theorie-examen van het Centraal Bureau Rijbewijzen dan eigenlijk wel een adequaat examen? Valide? Nee, ik ga hier geen antwoord op geven. Ik wil alleen duidelijk maken dat in beginsel kennis gesitueerd is in de wereld, en dat een toetspraktijk die dat niet onderkent, schadelijk is. Kunnen schaken is een kennis die gesitueerd is in 64 velden, etcetera.

Vrijwel alle kennis is kennis van, in, met en aan de wereld. Bij het ontwerpen van toetsvragen kan die wereld wel eens lastig zijn: het is zoveel eenvoudiger om te doen alsof kennis alleen maar iets in de hersenen van de student is, waar het met een paar goed gekozen vragen uit tevoorschijn is te halen. Mogelijk reduceert zo'n aanpak alle kennis van de wereld tot declaratieve kennis over de wereld, dat is dus een ander soort kennis. De mogelijke kloof tussen schoolse kennis en kennis van het leven — non scholae, sed vitae, niet voor de school, maar voor het leven leren wij — is een van de gevolgen van zo'n simplisme. Zo'n kloof, en dat is hier het punt, is een schending van validiteit.

met passer en lineaal


De meetkunde van Euclides is een constructieve meetkunde: passer en lineaal zijn erbij nodig. Deze meetkunde past niet in ons hoofd: het is geen prettig idee een passer tussen de grijze hersencellen te hebben. Het grootste schoolboek aller tijden gaat over hoe je dingen construeert met de handen. Daar komt dan nog een eigenaardigheid of wat extra bij kijken: de lineaal mag bijvoorbeeld alleen maar worden gebruikt om lijnstukken mee te tekenen, of te verlengen. De gesitueerdheid is ook in deze zin cultureel bepaald, door een eigenwijzigheid van een klein gezelschap oude Grieken. Zij ontzegden zich ermee de mogelijkheid om een hoek in drie gelijke delen te kunnen verdelen: Archimedes lukte dat wel, maar gebruikte zijn lineaal daarbij op een creatieve manier. De meetkunde van Euclides is gesitueerd in de wereld van passer en lineaal, de wereld van Archimedes was net wat ruimer dan die van Euclides.

Lees voor ‘passer en lineaal’ de ‘grafische rekenmachine:’ doen we nu weer hetzelfde wat Euclides destijds deed?

De geschiedenis van de meetkunde illustreert ook fraai die andere kant van de gesitueerdheid van kennis: het corpus zelf is in hoge mate bepaald door gewoonte, cultuur, toevalligheden, en de stand van altijd maar voortgaande ontwikkelingen en soms omwentelingen in het vak.




Het is een naïeve opvatting dat het denken gelocaliseerd is in de grijze hersencellen van de individuele student, wetenschapper of wereldburger. Natuurlijk maken neurale processen voorwaardelijk deel uit van denken, even afgezien van hersenloos denken of handelen zoals we dat bijvoorbeeld dagelijks in het verkeer doen. Maar dat is niet het hele verhaal.

Er zijn veel manieren waarop denken gebonden is aan wat er op deze plaats op dit moment gebeurt, dus in de directe omgeving van de ‘denker.’ Dat kan zijn in gesprek met anderen, of in het werken met instrumenten. Neem iets eenvoudigs als het op papier uitwerken van een ingewikkelde deling, een door Ronald Giere (2006) gebruikt voorbeeld: de uitwerking op papier is nodig om het antwoord te ‘bedenken.’ Maar het gaat veel verder dan dat: veel menselijke activiteiten maken onderdeel uit van ingewikkelde acties, zoals het de haven van Rotterdam binnenbrengen van olietankers, waarbij ongelooflijk veel mensen zijn betrokken die ieder een deel van de benodigde informatie zoeken, doorgeven, berekenen, etcetera. Nogal gesitueerd, dus.

Het bijzondere van onderwijs is nu dat het een heel eigen situatie is die in veel opzichten afwijkt van overige maatschappelijke situaties waarin mensen zich bevinden. Dat brengt de mogelijkheid met zich mee dat de in het onderwijs verkregen ‘kennis,’ die in dat onderwijs is gesitueerd, niet spontaan wordt gebruikt in andere maatschappelijke situaties. Dit probleem staat in de psychologie bekend als het transfer-probleem, en het zou iedereen die bij het onderwijs is betrokken tot grote zorg moeten zijn. Immers, zonder transfer is die ‘kennis’ gewoon niet valide.


Wat is het verschil dat gesitueerdheid van kennis maakt voor toetsen en examens? Denk aan de verpletterende eenvormigheid van van die toetsen en examens. Een open-boek-examen is bij wijze van spreken al een revolutionaire doorbraak van het toetsen met papier en pen. Het heeft er alle schijn van dat de eeuwenlange isolatie van onderwijs gelegenheid heeft gegeven tot het ontwikkelen van een absurde examenpraktijk, met een eigen gesitueerdheid die volledig is losgeweekt van de samenleving. Tenzij onderwijs alleen maar een giga-selectieprodure is die schaarse maatschappelijke posities toedeelt aan wie het grootste intellectuele (en materiële) uithoudingsvermogen bezitten.




validity thumbnail

de neuropsychologie van kennis


de hersenen een kenniskabinet?


Het is een naïef beeld dat onze hersenen informatie op zouden slaan zoals dat gebeurt in een kenniskabinet, met een kaartenbak, of zelfs in een geheugenchip: in kleine pakketjes op systematische plaatsen zodat de informatie ook weer is terug te vinden. Geheugensystemen van vroeger eeuwen lijken oppervlakkig ook zo te werken: een toneel of een huis met veel kamers waarin informatie op een terugvindbare manier is op te bergen. Lijken: want het zijn niet de locaties zelf, maar sterke associatieve banden die het werk hier doen.

Het naïeve beeld is terug te zien in bijna iedere quiz die langs komt, ook de NWQ, ook de GGQ (de Grote Geschiedenisquiz). Het is dan ook logisch, maar al even naïef, om uit de fantastische beschikbaarheid van informatie op het internet te concluderen dat het verwerven van kennis tegenwoordig niet meer de urgentie heeft die het tot voor kort had: bijna alles is immers met twee muisklikken te vinden. Werkgevers, zij hebben er tenslotte ook niet voor gestudeerd, vinden het prachtig om het onderwijs dan een zwaai te laten maken van kennisverwerving naar competentieverwerving: de zelfstandige werknemer kan de nodige informatie heus zelf wel vinden op het moment dat dat nodig is. Nee dus, want hij of zij zal geen flauw idee hebben welke informatie dan exact nodig is en waarom.

Het idee dat kennis is los te koppelen van competentie, dat overigens in deze sterke vorm door geen enkele politicus of werkgever publiekelijk zal worden uitgesproken, dreigt onze kenniseconomie op termijn onderuit te halen. Het berust op een waanidee over het functioneren van onze zintuigen en hersenen. Waanideeën zijn per definitie niet valide. Toetsvragen als quizvragen zijn niet niet valide tenzij het omgekeerde valt te bewijzen.

Levende wezens, dieren, mensen zijn patroonherkenners, geen logische machines die rechtlijnig kunnen redeneren en daarom rationeel kunnen zijn. De ongelooflijke stand van zaken met een groot deel van ons onderwijs is nu juist dat het uitgaat van rechtlijnig redeneren, logisch redeneren, iets dat onze hersenen dus typisch niet zonder kunstgrepen kunnen. Het onderwijs lijkt een grote samenzwering om het leven van leerlingen zo moeilijk mogelijk te maken, door voortdurend dingen van ze te vragen die niet natuurlijk voorhanden zijn.


Neem even de tijd om over die tegenstelling tussen patroonherkennen en logisch redeneren mee te denken (rechtlijnig, of intuïtief, net wat natuurlijk komt). U loopt in een drukke winkelstraat in een vreemde stad. Een goede bekende komt u tegemoet in een stroom van honderden andere mensen. Wat denkt u: herkent u die bekende? En hoeveel tijd kost u dat om die bekende te herkennen? Precies, dat gaat bliksemssnel. Dat is heel wonderlijk, want onze zintuigen en hersenen zijn niet geweldig snel omdat veel processen relatief traag, chemisch, zijn. Het is absoluut onmogelijk dat onze hersenen zouden werken zoals een computer is te programmeren: met miljoenen logische stapjes. Voor zelfs de eenvoudigste taken zouden zulke hersenen telkens een spreekwoordelijke eeuwigheid nodig hebben om tot een besluit te komen: Hallo, Ben, dat ik je hier tegenkom! Of: De aardappels branden aan, kun je de pan van het gasfornuis zetten? Toch is waarschijnlijk een groot deel van het onderwijs ingericht op de veronderstelling dat de hersenen van die leerlingen werken als computers, dat ze alleen goed geprogrammeerd moeten worden, en dat de programmeur, de leerling, voortdurend goed op moet letten dat de zaken niet in het honderd lopen. Het is dus niet zo'n gekke gedachte dat onderwijs op verkeerde veronderstellingen is gebouwd, en mogelijk waanzinnig ondoeltreffend is. Inclusief veel van wat er aan terugkoppelen, beoordelen en examineren plaatsvindt.

Hoe zintuigen en hersenen dan wèl werken? Dat is een groot raadsel, maar er valt al wel heel veel over te weten op grond van neurocognitief onderzoek en slimme modellen die zijn opgesteld.

Voor een aardig voorbeeld over hoe we woorden produceren, zie Willem Levelt 1996 pdf; zijn 1995 geeft een soort multidisciplinaire introductie pdf. In die modellen is weinig meer over van de metafoor van de geprogrammeerde computer, laat staan van die metafoor uit vroeger tijd: het uurwerk/raderwerk.

Het laat zich raden dat al naar gelang de ontwerper van toetsvragen uitgaat van de veronderstelling van de hersenen als logische machine, danwel als patroonherkenner, het zelfonderzoek naar validiteit van de zo ontworpen vragen andere uitkomsten levert.

Dit neurocognitieve subdomein is met stip het meest interessante, het belangrijkste, en nog het minst bekende van de hier onderscheiden subdomeinen voor onderzoek naar validiteit van toetsvragen.


Dan is er het niveau van de individuele kenner. Natuurlijk is kennis op een bepaalde manier gebonden aan individuele personen, de vraag is op welke manier precies. Het maakt voor het ontwerpen van toetsvragen veel uit of de ontwerper de overtuiging heeft dat alle kennis declaratieve kennis is, dus op de een of andere manier in de hersenen beschikbaar is in kant en klare uitspraken die de student alleen maar hoeft op te halen en te uiten, of integendeel de overtuiging dat kennen een constructief proces is dat alleen behoorlijk verloopt in geschikte omstandigheden en met adequate hulpmiddelen, gegeven dat de student zijn lessen adequaat beheerst. Zo’n geschikte omstandigheid kan de groepsdiscussie zijn, teamwork.


Het zich ontwikkelende brein is een cruciale factor in de hele onderwijsperiode. Om maar eens iets te noemen: meta-cognitieve vaardigheden zijn bij jongeren allerminst vanzelfsprekend aanwezig, en dat geldt zeker voor de leerlingen in de leeftijd van de basisschool Weten wat je weet, en wat niet, is niet vanzelfsprekend. Dat kan bijvoorbeeld bij keuzevragen tot onvermoede problemen leiden: hoe antwoorden leerlingen die inzicht missen in wat zij wel en niet weten op keuzevragen? En als de interpretatie van antwoorden op keuzevragen al lastig is, hoe moet dat dan bij open vragen?




validity thumbnail

een model van de kennis van de student


In hun onderwijs zijn studenten op weg naar kennis, er is daarom een adequaat model voor het beschrijven van onvolledige kennis nodig, mogelijk ook van eventuele misvattingen. Bij de ontwikkeling van computergebaseerd onderwijs in de tachtiger jaren van de vorige eeuw bleek het noodzakelijk om met studentmodellen te werken: om adequaat te kunnen sturen moet de programmatuur immers over een model beschikken van hoe het staat met de vorderingen van de student, een model dat permanent wordt geactualiseerd.

In algemene zin gaat het er bij toetsvragen om dat de vragensteller zich een beter beeld kan vormen van de vorderingen van de student. De leraar vraagt geen antwoord op de gestelde vraag, maar wil weten of Marietje dat antwoord kan geven of (nog) niet. Het bestaande beeld is de theorie T op basis waarvan de vragensteller aan de slag kan om via te stellen vragen dat beeld verder uit te breiden of preciezer te maken. Dit is de methode van Hintikka om kennis te verwerven, in dit geval kennis van de vragensteller of -ontwerper over de vorderingen van de student: theorie T = model van de vorderingen van student S.

Een leerlingvolgsysteem zou een deel van de inhoud voor het studentmodel kunnen leveren, maar daar zit een groot risico van bureaucratisering van het leren in. Aardiger is om in een-op-een vormen van onderwijs of training te kijken hoe de leerkracht voortdurend bezig is op basis van haar inzicht in hoe ver de trainee is gevorderd, specifieke terugkoppeling en nieuwe opgaven te geven.

Deze nadruk op de stand van de vorderingen is niet goed genoeg, of geen volledig studentmodel. De stilzwijgende vooronderstelling is dat gegeven de vorderingen of verschillen daarin, alle studenten gelijk zijn. Dat is geen handige vooronderstelling, weg ermee. Maar dan wat? Zijn alleen verschillen in algemene intelligentie van belang? Dit is een goede vraag om mee te beginnen.

Sternberg’s creatieve, analytische en practische capaciteiten


“... when students are taught in a way that fits how they think, they do better in school. Children with creative and practical abilities, who are almost never taught or assessed in a way that matches their pattern of abilities, may be at a disadvantage in course after course, year after year.”

Sternberg, 2008, p. 154-155

Sleutelpublicaties zijn hier de publicaties voortvloeiend uit het onderzoekprogramma van Robert Sternberg naar triadische intelligentie, zoals hij dat noemt: creatieve, analytische en praktische intelligentie (2008a, b). Het citaat in bovenstaande box hoort bij een onderzoek dat precies doet wat het citaat zegt: uit de VS en landen daarbuiten zijn begaafde leerlingen geselecteerd die uitblinken op een van de drie aangegeven typen intelligentie, of die gelijkmatig hoog scoren op deze drie typen, resp. gelijkmatig laag; zij zijn vervolgens aan de universiteit van Yale onderworpen aan een experimenteel trainingsprogramma waarin creatieve, analytische en praktische condities experimenteel werden gemanipuleerd. En ja hoor: wat onderwijsonderzoekers decennialang niet is gelukt of althans zelden, lukt hier wel: er is een interactie tussen capaciteiten en condities in de aangegeven richting, dat wil zeggen dat een mismatch belemmerend werkt, een goede match bevorderend. Kijk, omdat het om vorderingen gaat, is dat een resultaat een mooi startpunt voor een studentmodel.


validity thumbnail




een leermodel: hoe kennis groeit, verandert


Er is een model nodig voor hoe kennis groeit, een leermodel. In sommige contexten worden sterke leermodellen gehanteerd, maar meestal zijn de opvattingen van docenten en van auteurs van leermateriaal impliciet en dus traditioneel. Realistisch Rekenen, een sterk met traditionele didactische opvattingen contrasterende rekenmethode, is de methode die vrijwel alle basisscholen nu volgen. Zoals iedereen kan weten, betekent ‘realistisch’ dat opgaven worden ingekleed in een specifieke situatie, een context. De achtergrond daarvan is de claim dat alleen op deze manier is te voorkomen dat leerlingen wel goed leren rekenen, maar die vaardigheid onbenut laten bij op te lossen realistische probleem buiten de schoolse situatie. Dat is het probleem van transfer die uitblijft. Dat doet transfer wel vaker, en de claim van Realistisch Rekenen dat met deze methode transfer geen probleem meer is, is een sterke claim op validiteit. Welnu, analyses op oplosmethoden die leerlingen gebruiken, laten zien dat leerlingen de opgaven steeds meer uit het hoofd oplossen, in plaats van op papier, en daarbij heel veel fouten maken (zie Van Putten’s analyse van PPON-materiaal, 2004 pdf). Realistisch Rekenen, en voorganger Wiskobas, zijn het resultaat van een moedige poging om de traditionele rekenstof te verrijken op basis van een expliciet leermodel gericht op het verminderen van problemen met transfer van het geleerde naar andere situaties. Ondanks het succes zoals dat blijkt uit de verspreiding van de methode, is het inhoudelijk succes ervan omstreden, zoals vaak met experimentele methoden het geval is. Het onderliggende leermodel heeft met deze problemen mogelijk veel te maken, waar het niet goed is geworteld in relevante psychologische theorie.


learning_1.1.gif De figuur “illustrates the main points of the learning model as conceived in the SPA model. The blue curve plotted is that of replacement learning, one of two basic forms of learning implemented in the spa-model. The other one, accumulation learning, is a less steep learning curve. The basic learning process is that of learning small bits of knowledge. Therefore the basic curves start off rather steep, and the functions levels off as learning time progresses.”

Het is mogelijk zelf wat te experimenteren met deze leermodellen, daar is een applet voor ontwikkeld dat in uw browser draait: applet

Ben Wilbrink (1998). Inzicht doorzichtig toetsen. In Theo H. Joostens en Gerard W. H. Heijnen (Red.). Beoordelen, toetsen en studeergedrag. Groningen: Rijksuniversiteit, GION - Afdeling COWOG Centrum voor Onderzoek en Ontwikkeling van Hoger Onderwijs, 13-29. html

Ben Wilbrink (in bewerking). Learning: Curves of insight. Module five of the Strategic Preparation for Assessment model. html. Zie hier ook voor een geactualiseerde literatuurlijst

In een sterke opvatting over validiteit van toetsvragen zou het leermodel een oorzakelijk model zijn, dus niet alleen maar een beschrijving van hoe het leren door de tijd heen typisch blijkt te vorderen in termen van procentuele beheersing van de stof (zie de figuur in de box). Dat meer tijd investeren een betere beheersing oplevert, is geen causaal model, maar een beschrijvend model.





validity thumbnail

een diagnostiek van veranderende kennis


Er is een diagnostiek nodig om die nog niet volledige kennis te kunnen peilen en in de gaten te houden.

Allochtone leerling vaak onderschat

Zo kopt De Volkskrant (13 mei 2008) op de voorpagina. Onderzoek van het IMES (UvA), onderdeel van een internationaal onderzoek in acht landen, laat zien dat uit de tweede generatie nieuwe Nederlanders een stevige elite is gevormd: een kwart van deze generatie heeft een hogere opleiding. Het zorgelijke is dat zij voor dit succes jaren langer hebben moeten studeren dan nodig, omdat hun capaciteiten niet tijdig zijn onderkend, en het onderwijsstelsel na de bezuigingsingrepen van Jo Ritzen (niet meer ‘stapelen’) herstel van onterechte eerdere keuzen heeft bemoeilijkt.

Het bericht in de box wijst op een probleem van nationale omvang dat direct heeft te maken met onvermogen van het onderwijs om capaciteiten van een grote groep leerlingen tijdig en goed te beoordelen. En dat terwijl er toch de laatste decennia bepaald niet weinig is getoetst, met als het meest in levens ingrijpende moment dat aan het eind van de basischool, waar de meeste leerlingen de Cito-toets maken. Als de uitkomsten van dit onderzoek van het IMES juist zijn geïnterpreteerd, is er een wezenlijk probleem met de validiteit van bijvoorbeeld de Cito-toets, en dus ook met de afzonderlijke vragen in deze toets. Het probleem hoeft niet noodzakelijk op het niveau van de vragen veroorzaakt te zijn — interpretatie van totaalscores (normering) is een andere mogelijkheid — maar ondanks de technische maatregelen (DIF-analyses) van bijvoorbeeld het Cito is het niet onwaarschijnlijk dat het probleem te maken heeft met het ontwerp van de toetsvragen.

Let op: het IMES-onderzoek laat zien dat het voor de toppers onnodig lang heeft geduurd om te komen waar ze nu zijn. Dat wil niet zeggen dat het voor alle anderen wel geweldig goed is gegaan, eerder het tegendeel: waar de sterkste leerlingen al zoveel problemen op hun weg hebben gevonden, zal dat voor de overige leerlingen waarschijnlijk niet minder zijn geweest. Inderdaad een probleem van nationale omvang. Misschien wordt het tijd om na te gaan denken over constructies waarbij de borging van validiteit van landelijke toetsen is losgekoppeld van de producenten van diezelfde toetsen en examens.


De subdomeinen zijn niet strikt van elkaar te onderscheiden, ze overlappen elkaar ook op verschillende wijze. De vraag is dus of een afzonderlijk subdomein voor een diagnostische systematiek (ik moet er nog een goed label voor zien te vinden) wel toegevoegde waarde heeft. De leidende gedachte is dat voor normale groei, voor een normale leerweg, alleen de mate van toegenomen vorderingen van belang is, en daar is geen bijzondere diagnostiek voor nodig anders dan door uitwerking van de overige subdomeinen al is gegeven. Komt er echter een kink in deze kabel, is de groei op een of andere manier onverwacht of bijzonder, dan is het zaak om daar nader onderzoek naar te doen, waarvoor onder andere gericht ontworpen toetsvragen een instrument kunnen zijn. Dan moet er dus enig idee zijn in welke richting naar oorzaken gezocht moet worden. Allerlei vormen van dysfunctioneren komen dan in beeld, maar ook eenvoudige inhoudelijke misvattingen, tot mentale modellen die het verwerven van geavanceerde kennis kunnen hinderen. Van dat laatste is bijvoorbeeld het werk van David Hestenes voor natuurkunde van belang (zoals Hestenes, Wells, and Swackhamer,1992 pdf). Pregnante vormen van dysfunctioneren zijn natuurlijk dyslexie, maar ook dyscalculie. En houd altijd in de gaten dat het niet vanzelfsprekend de individuele leerling is waarbij de oorzaak is te zoeken: het kan ook een emergent groepsproces zijn dat tot verstoringen leidt, en — last but not least — kan de docent of het onderwijssysteem zelf falen. Voorbeeld van dat laatste: het onderwijs is voor sommige leerlingen zo onverteerbaar, dat zij in feite de school uit worden gejaagd. Het gaat dan niet aan om hen het label ‘schooluitvallers’ of ‘spijbelaars’ op te plakken, zonder onderzoek te hebben gedaan naar de rol van het onderwijssysteem (en dus de wetgever) bij het vroegtijdig verlaten van school.

overgeneralisatie

Tot een diagnostische systematiek behoort ongetwijfeld ook de mogelijkheid van over- en ondergeneralisatie van begrippen etcetera. Een interessant voorbeeld voor wiskunde is de neiging van studenten, en niet alleen van studenten, om in hun wiskundige redeneren het lineaire model ook te gebruiken voor gevallen waar het niet van toepassing is. Iedereen hoort te weten dat schoolcijfers niet zomaar gemiddeld kunnen worden, dat een ‘acht’ niet twee keer zo goed is als een ‘vier’ etcetera, en toch zijn we geneigd dat wel te doen. Helemaal fout, dus. In termen van schaaltheorie: de neiging is om te redeneren alsof alles de sterkte van een ratioschaal heeft, terwijl in werkelijkheid de gegevens op een intervalschaal liggen of alleen maar een rangorde aangeven (zoals bij schoolcijfers in principe het geval is). Het is van belang om van dit verschijnsel een goed beeld te hebben waar het gaat om het onderwijs in de wiskunde. Vervolgens is ook duidelijk hoe bij andere vakken, waar wiskundige technieken immers volop worden gebruikt, te uitbundig gebruik van het lineaire model voor kan komen. Welnu, Van Dooren, De Bock, Janssens en Verschaffel (2008) documenteren het wiskundige casus, mede aan de hand van eigen onderzoek naar het verschijnsel. Het artikel is vers van de pers, ik moet het nog goed bestuderen, maar het ziet ernaar uit dat dit een pronkstukje is van het soort diagnostische systematiek dat voor validiteitskwesties van belang is.

Wim van Dooren, Dirk de Bock, Dirk Janssens and Lieven Verschaffel (2008). The linear imperative: An inventory and conceptual analysis of students’ overuse of linearity. Journal of Research in Mathematics Education, 39, 311-342.




validity thumbnail

terugkoppeling, toetsen, examineren


Het onderwerp van dit subdomein is het ontwerpen van vragen proper. Ik ben nog op zoek naar een passende titel. De tweede poging, hierboven, geeft niet precies de goede associaties: het gaat niet om de vraag wat het is om te examineren etcetera. Ik wil veel dichter bij huis blijven, en kan dit subdomein misschien beter eenvoudig vragen noemen.


De basisgedachte van het project toetsvragen ontwerpen kristalliseert zich langzamerhand uit, en dat is deze:


Het zou mij niet verbazen dat het mogelijk is om op basis van bovenstaande schets-theorie van wat het is om toetsvragen te ontwerpen, een uitgewerkte systematiek te bouwen. Kijk, die A, D en T hierboven genoemd, zijn ook op andere manieren tot vragen te transformeren dan alleen het voor de hand liggende: gegeven D en T, leg uit A. Bijvoorbeeld: gegeven D en A1 en A2, welke beide laatste uit dezelfde theorie zijn te verklaren, welke is die T? Etcetera. Een land van belofte.

Misschien moet ik dit toch uitleggen, in de gewone betekenis van ‘me nader verklaren.’ Het vermoeden is dat veel ontwerpers van toetsvragen noodgedwongen uitgaan van vage noties over validiteit, en zo komen tot een klein aantal verschillende typen van vragen die ze bij voorkeur aanmaken. Wat valt er dan te zeggen over de kwaliteit van de zo aangemaakte vragen? Heel wat, blijkt, maar ook de meest kritische commentaar lijkt dan toch vaak ergens iets toevalligs te hebben, wat het knagende gevoel laat bestaan dat de criticaster misschien gelijk heeft, maar niet het hele plaatje overziet, zodat onduidelijk blijft of met de kritiek wel of niet iets moet worden gedaan. Kortom, er is voor de analyse van een partijtje ontworpen toetsvragen toch wel een theoretisch kader nodig. Dat kader zou in het werk van Hintikka en zijn collega’s misschien te vinden zijn. Dat is een abstract kader, en dat laat onverlet alle overwegingen die passen binnen de overige hier onderscheiden subdomeinen van validiteit. Of moet ik het zo zeggen: het abstracte kader uit het werk van Hintikka is springlevend te maken door het aan te kleden met de overwegingen zoals hier in de overige subdomeinen zijn gegeven, natuurlijk nader uitgewerkt voor het betreffende vakgebied, etcetera. Een uitdaging dus, en daar waren er al een paar van.

Belnap en Steel’s fundamental concepts


“... what does it mean to say that a question is ‘valid’?“

Belnap en Steel (1976) hoofdstuk 3, p. 113


Belnap en Steel’s logica van vragen en antwoorden is nuttig, maar het is net als met de bekende vraag ‘Wat is de leeftijd van de kapitein?’: wees er altijd op bedacht dat de vragen in die logica van een andere orde zijn dan die welke leraren aan leerlingen stellen. De leraar weet het antwoord op haar vraag wel, en stelt toch die vraag; wat is dit dan voor spel, wat is hier de logica van? Belnap en Steel schijnen zich dit niet te realiseren, hoewel ze er even heel dicht bij zijn waar (p. 112) ze zeggen dat een vraag kan dienen om te toetsen of de ondervraagde wel goed oplet. De ‘vraag naar de leeftijd van de kapitein’ vraagt zeker oplettendheid.

Het punt is dat Belnap en Steel uitsluitend spreken over eenvoudige vragen om opheldering, over vragen naar informatie: hoeveel botjes heeft een leeuw? — Is Jan opgehouden zijn vrouw te slaan? — Welke priemgetallen liggen tussen 10 en 20? Leraren die dergelijke vragen stellen zijn helemaal niet geïnteresseerd in de directe antwoorden op die vragen, die weten ze al. Deze leraren hebben wel degelijk vragen waar ze antwoorden op willen hebben, maar dat zijn heel andere vragen, zoals ‘Weet Marietje hoeveel botjes een leeuw heeft’? Het probleem hiermee is dat vragen van leraren — vragen in toetsen of in eindexamens — vragen in vragen zijn, dus complexer dan de vragen die Belnap en Steel in hun logica van vragen en antwoorden behandelen. Als Marietje ‘127’ antwoordt, is dat een direct antwoord, althans de code voor een direct antwoord, op de botjes-vraag, maar mogelijk niet op de vraag van de leraar. Als ‘127’ als direct antwoord op de botjesvraag correct is, of niet correct, heeft de leraar dan ook een direct antwoord gekregen op de vraag over de kennis van Marietje? Dat laatste is een vraag van een heel andere orde. Daar kunnen we ons met een jantje-van-leiden van afmaken door af te spreken dat er een een-op-een relatie is tussen directe antwoorden op de botjes-vraag, en directe antwoorden op de kennis-vraag, maar dat is struisvogelpolitiek, of, vriendelijker, een fictieve werkelijkheid. Die fictieve werkelijkheid misleidt leraren ondertussen wel tot het meestal niet verder kijken dan de gegeven antwoorden lang zijn.

NB: een direct antwoord is een van de fundamentele begrippen in de logica van vragen en antwoorden. Als zodanig komen directe antwoorden in werkelijkheid zelden voor, meestal zijn antwoorden sterk ingekort, een code voor wat het directe antwoord zou moeten zijn. Dat is een nuttige analyse van Belnap en Steel, die analyse maakt het mij onmiddellijk mogelijk om van toetsvragen te zeggen dat ze code zijn voor de veel meer omvattende vraag naar wat de examinandus weet over wat de vraag vraagt. Voor de validiteit van een toetsvraag is dan een noodzakelijke voorwaarde dat er directe antwoorden zijn op de in logische zin volledige vraag over wat de examinandus weet. Ofwel: wat is eigenlijk een direct antwoord op een examenvraag? Goede vraag, niet?

Nuel D. Belnap, Jr., and Thomas B. Steel, Jr. (1976). The logic of questions and answers. London: Yale University Press.

Zie ook het lemma Epistemic knowledge in de Stanford Encyclopedia of Philosophy html.

Debra Thomas Burhans (2002). A question answering interpretation of resolution refutation. A dissertation submitted to the Faculty of the Graduate School of State University of New York at Buffalo in partial fulfillment of the requirements for the degree of Doctor of Philosophy. Een recente studie in de lijn van Belnap en Steel PostScript

Evert W. Beth (1955). Semantic entailment and formal derivability. Mededelingen van de Koninklijke Nederlandse Akademie van Wetenschappen, Afdeling Letterkunde, N. R. Vol. 18, no. 13 (Amsterdam), pp. 309-342, reprinted 1961. Reprinted in Jaakko Hintikka (1969). The philosophy of mathematics (pp. 9-41). Oxford University Press.

Ernest Lepore (2000). Meaning and argument. An introduction to logic through language. Blackwell. [in het bijzonder de hoofdstukken over de methode van de truth tree]

Irving H. Anellis (1990). From semantic tableaus to Smullyan trees: A history of the development of the falsifiability tree method. Modern Logic 1, 1, 36-69. abstract html full text pdf[Evert Beth semantic tableau, etc.]

En dit is ook logisch valide?


  1. Alle vissen vliegen
  2. Alles dat vliegt, spreekt
  3. Dus, alle vissen spreken

Lepore (2002) p. 11. Ja, de redenering is logisch valide.

Het is een goed idee om als noodzakelijke voorwaarde voor de validiteit van vragen en antwoorden te stellen dat deze logisch valide moeten zijn. Maar pas op, denk nu niet dat het ook een goed idee zou zijn bij het ontwerpen gebruik te maken van logica. De wereld van de logica is een andere dan de wereld waarin wij leven. Het voorbeeld in de box hierboven laat het een tikje extreem zien: de redenering is logisch valide, omdat het niet mogelijk is dat de beide premissen waar zijn, en tegelijk de conclusie vals. U en ik weten dat ieder van de drie uitspraken in de box onzin is, maar daar gaat het in de logica niet altijd om. De waarschuwing is nu deze: het komt veel voor dat ontwerpers een scheutje logica in hun vragen doen, zonder zich daar echt bewust van te zijn, met als gevolg dat studenten moeten gissen naar de bedoeling van de vragensteller. Sterker nog, er zijn soorten vragen die alleen al door hun vorm het misverstand uitlokken: ja-neevragen. Uitspraken zijn zelden ofwel volstrekt waar, ofwel volstrekt vals. Dus wat heeft de ontwerper van vraag 21. in dit speciale geval bedoeld: gaat het om de bijzondere manier waarop deze uitspraak vals kan zijn, of gaat het erom dat de uitspraak doorgaans waar is? Voor vraag 22. kan het ineens omgekeerd zijn. Bijvoorbeeld de NWQ (wetenschapsquiz) heeft tal van voorbeelden waar de ontwerper heel bijzondere omstandigheden in gedachten heeft gehad, en andere waar dat nadrukkelijk niet het geval is. Dat laat Nederlandse deelnemers in verbijstering achter.


Toetsen, toetsvragen, en alles wat daaraan verwant is zijn geen doel op zich. Wat dan wèl het doel is, kan ongelooflijk uiteenlopend van aard zijn. Een algemene formule is dat het gaat om het uitwisselen van informatie tussen belanghebbenden. De meest eenvoudige methodiek is gewoon en direct vragen wat je wil weten: is deze leerling volleerd, kan deze leerling door naar een bepaalde vorm van vervolgonderwijs, is dit proefschrift goed genoeg om te verdedigen? Die directe benadering is helemaal niet vreemd, ook al is er de laatste decennia steeds groter druk op komen te staan omdat om onnavolgbare redenen velen meer vertrouwen lijken te hebben in toetsen en examens dan in het oordeel en advies van docenten die de leerlingen op dagelijkse basis door en door hebben leren kennen.

De promotie is een mooi casus: de prestatie is al geleverd en OK bevonden, de promotie zelf is een rituele oefening waarin soms alleen voor de vorm, maar soms ook echt scherp, vragen op de promovendus worden afgevuurd. De vorm van het examen als een publieke afsluiting van een met succes doorlopen onderwijstraject stamt uit de middeleeuwen. De eigen meester meldt de student aan voor het examen wanneer die laatste daar ‘klaar’ voor is; het examen wordt formeel afgenomen door andere meesters, en zakken voor het examen is niet iets dat bij het ritueel hoort. Er is dan alle ruimte voor de kandidaat om op een directe manier te laten zien dat hij (vroeger altijd een ‘hij') het vak beheerst, een werkstuk kan maken, een college kan geven, of een dispuut kan leiden.

Mogelijkheden om op een directe manier informatie te krijgen, in plaats van indirect via toetsen etcetera, berusten op vertrouwen in de informant, het schoolhoofd, en de promotor. Een samenleving waarin dat vertrouwen erodeert moet op zijn tellen gaan passen. Een nieuw probleem zou wel eens kunnen zijn dat docenten in deze tijd van toetsfanatisme niet meer op het eigen oordeel vertrouwen, dat eigen oordeel niet meer durven geven, of mogelijk ook onvoldoende geschoold zijn om een voldragen eigen oordeel over de vorderingen van eigen leerlingen te geven.

Er is ook een technische manier om naar hetzelfde fenomeen te kijken. Neem bijvoorbeeld de voorspellende waarde van het advies van het hoofd van de basisschool, en vergelijk dat met de voorspellende waarde van de uitkomst op een afsluitende toets basisonderwijs. Het is voor de introductie van een basistoets niet voldoende dat de toets ongeveer dezelfde voorspellende waarde heeft: het advies van het schoolhoofd is immers veel goedkoper. Voor de introductie van een toets, waar dan ook, ter vervanging van of aanvulling op een deskundig oordeel, geldt dat de toets een informatieve meerwaarde moet hebben die tenminste de extra kosten ruimschoots dekt. Met andere woorden: voorafgaand aan het ontwerpen van toetsvragen is aan de orde of de betreffende toets wel gewenst en functioneel is. Zo niet: dan geen toets. Zoals de staatssecretaris van onderwijs in april 2008 heeft besloten geen landelijke toets bij het begin van het basisonderwijs te wensen. Komt er eindelijk een eind aan de gekte van het idee van een kleutertoets?


In zekere zin de meest algemene methodiek is beschreven door Jaakko Hintikka (2007): hoe kennis is te verwerven door het stellen van vragen. Als dat lukt, dan moeten de vragen wel valide zijn. Of is het omgekeerd? Ik moet deze streng-filosofische benadering nog bestuderen. De kennis waar het de vragensteller om gaat is die van de student: hoe staat het met de vorderingen van de student in zijn of haar expertise van het vak? Dit is een specifiek casus dat Hintikka als zodanig natuurlijk niet behandelt, maar zijn bijzondere insteek, in afwijking van wat meestal bij kennisleer aan de orde is — is mijn kennis waar? — is dat het vragenstellen in dienst staat van allereerst het verkrijgen van kennis, of van informatie zoals Hintikka dat liever noemt.

De methode van Hintikka moet de inhoud waarborgen. Dan is er vervolgens nog een hoop techniek nodig om de verkregen informatie te vergelijken met het studentmodel, en niet te vergeten de techniek van het vragenstellen zelf (Blooker’s cacaomeisje laat zich hier weer zien). Deze paragraaf zal zodoende uiteenvallen in een filosofische onderbouwing en een meer technische uitwerking. Die uitwerking zal overigens alleen in algemene lijnen worden geschetst, het is aan de volgende hoofdstukken om de details in te vullen.


Het is denkbaar in de methodiek een klassificatie aan te brengen naar de hierboven onderscheiden domeinen van validiteit. Ik weet nog niet of dat een geweldig idee is, maar ik vermoed dat het noodzakelijk is. Ik geef vooruitlopend op de verdere uitwerking alvast een paar ideeën.


het corpus — afstemming met de arbeidsmarkt?


micro-economie of macro-economie?


De universitaire studie economie bestaat kent de belangrijke richtingen micro- en macro-economie. Ook veel functies van economen zijn kenmerkend ofwel micro-economisch, ofwel macro-ecomisch van aard. Bij arbeidsmarktonderzoek (Wilbrink, 1989 pdf) is gebleken dat de functies van economen qua kenmerk niet samenhangen met de keuzen die zij in de studie maakten. Onderzoek naar aansluiting op de arbeidsmarkt lvevert dit type resultaat vaker op: ook wie een opleiding loodgieten heeftgedaan, blijkt later vaak een beroep met een andereinhoud uit te oefenen. Voor het onderwijs in de economie is het tegelijk met het aanbieden van de keuze tussen verschillende richtingen dus ook van belang dat het onderwijs op een hoger plan wordt getild dan alleen dat van de specifieke richting, dat het ook gaat om wat het is om ‘economisch’ met de wereld om te gaan, deze te bestuderen en te besturen. Ook wat het voor een econoom is om expert te zijn, is allereerst deze algemene expertise, en pas afgeleid daarvan de veel sneller op te bouwen specifiekere expertise in, bijvoorbeeld, micro- of macro-economie.

Ben Wilbrink (1989). Arbeidsmarkt en curriculum economie. Amsterdam: SCO. (rapport 198) pdf

Bovenstaand casus wijst op een spanning die er blijkt te zijn tussen de specifieke programmatische inhoud van het onderwijs, en de specifieke kennis die afgestudeerden nodig hebben in de functies waarin zij terecht komen. De student die macro-economie studeert kan even goed in een typisch micro-economische functie terechtkomen als ineen typisch macro-economische. De student medische biologie die in de studie een bepaalde complexe techniek in de vingers heeft gekregen, zal deze techniek in latere functies waarschijnlijk nooit hoeven tegebruiken, maar zal zich andere technieken snel eigen moeten kunnen maken. De positie die de opleiding of de docent kiest in deze kwestie heeft gevolg voor de wijze van ontwerpen van toetsvragen. Wie inziet dat het belang van het algemene dat van het specifieke overstijgt, zal er op zijn minst voor zorgen dat vragen met een specifiek karakter ook dat algemene niveau stevig raken. Geen vakidiote vragen macro-economie, maar vragen waarvan de kern is dat de kandidaat in staat is in economische termen met de wereld om te gaan, waarvoor specifieke kennis van de macro-economie de noodzakelijke stoffering van de vragen levert.


Rating van expertise


In kunstmatige werelden is het nauwer omschreven wat expertise is, en zijn er vaak systemen die deze expertise in zekere zin definiëren. Voor het schaken is dat meen ik de ELO-rating (moet ik nakijken), en in diverse andere individuele wedstrijdsporten bestaan vergelijkbare systemen: het Japanse go, sumo-worstelen, tennis, golf. Overal is de rating een direct resultaat van de wedstrijden die men heeft gespeeld tegen wie, met welk resultaat. Iedere wedstrijd is als het ware een toets, of een examen. De marktwaarde van voetbalspelers is iets totaal anders, op zijn best een indicator voor hun expertise. Iets ingewikkelder wordt het bij toernooien; het is boeiend om te zien hoe verschillende vormen van organisatie van een toernooi van invloed kunnen zijn op de uitkomsten van zo'n toernooi. (Ik zal nog nagaan wat hier de literatuur is, de term ‘tournament’ moet een behoorlijk aantal hits geven in een zoekmachine).


Het aardige van deze voorbeelden uit de kunstmatige werelden in onze vrijetijdssector is dat er wel degelijk een verwantschap is met hoe in het onderwijs de expertise van studenten aan het eind van hun studie wordt beoordeeld. In de latere middeleeuwen vinden we bij universitaire studies en examens ook tweekampen in disputeren, en konden geleerden zoals Abélard een enorme reputatie opbouwen door publieke disputen met sterke tegenstanders op overtuigende wijze te winnen. Kijk, dat is een vorm van vaststellen van verworven expertise waarvan huidige beoordelingsgewoonten in het onderwijs zijn afgeleid (Wilbrink, 1997 html).



methodieken


logica versus dagelijkse taal


Nog steeds op het gebied van de logica is er de mogelijkheid dat ontwerpers vormen van logisch redeneren gebruiken die niet goed sporen met hoe mensen in het dagelijks leven redeneren, zodat er een serieuze communicatiestoornis kan ontstaan tussen de ontwerper van de vraag, en de leerlingen die deze beantwoorden. Want leerlingen zijn mensen, en rederen in het dagelijks leven niet zoals logisch redeneren in de logica gaat. Niet dat mensen verkeerd zouden redeneren: zij kunnen gewoon andere vooronderstellingen hebben en daarbinnen heel logisch redeneren. Zo wordt de logische implicatie als het regent dan word je nat makkelijk opgevat als een dubbele implicatie, dus tevens betekenend: als je nat wordt, dan regent het. De logicus zal dan zeggen: zo heb ik het niet bedoeld, zo heb ik het ook niet gezegd, je moet dus beter naar mij luisteren. Heeft de logicus gelijk? Ook als hij ontwerper van toetsvragen is?


Is logisch ook logisch?


Het is niet ondenkbaar dat er problemen kunnen ontstaan bij toets- en examenvragen omdat de ontwerper de vraag op het niveau van de logica heeft ontworpen, en de kandidaten de vragen lezen zoals ze in het dagelijks leven met logische uitspraken omgaan. Naar de mate waarin dit zo is, is er een validiteitsprobleem met dergelijke vragen. Helaas ken ik geen onderzoek dat hier direct op is gericht; wie mij kan tippen, graag. Ik zal kort uitleggen wat het probleem is, en wat psychologisch onderzoek erover heeft te melden.

Er zijn in de logica twee basisvormen, de modus ponens en de modus tollens. De modus ponens is tamelijk eenvoudig: alle mensen zijn sterfelijk, Socrates is een mens, dus Socrates is sterfelijk. De modus tollens is net een slag anders: iedereen die goed zijn best doet, zal slagen, Marietje is niet geslaagd, dus Marietje heeft haar best niet gedaan. Wie logisch ‘verkeerd’ redeneert, kan concluderen dat een kat geen mens is, en dus onsterfelijk; respectievelijk dat Marietje geslaagd is, en dus haar best gedaan heeft.

Het springende punt is nu dat in psychologisch onderzoek blijkt dat proefpersonen in een kwart van de gevallen aan de modus tollens verkeerde conclusies verbinden, en nog vaker de beide andere verkeerde logische redeneringen volgen.

Dit ziet er ernstig uit. Toetsdeelnemers wordt meestal voorgehouden dat ze de vragen heel zorgvuldig moeten lezen. Maar wanneer vragen gebruik maken van de modus tollens of van de omgekeerden van de modus ponens en de modus tollens, dan is het absoluut zeker dat alleen zorgvuldig lezen van de vragen niet voldoende is. Kijk, op dit punt zou ik graag een aantal aansprekende casus hebben. Ik heb geen flauw idee of, en zo ja in welke mate, ontwerpers van toetsvragen dergelijke logica in hun vragen stoppen, bewust of onbewust. En of in beroepszaken dit type probleem met enige regelmaat aan de orde is, terwijl betrokken partijen niet in staat zijn te zien wat hier werkelijk aan de hand is. Wie een casus heeft: laat mij het weten. Waarom heb ik zelf geen casus: ik ben pas sinds kort serieus bezig met de bijzondere relaties tussen logica en het spel van vraag en antwoord, waaruit ook eerdere paragrafen zijn voortgekomen. Ik heb dus nog geen gelegenheid gehad om het hier gesignaleerde probleem te herkennen in toetsvragen die ik op een of andere manier onder ogen heb gehad.

Mike Oaksford and Nick Chater (2008). Probability logic and the Modus Ponens — Modus Tollens asymmetry in conditional inference. In Nick Chater and Mike Oaksford: The probabilistic mind. Prospects for Bayesian cognitive science (pp 97-120). Oxford University Press.



validity thumbnail

Strategieën


In analogie met schaken is het ontwerpen van een enkele toetsvraag te zien als het doen van een enkele zet. Alles binnen de regels van het spel is aanvaardbaar, maar daarmee nog niet goed, laat staan dat het de best denkbare zet is. Een goed ontworpen en overigens ook valide toetsvraag is mooi, maar het aaneenrijgen van dergelijke goede toetsvragen levert niet vanzelf een goede toets of een goed examen op. Het ontwerpen van toetsvragen mag dus niet op incidentele basis gebeuren, maar moet onderdeel zijn van een adequate strategie. Jaakko Hintikka (2007) benadrukt dat onbemerkte verwaarlozen van het strategische in een aantal vakgebieden (de zijne), en hij heeft daar zeker een punt. Voor ons is het niet echt nieuws, want het ontwerpen binnen een kader van validiteit is precies de algemene strategie die bedoeld wordt, dat kader is het corpus voor de toetsvragenontwerper, en zijn of haar expertise is de voorwaarde voor in strategische zin excellent ontwerpen van toetsvragen. De vraag is dan: wat zijn ‘winnende’ strategieën? Anders dan bij wedstrijden zoals schaken is er geen directe tegenstrever en dus ook geen eenvoudige beslisregel voor ‘gewonnen hebben.’ Dus terug naar af, en zoals De Groot destijds deed voor het denken van de schaker, hier het denken van de expert-ontwerper onderzoeken? Als gedachte is dit geen slecht begin, want de tweede vraag is: zijn er expert toetsvragenontwerpers te vinden? Hoe ze te herkennen? Ze zouden bijna spontaan zinvolle dingen moeten kunnen zeggen over vrijwel alle hierboven onderscheiden domeinen, en dan uiteraard toegespitst op het eigen vakgebied.

Eric Rogers 1902-1990, expert ontwerper natuurkundevragen


“... typically, a working session [in a two week seminar with teachers] would open with Eric Rogers inviting one of the participating teachers to propose a physics question. Other members of the group were then encouraged to discuss or challenge its validity or its usefulness. What is the purpose of this question? Does it really do what you intend it to do? How could this question or problem be rephrased to make it more useful? What learning objectives would it contribute to? How would you use it as part of your teaching? What broader teaching strategy would this imply? Perhaps an experimental investigation on the part of the student? And so on. The author of the problem would generally first defend it against points raised by others, but would gradually come to accept criticisms, modificatons and further developments of it by the group. It was this tearing apart of the questions that led Eric Rogers to give the name ‘shredder’ to this sort of workshop.”

Nathum Joel (1994). Shredders. In Brenda Jennison and Jon Ogborn: Wonder and delight. Essays in science education in honour of the life and work of Eric Rogers 1902-1990. Bristol: Institute of Physics publishing. p. 183.

Het strategische in het denken van iemand als Eric Rogers over toetsvragen is dat hij in zo'n mijnenveld van kritische overwegingen, waarin de ene ingediende toetsvraag na de andere in het gezicht van zijn ontwerper ontploft, onmiddellijk komt tot het springende punt voor deze specifieke vraag, zonder te verzanden in oeverloos plussen en minnen. En dat alles natuurlijk als creatieve destructie, ruimte makend voor wat wèl een valide ontwerp voor de vraag is, al dan niet in de context van andere gelijktijdig te stellen vragen.

Dat er in de literatuur weinig expert toetsvragenontwerpers zijn te vinden, heeft mogelijk als reden dat voor het verwerven van die expertise een enorme ervaring nodig is, denk in de orde van grootte van de typisch voor expertise benodigde 10.000 uren gerichte inzet. Dat is een volledige dagtaak voor een behoorlijk aantal jaren, er zijn maar weinig mensen die dat kunnen doen. Maar neem het ‘ontwerpen van toetsvragen’ minder letterlijk, dan valt er ook onder wat veel leraren een groot deel van hun tijd doen: vragen stellen aan hun leerlingen als onderdeel van het instructieve proces. Leraren kunnen makkelijk de nodige ervaring opbouwen die voor expertise nodig is, de vraag is alleen of ze de nodige kwaliteit kunnen bereiken. Veel leraren lukt dat, een aardig publiek voorbeeld zijn de masterclasses van meester-musici. Ik kan zo uit de losse pols geen onderzoek noemen naar de expertise van leraren in het stellen van vragen (maar zie het onderzoek van Hill e.a. 2008), er is wel het nodige onderzoek naar hun opvattingen over het vak en over onderwijs maar dat is niet precies genoeg. Het is ook van belang te weten of leraren als expert vragenstellers in staat zijn die expertise te benutten wanneer zij meer formele toetsvragen ontwerpen.

Dit alles gaat dan de ontwerper van toetsvragen direct aan, maar er zijn andere partijen die eveneens strategisch gedrag kunnen tonen: overheid, leraren, studenten. Vooral studenten kunnen sterk strategisch opereren, ook al hebben zij mogelijk niet altijd goed zicht op hun belang op lange termijn (procrastinatie: uitstelgedrag), en al kunnen zij niet perfect met de kanstheoretische eigenschappen van nog af te leggen toetsen omgaan (statistici kunnen dat zelf ook niet).


In de klasse van specifieke strategische zaken staat het strategisch handelen van studenten bovenaan: met informatie over de komende toets kunnen zij in de voorbereiding nog hun voordeel doen. Studenten laten zich niet zomaar toetsen afnemen. Sterker nog, het is in het onderwijs typisch de bedoeling dat ze zich er goed op voorbereiden, en als het even kan beter dan dat. Er is daarom zeker altijd ook sprake van terugkoppelingseffecten, al was het maar omdat studenten willen welke onderwerpen op welke manier aan de orde kunnen komen (en welke dus niet). Er zijn tal van omstandigheden denkbaar die ertoe kunnen leiden dat studenten in hun voorbereiding selectief zijn, gegeven de overgangs- of examenregeling, gegeven wat zij weten over hoe de docent over de stof zal vragen, of waar hun eigen voor- en afkeur ligt. Het gevolg kan zijn dat afzonderlijke vragen in een toets best valide kunnen zijn, zonder dat zij gezamenlijk een valide resultaat leveren.

gehaaide voorbereiding

In de zeventiger jaren experimenteerde Bob van Naerssen natuurlijk ook met zijn eigen tentamens psychometrie. Hij gaf al zijn tentamenvragen vrij, en deelde mee dat het tentamen zou bestaan uit een keuze uit deze bekende vragen. De gedachte hierachter is dat een student die deze, zeg, tweeduizend vragen redelijk kan beantwoorden, er blijk van geeft de stof te kennen.

Als ik me goed herinner waren het ja-neevragen. Er waren studenten die inzagen dat je dit tentamen goed zou kunnen maken door de avond tevoren uitsluitend alle ‘ja’-gesleutelde vragen te lezen, en bij het tentamen op basis van herkenning ‘ja’ aan te kruisen, en anders ‘nee.’ Van Naerssen had het zichzelf aangedaan dat zijn tentamen geen psychometrische kennis, maar slimmigheid van de straat mat, en staakte zijn experiment.

Omdat studenten belangen hebben bij dit alles, is het zaak te borgen dat hun strategische voorbereiding op toetsen op een juiste manier gebeurt. De klasse van modellen is die van de tentamenmodellen (Van Naerssen, 1970 html; Wilbrink, 1998 html, in bewerking html, in zekere zin gebaseerd op transparantie als validiteitseis (De Groot, 1970 html). Tentamenmodel en de eis van transparantie moeten elkaar hier aanvullen, omdat de eis van transparantie direct de inhoud van de toetsheel bijzonder betreft, en tentamenmodellen juist van die inhoud abstraheren.

Raakt dit wel het niveau van de afzonderlijke toetsvraag? Jazeker, maar daar moet je dan wel op uit zijn. Er zijn altijd meerdere wegen waarlangs de gevraagde beheersing kan zijn verworven. Dat is maar goed ook, omdat er meerdere stijlen van leren zijn, en waarschijnlijk niet iedere student even makkelijk een andere stijl van leren kan aanwenden. Maar uiteindelijk kan het niet de bedoeling zijn dat inzichtelijke vragen goed worden gemaakt door studenten die de antwoorden op de betreffende vragen uit het hoofd hebben geleerd. Of bij de vijfde herkansing net een ‘voldoende’ resultaat boeken. Kijk, en bij dat laatste is een goed tentamenmodel belangrijk om adequaat beleid te kiezen.

Docenten, en zeker docenten als ontwerpers van examenvragen, kunnen allerlei overwegingen en strategieën hebben die mogelijk ernstige bedreigingen voor de validiteit van hun vragen vormen. In de paragraaf over validiteit, hierbeneden, komt als casus aan de orde hoe onder de druk van extreem competitieve examens docenten hun toevlucht nemen tot vraagstellingen waarbij over de beoordeling van de antwoorden zo weinig mogelijk discussie en onenigheid kan ontstaan. Ongelooflijk oneigenlijk dus.


stilzwijgende onderhandeling tussen docenten en studenten over de cijfergeving


Een bijzonder en tegelijk universeel fenomeen is dat van de stilzwijgende onderhandeling tussen docenten en studenten over de strengheid van de beoordeling. Ha, de wetmatigheid van Posthumus zult u denken. Zeker, maar het gaat nu om het achterliggende mechanisme, om het strategisch handelen van docenten — prachtig beschreven door Adriaan de Groot in zijn Vijven en zessen van 1966 — waar studenten als groep hun eigen strategie — een vorm van de lijn trekken, ‘zesjescultuur’ heet dat sinds een platte opmerking van onze eerste minister Balkenende — tegenover die van hun docenten zetten. Klinkt dit bekend, of juist vaag? Welnu, het fenomeen is prima te onderzoeken (Coleman (niet gepubliceerd), Wilbrink 1992a, 1992b). In theorie hoeft deze stilzwijgende onderhandeling geen impact te hebben op de wijze van ontwerpen van examenvragen, in de praktijk is het een illusie te menen dat de validiteit hier geen bedreiging van ondervindt.

James S. Coleman (1994 unpublished). What goes on in

school: A student’s perspective. html

A. D. de Groot (1966). Vijven en zessen. Wolters-Noordhoff.

Ben Wilbrink (1992). Modelling the connection between individual behaviour and macro-level outputs. Understanding grade retention, drop-out and study-delays as system rigidities. html

Ben Wilbrink (1992). The first year examination as negotiation; an application of Coleman’s social system theory to law education data. html


Op het eerste gezicht minder interessant, maar in potentie een bedreiging van onderwijskwaliteit, is het sluiten van compromissen overal waar het lastig of onmogelijk is om op een directe manier te vragen naar specifieke kennis. Bijna iedere formele beoordelingssituatie is een kunstmatige situatie, zodat in deze zin toetsvragen per definitie geen perfecte match kunnen vormen met de kennis waar het in de cursus om gaat.

professionele doodzonde:

Als ik geen vragen kan ontwerpen zoals het moet, dan moet het maar zoals het kan.

Het probleem van de lichtelijk beschonken gast die zijn gevallen fietssleuteltje gaat zoeken op de plek waar er licht is, in plaats van op de plek waar het gevallen moet zijn, is constructeurs van psychologische tests niet onbekend. Talrijk zijn de waarschuwingen in de literatuur, onder andere door Lee Cronbach, voor de verleiding om, daar waar het moeilijk is vragen te ontwerpen die doeltreffend zijn, dan maar de vragen te maken die wèl zijn te ontwerpen, maar niet on the mark zijn.

Neem bijvoorbeeld zoiets als toetsen op het begrijpen van een gelezen tekst. Het is makkelijk genoeg om vragen te bedenken die met de boodschap in de tekst iets hebben te maken, maar raakt dat dan het begrijpen van die tekst? Als dat zo zou zijn, dan zou er een hoge mate van consensus moeten bestaan over wat het is om teksten te begrijpen, en zou iedere docent dat uit kunnen leggen. Maar dat blijkt dus niet zo te zijn. Een wetenschappelijke poging om hier greep op te krijgen, is onderzoek van Sternberg en zijn collega’s naar wat het is om tekst te begrijpen, elders al aangehaald.

Het toetsen op natuurkundige kennis lijkt eenvoudig genoeg, maar wat diepergravend onderzoek bevestigt de ervaringen van leraren dat het heel goed mogelijk is voor leerlingen om de kunstjes in de vingers te hebben, zonder goed begrip van de natuurkundige beginselen. Zie ook Hestenes, Wells, and Swackhamer,1992 pdf.

Het ritselt dus in het onderwijs van de compromissen en de handigheidjes, traditioneel gegroeid ook, die niet noodzakelijk valide vragen opleveren.




validity thumbnail

technische bedreigingen van validiteit


Tenslotte kunnen overigens valide vragen nog technische fouten heben: drukfouten, onjuist taalgebruik, onvolledige instructie of voorlichting aan studenten, etcetera.







Nu wordt het menens. Vragen kunnen uiterlijk perfect zijn — glashelder geformuleerd, zonder storende raadkansen, evident over de opgegeven stof gaan — en toch het onderwijs onwaardig zijn. Dat kan heel simpel door allerlei manieren van verkeerd aansluiten: verkeerd ingeschatte moeilijkheid, te veel details en voetnoten, meer toetsen op intelligentie dan op beheersing, wel de feiten maar niet de samenhang, zo abstract vragen dat niet meer zeker is waar het eigenlijk over gaat, enzovoort. Het is niet zeker dat na het weggooien van al dergelijke niet valide vragen de overblijvende dus valide zijn. Een positieve benadering is handiger, maar ook razend moeilijk en een grote uitdaging: zorg er bij het ontwerpen al voor dat de vragen valide zijn, dat wil zeggen dat een goed antwoord het aannemelijk maakt dat de gevraagde kennis er inderdaad is. Wie de toetsliteratuur ook maar een beetje kent, voelt hier een nattigheid: het begrip validiteit is kennelijk een andere dan gebruikelijk, en het begrip kennis, zoals hier gebruikt, roept meer vragen op dan het beantwoordt. Voor beide begrippen is een rotsvaste verankering in de literatuur nodig om er voor het ontwerpen van toetsvragen gebruik van te kunnen maken. Voor het begrip validiteit is het werk van Denny Borsboom (zie beneden) de hoeksteen. Borsboom heeft daarbij sterke veronderstellingen over het bestaan van kennis nodig, maar ik ben ervan overtuigd dat recent werk van Ronald Giere de hoeksteen voor het begrip kennis moet zijn. Het realistische standpunt van Borsboom, realistisch in filosofische zin, ruil ik in voor het perspectivisme van Giere, dat als een belangrijke nuancering van het realisme is op te vatten, een brug slaand naar constructivistische opvattingen, ook deze in filosofische zin, die nu juist van eminent belang zijn in het onderwijs. Onderwijzen, leren, is immers een bij uitstek constructieve activiteit. Of zo lijkt het. Deze paragraaf wordt een ritje in een achtbaan.

Een absolute kwaliteitseis voor een toetsvraag is dat deze valide is: dat een goed antwoord op de vraag laat zien dat de gevraagde kennis aanwezig is. Voor deze absolute validiteit maak ik dankbaar gebruik van het werk van Borsboom, Mellenbergh en van Heerden (2004 pdf) over validiteit, die in deze publicatie ruim afstand nemen van gebruikelijke opvattingen over validiteit. Deze gebruikelijke opvattingen gaan overigens meestal over toetsen in hun geheel, dus niet over individuele toetsvragen. Met goed recht zijn deze gebruikelijke opvattingen daarom opvattingen over geaggregeerde validiteit te noemen, en dat is in ieder geval een ander concept dan dat van validiteit van afzonderlijke vragen.

Ik laat in het volgende in het midden wat precies die ‘kennis’ is, in ieder geval is het niet de enge onderwijskundige opvatting van kennis tegenover of op zijn bestnaast inzicht en toepassing. Kennis in de gewone Nederlandse betekenis van het woord is zowel kennis van feiten, als begrijpen en weten toe te passen, allesomvattend dus.


casus 1.


kennisobject


Een ervaring die de meeste leerlingen of studenten wel eens hebben gehad is die van het plotseling bereiken van een scherp inzicht of van volledige kennis, perfect mastery, van een bepaald onderwerp, meestal na intensieve studie onmiddellijk voorafgaand aan proefwerk of toets. Noel Entwistle heeft onderzoek gedaan naar dat fenomeen, dat hij knowledge objects noemt. ‘Objects : want die kennis ‘staat dan als een huis,’ en de student is zich daar ook scherp van bewust. ‘Objects’ ook omdat het gaat om kennis van objectief bestaande kennis, als je dat zo kunt zeggen: de student heeft volledige greep op een wetenschappelijke theorie, of op de leerstof in het studieboek, etcetera. De kennis is objectief, maar de greep op die kennis is persoonlijk, perspectivisch zou Giere (2006) zeggen.

Mijn eigen ervaring is met analytische meetkunde, waarvan ik de essentie niet begreep, en waarvan ik de stof de dag voor mijn mondelinge eindexamen nog eens intensief had doorgenomen. En ik begreep het! Dat kon niet meer stuk. Dat bleek ook bij het mondeling wel: ik kon met de stof spelen, en incasseerde een tien van de gecommitteerde en mijn leraar.

In de literatuur is een bijzonder verschijnsel beschreven, door Noel Entwistle (1995, questia) knowledge objects genoemd: een tamelijk plotseling, maar wel na diepe studie, ontstaan perfect inzicht in de stof, zie de box hierboven. Dit casus laat fraai zien waar het bij de validiteit van toetsvragen om gaat: de gevraagde kennis moet echt bestaan wil er een goed antwoord op de vragen komen, en als de kennis er echt is komt er zeker een goed antwoord. De perfecte beheersing bij het knowledge object betekent dat de student zelfverzekerd is, en wel zo zelfverzekerd dat een misser in een gestelde vraag ook zo zal worden benoemd, althans dat vermoed ik dat het geval zal zijn.

Het knowledge object verankert in zekere zin wat het ideaal is bij validiteit van toetsvragen. Zijn er voor een bepaald vak vrijwel nooit studenten die met zo'n zelfverzekerde perfecte beheersing examen komen afleggen, dan is de stof voor dat examen mogelijk een rommeltje, of de vragen van dat examen zijn het, of beide. Een voorbeeld waarbij de vragen verdacht zijn is het volgende.

Citotoets signaleert geen knowledge objects.


“In 2008 behaalden de leerlingen gemiddeld een standaardscore van 535,4. (...) In totaal hebben drie kinderen alle 200 opgaven op het gebied van Taal, Rekenen-Wiskunde en Studievaardigheden goed beantwoord. Acht kinderen hebben slechts één fout gemaakt in de toets.”

Het gaat dan over circa 140.000 leerlingen waarvan de gegevens op 20-2 waren geanalyseerd.

Terugblik en resultaten 2008 Eindtoets Basisonderwijs. Cito, 29 februari 2008 http://www.cito.nl/po/lovs/eb/eb_actueel/Cito_EB08_Terugblik.pdf [dode link? 1-2009]

De Citotoets aan het eind van het basisonderwijs heeft van de 140.000 deelnemende leerlingen maar drie perfecte scores, en acht bijna perfecte. Het is voor de leerlingen die de basisschoolstof perfect beheersen, en dat moeten er echt heel veel van die 140.000 zijn, dus niet mogelijk om die perfecte beheersing terug te zien in hun score op de Citotoets. Er is met het ontwerp van de Citotoets in dit opzicht dus echt iets aan de hand dat nader onderzoek nodig maakt. Deze leerlingen met perfecte beheersing kunnen wel tegen een stootje, het is niet zielig of zo, maar het ontbreken van echt hoge scores is een aanwijzing dat de toets onnodig moeilijk en daarom onnodig kwellend is voor grote groepen deelnemende leerlingen. In termen van validiteit van individuele vragen van de Citotoets: het is onwaarschijnlijk dat deze allemaal valide zijn in de betekenis daaraan gegeven in deze paragraaf.

Wie wat wil experimenteren met hoe het gaat met 140.000 leerlingen die een toets van 200 vragen maken, zodanig dat de hoogst scorenden het minimale aantal aan de top van de verdeling zijn, met bovendien scores die precies de top aanraken, kan gebruik maken van een Java-applet dat ik voor dit soort doel heb ontwikkeld (hier, vul bij ‘runs’ 140.000 in, bij ‘items’ 200, 199 voor ‘cutoff', en 0,94 voor ‘mastery'. Als 140.000 studenten mastery 94% hebben dan scoren 6 van de 100.000 199 of 200. Minder simplistische analyses zijn mogelijk met applet 3 hier, waar de beheersing van de leerlingen een betaverdeling kan worden gegeven in plaats van een puntwaarde zoals in applet 1).


Een kennisobject is niet letterlijk iets dat in de hersenen is opgeborgen. Het voorbeeld van perfecte beheersing van analytische meetkunde suggereert dat wel, maar dat komt vooral omdat ons onderwijs traditioneel zo enghartig op het individueel kennen van van alles en nog wat is gericht. ‘Analytische meetkunde’ is wat Giere (2006) een abstract model zou noemen, iets dat in abstracte vorm werkelijk bestaat en in beginsel voor iedereen toegankelijk is, maar wat beter voor wie ‘het’ beter beheerst. Hersenen en kennis hebben zeker veel met elkaar te maken, maar voor het (re)produceren van kennis is meestal ondersteuning in de buitenwereld nodig. Zoals twee grote getallen met elkaar vermenigvuldigen: daarvoor is ook papier en potlood nodig, een rekenmachine, of een telraam. Improviserende muziek maken in een trio, daar is wel een trio voor nodig. Dit thema komt straks nog uitvoeriger terug, in feite loopt deze paragraaf enigszins vooruit op het behandelde in hoofdstuk 3.

Kennis van de wereld is perspectivisch, is een relatie met de wereld, is dus niet iets dat binnen de hersenen plaatsvindt. Giere (2006, hoofdstuk 6).


De inzichtelijke sprongen die musici in een masterclass kunnen maken horen mogelijk ook tot deze familie van kennisobjecten. Een bekend voorbeeld zijn de masterclasses door Isaac Stern in China, met heel jonge violisten. Ieder nieuw optreden is een valide toets op deze nieuwe inzichten van de jonge musici.

Murray Lerner filmde de documentaire From Mao to Mozart: Isaac Stern in China. Een fragment hieruit is vertoond in VPRO’s Zomergasten hier


casus 2.


perfect valide: toetsen in psychologisch onderzoek


Een hoog smal glas en een laag breed glas bevatten ieder evenveel kralen. Vraag een jong kind welk glas de meeste kralen bevat.

Heel jonge kinderen zeggen nog dat het hoge glas ‘meer’ kralen heeft. Dit is een toets, een experiment, om na te gaan of het kind al een getalbegrip — number conservation — heeft dat een goed antwoord mogelijk maakt.


Jean Piaget heeft talloze proefjes van bovenstaand type gedaan om de ontwikkeling van het denken van kinderen te bestuderen. Het zijn proefjes die binnen zijn theorie valide zijn. Maar ja, theorieën zijn altijd door betere te vervangen. Het is dan ook boeiend te zien hoe bijvoorbeeld Sfard en Lavie (2005 pdf) hetzelfde type proef doen en de resultaten een heel andere theoretische duiding geven. Wie de proefjes van Sfard en Lavie ziet als toetsvragen, kan er veel uit leren over hoe valide toetsvragen te ontwerpen, en dan vooral over de innige samenhang tussen vragen zoals gesteld, antwoorden zoals gekregen, en hoe die relatie valide te duiden. Eenvoudig lijkende proefjes blijken helemaal niet zo eenvoudig te duiden, dat leert ons nederigheid waar het gaat om de validiteit die we voor onze ontworpen toetsvragen claimen. Kennis blijkt niet iets in de hoofden van deze kinderen te zijn, maar een een kwestie van adequaat communiceren, een sociale activiteit zoals deze auteurs zeggen. Die communicatie heeft voor volwassenen sterke vanzelfsprekende trekken waardoor we ons wijs laten maken dat kennis iets objectiefs is en in hoofden huist. Leraren zijn volwassenen, hun onbewaakte opvattingen over wat kennis is, en wat vragen naar kennis is, kunnen validiteit van hun vragen in de weg staan, evenals de kwaliteit van hun onderwijs.

Anna Sfard and Irit Lavie (2005). Why cannot children see as the same what grown-ups cannot see as different? — Early numerical thinking revisited. Cognition and Instruction, 23, 237-309. pdf

In het algemeen geldt dat in de experimentele psychologische literatuur royaal voorbeelden van perfect valide ‘toetsopgaven’ te vinden zijn. Dat ligt voor de hand: zonder valide opgaven geen valide experiment. Waarom niet ook: alleen goed onderwijs met valide toetsvragen? De metafoor van het meten in een wetenschappelijk experiment biedt houvast. Uit de theorie volgt een bepaalde stand van zaken die onder bepaalde condities zal optreden. Het optreden van die stand van zaken moet valide worden vastgesteld: manifestatie van de voorspelde meetresultaten als veroorzaakt door de stand van zaken, niet door enige andere gebeurtenis. Het instrumentarium om die meting te verrichten is de kern, maar tal van voorwaarden moeten procedureel gewaarborgd zijn. Beschouw het gegeven onderwijs als een experimentele behandeling. Jaarlijks herhalen van het experiment met nieuwe leerlingen maakt het alleen maar sterker. Hoe sterker de theorie over wat de resultaten van het onderwijs — als toegevoegde waarde — moeten zijn, des te sterker een valide vaststelling daarvan kan zijn.


casus 3.


perfect valide: rekenfeitjes

2   +   4   =   ........

3   ×   2   =   ........

Hoeveel is vijf plus acht?     ........

        7
        3
      —   ×
  ........  

De box toont optellen en vermenigvuldigen van getallen onder de tien, als feiten te leren en beschikbaar te hebben. Voorwaarde is dat de leerlingen hebben begrepen wat optellen en vermenigvuldigen voor deze kleine getallen is. De aanbiedingsvorm mag variëren, er zijn veel computerspellen die dit oefenen. Er is een sterke theorie in cognitieve psychologie en neuropsychologie beschikbaar — bijvoorbeeld Lebiere (1998 pfd) — en er is uit onderzoek naar dyscalculie veel over bekend. Let op: deze rekenfeiten worden mee-geoefend en mee-getoetst in alle opgaven met getallen groter dan negen, waardoor een al verkregen vaardigheid in rekenfeiten op peil blijft of verbetert. Natuurlijk is het mogelijk op zich valide vragen verkeerd of misplaatst te gebruiken, dat maakt ze alsnog niet valide.

Toch is er ook bij de eenvoudige opgaven in bovenstaande box mogelijk meer aan de hand dan alleen de wiskunde suggereert. De rekenkundige bewerkingen zelf zijn allesbehalve eenvoudig, en de leerling moet de procedure — de algoritmen — goed begrijpen voordat het mogelijk is om deze eenvoudige rekenkundige bewerkingen op ‘objectniveau’ te doen, dus geautomatiseerd. Tussen het leren van het algoritme en het kunnen spelen met deze eenvoudige rekenkundige feiten ligt een lange leerweg. En dat geldt in het algemeen voor het vak rekenen en wiskunde. Er is goede theorie nodig, zie bijvoorbeeld Sfard (1991), om dan greep te krijgen op de validiteit van te ontwerpen opgaven. Nee, die goede theorie is zelf geen wiskunde, maar een psychologische theorie over het leren van wiskunde, en dat is een onderscheid waar Hans Freudenthal mee heeft geworsteld.


En betrouwbaarheid dan?


“Practical thermometry achieved a good deal of reliability and precision before people could say with any confidence what it was that thermometers measured.”

Hasok Chang (2004). Inventing temperature. Measurement and scientific progress. Oxford University Press. p. 160

In de literatuur vormt het begrip validiteit een vast koppel met het begrip betrouwbaarheid. De bedoelde literatuur is die over toetsen en testen. Wie niets heeft met betrouwbaarheid, kan deze paragraaf overslaan. Is het een boeiend thema, dan? Een casus kan dat verduidelijken.

De hitlijst van Cambridge’s Mathematical Tripos: op hol geslagen betrouwbaarheid

“In order to do creditably on the Tripos, one needed to engage a coach, who would both teach the material which was likely to be tested and train the students in examination strategies. Often the latter concern seemed to overshadow the former, and the twists and turns of the Tripos, as opposed to relevant mathematics, became the focus of the students’ attention. (...) This problem was exacerbated by the way the examination was marked. The results of the examination, which could be critically important to a student’s future, were grouped into three major categories — Wrangler, First Class and Second Class — and students were rank listed within each category. The necessity of making distinctions among students which would be precise and fine enough to rank each of them individually meant that the examination was full of picky details, trick questions and memorized proofs. Thus students had to devote considerable time to exploring the obscure nooks and crannies of mathematical detail in order to prepare themselves for the Tripos competition. Furthermore, the examination contained more problems than anyone could possibly finish in the time allotted. This design was intended to give students choice. However, in practice, it meant that for the good students, the speed with which they wrote became a major factor determining how well they placed. For this group, the examination could be as much a handwriting race as a test of learning. It is little wonder that many who learned mathematics within this system complained bitterly about it afterwards.”

Joan L. Richards (1988). Mathematical visions. The pursuit of geometry in Victorian England.. Academic Press. p. 233.

De prestatie op het Mathematical Tripos examen was in de 19e eeuw in hoge mate bepalend voor de verdere loopbaan van de serieuze Cambridge student, en dat was maar zelden een loopbaan in de wiskunde. De geleverde prestatie was de plaats in de rangorde. Iedereen moest daarom de overtuiging hebben dat die rangorde stond als een huis, en dat overstemde luid en duidelijk alles wat met de inhoud van dat examen te maken had. Een uit de hand gelopen obsessie met betrouwbaarheid dus, maar het bleek gedurende meer dan een eeuw niet mogelijk om een eind aan de wantoestand te maken. Pas in 1907 kwam er in de plaats van de hitlijst een uitslag in groepen, in cijfers dus, waarmee de meest ergerlijke van de eeuwenoude uitwassen ook konden verdwijnen.

De basale betekenis van betrouwbaarheid is: de mate waarin replicaties van een meting, proef of de productie met elkaar overeenstemmen. Zo is er in de 19e eeuw een euforische obsessie met de nauwkeurigheid van standaarden en dus van natuurkundige metingen (Wise, 1995), want het kan altijd nauwkeuriger. Psychologen wilden graag in de euforie delen, maar helaas hebben zij zich laten verleiden tot een verschuiving en verenging in de betekenis van betrouwbaarheid: de mate waarin een rangorde van meetresultaten bij replicatie in stand blijft. U voelt hem al aankomen: de rangorde is die van leerlingen naar hun score op de betreffende toets. Wie betrouwbaarheid op zo'n kromme manier opvat, moet dat ook met validiteit doen. Natuurlijk, er kunnen situaties zijn waarin dat een adequate benadering kan zijn, bijvoorbeeld bij vergelijkende selectie omdat daar die rangorde van belang is. Maar onderwijs gaat niet over rangordenen van leerlingen, hoewel dat rangordenen vaak een consequentie is die de samenleving trekt uit verschillen in onderwijsprestaties. Ergo, bij een heldere visie op validiteit van toetsvragen, is er geen enorme behoefte aan daarnaast ook nog een begrip betrouwbaarheid.

Wie hierin niet meteen mee wil gaan, kan het volgende bedenken. Een valide toets op beheersing maakt onderscheid tussen verschillen in beheersing, in het bijzonder ook onderscheid tussen degenen die het betreffende onderwijs hebben gevolgd, en een controlegroep die dat onderwijs niet heeft gevolgd. Een onafhankelijke replicatie van deze toetssituatie zou een vergelijkbaar verschil tussen onderwijs- en controlegroep moeten laten zien, en dan is het zinvol te spreken over betrouwbaarheid van de eerste toets en/of zijn replicatie. Het is merkwaardig dat in de psychometrische literatuur die controle-conditie zelden figureert, zodat de dubbelzinnige situatie overblijft dat alleen verschillen binnen de onderwijsgroep voor analyse beschikbaar zijn: de psychometricus probeert zich aan de eigen haren uit dit moeras te trekken. Dat is bijvoorbeeld te zien aan de koddige stelling dat een toets die geen betrouwbare verschillen [binnen de onderwijsgroep] oplevert, van nul en generlei waarde is. U kunt het tegenvoorbeeld nu zelf wel bedenken (zie Borsboom, Mellenbergh en Van Heerden, 2004, p. 1066 over variabiliteit; zij draaien de versleten stelling dat betrouwbaarheid een voorwaarde voor validiteit is 180 graden om: zonder validiteit heeft het geen zin om over betrouwbaarheid te spreken).


Wie graag wat wil rekenen of simuleren, kan het SPA_model html gebruiken: gegeven de ware beheersing van een student, dan is de voorspellende verdeling voor de score op de af te leggen toets een binomiaalverdeling. De verschillen die volgen uit de mogelijke scores voor die binomiaalverdeling, zijn strikt toevallige verschillen voortvloeiend uit de specifieke steekproef van toetsvragen. Wie enig onderwijs in steekproeftrekken heeft genoten, kan het vervolg nu wel aanvullen: niet toevallig en dus ‘betrouwbaar’ is de verwachte waarde voor de score op de toets, strikt toevallig, en dus onbetrouwbaar, zijn de verschillen tussen waargenomen scores en deze verwachte waarde. De onbetrouwbaarheid in de laatste betekenis is kleiner bij grotere steekproeven; dit is waar statistici hun discipline ooit een vliegende start mee hebben gegeven.

Let op dat in het bovenstaande twee soorten bronnen voor onnauwkeurigheid stilzwijgend zijn samengenomen: a) allerlei onbedoelde invloeden in de categorie van leesfouten en herrie tijdens de toets die uitkomsten minder betrouwbaar maken, en b) de trekking van de in de toets op te nemen vragen uit een domein van valide toetsvragen waardoor de ene leerling pech, de andere misschien geluk heeft.

Die laatste bron van toevalligheden wil ik niet graag als bron van onbetrouwbaarheid aanmerken: er is niets onbetrouwbaars in deze methode van samenstellen van een toets. Natuurlijk, bij een klein aantal vragen kan de uitkomst makkelijk over een groot deel van de hele uitkomstenschaal vallen, en als dat bezwaarlijk is — wat het voor examens zeker is — moet het aantal vragen veel groter zijn (niet noodzakelijk altijd voor alle deelnemers, maar dat is een kwestie van techniek). Het is moeilijk te begrijpen dat steekproefverschillen geen fouten zijn, omdat we geneigd zijn — en ons altijd geleerd is — dat toetsen iets meten, en voor ons het prototypische meetinstrument het meetlint is: daar komt geen steekproeftrekken aan te pas, iedere meting is exact, op afleesfouten etcetera na. Welnu, in de sociale wetenschappen is meten van een andere orde van complexiteit dan in de exacte wetenschappen veelal (maar zeker niet altijd) het geval is.

En dan is er nog zoiets als raden dat een onnodig grote rol kan spelen bij keuzevragen, maar ook bij andere typen vragen natuurlijk een rol mee kan spelen.

Dat brengt het aantal te onderscheiden bronnen van variabiliteit in de scores op toetsen of toetsvragen op drie: 1. steekproeftrekken, 2. fouten van allerlei slag, 3. raden. En zo leg ik onbedoeld toch weer heel veel uit dat minder met het ontwerp van afzonderlijke toetsvragen heeft te maken, als met dat van de toets in zijn geheel. Op de een of andere manier ontkom ik daar niet aan, om het begrip betrouwbaarheid een beetje af te bakenen, smoel te geven. Kortom, veel van wat in de toetsliteratuur onbetrouwbaar heet te zijn, heeft te maken met gewoon valide steekproeffluctuaties. Iets anders is dat men zich een genomen steekproef groter kan wensen: stel dan de volgende keer meer vragen. Voor de wiskundige beschrijving, en handige instrumentjes om situaties door te rekenen, zie het SPA-model hier, of een oudere presentatie uit 1998 html.

Ronduit gevaarlijk en onprofessioneel is de vaak gegeven aanbeveling om toetsvragen die niet bijdragen aan de klassieke betrouwbaarheid van de toets, om die reden te vervangen door andere vragen, of ze achteraf buiten beschouwing te laten. Niet doen, als de vraag valide is en er geen wonderlijke drukfouten etcetera zijn te bekennen, dan is het een valide vraag en dat is het. Borsboom, Mellenbergh en Van Heerden (2004, p. 1067, optimaliseren van voorspellende waarde) waarschuwen dat toch vervangen van deze vragen de validiteit van de toets in gevaar brengt. NB: validiteit op het niveau van de toets is niet noodzakelijk hetzelfde als validiteit van de betreffende afzonderlijke toetsvragen; de validiteit van de toetsvraag is zeker niet gedefinieerd als wat de vraag bijdraagt aan validiteit van de toets of van de beslissingen op basis van de toets — de validiteit zoals die in Richtlijnen en Standards is besproken. Moet ik hier nog aan toevoegen dat het ook beter is de goedbedoelde raad te streven naar een moeilijkheid van 0,7 voor toetsvragen geheel te negeren? Ja, dat moet ik toevoegen. Die moeilijkheid is ook weer beperkt tot de groep voor wie de toets is bedoeld, geen controlegroep te bekennen .... . Vergeet dat streven liever.


Een goed uitgangspunt lijkt nu te zijn om een enkele ontworpen toetsvraag op zijn validiteit te onderzoeken, analytisch of experimenteel of hoe dan ook, gerefereerd aan de inhoud van de vraag zowel als aan het doel van het betreffende vak, maar ook gerefereerd aan de doelgroep van leerlingen. Hun wereldkennis en taalbeheersing mogen doorgaans niet van invloed zijn op het kunnen beantwoorden van de vraag, tekorten daarin zouden de validiteit van de vraag aantasten. Een eventuele tekortschietende voorbereiding mag dat doorgaans wel, want dat is immers de vraag die bij iedere beoordeling aan de orde is: is de voorbereiding adequaat geweest, en zo nee wat is dan de vervolgactie? Dit is een bruggetje naar de opmerking dat toetsvragen tekortschieten in validiteit wanneer op foute antwoorden geen adequate actie volgt. Met andere woorden: de validiteit van de toetsvraag is niet begrensd tot de vraag zelf, maar is inclusief het didactisch handelen contingent op het niet goed beantwoorden van de vraag. Wat betekent dat het wenselijk is, zo niet essentieel, dat de beoordelaar altijd actie neemt op foute antwoorden, nimmer volstaat met foute antwoorden alleen maar te turven en het resultaat in een leerlingvolgsysteem in te voeren, or whatever. Ik vermoed dat veldonderzoek uitwijst dat veel docenten in de praktijk slechts incidenteel achter foute antwoorden proberen te kijken naar mogelijke oorzaken daarvan, en slechts zelden met de individuele leerling naar een adequate remedie zoeken. Een gevolgtrekking voor het ontwerpen van toetsvragen lijkt dan te zijn, en ook dat moet ik verder onderzoeken, dat het wenselijk is in het ontwerp ruimte te maken voor waarom-vragen: waarom is het gegeven antwoord het goede antwoord? Bij open vragen is dat natuurlijk minder een probleem dan bij keuzevragen.
Overigens is deze didactische benadering ook toepasbaar op toetsen in zijn geheel, zie een pleidooi daarvoor in mijn (1991 html) over huiswerkbeleid, een pleidooi van een ouder voor een eenvoudige vorm van kwaliteitsbewaking van het beoordelingsproces zoals dat uiteindelijk leidt tot overgangsbeslissingen.

Is een keuzevraag waarop de leerling moet raden wanneer hij of zij de vraag niet kan beantwoorden een valide vraag? Dat lijkt me niet, en dat is ook zo'n stelling die ik graag precies zou willen uitwerken.


In al die gevallen waarin er gerede twijfel is over de wijze waarop antwoorden op een bepaalde vraag tot stand komen, is validiteit in het geding. Ongeveer zoals begin 17e eeuw er problemen waren om de toen nieuwe telescoop in te zetten voor het doen van astronomische waarnemingen, omdat er tal van onbegrepen problemen waren over de breking van het licht. Men kon er dus niet zeker van zijn, om het in moderne termen te zeggen, dat de verwachte waarden van telescopische waarnemingen overeen zouden komen met die gedaan met instrumenten voor het blote oog. Een onbekende afwijking is een validiteitsprobleem. Inderdaad: hier gaat het validiteitsprobleem vooraf aan kwesties over de grootte van toevallige fouten in de waarneming, de betrouwbaarheid.

 



3. Leerstofinventarisatie




Het voorgaande hoofdstuk behandelde verschillende vraagsoorten, enkele algemene ontwerpregels, en het nut van vraagvormen. Maar nog niets over het inhoudelijk ontwerp van vragen. Voor dat inhoudelijk ontwerpen is een degelijke voorbereiding nodig in de vorm van een inventarisatie van de leerstof, in samenhang met de overwegingen van validiteit in paragraaf 2.6. Deze inventarisatie moet de ontwerper een stevige leidraad leveren, het is meer dan het halve werk.

  De vertrouwde wijze van inventariseren is die via het opstellen van onderwijsdoelen, wat studenten moeten weten en kunnen. Dit boek kiest een andere invalshoek, het schematiseren van wat er, gezien de stof, valt te weten en kunnen. Dat is een subtiel verschil, maar voor het ontwerpen maakt het een wereld van verschil: het hoort vrijwel altijd te gaan om onderling verbonden kennis, dus hoe kennis onderling is verbonden. Onderwijsdoelen zijn meestal vaag omdat ze grote stappen, snel thuis, de stof indelen, en in het midden laten hoe die onderwerpen met elkaar verbonden raken. Het alternatief is een benad ering die bescheidener is, dichter blijft bij de leerstof zelf, en minder psychologiseert over wat beheersen van de stof precies is in termen van kennis, begrip, of toepassen van A, B en C.

Leerstof beschrijft de inhoud van een bepaald vak of van een specifiek onderdeel daarvan, en doet dat noodzakelijk in taal. Het gaat altijd over personen, dingen of verschijnselen, in bepaalde onderlinge relaties. Voor het volgende is het handig om te veronderstellen dat het vak een wetenschap is, omdat de kennis die een wetenschap vormt—wiskunde, psychologie, informatica, Frans —goed beschreven is. Een bepaald boek of hoofdstuk is een samenvatting of een uitsnede van die kennis. Ook voor het basisonderwijs is dit beeld te hanteren.

data reading


Galileo is een sleutelfiguur in de Westerse culturele geschiedenis. In plaats van te filosoferen over de wereld, ging hij onderzoeken hoe de dingen in de wereld gaan. Zo waren er tal van ideeën over hoe dingen vallen, bijvoorbeeld dat zware dingen sneller vallen dan lichte (Aristoteles). Galileo experimenteert dan met koperen bollen die hij van een schuine baan laat rollen, waarbij hij de afstanden bepaalt die zo'n kogel na gelijke tijdsintervallen heeft afgelegd. En laat zien dat Aristoteles beter wat had kunnen experimenteren, in plaats van te bedenken hoe dingen vallen: Aristoteles had het verkeerd.

Stillman Drake (1990) Galileo: Pioneer scientist. University of Toronto Press. (p. 9)

Niet alle leerstof is stof. Galileo nam afstand van bestaande theorieën, om te onderzoeken hoe dingen in de wereld zich verhouden. Het werk van Deanna Kuhn (2005) gaat over dergelijk onderzoek, maar dan door leerlingen in het basis- en voortgezet onderwijs. Leerlingen in het basis- en voortgezet onderwijs kunnen dat ook, op hun eigen niveau. In een experimenteel programma (Kuhn en Pease, 2008 pdf) waarin leerlingen vaardigheid opdoen in het onderzoeken van oorzakelijke samenhangen, is gespiegeld terug te vinden wat Galileo deed: de scholieren moeten leren niet vanuit hun oude kennis naar de wereld te kijken, maar de wereld de gelegenheid te geven de samenhangen te laten zien: data reading (p. 516). Onbevangen onderzoekvragen stellen en de uitkomsten analyseren. Een voorbeeld is eenvoudig onderzoek dat leerlingen in groep vijf kunnen doen over eventuele samenhang tussen, onder andere, conditie van de bodem en aanwezigheid van slangen met de kans op een aardbeving. Het is verdraaid lastig om keurig alle variabelen constant te houden, behalve de ene waarvan je het effect wilt weten, en dan na te gaan of twee verschillende bodemcondities verschil maken in de kans op een aardbeving.

Het punt is dat op deze manier onderzoek doen niet iets is dat snel even uit een boekje is te leren en in een reeks opgaven is te oefenen. In die zin is het geen leerstof, maar het is wel een belangrijk inzicht dat de leerlingen zich met moeite verwerven. Galileiaans. Dit staat dan in contrast met wat overigens in het onderwijs gebruikelijk is: er is kennis of theorie die leerlingen zich op de een of andere wijze eigen moeten maken. Bijvoorbeeld een theorie over intelligentie.


schema verknooptheid

Figuur 1. Schema van vaktermen rond het begrip intelligentie. Gemaakt met vrij beschikbaar CmapTools, software om kennisstructuren af te beelden http://cmap.ihmc.us/.


Drie soorten begrippen spelen rollen in bijna iedere wetenschap, evenals trouwens in het dagelijks leven: waarneembare, abstracte en theoretische. Overigens zijn deze categorieën niet scherp van elkaar te onderscheiden. Figuur 1 laat zien hoe onze kennis over intelligentie—dat zelf een theoretisch begrip is—daarmee inhoudelijk gestructureerd is weer te geven, en dat daarin de verschillende soorten begrippen een betekenisvolle relatie tot elkaar hebben. Zowel in het onderwijs zelf als bij het toetsen spelen deze begrippen een eigen rol. Men zou nu kunnen zeggen dat het onderwijs bedoelt de student met deze wetenschappelijke terminologie op adequate wijze te leren omgaan, waaronder ook begrepen is het verkrijgen van een overzicht hoe deze begrippen onderling gerelateerd zijn. Het gaat op een veelbetekenende manier in het onderwijs altijd om het adequaat leren hanteren van de terminologie van het vak, waarvan de vaktermen voor de begrippen een belangrijk onderdeel zijn. Welke rijke werelden aan inzicht en kennis achter die taligheid liggen is altijd een tikje speculatief, en alleen met nog meer taal duidelijk te krijgen.

Dit hoofdstuk geeft ook aandacht aan het definiëren van begrippen. In het onderwijs spelen definities vaak een hoofdrol, definities die helaas ook op minder handige wijze in toetsen opduiken. De begrippen en vaktermen van het vak laten verschillende soorten definities toe, maar pas op, er zijn belangrijke begrippen zoals ‘massa’ in de natuurkunde en ‘intelligentie’ in de psychologie die zich niet in strikte zin laten definiëren.

Er ontbreekt iets in het bovenstaande schema: de symbolische weergave. Natuurlijk, de vaktermen zelf zijn ook symbolisch, maar naast de namen van begrippen en verschijnselen hebben de meeste wetenschappen krachtige symbolische representaties ontwikkeld. Het hoofdstuk van Kozma (2000 pdf) was de directe aanleiding voor deze uitbreiding, die er ook zonder Kozma noodzakelijk aan zat te komen.


“Lavoisier combineerde de kennis om scheikundige stoffen te scheiden met een nieuwe manier om ze te representeren*mdash;een nieuw stelsel van namen en symbolen—zodat er een omwenteling kwam in het scheikundig denken door de aandacht tevestigen op de onwaarneembare samenstelling van stoffen uit hun elementen. Door nieuwe voorstellingsvormen te scheppen, bevorderde Lavoisier de groei van het scheikundige vak van een wetenschap van stoffen tot die van een moderne wetenschap van moleculaire samenstelling en structuur. ”

vertaald uit Kozma (2000, pdfp. 13)

Kozma is in laboratoria gaan waarnemen hoe onderzoekers met die symbolische representaties in de weer zijn om hun empirische resultaten te duiden, bijvoorbeeld. Ook is onderzocht op welke manier studenten—novices—anders met die symbolische representaties omgaan dan experts doen. Want anders is het, en dat is van eminent belang voor de didactiek, en daarmee ook voor de ontwerper van toetsvragen.


&ldquo'(...) het begrip van de beginneling lijkt ingeperkt door de oppervlakkige kenmerken van symbolische systemen en symbolische uitdrukkingen om wetenschap uit te leggen. Ongelukkigerwijs is er weinig of niets in de oppervlakkige verschijningsvorm van de symboliek dat correspondeert met onderliggende scheikundige begrippen. Studenten missen ook de verklarende vermogens om de verbindingen te kunnen maken tussen de symbolen en deze scheikundige abstracties. Met als gevolg dat wetenschappelijke symbolen studenten vaak niet helpen om scheikunde te begrijpen, dat begrip zelfs vaak in de weg staan. ” (...)

“... leerlingen scheikunde in high school werden ondervraagd over de betekenis van scheikundige vergelijkingen. Hoewel zij in staat waren om scheikundige vergelijkingen te balanceren, begrepen de meeste leerlingen maar weinig van de scheikundige betekenis van deze symbolen. Zij waren niet in staat om onderscheid te maken tussen subscripten en coëfficiënten in de scheikundige vergelijking N2 + 3H2 —> 2NH3, en stelden 3H2 voor als zes verbonden punten, in plaats van als 3 diatomische paren.” (....)

“... leerlingen kunnen weliswaar goed werken met scheikundige symbolen, maar behandelen deze vaak als wiskundige puzzels zonder enig begrip van de scheikunde waar deze symbolen mee hebben te maken.”

vertaald uit Kozma (2000, pdf p. 17, 18)

De problemen met scheikundige formules zijn een voorbeeld van een algemeen probleem dat zich bijvoorbeeld ook sterk in het onderwijs in de natuurkunde voordoet. Er is dus een rijke klasse van geldige toetsvragen over het begrijpen van symbolische representaties. Het belang van deze klasse van vragen is moeilijk te overschatten, en dat zit hem ook hierin, dat niet alle docenten beseffen dat er überhaupt een probleem is dat dus (ook) bij het toetsen aan de orde zou moeten zijn.

De toon is gezet, dit onderwerp zal nog uitvoerig en herhaaldelijk terugkomen, in tal van varianten.

Het komt niet als een verrassing dat het leren hanteren van symbolische representaties samengaat met groeiend begrip van de onderliggende abstracties. Een mooi en toegankelijk voorbeeld is te vinden in onderzoek naar de ontwikkeling van het getalbegrip bij jonge kinderen, en van het begrip van hoe die getallen te schrijven. Wiskunde is de ultieme vorm van symbolisch representeren, kinderen maken daarmee kennis bij het leren van algebra, en zij zijn al op jonge leeftijd in staat om met algebraïsche representaties te werken. Ligt hier de sleutel voor het werkelijk voor iedereen toegankelijk maken van wiskunde? De strijd van kinderen om zich het getalbegrip te verwerven—een constructief proces—heeft raakpunten met wat zich historisch heeft afgespeeld in de geschiedenis van de wiskunde. Belangrijke stappen voorwaarts gingen samen met doorbraken in de notatie, zoals het gebruiken van de 0 als plaatshouder, in Europa de overgang op arabische cijfers. Dit geldt algemeen voor de ontwikkelingen in de wetenschap, zie bijvoorbeeld Kozma (2000 pdf) of bijna ieder willekeurig boek over inhoudelijke wetenschapsgeschiedenis. Een aardig onderwerp uit die geschiedenis, dat in volgende hoofdstukken terugkomt, is het leren onderscheiden van twee betekenissen van warmte: intensiteit (temperatuur) en hoeveelheid (warmte). De symbolische representaties in dit onderzoek zijn vooral de uitkomsten van experimenten en metingen. In paragraaf 2.6 was al aan de orde dat hier de geldigheid van (de interpretatie van) uitkomsten aan de orde is. Welnu, de dagelijkse wereld confronteert ons voortdurend met symbolische representaties in deze categorie: dna-profielen, hartfilmpjes, foto’s van gebeurtenissen in het heelal, of foto’s van atomen binnen een molecuul (IBM is daarin geslaagd in 2009). Wat hier nog ‘foto’ heet is absoluut 100% misleiding, want deze beelden zijn op uiterst complexe manier geconstrueerd uit modellen en zwakke signalen.


En zo blijkt een verkenning naar de aard van kennis—en dus ook van leerstof en toetsen daarop—meteen te leiden tot tamelijk fundamentele kwesties over de wereld en kennis van die wereld. In de filosofenoorlog tussen realisten en constructivisten staat zelfs het bestaan van die wereld ter discussie, althans van de wereld die niet zonder theorie en geavanceerde instrumenten voor ons waarneembaar is. De ontwerper van toetsvragen kan daar op verschillende manieren mee omgaan, bijvoorbeeld ontwijkend door de positie te kiezen dat het volstaat om te weten hoe wetenschappers met elkaar spreken over die aspecten van de wereld die zij onderzoeken of beschrijven. Uiteindelijk is dat misschien niet voldoende, en is het beter een consistent standpunt in te nemen. Een uitstekende kandidaat daarvoor is het wetenschappelijk perspectivisme van Ronald Giere (2006), dat op een overtuigende manier het sop van de realisten en de kool van de constructivisten spaart in een middenpositie. Hetzelfde werkelijk bestaande ding wordt door verschillende beschouwers noodzakelijkerwijs in iets verschillend perspectief gezien, dat is zo'n beetje de metafoor, omdat hun posities nooit precies hetzelfde zijn. In zijn boek werkt hij dat uit aan de hand van het voorbeeld van het zien van kleuren: die kleuren bestaan niet werkelijk, al ligt er een werkelijk bestaand fenomeen aan ten grondslag—verschillen in golflengte—, maar wij hebben op heel jonge leeftijd geleerd kleuren te onderscheiden en benoemen. Culturele verschillen in het kunnen onderscheiden van kleuren kunnen belangrijk zijn. Bij Giere is het waarnemen in deze zin perspectivisch, we hebben geleerd hoe te zien, en instrumenten te maken die het mogelijk maken aspecten van de wereld te zien die anders verborgen zouden blijven. Dit zijn zaken die van belang zijn bij het ontwerpen van onderwijs: de ‘wereld’ openbaart zich niet vanzelfsprekend en onproblematisch aan de goede toeschouwer of de slimme leerling, het kost strijd om de wereld in een cultureel aanvaard perspectief te leren zien. Interessant is dat Giere consequent ook onze theoretische activiteiten als perspectivisch ziet, theoretiseren is een zienswijze op de wereld, zodat theoretische begrippen niet categorisch van een andere orde zijn dan wat direct of indirect waarneembaar is.


Wetenschappelijke terminologie. Of de student nu natuurkunde, geneeskunde, sociologie of rechten studeert, zij moet zich de terminologie van dat vakgebied eigen maken. Niet alleen de betekenis van zijn vaktermen, maar ook hoe over de problemen in dat vakgebied te spreken in de taal van dat vakgebied. Neem de voor de toets opgegeven stof en inventariseer de nieuwe vaktermen en begrippen, en ook de al bekende begrippen die een verdiepte betekenis krijgen. Bij studieboeken met een goede index zijn die vaktermen daar bijna alle in terug te vinden. Dekt zo'n opsomming van vaktermen de hele leerstof? Ja en nee. Nee, omdat ook de onderlinge relaties tussen de begrippen een hoofdrol spelen, en die relaties niet altijd een eigen naam krijgen. Ook nee, omdat die vaktermen vaak de—abstracte—naambordjes zijn, waarachter werelden van—concrete—betekenis kunnen liggen. Ja, omdat op deze wijze de opsomming van vaktermen—en hun relaties—de hele stof representeert. Met een goede lijst van vaktermen of begrippen en hun relaties heeft de ontwerper de zekerheid de hele stof te bestrijken.
Het is handig de lijst van begrippen te ordenen, zowel naar hun onderlinge relaties—door te schematiseren—als naar onderscheiden soorten van begrippen. De volgende paragrafen verdelen begrippen in drie soorten: (indirect) waarneembare, abstracte en theoretische begrippen. Globaal gesproken past bij waarneembare begrippen een ander slag toetsvragen dan bij theoretische begrippen, voor de ontwerper is het goed zich van dat onderscheid bewust te zijn.




3.1 (Indirect) waarneembare zaken (begrippen)


In de wetenschap spelen waarneembare verschijnselen een belangrijke rol. Ook bij abstracte wetenschappen is dat wel het geval, al was het slechts omdat het onderwijs vaak vanuit concrete dingen de basis-abstracties—zoals van het rekenen—opbouwt. Bij toegepaste wetenschappen is de wereld van vlees en bloed, van glas en beton, altijd aanwezig. Maar ook in fundamenteel onderzoek spelen waarneembare verschijnselen hun rol bij het toetsen van de uit de theorie afgeleide voorspellingen over de wereld.


Waarneming lijkt alleen vanzelfsprekend omdat we ons niet meer bewust zijn van de moeite die het heeft gekost om zover te komen. Een sprekend voorbeeld daarvan is de eerste waarneming van de vier grote manen van de planeet Jupiter, door Galileo Galileï. Zowel het fenomeen van de sterrenkijker, als dat van manen bij een andere planeet dan de aarde, was onbekend bij zijn tijdgenoten. Toen hij enkelen, tot bewijs van zijn vondst, zelf liet ‘kijken,’ waren zij niet zomaar in staat om de claim van Galileï al kijkend door die kijker bevestigd te zien.

De verwondering van Galileï’s tijdgenoten is natuurlijk dezelfde als die van leerlingen en studenten: ook hun waarneming is niet zo vanzelfsprekend als hun docenten wel eens wensen. De wereld die we wensen dat studenten ze zien, moet met zorg worden opgebouwd. Er valt alleen iets te zien voor wie weet hoe te kijken.

Waarneembare begrippen zijn er in velerlei soort, maar alle hebben ze gemeen dat ze verwijzen naar wat voor ons op vanzelfsprekende wijze waarneembaar is, ook als die waarneming op zich buitengewoon gecompliceerd is door de hulpmiddelen die ervoor nodig zijn.

Het valt in de gegeven opsomming op dat veel van deze waarneembare begrippen de student al bekend zijn, nog voordat zij de leerstof heeft gezien. In andere gevallen maakt de student in zijn studie op ‘vanzelfsprekende’ wijze kennis met de relevante waarneembare begrippen, die dan ook al even vanzelfsprekend niet een speciaal onderwerp van toetsing zijn. In de overige gevallen zijn de waarneembare begrippen expliciet onderwerp van onderwijs, waar de student leert waar te nemen op de in het vak gebruikelijke wijze. Op dat laatste slaan de toetsvragen over herkennen, benoemen, het geven van voorbeelden, aanwijzen e.d.

De titel van deze paragraaf spreekt ook over indirect waarneembare begrippen. Dat zijn gebeurtenissen, dingen, eigenschappen, e.d., die met instrumenten zijn waar te nemen, of waarbij een bepaalde proefopstelling nodig is.
Ook vallen de begrippen eronder die interpretaties van waarnemingen zijn. Een paar voorbeelden.


In het onderwijs leveren indirect waarneembare begrippen bijzondere problemen op, zoals uit de gegeven voorbeelden al mag blijken. Houd rekening met dat bijzondere karakter, om onjuistheden en dubbelzinnigheden in de vraagstelling te vermijden. Vandaar de extra moeite om binnen de categorie waarneembare begrippen het onderscheid te maken tussen datgene wat direct, met het ‘ongewapend oog’ waarneembaar is, en datgene wat al evenzeer een concreet karakter heeft, maar toch niet direct waarneembaar is.
Toetsvragen kunnen op dat indirecte karakter gericht zijn: ‘Waaruit kan blijken dat ...,’ ‘Hoe kom je erachter of ...’ ‘Welke proef is nodig om ....’ Het kan van belang zijn te toetsen of de student het indirect waarneembare karakter onderkent. Dergelijke vragen impliceren dus vaak het tegelijk toetsen van bepaalde wel waarneembare begrippen.


3.2 Abstracte begrippen en constructs


Wanneer een politicoloog over ‘de regering’ spreekt of wanneer de econoom over ‘de markt’ spreekt, hebben zij het niet over concreet aanwijsbare zaken. Dergelijke abstracte begrippen zijn een soort verzamelnaam voor heel uiteenlopende activiteiten, uitingen, instanties. Voor een abstract begrip is doorgaans geen uitputtende lijst te maken van zaken enz. die er onder vallen. Neem bijvoorbeeld het abstracte begrip ‘intelligent gedrag’ uit de psychologie: concrete gedragingen die als intelligent aan te merken zijn, zijn niet in algemene termen uitputtend te beschrijven. Wie over intelligent gedrag spreekt, bedoelt daarmee alle verschillende uitingsvormen samen te vatten of te abstraheren.

Het zal niet verbazen dat abstracte begrippen lastig te beschrijven zijn. Dat is ook in de wetenschap zo, en dat geldt in optima forma voor de wetenschappen die juist verkeren in de fase van aftasting van de betekenis van abstracte begrippen. In de psychologie doen verschillende beschrijvingen de ronde van ‘intelligent gedrag,’ ook—of misschien juist—binnen een en hetzelfde boek. Hetzelfde in de sociologie, bijvoorbeeld bij een begrip als ‘maatschappelijke klasse.’ Het gaat er dan niet om die ene betekenis te vinden die de juiste is, maar om in de opsomming van verschillende betekenissen het bedoelde begrip een goede dekking te geven. Het is niet eenvoudig deze abstracte begrippen te vangen in korte toetsvragen. Het gaat vaak om structuren, instituties, emergente processen zoals electriciteit en gasdruk, en dergelijke. De wijze van behandeling van deze begrippen in tekstboeken is vaak een verbaal uiteenzettende. Voor toetsvragen over tekst zie hoofdstuk 6.

Constructs. Een andersoortige abstractie is die welke de complexe werkelijkheid vereenvoudigt tot een hanteerbaar ideaalmodel. In de natuurkunde zijn er de abstracte begrippen vacuüm, puntmassa, snelheid op tijdstip t, of nul graad Kelvin. Strikt genomen zijn dit onbestaanbaarheden, al is er een voorstelling van maken als toestanden die in de limiet benaderbaar zijn. Deze abstracte begrippen zijn zo gekozen om daarmee in staat te zijn wiskundige modellen of theorieën te bouwen van redelijke eenvoud, of althans van nog hanteerbare complexiteit. Ook andere wetenschappen kennen om deze reden abstracte begrippen, denk aan de ‘homo economicus’ of de ‘rationele mens’ in de economie, een begrip als ‘Jan Modaal’ of ‘de gemiddelde student.’ In de regel zijn er van deze ‘ideaaltypische’ abstracte begrippen geen concrete voorbeelden te geven: die bestaan niet. Met uitzondering van Jan Modaal: er zijn immers nogal wat mensen die een modaal inkomen hebben, dat is het meest voorkomende inkomen.

Een ander voorbeeld: in de testleer is sprake van de ‘ware score’ en de ‘meetfout;’ zo is een toetsscore uit te splitsen in een (niet waarneembare, ook niet noodzakelijkerwijs bestaande, maar wel denkbare) ware score, en een (evenmin waarneembare enz.) meetfout, die samen optellen tot de waargenomen score. Deze abstracte begrippen zijn in het onderwijs nogal eens problematisch, omdat studenten het specifieke abstracte karakter ervan niet gemakkelijk begrijpen. Abstracte begrippen van dit type zal ik ook wel aanduiden als constructen, als ‘gemaakte’ abstracties, ter onderscheiding van het soort abstracte begrippen in het eerste deel van deze paragraaf besproken.

Toetsvragen over en rond constructen zijn op talrijke verschillende manieren vorm te geven. Juist door het gemaakte karakter van deze constructen hebben ze vaak een exact omschreven definitie, waarmee in toegepaste situaties valt te werken. Constructen zijn ontworpen op hun toepasbaarbeid, en op het kunnen toepassen valt dan ook een natuurlijke nadruk. Vragen met een meer indirect karakter liggen meer in de sfeer van de in hoofdstuk 6 behandelde toetsvragen over tekst: bv. het herkennen van impliciete aannames, aangeven van consequenties die volgen uit bepaalde gekozen axioma’s, of de beperkingen inherent aan het gebruik van constructen aangeven. Voorzover een construct afgeleid is van andere constructs: deze afleiding kunnen produceren, zelf constructen kunnen vormen bij het aanpakken van complexe problemen, en gekozen constructs, axioma’s of veronderstellingen kritiseren, zijn ook mogelijkheden.


Een belangrijke aanscherping van het begrippenapparaat, als ik dat een beetje dubbel zo mag noemen, is te verkrijgen aan de hand van het werk van Michelene Chi (pdf). Veel abstracte en theoretische begrippen zijn van het type dat zij zich ontwikkelende processen, emergente begrippen, noemt: dat zijn processen die niet direct waarneembaar zijn, maar bestaan uit een opeenstapeling van samenstellende processen die leiden tot einduitkomsten op macro-niveau die wel waarneembaar zijn. Deze verrijking van ons repertoire is van groot belang, omdat blijkt dat leerlingen en studenten de grootst mogelijke moeite hebben om deze zich ontwikkelende begrippen eigen te maken. De reden is dat de wèl waarneembare verschijnselen van deze processen leiden tot de stevig verankerde misvattingen dat het bij deze processen zou gaan om gewone stoffelijke processen, zoals water dat stroomt als analoog aan electriciteit, en dat is niet zo. Kortom: iedereen in het onderwijs worstelt met het verschijnsel dat leerlingen verkeerde ontologische duidingen maken en daardoor in de stof verstrikt raken, maar slechts weinigen zijn tot nu toe in staat de achtergrond van deze worsteling te duiden. Inwerken van het onderzoek van Chi en haar collega’s, dat zich uitstrekt over meerdere decennia, zal leiden tot belangrijke aanwinsten voor de technologie van het ontwerpen van toetsvragen.


3.3 Theoretische begrippen


Een gerijpte wetenschap is uitgegroeid van het ordenen, beschrijven, en classificeren van empirische gegevens naar het bouwen van theorieën; van het doen van voorspellingen op grond van waargenomen empirische wetmatigheden tot het doen van voorspellingen op grond van afleidingen uit de theorie.

Een wetenschappelijke theorie bevat dan ook, naast waarneembare en abstracte begrippen, een bijzondere categorie termen die we theoretische termen zullen noemen. Waarom bijzonder? Wel, men kan zich afvragen waar theoretische begrippen eigenlijk aan refereren, omdat met de waarneembare en (sommige) abstracte begrippen al het ‘waarneembare’ uitgeput is. theoretische begrippen verwijzen niet naar waarneembaarheden; en dat is minder een verrassende opmerking als wel een noodzakelijke. Neem een theoretische term uit de natuurkunde zoals ‘aantrekkingskracht’ of ‘massa.’ Of een beruchte theoretische term uit de psychologie als ‘intelligentie.’ Dat zijn termen waarbij niets concreets aanwijsbaar is, het zijn termen waarbij het niet mogelijk is een korte dekkende beschrijving van hun ‘betekenis’ te geven, het zijn termen waarvan de betekenis vooral gegeven is in de vorm van hun relaties tot de andere termen in de theorie. In het bijzonder zal het doorgaans niet mogelijk zijn om een bevredigende definitie van theoretische begrippen zoals intelligentie of zwaartekracht te geven. Het is daarom zinloos om over voorgestelde definities te bekvechten, of om studenten een definitie van eigen voorkeur te laten leren.

In het onderwijs is de behandeling van theoretische begrippen doorgaans verre van eenvoudig, juist omdat ze hun betekenis ontlenen aan de diverse relaties die ze binnen een bepaalde theorie hebben tot de andere termen in die theorie. De behandeling van de belangrijkste van die relaties brengt de betekenis geleidelijk over. De betekenis van een theoretische term groeit bij het verder kennis nemen van het vak, en zal nooit helemaal ‘af’ zijn.

Een wetenschappelijke theorie steekt vaak in wiskundige kleren, die de theoretische begrippen en hun bijzondere onderlinge relaties in formules vastlegt: E = mc2, F = ma enz. Nieuwe theoretische begrippen worden, in de didactische opzet van het studieboek, meteen in formule gepresenteerd, en de student leert op een aantal relevante manieren met zo'n formule, en daarmee met deze theoretische begrippen, om te gaan. Naast wiskundig onderbouwde theorieën zijn er uiteraard ook theorieën die meer verbaal van karakter zijn, zoals de persoonlijkheidstheorie van Freud of de evolutietheorie van Darwin, waarin de diverse theoretische begrippen ook streng aan elkaar gerelateerd zijn.

Theorieën handelen over gepostuleerde eigenschappen van dingen, personen, gebeurtenissen enz. In het dagelijks spraakgebruik hebben dergelijke eigenschappen een ‘observeerbare’ status. In de wetenschappelijke theorie is dat veelal niet het geval, spelen ze hun rol als theoretische begrippen.

Ik noemde al de persoonlijke eigenschap ‘intelligentie,’ en hetzelfde geldt voor eigenschappen in de natuurkunde: ‘lengte,’ ‘massa,’ ‘energie,’ ‘snelheid,’ ‘temperatuur.’ In de natuurkundige theorie is de koppeling van deze termen aan waarneembare begrippen soms heel weinig problematisch, en bestaat de verleiding om de theoretische term ‘lengte’ simpelweg gelijk te stellen aan de waarneembare term ‘lengte.’ Zo'n simpele gelijkstelling is al niet meer mogelijk waar het gaat om de ‘snelheid op het tijdstip t,’ omdat deze snelheid niet een corresponderende waarneembare term heeft, maar zijn ‘waarde’ berekend moet worden uit meerdere waarnemingen. In de psychologie is de koppeling van de theoretische term ‘intelligentie’ aan waarneembare verschijnselen heel weinig direct; ik kom daar in 3.4 bij wijze van voorbeeld nog uitgebreider op terug.

Omdat de betekenis van theoretische begrippen vooral in hun relaties tot andere termen ligt, kunnen toetsvragen alleen over die relaties gaan. Er bestaat niet zoiets als een toetsvraag die zich strikt beperkt tot één theoretische term. Ook vragen over de historische ontwikkeling in de betekenis van een theoretische term betreffen de verandering van inzichten in de relaties van deze term tot andere, waarneembare of theoretische, termen. Hier is het wel erg belangrijk dat netwerk van relaties ook op schrift te stellen; de volgende paragraaf geeft daar een techniek voor.

Nota Bene. De oorspronkelijke paragraaf 3.3 maakt geen verder onderscheid naar typen van theorieën, maar het is voor het ontwerpen van toetsvragen over theoretische begrippen wel degelijk van belang of het (substantiële) processen betreft, ‘emergente’ processen (in de zin van Slotta en Chi, bijvoorbeeld), of beschrijvende processen (de velden uit de fysica waarin geen sprake is van oorzaken in enige substantiële zin maar alleen van mathematiek of mathematische modellen).
Mogelijk is hiervoor toch een nadere plaatsbepaling nodig van wat als ‘oorzaak’ van wat kan gelden, en hoe om te gaan met situaties waarin het niet zinvol is om oorzaken en gevolgen te onderscheiden (maar wat dan wel?). Dat komt gevaarlijk dicht bij de thematiek van het vragen van verklaringen, het onderwerp dat in de editie 1983 helemaal buiten beschouwing is gelaten, en waarvoor ik materiaal bijeenbreng in verklaren.htm.


3.4 Onderlinge verknooptheid van begrippen


De betekenis van individuele termen ligt vooral in relaties tot andere termen. De waarneembare begrippen in een classificatie dekken met elkaar alle verschijnselen in een bepaald veld. theoretische begrippen ontlenen hun betekenis aan relaties tot andere theoretische begrippen en tot bepaalde waarneembare begrippen. Voor de leerstofinventarisatie betekent het dat een opsomming van relevante termen de stof slechts eenzijdig beschrijft. De inventarisatie is pas volledig wanneer daarin ook alle relevante relaties tussen deze termen zijn opgenomen. Ik duid dat kort aan als het expliciteren van de onderlinge verknooptheid van de termen in de inventarisatielijst.

Om er zeker van te zijn geen enkele relevante relatie over het hoofd te zien, kan de ontwerper voor iedere term telkens voor de hele lijst nagaan of er met enige andere term een relevantie relatie is. Dat is omslachtig, en maar zelden nodig omdat in de theorie de relevante relaties al zijn uitgetekend. In de natuurkunde bijvoorbeeld zijn de belangrijke relaties tussen theoretische begrippen gegeven in het samenstel van natuurkundige wetten. In wetenschappen gericht op waarneembare verschijnselen zijn er classificaties of taxonomieën ontwikkeld die de onderlinge relaties vastleggen.

Maak dan van de geïnventariseerde relaties een conceptueel schema, op dezelfde wijze als de student de inhoud van een studietekst schematiseert (Breuker 1980, Mirande 1981, Novak en Canas 2006). De omgekeerde weg is ook begaanbaar: met de lijst van termen als uitgangspunt een schema maken van de termen in hun onderlinge verband.

Bij het schematiseren is het handig onderscheid te maken naar relaties tussen termen die van dezelfde soort —alleen theoretische begrippen of alleen waarneembare begrippen—en relaties tussen termen van verschillend soort—zoals tussen een theoretische en een waarneembare term. Noem dat resp. horizontale en verticale verknooptheid.

Verticale verknooptheid van termen. Rond de theoretische term intelligentie is een verticaal verknoopt schema van termen te maken, zie figuur 1. Het ligt voor de hand om het schema in zo'n geval ook verticaal te structureren overeenkomstig het onderscheid naar waarneembare, abstracte, en theoretische begrippen.

Zo'n schema geeft een goed overzicht. De relaties in het schema zijn onderwerp van het onderwijs en toetsing. Zo kan de wederkerige relatie tussen intelligentie en testscore staan voor een overzicht van de ontwikkeling van het theoretische intelligentiebegrip in wisselwerking met in onderzoek verkregen testscores. Maak voor complexe relaties een afzonderlijk of een uitgebreider schema. Novak en Canas (2006) laten heel ‘rijke’ schema’s zien.

Aan de hand van figuur 1 is uit te leggen wat het onderscheid is tussen termen op verschillende niveaus van abstractie. Een intelligentietest is een concreet meetinstrument waarvan verschillende uitvoeringen bestaan, waarvan ieder testarchief er een aantal heeft, waar studenten in een practicumsituatie mee leren werken testafnemer, of deze ondergaan als proefpersoon. De testscore is een vastgelegde regels bepaalde combinatie van de scores op afzonderlijke testvragen, en de IQ-score is daar weer een bepaalde bewerking van. De test biedt een gestandaardiseerde situatie om bepaalde vormen van intelligent gedrag te onderzoeken, dat is altijd een heel beperkte keuze van gedragsmogelijkheden, meestal nog verder beknot door het papieren karakter van de meeste tests. Intelligentie is een theoretische persoonlijkheidseigenschap, de verklarende factor achter uiteenlopende vormen van intelligent gedrag.

schema verknooptheid

Figuur 1. Verticale verknooptheid van termen rond de term ‘intelligentie.'


Intelligentietheorieën zetten het in figuur 1. gegeven geraamte telkens anders in het vlees, leggen andere accenten in hun keuze van te observeren intelligent gedrag. De tests verschillen dan ook qua opzet en inhoud van elkaar, de achterliggende theorie is anders opgebouwd, zij hebben zwakke en sterke punten. Voor funderende theorie zie Borsboom, Mellenbergh en Van Heerden (2004).

Het schema van figuur 1 in dezelfde vorm te gebruiken voor de relaties rond andere theoretische begrippen, niet alleen in de psychologie maar ook in andere wetenschappen. Bijvoorbeeld de theoretische term temperatuur: temperatuurverschillen in een bepaald voorwerp blijken uit een scala van verschijnselen, warmtegedragingen, naar analogie met intelligent gedrag. De theoretische eigenschap temperatuur is de daarvoor gedachte verklarende factor. Een geschikt meetinstrument voor temperatuur is te maken door een handige keuze uit de verschillende warmtegedragingen te doen en daarvoor een gestandaardiseerde procedure te ontwerpen. Bv. de wijze waarop de huisarts koortsige patiënten temperatuurt. De uitslag van het meetinstrument is op zich eenvoudige waarneembaar, zo is het instrument immers ontworpen. Aflezen en interpretatie valt samen doordat meestal een bekende schaalverdeling bij de wijzer is geplaatst. De zo af te lezen uitslag is een indirect waarneembare term, want een interpretatie via de aangebrachte schaal, ook al valt hij direct van het instrument af te lezen.

Voor andere theoretische eigenschappen valt dezelfde schemavorm te hanteren: agressiviteit, minderwaardigheidscomplex, massa, snelheid, lengte enz.

Horizontale verknooptheid van termen. Relaties tussen theoretische en waarneembare begrippen zijn wel gemakzuchtig door streepjes aan te duiden, maar die vatten een complex van afzonderlijk te schematiseren relaties samen. Dat is anders bij horizontale verknooptheid; de relatie van de ene waarneembare term tot andere waarneembare begrippen is doorgaans simpel, terwijl wetmatigheden die de ene theoretische term verbinden met andere theoretische begrippen doorzichtig zijn te formuleren. Voorbeelden van horizontale verknooptheid van waarneembare begrippen zijn te vinden in classificaties of taxonomieën, waarvan het periodiek systeem van scheikundige elementen wel een heel fraaie is. Verhalende teksten zijn met weinig moeite te schematiseren.

Bij theoretische begrippen zijn de onderlinge relaties eveneens in de theorie vastgelegd, op zich ook theoretische begrippen, samen een nomethetisch netwerk vormend, zeg maar gewoon een schema. Is de theorie in een wiskundig jasje gestoken, dan geven de wetten, formules, of kernbetrekkingen de onderlinge relaties weer. Zie bijvoorbeeld het schema in figuur 2 van de theorie voor vallende lichamen. In het schema zijn niet de theoretische termen, maar de wetten in de theorie uitgezet; omdat iedere theoretische term met alle overige termen relaties heeft, zou een schema daarvan zinloos zijn. Kies dan voor het in schema zetten van de wetten of formules, waarbij de onderlinge relaties tussen de wetten bijvoorbeeld de volgorde van afleiding, historische ontwikkeling of ‘logische’ opbouw van de theorie kunnen zijn. Figuur 2 geeft twee soorten relaties: de formules zijn zelf relationeel, en de relaties tussen de formules. Het gekozen schema begint links bij de eenvoudige formule dat snelheid een functie is van zwaartekracht en verstreken tijd. Omdat de snelheid na t seconden gelijk is aan de afgeleide van het verticaal afgelegde aantal meters h naar t, moet h = 0,5 gt2 zijn (de afgeleide van 0,5 gt2 naar t is immers gt). De derde formule is een toegift; zij volgt onmiddellijk uit de tweede formule.

schema theorie

Figuur 2. Schema van de theorie voor vallende lichamen; v = bereikte snelheid, g = versnelling, t verstreken tijd, h = afgelegde verticale afstand.

De theorie over vallende lichamen is in het onderwijs op verschillende manieren te behandelen: studenten leren omgaan met de formules; de theorie leren toepassen op verbaal beschreven concrete situaties; in practicumsituaties of vanaf de toren van Pisa de theorie toepassen; de geschiedenis van de theorie bestuderen—heeft Newton dat verhaal van die appel verzonnen?—of de veronderstellingen van de theorie kritisch analyseren—bv. dat de val in vacuüm plaatsvindt -. Al naar gelang de wijze waarop de theorie in het onderwijs aan de orde is geweest, zijn geschikte vragen te ontwerpen. Met het in schema zetten van de termen zoals in het onderwijs behandeld, is de leerstofinventarisatie volledig. Het kan een verrassing zijn dat over de opgegeven leerstof gemaakte schema’s nogal eenvoudig blijken. Immers, er komen op zijn hoogst evenveel termen in voor als in de index over dezelfde stof al zijn te vinden. De eenvoud is bedrieglijk, omdat vrijwel iedere term in het schema op zich staat voor een verzameling van voorbeelden die vallen onder de betreffende term, inclusief typische voorbeelden van wat er juist niet onder valt. Voor de ‘intelligentietest’ in figuur 1 zijn tal van verschillende instrumenten in te vullen, bijvoorbeeld de intelligentietests die het Ministerie van Onderwijs, Cultuur en Wetenschappen toelaat bij de indicatie voor leerweg-ondersteund onderwijs of praktijkonderwijs.

intelligentietests

Figuur 3. Onder het begrip ‘intelligentietest’ ligt bv. deze groep Nederlandse tests. Zo zijn schema’s eindeloos uit te bouwen.


Schematiseren is een algemene techniek om complexe gegevens op een andere manier af te beelden. Dan zijn er ook tal van andere toepassingen van dezelfde techniek mogelijk. Een opvallende toepassing die de ontwerper van toetsvragen nog wel eens goed van pas kan komen, is die in het Betty-project, zie o.a. Leelawong, Davis, Vye en Biswas (2002). The effects of feedback in supporting learning by teaching in a teachable agent environment pdf. Dit is onderzoek naar de effecten van een leeromgeving waarin leerlingen de opdracht hebben ‘Betty’ iets ingewikkelds te leren—bv. de zuurstofcyclus in een vijverecologie—dat voor de leerlingen zelf ook nieuw is. Dit is dus iets anders dan een leeromgeving waarin de leerling via een (computer-)tutor leert: de leerling moet Betty juist onderwijzen, en krijgt daar onmiddellijke terugkoppeling op. Wat Betty heeft geleerd, wordt weergegeven in de vorm van een schema van begrippen en relaties. Dat schema is beweeglijk, met het leren van Betty verandert er immers voortdurend iets. Het geinige van deze leeromgeving is dat de leerling zich heerlijk laat misleiden in het spel om Betty iets te leren, en ondertussen zèlf de ingewikkelde stof begint te begrijpen.
betty
(click for a full blown screenshot of another Betty map [helaas niet meer beschikbaar op die website?])

Het representeren van kennisstructuren in schema’s kan op tal van niveaus plaatsvinden: de structuur van de stof zoals in het leerboek beschreven, de structuur van het naïeve inzicht waarmee de leerling aan de cursus begint, de structuur van het inzicht dat de leerling aan het eind van de cursus heeft, de structuur zoals die in het ontwerp van de toetsvragen is geoperationaliseerd, de structuur van het leerlinginzicht zoals de docent op basis van haar toetsresultaten vermoedt, etcetera tot onvermoede hoogten van aggregatie tot wat de Nederlandse jeugd aan wiskundige vaardigheden in de vingers heeft.

Het schema van een kennisstructuur is waarschijnlijk de krachtigste heuristiek die de ontwerper van toetsvragen ter beschikking staat.

3.5 Varianten van definities

Het leren van nieuwe termen is geen alles-of-niets aangelegenheid—hoe meer we over een term weten, des te meer weten we over de relaties tussen deze term en andere termen. Er is geen glossarium in dit boek opgenomen, omdat ik het naïeve en foutieve idee niet wil aanmoedigen als zou je heel wat over een term weten wanneer je een definitie van één of twee zinnen kunt geven. Deze tekst onderwijst de betekenis van termen door ze telkens weer te gebruiken in uitspraken die deze termen relateren aan andere termen.

Dit citaat van Wickelgren, schrijver van een tekstboek (1979) over cognitieve psychologie, vat de voorgaande paragrafen fraai samen en duidt de kern aan van de nu volgende behandeling van definities.

De student die een correcte definitie geeft voor een gevraagde term, laat daarmee zien dat hij de betreffende term ‘begrijpt’ en op de juiste wijze gebruikt. Een correcte definitie geven is te zien als een criterium voor het begrijpen van de betreffende term. Het is deze gedachtengang die docenten ertoe brengt zoveel definities in hun onderwijs en toetsing te stoppen. Het didactisch nut van definities versterkt die neiging nog: een geschikte definitie maakt in enkele woorden duidelijk wat anders alleen omslachtige is te onderwijzen.

Het geven van een correcte definitie is geen voldoende voorwaarde voor de conclusie dat de student de betekenis van de term kent. Bij verder onderzoek kan blijken dat deze student de term vervolgens toch onjuist hanteert. De student kan de definitie domweg uit het hoofd hebben geleerd. Het laatste is ernstiger dan het op het eerste gezicht lijkt. Immers, wie in onderwijs en toetsing de nadruk legt op definities, zet een premie op uit het hoofd leren van die definities. Dit soort ‘kennis’ is van nul en generlei waarde (zie 2.6).

Het geven van een correcte definitie is bovendien niet eens een noodzakelijke voorwaarde is voor het kennen van de betekenis van de term. Vraag een psycholoog om een definitie van intelligentie; of een wiskundige om een definitie van wat een getal is. Eerder is al beklemtoond dat niet alle wetenschappelijke termen zich laten definiëren. Is het dan misschien zo, dat de docent zich maar beter kan matigen in het ‘per definitie’ introduceren van nieuwe termen?

schema definities

Figuur 1. Schema van besproken mogelijkheden voor het definiëren van termen.

De definitie laat zich niet via kenmerken definiëren. Definities hebben met elkaar gemeen wat Wittgenstein een familiegelijkenis noemt, ik kom daar nog op terug. Om de betekenis van definities gestalte te geven, kan ik niets beter doen dan een aantal verschillende vormen van definitie behandelen.

Definitie via kenmerken. Wat zou het prachtig zijn wanneer bij iedere nieuwe term zijn definitie precies aangeeft op welke objecten, gebeurtenissen of wezens de term van toepassing is. De definitie geeft dan een opsomming van de kenmerken waaraan een object, gebeurtenis of wezen moet voldoen, wil de term van toepassing zijn. De opgesomde kenmerken moeten dan zowel noodzakelijk als voldoende zijn. Om de kenmerkenlijst in lengte te beperken, kan is in de definitie aan te geven om welke bekende soort het gaat om vervolgens via specifieke kenmerken aan te geven op welke objecten enz. van deze soort de gedefinieerde term van toepassing is (definitie per genus et differentiam). Een olifant is een zoogdier met flaporen; het soort: zoogdier, en specifiek kenmerk: flaporen. Het streven van docenten en schrijvers van studieboeken lijkt wel eens om alle termen op deze wijze te definiëren. Natuurlijk loopt dat streven spaak op de onmogelijkheid alle termen op deze wijze te definiëren zonder rondzingen, zonder in de definitie van een term gebruik te maken van termen die zelf gedefinieerd zijn met behulp van die term. Die moeilijkheid is te omzeilen door een of meer termen ostensief te definiëren (zie hieronder).

Definitie door aanwijzen (de ostensieve definitie). ‘Dit is rood’ (wijzend op een boek met een rood omslag). Deze wijze van definiëren is in het onderwijs heel bruikbaar. Het wetenschappelijk onderwijs introduceert de student in het onderwerp, het instrumentarium of het veld van onderzoek door rondleiding in de kliniek, presentaties in het laboratorium, excursies in het veld, enz. (Kaplan, 1964). Het laat zich raden dat het alleen de (indirect) waarneembare zaken etc. zijn die zich op deze wijze laten definiëren. Het is jammer dat de status van deze wijze van definiëren laag is, ook al is ze onmisbaar als (axiomatisch) uitgangspunt voor degenen die met definities via kenmerken willen werken. Wittgenstein heeft veel aandacht besteed aan de ostensieve definitie (zie Baker en Hacker, 1980, hfdst. 2). Ook het aanwijzend kunnen definiëren van een term is een criterium voor het kennen van de betekenis van de term. In de toets kan dat blijken uit het aanstrepen van het juiste voorbeeld bij een meerkeuzevraag ‘Welke van de vijf alternatieven noemen we rood?'

Definitie door voorbeelden en niet voorbeelden. Een speciaal geval van de definitie door aanwijzen is het aanwijzen van voorbeelden en niet-voorbeelden. Dat legt de nadruk gelegd op de begrenzing van het bedoelde begrip, op wat er nog wel en wat er niet meer onder valt. Het is niet zinvol om de betekenis van de term rood te definiëren door naast een boek met rode omslag ook boeken met allerlei andere kleuren omslag aan te wijzen. Zinvol is het bij fijne nuances in de waarneming, zoals het onder de microscoop onderscheiden van gezond en ziek celweefsel. Deze wijze van definiëren leent zich goed voor de termen die de student nogal eens te breed (overgeneralisatie) of te smal (ondergeneralisatie) gebruikt. De soort toetsvraag die hierbij past laat zich makkelijk denken: uit een lijst voorbeelden en niet voorbeelden deze als zodanig identificeren. Het probleem is dat slechts weinig termen zich bij uitstek voor deze wijze van definiëren lenen (zie o.a. Merrill en Tennyson, 1977).

Definitie door opsomming. Ook dit is een variant op het definiëren door aanwijzen. In rechttoe-rechtaan gedaante zijn zo de letters van het alfabet te definiëren door ze alle op te sommen. Is deze wijze van definiëren ook bruikbaar voor de natuurlijke gehele getallen? Dat roept filosofische problemen op. Misschien is er een regel te formuleren, waarmee in beginsel alle natuurlijke gehele getallen zijn te construeren, dan zou zo'n regel ook een definitie door opsomming zijn.

De nominale definitie introduceert een verkorte notatie, een naam of een nieuwe term voor een gegeven uitdrukking. De nieuwe term heeft dezelfde betekenis als de uitdrukking die hem definieert, ‘is per definitie gelijk aan’ of ‘=Df.’.’.’.’ Hempel (l952) geeft als voorbeeld: ‘Americium =Df het element met 95 nucleaire protonen.’ Nominaal gedefinieerde termen zijn altijd zonder verlies aan betekenis te vervangen door hun definiërende uitdrukking. De definitie via kenmerken is een speciaal geval van nominaal definiëren. De nominale definitie is doelmatig, want hij vervangt een langere uitdrukking door een enkel woord. Het kan echter ook zijn dat een bepaald soort verschijnsel, ding of wezen zich dermate profileert in de waarneming dat het in feite gaat om een nieuw begrip, dat dan ook een nieuwe naam krijgt.

De reële definitie is een soort tegenhanger van de nominale definitie; hij geeft alleen de kenmerken die de essentie van het bedoelde begrip aanduiden: ‘Een gletsjer is een langzaam bewegende ijsmassa,’ ‘Een stoel is een meubel om op te zitten.’ Reële definities geven een bepaalde essentie van het bedoelde begrip weer, maar dekken daarmee niet volledig de betekenis van de term. Een zelfde term kan meerdere verschillende reële definities hebben. Het is niet altijd zinvol om in een tekst een term te vervangen door een reële definitie van die term. De student die een reële definitie van een term geeft, kent deze wezenlijke betekenis van de term.

De conditionele definitie is een bijzonder soort definitie via kenmerken: het bijzondere zit in de specificatie van de omstandigheden waaronder deze kenmerken waarneembaar zijn, bv. eigenschappen als elastisch, magnetisch, splijtbaar, meegaand. Deze wijze van definiëren, hoewel vaak onvermijdelijk, schept problemen omdat strikt genomen de definitie niet identiek is aan het met de term aangeduide begrip: dat is echter niet zozeer een praktisch als wel een filosofisch probleem (Stegmüller 1970).

De operationele definitie is weer een speciaal soort conditionele definitie, waarbij de nadruk valt op de omschrijving van de condities: de operaties of handelingen die nodig zijn om—in het kader van een experimenteel onderzoek—bepaalde condities te bewerkstelligen. Vooral in de sociale wetenschappen zijn hierover wel eens extreme standpunten ingenomen; algemeen bekend is de operationele definitie van intelligentie als datgene wat de intelligentietest meet. De Groot kiest in zijn Methodologie een positie die daar nogal dicht bij zit (De Groot 1962, blz 88). Een operationele definitie past soms in het jasje van een volledige opsomming: De Groot ziet de verzameling van toetsvragen als operationele definitie van de doelstellingen van het onderwijs (in De Groot en Van Naerssen, 1973, blz. 38). Kijk, dat is nou weer heel handig. Men kan ook zeggen dat de operationele definitie een bijzondere vorm is van de stipulatieve definitie.

Stipulatieve definitie of definitie bij fiat. Deze definitie legt de betekenis van een term dvast voor kortdurend gebruik in een college, tekstboek of onderzoek, en claimt daarmee geen algemene geldigheid. Het hoeft niet altijd een gelegenheidsdefinitie te zijn, het kan ook een poging zijn een scherper betekenis te geven dan gebruikelijk. Hempel (1952) noemt als voorbeelden de getallenleer van Frege-Russell, en Tarski’s semantische definitie van waarheid. Het stipulatief definiëren van overigens wat vage termen heeft alleen zin als dat vruchtbaar theoretisch werk mogelijk maakt. Het kan en mag geen truc zijn om theoretische begrippen van een (pseudo-) definitie te voorzien. De definitie bij fiat is een werkdefinitie, het kan in het onderwijs toch niet de bedoeling zijn dat student dergelijke definities letterlijk leren, alleen dat zij weten dat het een voor het moment een handige afspraak is.

Hier ligt mogelijk wel een wezenlijk probleem, wanneer stipulatieve definities te serieus worden genomen. Zo is bekend dat in het middelbaar onderwijs in de economie wel stipulatieve definities zijn gebruikt die met elkaar in tegenspraak waren (Vernooij, 1993), ook in eindexamenopgaven, en zonder dat docenten zich bewust waren van de tegenstrijdigheden.

Familiegelijkenis. In empirische wetenschappen zijn er termen die zich niet lenen voor een definitie via kenmerken omdat de betreffende verschijnselen, dingen of wezens geen gemeenschappelijke kenmerken hebben. Wat is er bijvoorbeeld gemeenschappelijk aan de verschillende vormen van definitie die hierboven beschreven zijn? Wittgenstein heeft door zijn bespreking ervan in de Filosofische onderzoekingen de term familiegelijkenis befaamd gemaakt; hij geeft in de paragrafen 68 en 69 van zijn boek als voorbeelden de termen getal en spel (html). Verschillende spelen hebben niet een bepaalde set kenmerken met elkaar gemeen; er is wel een lijst kenmerken op te stellen waaraan tenminste sommige spelen voldoen. Verschillende spelen lijken op elkaar op dezelfde wijze waarop leden van eenzelfde familie op elkaar lijken: ze lijken allemaal op elkaar, maar niet telkens op dezelfde wijze, niet telkens op grond van dezelfde kenmerken. Hetzelfde geldt voor natuurlijke, rationele, complexe, kardinale enz. getallen. En voor nominale, reële, aanwijzende enz. definities. Gevraagd om een familiegelijkenisterm te ‘definiëren,’ kan de student een aantal voorbeelden geven; een tweede student kan voor dezelfde term een heel andere voorbeelden geven; beiden kunnen zo toch een goede ‘definitie’ van de term geven.

Beschrijven. Termen kunnen hun betekenis in hoge mate of zelfs volledig—theoretische begrippen!—ontlenen aan hun relaties tot andere termen. Beschrijven van een of meer van deze relaties is dan ook een vorm van definiëren. Een beschrijving kan correct zijn zonder de hele betekenis van de term te dekken. Veel termen hebben overigens niet een zo scherp afgepaalde betekenis dat ze in korte beschrijvingen te vangen zijn.

Kaplan (1964) geeft een paar aardige voorbeelden. Wie wil uitzoeken wat Marx met ‘klasse’ bedoelt, moet kennis te nemen van het hele werk van Marx. De astronomie noemt een bepaald soort witte ster ‘dwerg,’ de eigenschappen van witte dwergen zijn vastgelegd in een aantal verschillende astrofysische theorieën, zoals die over de evolutie van sterren. Aan deze theorieën zijn talrijke beschrijvingen voor witte dwergen te ontlenen, maar geen behoorlijke definitie.

De lijst van mogelijke definities is niet uitputtend. Duidelijk is dat dezelfde term op meerdere manieren is te definiëren, ook binnen één tekstboek. Het onderwijs kan van die verschillende mogelijke definities didactisch handig gebruik maken, en ook de ontwerper van toetsvragen kan er inspiratie uit putten.

Bedenk, tenslotte, dat geen enkele definitie het probleem van de grensgevallen kan oplossen. Dat zijn die gebeurtenissen, dingen enz, waarvan het niet duidelijk is of ze nog juist wel of net niet meer vallen onder de term-zoals-gedefinieerd. Bij het ontwerpen van toetsvragen zijn juist deze grensgevallen mogelijke spelbrekers. Het is verleidelijk om voor wat moeilijker vragen dicht in de buurt van een grensgeval te gaan zitten, waardoor vragen dubbelzinnig kunnen worden en ook collega’s het niet meer met elkaar eens zijn wat het beste antwoord is.






Volgende hoofdstukken wachten nog op een verkorte versie. Het voornemen om dat snel voor elkaar te maken, is helaas in de vergetelheid geraakt (rekenonderwijs vraagt vooral mijn aandacht omdat daarvoor de meest krankzinnige toetsvragen worden verzonnen). Wie gebruik wil maken van een de kosrte versie: laat het mij weten, dat motiveert om ook de hoofdstukken 4 t/m 8 in verkorte vorm te presenteren.

Overigens is het verkorten niet echt geslagd: over validiteit doe ik veel te ingewikkeld, hoe interessant het allemaal ook is. Dat kan ongetwijfeld beter (korter).


                                                           


Dit hoofdstuk of deze paragraaf is nog niet in een verkorte versie beschikbaar, maar zeer binnenkort wel.


literatuur bij de ‘korte versie’


Wim Bender (2003). Toetsen in het hoger onderwijs. Van Gorcum.

Henk van Berkel en Anneke Bax (Red.) (2006). Toetsen in het hoger onderwijs. Houten: Bohn Stafleu van Loghum.

Paul Black & Dylan Wiliam (2009). Developing the theory of formative assessment. Educational assessment, evaluation and accountability, 21 concept

Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071. pdf

K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf

Hasok Chang (2004/2007). Inventing temperature. Measurement and scientific progress. Oxford University Press. [short abstracts of chapters]

Michelene T. H. Chi (2005). Common sense conceptions of emergent processes: Why some misconceptions are robust. Journal of the Learning Sciences, 14, 161-199. (pdf

Noel Entwistle (1995). Frameworks for Understanding as Experienced in Essay Writing and in Preparing for Examinations. Educational Psychologist, 30, 47-54. questia

K. Anders Ericsson (Ed.) (2009). Development of professional expertise: Toward measurement of expert performance and design of optimal Learning Environments. Cambridge University Press.

K. Anders Ericsson, Neil Charness, Paul J. Feltovich & Robert R. Hoffman (Eds) (2006) The Cambridge Handbook of Expertise and Expert Performance. Cambridge University Press.

Ronald N. Giere (2006). Scientific perspectivism. The University of Chicago Press. [Table of contents pdf. Read chapter one pdf]

A. D. de Groot (1946). Het denken van den schaker. Een experimenteel psychologische studie. Amsterdam: Noord-Hollandsche Uitgevers maatschappij. dbnl

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376.html

A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Mouton.

David Hestenes, Malcolm Wells, and Gregg Swackhamer (1992). Force Concept Inventory. The Physics Teacher, Vol. 30, 141-158. pdf

Heather C. Hill, Merrie L. Blunk, Charalambos Y. Charalambous, Jennifer M. Lewis, Geoffrey C. Phelps, Laurie Sleep and Deborah Loewenberg Ball (2008). Mathematical knowledge for teaching and the mathematical quality of instruction: An exploratory study. Cognition and Instruction, 26, 430-511.

Jaakko Hintikka (2007). Socratic epistemology. Explorations of knowledge-seeking by questioning. Cambridge University Press.

Robert B. Kozma (2000). The Use of Multiple Representations and the Social Construction of Understanding in Chemistry. In Michael J. Jacobson and Robert B. Kozma: Innovations in Science and Mathematics Education. Advanced Designs for Technologies of Learning (p. 11-46). Erlbaum. pdf questia

Christian Lebiere (1998). The Dynamics of Cognition: An ACT-R Model of Cognitive Arithmetic. Dissertation Carnegie Mellon University pfd.

R. James Milgram (2007). What Is Mathematical Proficiency? In Alan H. Schoenfeld:. Assessing mathematical proficiency (pp. 31-58). Cambridge University Press. pdf

R. F. van Naerssen (1969). Meer gecompliceerde scoringswijzen. In De Groot en Van Naerssen, Studietoetsen, construeren, afnemen, analyseren (p. 259-271). Den Haag, Mouton.

R. F. van Naerssen (1970). Over optimaal studeren en tentamens combineren. Rede. html

George Pólya (1945/1957). How to solve it. Princeton University Press.

George Pólya (1954/68). Mathematics and plausible reasoning. Volume I: Induction and analogy in mathematics. Volume II: Patterns of plausible inference. Princeton University Press.

Anna Sfard (1991). On the dual nature of mathematical conceptions: reflections on processes and objects as different sides of the same coin. Educational Studies in Mathematics, 22, 1-36. pdf 3Mb Anna Sfard’s website

L. S. Shulman (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15 #2, 4-14. pdf (PCK: pedagogical content knowledge)

Robert Sternberg (2008a). Applying psychological theories to educational practice. American Educational Research Journal, 45, 150-165. abstract

Robert J. Sternberg (2008b). Assessing what matters. Educational Leadership, 65, 20-26. html

Michael Strevens (2008). Depth. An account of scientific explanation. Harvard University Press.

Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23, 31-48. html

Ben Wilbrink (2004). Toetsopvattingen van docenten. Concept html


Deze versie van Toetsvragen ontwerpen is in ontwikkeling. Maakt u er gebruik van, dan vraag ik als wederdienst om daar eens iets over terug te melden.
Hebt u een suggestie, een vraag, is u iets niet helemaal duidelijk geworden, of hebt u een fout gesignaleerd, mail s.v.p. even.

13 augustus 2015 \ contact ben apenstaartje benwilbrink.nl

Valid HTML 4.01!   http://www.benwilbrink.nl/projecten/toetsvragen.kort.htm