Ben Wilbrink (1983/2009). Toetsvragen ontwerpen: Inleiding

Oorspronkelijke tekst: ‘Toetsvragen schrijven’ 1983 Het Spectrum Aula 809 1.4Mb pdf. Reeks Onderwijskundige informatie voor het Hoger Onderwijs, onder auspiciën van de Contactgroep Research Wetenschappelijk Onderwijs, redactie G. F. Bernaert, J. H. Daniëls, G. W. H. Heijnen, J. F. J. M. van Hout, M. J. A. Mirande, J. Nedermeijer, A. Pilot, D. W. Vaags en A. I. Vroeijenstein.

Inhoud

0 Voorwoord

1 Inleiding

1.1 Toetsvragen ontwerpen: kunst of kunde?
1.2 Uitgangspunten
1.3 Inhoudsoverzicht
1.4 Literatuur

2 Vragen: beschikbare vormen en inhoudelijke validiteit

2.1 Korte open vragen
2.2 Keuzevragen
2.3 Open vragen
2.4 Doorzichtigheid
2.5 Rompvragen: meervoudig bruikbare vraagstellingen
2.6 Validiteit: goed antwoord bewijst kennis
2.7 Literatuur

3 Leerstofinventarisatie

3.1 (Indirect) waarneembare zaken
3.2 Abstracte begrippen en constructs
3.3 Theoretische begrippen
3.4 Onderlinge verknooptheid van begrippen
3.5 Varianten van ‘definities’
3.6 Literatuur

4 Toetsvragen ontwerpen bij afzonderlijke begrippen

4.1 Vertalen
4.2 Definiëren
4.3 Voorbeelden geven
4.4 Voorbeelden herkennen en benoemen
4.5 Herkennen en benoemen bij formeel gedefinieerde begrippen
4.6 Beschrijvende uitspraken
4.7 Literatuur

5 Toetsvragen ontwerpen bij relaties tussen begrippen

5.1 Vertalen en afbeelden
5.2 Onderscheiden
5.3 Classificaties
5.4 Stappenschema’s, algoritmen, routines
5.5 Wetmatige relaties
5.6 Literatuur

6 Toetsvragen ontwerpen bij tekst

6.1 Participatiecontrole
6.2 Thema’s en hoofdpunten
6.3 Analyse
6.4 Inferentie
6.5 Compositie
6.6 Tekst en de naïeve lezer
6.7 Literatuur

7 Problemen stellen

7.1 Over problemen gesproken
7.2 Inventarisatie
7.3 ontwerpregels
7.4 Literatuur

8 Kwaliteit van toetsvragen

8.1 Regels bij het examineren
8.2 Punten om op te controleren
8.3 Onafhankelijke beoordeling van kwaliteit
8.4 Controlelijsten in beknopte vorm
8.5 Literatuur

9 Toetsvragen over Toetsvragen [in opbouw]

Bij deze digitale versie

De tekst van 1983 is onderhevig aan een ingrijpende herziening. Deze web-hoofdstukken geven de laatste stand, en zijn daarom ongelijkmatig van kwaliteit en uitwerking. Voor de leesbaarheid zijn aantekeningen over wat er nog kan en zal veranderen zoveel mogelijk in een afzonderlijk bestand toetsvragen.a.htm verzameld, samen met extra literatuur bij de diverse hoofdstukken.

In 2006 teruggekeerd naar het onderwerp, is het mij duidelijk dat er interessante aanvullingen nodig zijn die te maken hebben met belangrijke vorderingen in de cognitieve wetenschappen. De inhoudelijke herziening van de tekst is een project van lange adem. Tijdens de verbouwing blijft de winkel open en is de deels herziene tekt op deze website beschikbaar. Op veel plaatsen zal de tekst eerst een slag moeilijker worden — of erger — voordat het gaat lukken om lastige onderwerpen op een heldere manier over het voetlicht te brengen en de wetenschappelijke onderbouwing meer naar bijlagen of artikelen te verhuizen. Het is niet onwaarschijnlijk dat het karakter van het boek als geheel wat gaat schuiven van een vraagbaak voor docenten naar dat van een vraagbaak voor toetsspecialisten. Ik zal dan toch proberen het ook als vraagbaak voor docenten overeind te houden, waarvoor nodig is dat het op deelonderwerpen te raadplegen blijft zonder dat het nodig is de rest van het boek ook te bestuderen. Beter nog: ik zal een korte versie van de tekst maken, door details en theoretische kaders waar mogelijk weg te laten.

Als toetsvragen gaan over kennis — in de brede betekenis van kennis waarin we ook spreken over een kenniseconomie — dan ontkomen we er niet aan ons een helder beeld te vormen van wat het is om kennis te hebben en kennis te verwerven, en dat alles terwijl er ook nog het probleem is dat ‘nieuwe’ kennis — wat dat dan ook is — meestal ‘oude’ kennis moet vervangen. Een voorbeeld is het onderwijs in de natuurkunde. Leerlingen beginnen daaraan met naïeve opvattingen — een folk physics — die zacht gezegd haaks staan op de klassieke natuurkunde in het lesprogramma. Miskennen van het bestaan van die naïeve opvattingen bedreigt het slagen van het onderwijs, zelfs al laten toetsresultaten zien dat de leerlingen de klassieke sommen kunnen maken. Een toets die dat presteert, deugt dus voor geen meter, wat goed Nederlands is voor ‘is niet valide.’ Voor het begrip ‘validiteit’ steun ik op Borsboom, Mellenbergh en Van Heerden (2004) die afstand nemen tot de geaccepteerde literatuur over constructieve validiteit zoals te vinden in handboeken als Brennan (2006).

En dan is er nog het probleem van de eenzijdigheid van schriftelijke toetsen — met eigenlijk alleen vragen naar de bekende weg, alleen vragen waar een eenduidig antwoord op is — waar dit boek bij zijn herziening meer aandacht voor moet hebben. Aan de basis van die aandacht ligt dan Stephen Toulmin’s (1957) The uses of argument.. Deanna Kuhn’s Education for thinking (2005) gaat verder — in meerdere betekenissen — in het pleidooi om de traditionele prioriteit van het ‘leren van vakken’ te vervangen door het ‘leren omgaan met de wereld.’ De behandeling zal ik niet in een afzonderlijk hoofdstuk wegzetten, maar ik zal ieder van de hoofdstukken drie tot en met zeven ermee gaan verrijken. Vragen naar de bekende weg blijken vooral ook redactiesommen te zijn, waar goed onderzoek over beschikbaar is, zoals in Verschaffel, Greer en De Corte (2000) besproken.

Toetsen zijn in de 20e eeuw altijd opgevat als een soort meetinstrumenten, waar een optelling van het aantal goede antwoorden de uitslag geeft. Dat is een ingrijpende betekenisverschuiving geweest ten opzichte van het meer neutrale rangordenen van studenten naar hun geleverde prestaties, meestal het aantal fouten dat zij in de loop van de cursus hebben verzameld (Wilbrink, 1997 html). Deze meetopvatting is een eigen leven gaan leiden en is nu een bepalende factor in het onderwijs, een hindernis bovendien op de weg naar kwaliteit van dat onderwijs. Het is niet onmogelijk dat de combinatie van de eerder genoemde ontwikkelingen uitmondt in een andere benadering van beoordelen, waarbij niet het aantal goed op quiz-achtige toetsen bepalend is, maar een juiste aanpak van tenminste één betekenisvol probleem. Wie aan de hand van een of twee problemen demonstreert natuurkundig inzicht te hebben en niet meer gehinderd is door de eigen oorspronkelijke folk physics, kan in beginsel alle soortgelijke problemen adequaat aanpakken. Het beoordelen verschuift dan van een compensatoire benadering — estafette, alles middelen — naar een disjunctieve — hoogspringen, aannemelijk maken dat je het kunt. De conjunctieve beoordeling — hordenloop, ieder vak moet op zich voldoende zijn — is altijd al een fatale vergissing in het onderwijs geweest, misschien een onachtzaamheid bij het ontstaan van differentiatie in de vakken in de Latijnse school begin 19e eeuw. Zo'n ontwikkeling naar mee disjunctieve beoordeling zou de weg vrijmaken voor harde toepassing van wat wel meer authentieke vormen van toetsing heet, die ook beter inpasbaar zijn als integraal onderdeel van het instructieproces.

Het ontwerpen van toetsvragen zoals in 1983 behandeld, is vandaag nog even uniek als dat in 1983 het geval was. Mij is sinds 1983 alleen de DOZ-publicatie (1991) over toetsen bekend waarin deze aanpak van ontwerpen van toetsvragen is overgenomen, en van voor 1983 het werk van Van Westrhenen (1976, 1977) waarin hij de nadruk legt op uiteenleggen van de stof in te leren begrippen en begrippenstructuren. Toetsvragen schrijven heeft geen school gemaakt, en vult daarom nog steeds dezelfde lacune in de onderwijskundige literatuur. Dat blijkt mij bij tijd en wijle ook uit commentaar van mensen die dit boek op hun pad vinden. De terughoudendheid die sommigen voor de benadering in dit boek hebben volgt mogelijk uit ontzag voor de omvangrijke toetsliteratuur die is gebaseerd op methoden uit de psychologische testleer. Was toetsen in het onderwijs maar zo eenvoudig als het testen voor selectie of diagnostiek (zie ook Wilbrink, 2006 html). De cognitieve psychologie is een betere voedingsbodem voor een ontwerptheorie voor toetsvragen.

In een paar zinnen samengevat is de visie deze. Onderwijs gaat over het verrijken van de kennis van de student. ‘Kennis’ heeft de gewone brede Nederlandse betekenis en niet de enge definitie zoals in de cognitieve taxonomie van Bloom en de zijnen. Enige kennis — core knowledge — krijgen we bij de geboorte mee als beginkapitaal, alle andere kennis moeten we verwerven door echt nieuwe kennis te ontwikkelen op basis van oude kennis, door bestaande kennis door te ontwikkelen, door meer van al bestaande kennis op te nemen. Het onderwijs hoort een voortdurende uitdaging te zijn, voor kinderen en jong volwassenen die overigens van nature razend nieuwsgierig zijn. De didactiek die nodig is voor die voortdurende uitdaging bestaat voor een niet onbelangrijk deel uit het stellen van adequate vragen, en het daarop terugverlangen van beredeneeerde antwoorden. Omdat examenvragen niet principieel verschillen van de didactische vragen in het onderwijs zelf — summatieve, respectievelijk formatieve vragen (Black & Wiliam, 2009) — is de ontwerptechnologie voor al deze typen van vragen in wezen dezelfde. Dit boek gaat de uitdaging aan zo'n ontwerptechnologie te ontwikkelen.

Voorwoord

De bedoeling is dat dit boek ontwerpregels geeft die in beginsel geldig zijn voor toetsvragen voor alle disciplines. Dat is een moeilijke positie, en voor een auteur alleen eigenlijk een onmogelijke opgave. De gebrekkige uitgave van 1983 was in ieder geval een goed begin, maar verdere uitwerking was destijds niet meer mogelijk en is dus meer dan twee decennia blijven liggen.

De verschillende disciplines van deze wereld — denk aan geneeskunde, wiskunde, geschiedenis, de beheersing van de eigen taal — hebben zich soms in splendid isolation van elkaar ontwikkeld, zeker ook binnen het onderwijs. Robbert Dijkgraaf heeft er een aardige column over in de NRC van 26 mei 2007; hij is mathematisch fysicus, en ziet vanuit die positie met lede ogen aan hoe de wiskunde en de natuurkunde zich in de vorige eeuw van elkaar hebben geïsoleerd. Die eigen ontwikkeling geldt ook de didactiek van de vakken, en daarmee de onderwijsmethoden en de tradities bij het beoordelen van leerlingen. Een voorbeeld van een uit de hand gelopen — want zie Verschaffel, Greer en De Corte (2000) — beoordelingsgewoonte in een vak waar men dat niet zou verwachten, is de redactiesom in het reken- en wiskundeonderwijs. Let op, die redactiesommen zijn ook in andere vakken een gebruikelijke vorm van toetsvragen! Dit boek gaat dus met zijn pretentie om algemene ontwerpregels te bieden, roeren in diverse wespennesten.

Zo'n algemene benadering is in zekere zin natuurlijk gebruikelijk voor boeken over toetsen en de enkele boeken die specifiek het ontwerpen van toetsvragen behandelen, maar daar beperkt de algemene behandeling zich tot de vormaspecten van toetsvragen. Globaal zijn dat de onderwerpen die dit boek in hoofdstuk twee en acht behandelt, wat afgezonderd van de inhoudelijke ontwerpregels in hoofdstukken drie tot en met zeven.

Een algemene aanpak van inhoudelijke ontwerpregels is alleen goed mogelijk op een wetenschappelijk theoretische basis die algemeen is in relatie tot vakspecifieke didactiek en gewoonten. Dat leidt tot de kennisleer (epistemologie) voor de beschrijving van vakinhouden, en de cognitieve psychologie voor hoe mensen met die vakinhouden omgaan. De cognitieve psychologie in dit boek is weliswaar nogal theoretisch, zoals de cognitieve theorie van John Anderson, maar die theorie staat in een empirische traditie van onderzoek. De algemene theorie kan leiden tot botsingen met specifieke vakdidactiek, zoals in het geval van wiskunde verwoord in bijvoorbeeld Anderson, Reder, en Simon (1996 pdf). Maar het omgekeerde gebeurt ook: onderzoek in het veld van de natuurkunde hoe het mogelijk is dat studenten ondanks al hun stevige nakuurkundige kennis toch ook nog sterke naïeve natuurkundige opvattingen hebben, leidt tot inzichten die een algemene betekenis hebben voor methoden van onderwijs en toetsen (zie hier voor literatuur over folk physics en hoe het onderwijs daarmee om kan gaan — of dat nog steeds kan vertikken)

Vernieuwende vraagvormen, maar waar is de inhoud?

Vragen kunnen vernieuwend zijn op de volgende dimensies

vorm (keuzevragen, open vragen)
antwoordtechniek (aanstrepen, muisklik)
extra media (afbeelding, filmpje)
mate van interactiviteit (volgende actie gestuurd door gegeven antwoord)
scoring (omzetten van antwoorden naar scores)

Dit is een goed voorbeeld van de grote verdwijntruc in onderwijsonderzoek en -ontwikkeling, the missing paradigm: de onderwijsvormen zijn makkelijker te onderzoeken dan hun verband met vakinhoudelijke kennis van docenten, daarom verdwijnt die kennis makkelijk buiten beeld, zo ook in dit rijtje van vijf, de illusie wekkend dat die onderwijs- en toetsvormen belangrijker zijn dan vakkennis. Of, als variant: dat competenties belangrijker zijn dan de vakkennis waar zij uitdrukking aan moeten geven; zie Shulman, 1986 pdf, voor een onverdachte vindplaats als het om de competentie-mode gaat.

Rob Hartog (Red.), Silvester Draaijer, Mia van Boxtel, Joke Hofstee, Ignace Latour, Luuk Rietveld, Huub Verstraalen en Pierre Gorissen (2008). Design and development of digital closed questions: A methodology for midsized projects in higher education. Active learning, Transparent assessment - ALTB. SURF Foundation. (p. 138) Sorry, Huub. pdf De auteur ontleent het lijstje aan Parshall e.a. (2002, p. 72), die deze vijf dimensies van vernieuwende toetsvragen publiceerden. Parshall e.a. betrekken inhoud er wel bij, maar in de beperkte betekenis van nieuwe vraagvormen die het mogelijk maken te toetsen op sommige inhouden die op traditionele wijze lastig zijn te toetsen. De ontwerper werkt dan vanuit de technische mogelijkheden, en dat is toch echt de wereld op zijn kop; beter: als inhoud belangrijk is, ontwerp daar dan een adequate vorm van vragen bij, in plaats van het omgekeerde te doen.

Er zit een risico aan zo'n algemene benadering, een risico dat inherent is aan onderwijsonderzoek: het dreigt voorbij te gaan aan de inhoud van het vak en de vakkennis van de leraar en ontwerper van toetsvragen (Shulman, 1986, p. 6: the ‘missing paradigm’ problem). Door de afwezigheid van de vakkennis van actoren in veel onderwijsonderzoek, en trouwens ook in dat naar de werking van de arbeidsmarkt (Wilbrink, 1994 html), is de misvatting ontstaan dat leraren en werknemers vooral over ‘competenties’ moeten beschikken, ‘de kennis zoeken ze wel op.’ Bij toetsen doet zich hetzelfde probleem voor: toetsdeskundigen en psychometrici willen niet van doen hebben met de inhoud van de vragen, en werpen zich alleen op vormaspecten en hoe vragen in statistische zin functioneren, zie als voorbeeld van dat laatste de inhoudsopgave van Eggen en Sanders (1993 pdf), en houd (de pdf van) dat boek bij de hand voor antwoorden op vragen over alles wat over toetsen statistisch valt te zeggen. Een van de zeldzame onderzoeken die juist nadrukkelijk zijn gericht op aanwezige vakkennis in relatie tot instructie, tot vragen stellen en het rechtvaardigen van antwoorden, is dat van Hill, Blunk, Charalambous, Lewis, Phelps, Sleep en Ball (2008), een serie case studies van leerkrachten die rekenonderwijs geven. Het laat zien hoe groot verschillen in beheersing van het vak zijn, en wat de impact daarvan kan zijn op de gegeven instructie. Een ander voorbeeld is een verkennend onderzoek naar de manier waarop wiskundigen bepalen of een gegeven bewijs valide is: (Weber, 2008). Wie mocht denken dat het toch vanzelfsprekend is dat wiskundigen zoiets ondubbelzinnig kunnen, zeker als het bewijzen door scholieren zijn, kan in dit artikel zien dat de werkelijkheid bepaald anders is. Hoe gaat dit boek dan om met het geschetste risico van verwaarlozing van vakkennis? In de paragraaf over validiteit 2.6 is er nadrukkelijk aandacht voor het corpus van het vak; hoofdstuk acht zal aandacht geven aan verschillen in opvattingen tussen vaklui (vgl. Weber, 2008) omdat de kwaliteit van examens daarbij aan de orde is; en bij alle ontwerpen ligt de nadruk op een juiste omgang met de betreffende kennis (kennistheorie).

Na meer dan duizend jaar West-Europese ervaring met het ondervragen van studenten is het opmerkelijk dat er nog steeds weinig of geen goede methoden beschikbaar zijn voor het gericht ontwerpen van die vragen. De dagelijkse praktijk is, ook bij nationale toetsontwikkelaars zoals het Cito, dat het maken van toetsvragen de taak is van (teams van) docenten, die daarvoor niet getraind zijn in het hanteren van adequate technieken voor het ontwerpen — in tegenstelling tot het bedenken — van toetsvragen bij gegeven leerstof.

Het belang van goede ontwerpregels voor het ontwerpen van toetsvragen is evident: bij gebrek daaraan loopt de kwaliteit van het onderwijs sluipenderwijs weg. Waar het bedenken van toetsvragen een zaak van intuïtie of van de creatieve inval is, en niet van een helder ontwerp, blijft het lastig om de kwaliteit van het onderwijs te verbeteren. De toetsresultaten zijn immers een belangrijke aanwijzing voor wat er met het onderwijs is bereikt, en toetsen die iets van onbekende creativiteit meten, presteren in dat opzicht onvoldoende.

Dit boek wil een samenhangend geheel van ontwerpregels bieden voor de vertaalslag van manieren van beheersing van leerstof naar toetsvragen. Deze nadruk op de adequate inhoud van toetsvragen onderscheidt dit boek ook van de Technology of test item writing van Roid en Haladyna (1982). Daar is het ideaal juist om leerstofonafhankelijke technieken te hanteren. Beide boeken zijn dan ook als enigszins complementair te zien. Het is het aloude dilemma van vorm of vent, maar omdat het ontwerpen van toetsvragen geen literaire oefening is, is het beter zowel de vorm als de inhoud in het ontwerp mee te nemen. Overigens is Haladyna doorgegaan met studie van ontwerpregels van de leerstof-onafhankelijke soort, het hoofdstuk ‘Writing the test item’ in zijn (1999) vat de consensus op dit gebied samen. De lijstjes in hoofdstuk acht zijn met die consensus min of meer in overeenstemming, maar dat zijn dan de eenvoudige geboden en verboden voor de vorm van de vragen, niet de hersenbrekers die nodig zijn om vragen inhoudelijk adequaat te ontwerpen.

De te presenteren ontwerpregels bieden geen oplossing voor alle problemen. De behandeling is beknopt, en probeert vrij te blijven van de bijzonderheden die eigen zijn aan specifieke disciplines. Slechts enkele bladzijden behandelen het leggen van dwarsverbanden — analyse en inferentie — waar eerder een behandeling in afzonderlijke hoofdstukken op zijn plaats zou zijn. Toetsen op het oplossen van problemen krijgt een karige behandeling in slechts een enkel hoofdstuk. Ook brengt de algemene behandeling met zich mee dat de lezer geen kant-en-klare ontwerpregels voor het eigen vakgebied aantreft, maar deze telkens moet afleiden van de algemene regels en de voorbeelden. Op zowel de vorm als de inhoud zijn illustratieve missers te vinden bij landelijke quizzen met een hoog profiel, zoals de Nationale Wetenschapsquiz (html). Dezelfde quiz demonstreert de noodzaak van een adequate beschrijving van wat precies de bedoeling van een toets is: wat is de missie voor de Nationale Wetenschapsquiz, wat is precies het wetenschappelijke in het deelnemen aan of kijken naar die quiz? Als die missie onbenoemd blijft, hoe is het dan mogelijk om de inhoudelijke kwaliteit van de toetsvragen te beoordelen?

1 Inleiding

Dit boek geeft een technologie voor docenten die hun eigen toetsvragen ontwerpen, maar ik sluit niet uit dat het ook van belang kan zijn voor onderzoekers die met beoordelen in het onderwijs bemoeienis hebben. De nadruk ligt op vragen voor proefwerken of tentamens: de kwaliteitseisen zijn hier strenger, hoewel de aard van de vragen niet wezenlijk anders is dan die waarmee de docent leerprocessen richting geeft of bijstuurt. Het bedenken van telkens weer nieuwe toetsvragen heeft docenten en professionele schrijvers van toetsvragen altijd al veel moeite gekost. De reden is dat er geen technologie voor het ontwerpen van toetsvragen beschikbaar is, zodat men iedere nieuw te bedenken vraag al gauw als een nieuwe en vooral creatieve uitdaging ziet. Boeken over toetsen in het onderwijs geven overzichten van soorten vragen die zoal in gebruik zijn, met reeksen voorbeelden, en lijstjes van te vermijden onhandigheden. Een ontwerptechnologie is daar niet te vinden, de vertaalslag van leerstof naar vragen erover — van het leren naar vragen daarover, wat een wezenlijk verdergaande opvatting is — blijft vrijwel onbesproken, of is letterlijk een zaak van de intuïtie van de ervaren docent. Overigens is de in hoofdstuk twee te behandelen vorm van toetsvragen een thematiek die rijk genoeg is voor een eigen technologie, zie ook het werk van Roid en Haladyna (1982).

Figuur 1. Schema van alles. De getallen staan voor de hoofdstukken. Voor software om zo te schematiseren zie http://cmap.ihmc.us/

Er is een technologie nodig voor het inhoudelijke ontwerp van toetsvragen, voor het maken van de vertaalslag van mate en aard van beheersing van de leerstof naar vragen erover. Dat kan een verzameling van ontwerpregels zijn om rechtstreeks de aard van beheersing van de leerstof om te vormen tot vragen over zichzelf. Dit boek blijft om te beginnen zo dicht mogelijk bij de leerstof zelf, legt deze uiteen in in zijn samenstellende delen, waarop vervolgens de ontwerpregels zijn toe te passen. De leerstof is niet de tekst van het leerboek op zich, maar de inhoud waar deze tekst voor staat, als deel van het corpus van het betreffende vak. Belangrijk is dat de te ontwerpen vragen niet gaan over de leerstof, maar over de leerlingen en de studenten die die stof hebben bestudeerd: wat hebben zij ervan geleerd en begrepen. De ontwerper neemt niet zomaar genoegen met goede antwoorden, maar wil weten hoe de leerling tot het goede antwoord komt, en zal daar dan ook naar vragen. Waar de zestiger en zeventiger jaren van de vorige eeuw het expliciteren van doelen als noodzakelijke eerste stap zag, is dat nu het expliciteren van de aard van de kennis van zowel de aankomende student als van de aan te bieden stof zelf, en daarmee ook van het mogelijke proces van de evolutie van de eerste naar de laatste. Tenminste, voor wie niet het compententieleren aanhangt, waar immers juist die kennis is ondergesneeuwd onder al die competenties. Resultaten vanuit diverse disciplines, waaronder ook neurocognitieve wetenschappen, dragen de nodige bruikbare inzichten aan. Een goed voorbeeld is dat van de naïeve natuurkunde versus de klassieke natuurkunde van Newton, maar dergelijke tegenstellingen doen zich bijna per definitie bij alle onderdelen van het onderwijs voor. Bijna per definitie: wanneer naïeve opvattingen zouden sporen met wetenschappelijke, is onderwijs immers overbodig.

1.1 Toetsvragen ontwerpen: kunst of kunde?

Het is een wijdverbreide opvatting dat het ontwerpen van toetsvragen alleen goed mogelijk is door creatieve geesten die dat van nature in de vingers hebben en veel ervaring hebben. In een vroege publicatie is dat al kenmerkend geformuleerd (zie de box).

de ideeëngenerator (NL)

“Is de itemschrijver zich van de doelstellingen bewust, dan moet hij de items gaan bedenken. Waar haalt hij nu een idee voor een item vandaan? Dit probleem wordt door sommigen opgelost door aan het bureau te gaan zitten en na te denken. Anderen komen gemakkelijker op ideeën wanneer zij met iets heel anders bezig zijn, zoals afwassen, of douchen. Vaak komt men ook op een idee naar aanleiding van problemen, die in de klas bij de behandeling van de stof naar voren zijn gekomen.”

Lans en Mellenbergh (1969, p. 84)

Ook instellingen die nationale toetsen maken, zoals het Cito, en Educational Testing Service in de VS, laten docenten tegen een bescheiden vergoeding toetsvragen bedenken in plaats van ontwerpen.

Wesman (box) spreekt auteurs expliciet aan op hun kunst om ideeën voor toetsvragen te genereren: hij houdt een kunde voor onmogelijk. Een kwarteeuw later verwoordt Osterlind (1997) in de laatste bladzijde van zijn boek hetzelfde idee.

De onvermijdelijke tegenhanger van toetsvragen die uit de kunst zijn, is dat het beantwoorden van die vragen ook een kunst is. Daarvan moeten we dan toch zeggen, met De Groot (1970 html), dat we dat studenten niet mogen aandoen. Er zijn dan ook in de vorige eeuw verwoede pogingen ondernomen om ontwerpregels&mdashdomain specification strategies — op te stellen, zie bijvoorbeeld Popham (1980), maar ook hij sluit zijn beschouwing af met een paragraaf ‘Art with a capital A.’ Eigenlijk waarschuwt Popham dat ontwerpregels mogelijk wel zijn te ontwikkelen, maar dat hun toepassingsomstandigheden altijd veel ad hoc beslissingen zullen eisen die het geheel toch weer analoog aan Art lijken te maken. In feite is de korte beschouwing van Popham over zijn Art het failliet van de opvatting dat alles maakbaar en te plannen is, dat ontwerpregels dus niet heuristisch, maar objectief moeten zijn, objectief in de zin dat verschillende ontwerpers, werkend met dezelfde ontwerpregels, tot dezelfde resultaten zouden moeten komen. Popham kon de laatste conclusie in 1980 nog niet trekken, maar deed dat in de 90er jaren overigens wel. Pseudo-objectiviteit keert telkens terug, in overdreven pleidooien voor keuzevragen, eisen dat er modelantwoorden zijn, verlangen dat verschillende beoordelaars van hetzelfde werk onafhankelijk van elkaar tot dezelfde waardering zouden moeten komen. Maar de keuze is niet noodzakelijk die tussen creativiteit of objectiviteit; er is een alternatief dat in de filosofie van Giere (2006) in algemene zin is beschreven, laat ik het voor het onderwijs aanduiden met expertise en professionaliteit, die zich immers niet allereerst kenmerken door creativiteit of objectiviteit. En de leerling als aankomend expert. Dan terug naar Popham:

Art with a capital A

“Het is nergens duidelijker dat we in de ontwikkeling van toetsen met kunst bezig zijn, eerder dan met wetenschap, dan bij het onder woorden brengen van de algemene aard van het gedragsdomein waarover de toets zal gaan. (...) Ik voel me nog sterker tekortschieten waar ik niet in staat blijk om anderen te leren hoe ze zo’n gedragsdomein kunnen beschrijven. Ik kan uitleggen hoe ik het zelf doe, en kan een enkele medewerker wel verleiden tot eenzelfde introspectie, maar het is me absoluut niet gelukt om die eigen aanpak terug te brengen tot een onderwijsbare vorm — compleet met praktische oefeningen, etc. ”

[vertaald uit] Popham (1980, p. 26)

Er is nog een andere, praktische, reden waarom het primaat van de creatieve inval zorgelijk is. Er zijn meestal veel vragen over toch maar beperkte hoeveelheden leerstof nodig. Dan moeten duistere krochten van creativiteit worden opgezocht om nog weer eens iets ‘nieuws’ te bedenken, want die oude toetsvragen zijn bij studenten bekend en daarom meestal niet meer bruikbaar. Nee, het is geen goed idee om toetsvragen geheim te houden om ze later nog eens te kunnen gebruiken: dat geheimhouden gaat niet lukken, en leidt dan tot ongeregeldheden.

Voor de ongewapende toetsvragenschrijver is iedere nieuw te bedenken vraag zodoende een hersenbreker. Dit boek geeft ontwerpregels om die impasse te doorbreken, voor de vorm van toetsvragen, maar vooral voor de adequate inhoud van de vragen. Hoofdstuk twee behandelt de keuze van een geschikte vraagvorm, zoals open vragen of juist meerkeuzevragen, en de zorg voor kwaliteit van de vraagstelling (vooral in de bijna tot een eigen hoofdstuk uitgegroeide paragraaf 2.6 over validiteit). Hoofdstuk drie werkt uit wat precies de inhoud van een vak of een leerboek is — wat is het dat we in brede zin ‘kennis’ van het vak noemen — en latere hoofdstukken werken dat voor de verschillende soorten van kennis uit naar het ontwerpen van passende toetsvragen.

Aan de vraag in de box is af te lezen dat hier een verhaaltje bij een som is bedacht, in plaats van omgekeerd, maar daar gaat het even niet over: er is met deze vraag iets bijzonders aan de hand dat hem anders maakt dan gebruikelijke redactiesommen. Het blijkt dat leerlingen van 12 jaar deze experimentele opgave vooral fout beantwoorden. Inderdaad: 800 meter, of 200 meter, is geen goed antwoord. Er is van alles geprobeerd om leerlingen te bewegen realistische antwoorden op dit type redactiesommen te laten geven, met gering succes. De neiging bij de onderzoekers in dit veld, zie bijvoorbeeld Verschaffel, Greer en De Corte (2000) voor een overzicht, is om allerlei veronderstellingen te opperen over de aard van het onderwijs dat tot dit soort twijfelachtige prestaties leidt. Die theorievorming, maar vooral de empirische resultaten in deze lijn van onderzoek, maken redactiesommen bij uitstek geschikt om er aanwijzingen uit te halen voor een ontwerptechnologie voor toetsvragen. Daar is geen filosoferen over verborgen onderwijsprogramma’s voor nodig, het volstaat om te signaleren dat voor redactiesommen zoals in het onderwijs typisch aan de orde, een behoorlijk onderwijskundig ontwerp meest ontbreekt. In de methodiek van realistisch rekenen zijn het opgaven met ‘context,’ maar dat is alleen een andere benaming, terwijl het onderwijskundig ontwerp in de praktijk weinig meer is dan alleen de ongetoetste veronderstelling dat het inkleden van opgaven in contexten noodzakelijk is om te voorkomen dat leerlingen wel kunnen rekenen, maar die kennis in de buitenschoolse praktijk niet gebruiken (het transfer-probleem, maar dan krom opgevat). Redactieopgaven komen ook bij andere vakken uitbundig voor, maar bij rekenen komen de relevante kenmerken scherper uit.

Terug naar het voorbeeld van de afstand van het huis van Mark naar dat van Piet. Leerlingen die ‘800’ antwoorden, vatten de redactiesom op als een optelsom, zo hebben ze dat — waarschijnlijk onbedoeld — geleerd door de vele redactiesommen die ze zo redenerend wèl goed hebben gemaakt. De redactiesom wil een aantal dingen tegelijk, en doet zodoende niets echt goed. Een redactiesom is volgens welke rationele regels voor het opstellen van toetsvragen dan ook, geen adequate vorm voor het toetsen van de beheersing van (de regels voor) het optellen. Optelsommen zijn gewoon optelsommen. Optelsommen horen tot de categorie opgaven over relaties tussen begrippen, en dat is hoofdstuk vijf in dit boek. Optellen is iets met de relatie tussen getallen. Het getalbegrip is een verhaal apart, ook daar is mooi onderzoek naar gedaan door Susan Carey (1998), en toetsvragen voor dat getalbegrip horen tot de categorie vragen over begrippen, hoofdstuk vier in dit boek. Maar hoe zit het dan met redactiesommen? De meerwaarde van de redactiesom boven gewone sommen zit nu juist in de vertaalslag van de gegevens naar een adequaat wiskundig model, de daaruit afgeleide aanpak voor de oplossing, en de controle of de gevonden oplossing inderdaad het gestelde probleem beantwoordt. Redactiesommen zijn dus een prototype voor opgaven in de categorie probleemoplossen, in dit boek behandeld in hoofdstuk zeven. Redactiesommen zijn eigenlijk geen sommen, het zijn probleemstellingen. Dat karakter miskennen, leidt tot tamelijk rampzalig onderwijs dat vervreemd is van de door leerlingen ervaren werkelijkheid. Dat is precies wat onderzoek over redactiesommen, word problems bij de buren, heeft aangetoond. Wie niet is overtuigd dat het met die redactiesommen zo erg is gesteld, zie de Nationale Rekentoets 2006 hier, een toets die door het Cito is opgesteld. Neem voorlopig maar even als werkhypothese aan dat dit type probleem niet beperkt is tot het onderwijs aan twaalfjarigen, en evenmin tot rekenen en wiskunde, maar dat het een probleem is dat het hele onderwijs doortrekt. Omdat het zo nauw verweven is met tekorten in het ontwerpen van toetsvragen en dus ook van oefenmateriaal, dicteert het mede de inhoud van dit boek. Hoofdstuk zes is niet genoemd: dat gaat over vragen bij teksten, en neemt een positie in tussen vragen over relaties (hoofdstuk vijf) en probleemoplossen (hoofdstuk zeven): het gaat verder dan vragen over gegeven relaties, en bereidt voor op enkele van de afzonderlijke stappen bij het oplossen van problemen.

Er kan over redactiesommen dus pittige strijd ontstaan tussen bijvoorbeeld ouders en leraren, al naar gelang de interpretatie van bepaalde sommen. Kijk, dat is het gebied van de rechtmatigheid, en dat is in hoofdstuk acht aan de orde. Verschaffel e.a. (2000) citeren voorbeelden van dergelijke discussies. Door hun talige karakter zijn redactiesommen ook vatbaar voor ontwerpgebreken in die sfeer: het Nederlands is te moeilijk voor zelfs de gemiddelde leerling, of bepaalde woorden zijn onbegrijpelijk voor veel leerlingen met Nederlands als tweede taal. In de mate waarin dat het geval is, toetsen de sommen vooral achtergrond van de leerlingen, en geen rekenvaardigheid. Ook dat is onderwerp van hoofdstuk acht, en zou ook in de Nederlandse politiek hoog op de agenda moeten staan (Leseman, 2007).

Omdat er zoveel experimenteel onderzoek is gedaan over hoe iedereen omgaat met redactiesommen in het basisonderwijs, is het aan de hand daarvan ook glashelder hoe kritiekloos toegepaste traditionele methoden voor het opstellen van redactiesommen tot gevolg hebben dat de leerlingen ervan overtuigd raken dat alle opgaven altijd een oplossing hebben, een oplossing bovendien die is te krijgen door de laatst behandelde procedure toe te passen op de genoemde getallen. In de verarmde taal van de redactiesommen geven bepaalde woordjes een sterke aanwijzing over wat de leerling moet doen: ‘over’ betekent dan van elkaar aftrekken van de getallen in de som, het is dus overbodig om de opgave in zijn geheel goed te lezen. Voed kinderen daarin op gedurende twaalf jaar, en ziedaar: incompetentiegericht onderwijs. Ook dit zijn vormaspecten, in hoofdstuk twee aan de orde. Zelfs opgaven die op zichzelf een kwalitatief goed ontwerp hebben, kunnen negatieve gevolgen hebben door ze ondoordacht massaal te gebruiken.

En zo blijkt het mogelijk om technieken voor het ontwerpen van toetsvragen mede te baseren op empirisch bewijs dat juist buiten het gebruikelijke onderzoek naar toetsen — educational measurement — is verzameld, vaak in cognitief-psychologisch onderzoek zoals van Carey, Kuhn of Bereiter, maar ook in de nissen van vakspecifiek onderzoek zoals binnen wiskunde of natuurkunde. Want het mag uit De mechanisering van het wereldbeeld van Dijksterhuis (1951) bekend zijn dat er voor natuurkundeopgaven een probleem is dat analoog is aan dat van de redactiesommen in de wiskunde: leerlingen of ook volwassen studenten leren wel the tricks of the trade, maar blijken daarmee, tot starre verbazing van hun leraren, nog niet bevrijd van naïeve opvattingen over natuurkunde. Er zijn spectaculaire resultaten te verkrijgen in iedere willekeurige klas of groep aan de hand van toch in wezen heel eenvoudige vragen over kogelbanen en dergelijke die velen beantwoorden op basis van naïeve — Aristoteliaanse — natuurkundige opvattingen, en dus ‘fout’ beantwoorden. Ook dit fenomeen is voorwerp van internationaal onderzoek, gericht op het vinden van didactische mogelijkheden om het probleem op een goede manier de baas te kunnen (zie bijvoorbeeld Slotta en Chi, 2006 pdf). Een en ander heeft alles te maken met hoe toetsvragen inhoudelijk adequaat te ontwerpen.

1.2 Uitgangspunten

Dit boek berust op een aantal nadrukkelijke uitgangspunten die het karakter van de ontwerpregels bepalen. De algemene insteek maakt graag gebruik van ontwikkelingen en publicaties die buiten mainstream educational measurement liggen, zoals Atkin, Black en Coffey (2001). De bedoeling is om toetsen als ingebed in een complexe context te behandelen, in plaats van als een geïsoleerd gebeuren. Examens, en vrijwel alle andere beoordelingen in het onderwijs, zijn inherent ongelijke situaties van beoordeelden tegenover beoordelaars, ook in dat opzicht is er een risico dat beoordelingssituaties op een autoritaire wijze geïsoleerd zijn van de samenleving. Het is daarom goed dat het recht grenzen stelt aan de vrijheid van handelen van beoordelaars. Niet alleen moeten zij zich aan de wet houden, maar ook aan in het algemeen rechtsbewustzijn levende regels van behoorlijk gedrag. Maar ook zonder het recht te schenden, kunnen beoordelaars gekke dingen doen in een klimaat dat voor het beoordelen van kennis alle kunstgrepen geoorloofd acht. Het mag natuurlijk niet zo zijn dat er op lange termijn schade ontstaat. Een direct aansprekend voorbeeld is het laten raden bij keuzevragen: de verborgen boodschap aan de leerling is dat het OK is om er maar een slag naar te slaan wanneer je iets niet weet, en dat is strijdig met de hoogste doelen van onderwijs. Voor een enkele toets hoeft niemand zich over dat raden druk te maken, maar de werkelijke situatie is natuurlijk dat keuzetoetsen intensief worden voorgelegd van de kleutergroep tot en met examens in het hoger onderwijs. Laten raden bij niet weten, of niet laten raden, maakt dan een landverschuiving verschil in het onderwijs.

hoe rationeel mogen we zijn?

Een voorbeeld van zo'n onverwachte bron is een artikel van Robyn Dawes (2000) over hoe moeilijk het is om problemen goed op te lossen, en hoe makkelijk het is de eigen slordigheden in een oplossing te herkennen zodra iemand de betere oplossing laat zien. Wonderlijk asymmetrisch. Het is niet dat we geneigd zijn irrationeel te redeneren, integendeel. De flessenhals is dat we problemen te oppervlakkig karakteriseren en er dan een op zich wel rationele, maar desondanks ondeugdelijke, oplossing voor bedenken.

Dat gaat op voor puzzels, natuurlijk, anders zouden ze hun bekoring verliezen. Maar ook voor de ontwerper van toetsvragen? Ja, die kan van het fenomeen gebruik maken — er is een enorme literatuur over herkennen versus produceren van goede antwoorden. En de ontwerper moet doordrongen zijn van de draagwijdte van de stelling van Dawes: dat het weten wat een rationele oplossing is, het verdraaid lastig kan maken nog begrip te hebben voor irrationele oplossingen van anderen, zoals leerlingen. En laat de ontwerper ook naar zichzelf kijken in deze spiegel van Dawes: irrationele fouten in het ontwerp van een toetsvraag — bijvoorbeeld de Wetenschapsquiz heeft er een reeks voorbeelden van — zijn onvermijdelijk; geef dan ook onmiddellijk toe wanneer iemand ze aanwijst, zorg ervoor dat iemand ze kan aanwijzen nog voordat de toets naar de drukker gaat. Fantastisch, bedankt Robyn Dawes.

Omdat er tussen mensen — en dus ook tussen leerlingen — enorme verschillen zijn, is de (verborgen) verleiding altijd aanwezig om het beoordelen te richten op die verschillen, in plaats van op de vraag of Jan, Piet en Marie de doelen hebben bereikt. Eeuwenoude onderwijscultuur (Wilbrink, 1997 html) is ook al gericht op belonen van de ‘best presterende’ studenten, wat in de praktijk niet de studenten hoeven te zijn die in de cursus het meest hebben geleerd, zich hetmeesthebben ingespannen, of beide.

Wie verschillen wil testen kan het best vragen maken zoals ze ook in intelligentietests voorkomen, en dat heeft met het gegeven onderwijs dus niets van doen. Toetsvragen daarentegen, moeten representatief zijn voor wat er in het onderwijs is behandeld: iedereen moet, althans in beginsel, in staat zijn daar een goede score op te behalen, ongeacht de eigen intelligentie (binnen brede grenzen). Natuurlijk, onderwijs stopt ergens voordat perfectie is bereikt, en waar dat ongeveer is hangt af van hoe moeilijk of makkelijk de te ontwerpen vragen zijn. Let op: omdat perfecte stofbeheersing een fictie is, is het noodzakelijk het geval dat op voorhand de kans dat een student een bepaalde vraag correct beantwoordt kleiner is dan honderd procent. Dat betekent dat toeval de score meebepaalt.

steekproeffluctuaties: zijn dat fouten dan?

Een toets is altijd een steekproef van mogelijke vragen over de beheersing van de betreffende leerstof. De uitslag van zo'n steekproef is daarom ook afhankelijk van toevalligheden: het hadden immers andere vragen kunnen zijn, dan was de totaalscore vrijwel zeker een andere geweest. Het probleem is nu dat in de educational measurement literatuur de steekproeffluctuaties als fouten van de meting worden behandeld. Wat klinkklare onzin is. Fouten zijn afwijkingen die door ongelukkig ontworpen vragen ontstaan, maar niet door een correct uitgevoerde steekproef. Er is een enorme spraakverwarring over wat heet betrouwbaarheid van toetsen, en in het kielzog daarvan ook over wat validiteit van toetsen is. Een artikel van Borsboom, Mellenbergh en Van Heerden (2004) maakt korte metten met deze warboel. Het heeft met het ontwerp van toetsvragen te maken: sterke nadruk op de eis om aannemelijk te maken dat antwoorden op de vraag specifieke beheersing bewijzen, en afwijzen van de gedachte dat eventuele tekortkomingen wegvallen als de toets maar voldoende (mogelijk slechte) vragen telt.

Verschillen tussen studenten zijn deels dus ook toeval, wat weinigen zich ten volle realiseren. Deze toevallige verschillen zijn niet echt tegen te gaan door toetsvragen beter te ontwerpen, anders dan onnodig moeilijke vragen te vermijden. Sta er even bij stil: op onnodig moeilijke toetsvragen doen buitenstaanders het weinig minder beroerd dan goed voorbereide studenten. Toevallige verschillen zijn inherent aan het beoordelen in het onderwijs, maar dat is niet altijd even makkelijk in te zien omdat, al even typisch, ook leerlingen sterk van elkaar verschillen in voorbereiding, capaciteiten, en combinaties van die twee.

Voor de juiste interpretatie van al die verschillen is een helder referentiepunt nodig, en zo'n referentiepunt is beschikbaar. Studenten die redelijk studeren moeten duidelijk beter presteren dan een groep die dat onderwijs nog niet heeft gevolgd en de stof evenmin al heeft bestudeerd. Een toets die dat verschil niet kan aantonen, bestaat mogelijk uit vragen die niet goed zijn ontworpen; een alternatieve verklaring is dat het onderwijs uit algemene babbels bestaat, dat studenten er met de pet naar hebben gegooid, of beide.

Nu is het ook mogelijk aan te geven waarom ‘makkelijke’ vragen toch goede ontwerpen kunnen zijn: als ze makkelijk zijn voor de studenten die het onderwijs hebben gevolgd, terwijl ze tegelijk moeilijk zijn voor wie dat nog niet heeft gedaan. Dit criterium laat nog alle ruimte voor het verdere ontwerp van vragen, sterker: het neemt de blokkerende misvatting weg dat vragen niet te makkelijk zouden mogen zijn. Dat heeft te maken met de verwarring dat toetsen eigenlijk net psychologische tests zijn, wat ze niet zijn (Wilbrink, 1986 html)

tellen we nog steeds fouten, of kan het beter dan dat?

Traditionele opvattingen over toetsen zijn gebaseerd op het tellen van fouten of punten, en op basis daarvan leerlingen met elkaar vergelijken. In letterlijke vorm kwam dat nog in de eerste jaren van de vorige eeuw voor op het stedelijk gymnasium van Groningen. Maar belangrijk is te signaleren dat in de received view over toetsen, die teruggaat tot Edward Thorndike (1904), hetzelfde idee de basis vormt van de claim dat toetsen, net als instrumenten in de natuurkunde, meetinstrumenten zijn. Dat betekent dat men in de praktijk van alledag toetsen construeert met het oogmerk (verschillen in) de mate van beheersing van A of Y vast te stellen. Maar dat is niet de enige mogelijkheid om zoiets als beheersing te toetsen. Het is immers met kennis en inzicht zo, dat vaak al bij een enkele goed gestelde vraag duidelijk is of Jan of Marie het gevraagde beheerst, of nog niet. Disjunctief toetsen heet dat: op een serie vragen of toetsen boekt de leerling een ‘voldoende’ resultaat door tenminste één vraag of toets juist te beantwoorden. Dat zou een prachtig model kunnen zijn voor het schoolonderzoek als onderdeel van eindexamens. In de vorm van practica kennen we dat al lang, wat A.D. de Groot (1972) ‘H-onderdelen’ — handelingsonderdelen — noemde.

Studenten hebben belang bij hun toetsresultaten, en zullen er het nodige aan willen doen om er goed mee weg te komen. Dat is ook de reden voor al dat toetsen in het onderwijs: gewoon om iedereen bij de les te houden. Studenten willen graag weten welke vragen ze kunnen krijgen — en welke niet — om zich zo doeltreffend te kunnen voorbereiden. Docenten doen er verstandig aan dit spel goed mee te spelen, zoals De Groot (1970) en Van Naerssen (1970) ieder op eigen wijze bepleiten. De kwaliteit en inhoud van de toets heeft een sterk effect op op hoe studenten zich op die toets voorbereiden, dus voorafgaand aan de toetsafname zelf, ik noem dat feedforward — in de literatuur ook backwash genoemd (Bishop, 2002). Deze feedforward staat tegenover feedback die achteraf tot effecten leidt, maar in de toetspraktijk vaak een slag in de lucht is omdat op dat moment voor de leerling/student niets meer van die feedback afhangt.

Geef goede informatie over de te verwachten toetsvragen, en stem onderwijs en toets op elkaar af. Toets wat is onderwezen, onderwijs wat in de toets terugkomt. Het is duidelijk dat hier veel afhangt van het ontwerp van de afzonderlijke toetsvragen. Alleen maar een reeks vragen over de behandelde stof bedenken is uit den boze. Het is wel zeker dat dan de van de studenten gevraagde prestatie niet spoort met wat de bedoeling is dat zij aan kennis en inzicht verwerven. Dan gaat feedforward destructief werken: studenten gaan zich voorbereiden op de gevraagde prestaties, in plaats van op de bedoelde prestaties. Draai dat om door goede aandacht te schenken aan het ontwerp van de vragen.

Wat geldt voor ieder afzonderlijk vak, geldt des te sterker voor het hele onderwijs zoals de leerling — en later de student — dat doorloopt. De dominante manier van toetsen is onderdeel van het informele curriculum, en leert als zodanig de leerling een bepaalde kijk op de wereld. Wat er zo gebeurt, is zelden nadrukkelijk de bedoeling van het onderwijs. Door vrijwel altijd vragen te stellen waar eenduidig goede of foute antwoorden op mogelijk zijn, werkt het onderwijs aan het vestigen van een wereldbeeld dat niet strookt met de zelden perfect voorspelbare werkelijkheid van alledag. Een illustratief onderzoek op dit punt is te vinden in Fischbein (1975) (zie hier).

wat nu met de doelen?

Toetsen moeten representatief zijn voor het voorafgaande onderwijs. Niet dat in de toets nog weer eens alle opgaven voorkomen die in het onderwijs behandeld zijn, maar het is wel de bedoeling dat de toets representatief is voor het bedoelde eindniveau van stofbeheersing.

In het gesprek over onderwijs, ook het politieke gesprek, is veel te doen over de doelen, ja soms zijn daar hele waslijsten van opgesteld. Maar doelen zijn nog geen toetsvragen, en het is niet altijd even vanzelfsprekend hoe doelen in vragen zijn te vertalen. Het is ook wel een tikje ingewikkeld: naast leerstof en toetsvragen, ook nog een set doelen. Dit boek gaat er eenvoudig van uit dat bij het ontwerper de toetsvragen direct afleidt uit wat het is om de leerstof te beheersen.

Aan het eind van de cursus telt alleen de toets. De toets legt vast wat studenten van de stof kennen en kunnen. Maar toch is dit een hopeloos tekortschietende beschrijving, zie de box hierbeneden die weergeeft hoe bijvoorbeeld Bereiter (2002a) de situatie karakteriseert. Als de doelen verder gaan dan wat de toets in feite vraagt, zijn die doelen daarmee gereduceerd tot overbodige franje. Ook hooggestemde doelen — of ze op papier staan of niet — moeten een vertaling krijgen in adequate ontwerpen voor toetsvragen. Het is best mogelijk — en heel praktisch — dat een verzameling zorgvuldig ontworpen toetsvragen beter weergeeft wat de doelen van een cursus zijn, dan een reeks expliciete doelformuleringen.

gezond verstand — folk psychology

Een kernprobleem in de didactiek van veel vakken is dat de leerlingen al binnenkomen met soms sterke maar naïeve opvattingen over de zaken waar dat vak over gaat. In de natuurkunde is dat het best onderzocht, beschreven, en hier en daar ook uitgewerkt tot nieuwe didactiek (zie hier). Het gekke is nu dat ook over onderwijs een stortvloed van naïeve ideeën bestaan bij alle betrokkenen, inclusief onderzoekers van onderwijs: kennis, vaardigheden en inzicht zijn ‘dingen’ die op een of andere manier gelocaliseerd zijn in de hoofden van de leerlingen. Tenminste: als het onderwijs succes heeft gehad. Dit is wat Carl Bereiter (2002a) folk psychology noemt. Tegenover de reductie tot inhoud, activiteiten en zelfs zelf-expressie ('het nieuwe leren') stelt Bereiter dat het in het onderwijs hoort te gaan om het begrijpen van de wereld, en dat zulk begrip ‘telt’ als het vermogen vormt om dat begrip later verder uit te breiden. Dat is een variant op de zinspreuk van John Dewey uit 1916 (Bereiter p. 444 note 9) dat leren zinvol is wanneer het in staat stelt tot verder leren. Voor de goede verstaander betekent deze filosofie dat het in het onderwijs, althans wat de uiteindelijke doelen betreft, niet gaat om ‘ding-achtige’ kennis en vaardigheden, maar om proces-achtige vermogens tot verdere ontwikkeling. Dat is een formulering die sterk doet denken aan het onderscheid dat James Slotta en Michelene Chi (2006) maken tussen folk concepts die een sterk ‘stoffelijk’ karakter hebben, die ‘dingachtig,’ zijn, en wetenschappelijke begrippen die juist niet zo'n dingmatig karakter hebben maar een complex soort processen zijn. Dat laatste geldt zowel natuurkundige begrippen als electriciteit en zwaartekracht, als begrippen in andere wetenschappen, zoals natuurlijke selectie, depressie en intelligentie, maar dus ook het verwerven van inzicht!

Authentieke toetsvragen, hoe ontwerpt men die? Laten we eerst vaststellen dat er niets mis is met adequaat ontworpen toetsvragen. Zou dat niet zo zijn, dan zijn ze niet adequaat ontworpen. Dit lijkt een flauwe opmerking, maar het gaat om het volgende. Onderwijs en studietijd is een vrijplaats, vrij van de beslommeringen van het overige maatschappelijke leven, waar het juist op voorbereidt. Onderwijs kan en moet in deze zin altijd ànders zijn, juist geen replica. De wereld is ietsje complexer geworden dan in de tijd van de ambachtsgilden, waar de gezel authentiek kon leren (en authentiek werd uitgebuit), en niet verondersteld werd meer te leren dan strikt noodzakelijk.

De beweging van authentiek toetsen heeft zijn wortels in de VS, waar het is ontstaan in reactie op het verpletterende invloed die de eenvormige gestandaardiseerde toetsen daar op het onderwijs en op jongeren hebben. Op die manier heeft datzelfde authentieke toetsen in Nederland minder bestaansgrond, al verandert dat met iedere Cito-toets, peutertoets en taaltoets die politici om hen moverende redenen verplicht op willen leggen.

Authentiek toetsen en competenties (zie beneden) vallen in menige onderwijsopvatting samen. De grens tussen onderwijs en beroep vervaagt hier op riskante wijze. Jacques van Hoof (1987) heeft in zijn Arbeidmarkt als arena de eeuwige strijd geschetst over wie opdraait voor opleidingskosten studenten, overheid, of werkgevers. De laatste decennia hebben werkgevers dat gewonnen, zij halen nu goedkope arbeidskrachten binnen als stageaires, en verschuiven via competentie-gericht onderwijs hun bedrijfsopleidingen naar publiek bekostigde scholen. Een uitzondering is de bekorting van de studieduur in de 80-er jaren in het wetenschappelijk onderwijs, waar het bedrijfsleven (commissie Wagner) om vroeg omdat zij wat jongere afgestudeerden graag een extra interne opleiding wilden geven. Dat is pas echt authentiek. Uiteindelijk zien ook werkgevers in dat stages een inferieure tijdbesteding zijn, dat die tijd beter is besteed aan vakken die direct bijdragen aan vakbekwaamheid.

Toetsvragen ontwerpen hoort inherent authentiek te zijn, in de zin van geldig voor de doelen, met zo weinig mogelijk compromissen. Natuurlijk, toetsen van kennis is al gauw wat kunstmatig; hoe verder het toetsen van het het onderwijs zelf af komt te staan des te ernstiger dat is. Breng ze daarom zoveel mogelijk samen, onder het motto dat leren niet zonder goede feedback kan. Als dat is wat authentiek toetsen heet, ga dan uw gang.

Ik schrijf wat te heftig over dit onderwerp, maar het is dan ook wel een heftig onderwerp. Het onderwijs wordt helemaal omgeschoffeld op basis van door iedereen toegegeven geen enkele wetenschappelijke basis. Loek Hermans meent meent dat die basis er wel was, destijds toen hij verantwoordelijk bewindspersoon was, maar gewist is van zijn harde schijf. Zie een speciale pagina op dit onderwerp hier.

Onderwijs is een tijdelijke vrijplaats waarin het mogelijk is kennis en vaardigheden, vorming zo men wil, op te doen waarvoor later in het naschoolse leven weinig of geen gelegenheid meer is. Die vrijplaats verdient bescherming, maar het snel om zich heen grijpende virus van beleid geformuleerd in termen van competenties bewerkt het tegenovergestelde. In een vriendelijke interpretatie van de competentie-filosofie gaat het daar om het idee dat kennis en vaardigheden gebonden zijn aan specifieke contexten, en dan zou ‘dus’ het onderwijs in die kennis en vaardigheden ook in die contexten plaats moeten hebben. Of tenminste in situaties die daar nauw bij aansluiten of erop lijken, en daarom ‘authentiek’ zouden zijn. Niks onderwijs als vrijplaats, integendeel, het onderwijs moet bij voorkeur zo dicht mogelijk bij typische situaties in de beroepspraktijk staan. In meer extreme varianten van compententiegericht onderwijs komen kennis en vaardigheden zelf tussen haakjes te staan, en gaat het om het vermogen om informatie op internet te vinden, die vlot te communiceren, assertief zelfs als dat van pas komt. Dit is een agressieve vorm van erosie van ongeveer alles wat er aan serieuze onderwijsopvattingen in de recente Westerse cultuur is te vinden. Beoordelen van competenties is een onmogelijkheid, maar die onmogelijkheid wordt botweg ontkend (behalve in Hartig, Klieme en Leutner, 2008) door methoden ontleend aan assessment centers (AC’s) te gebruiken. De ontwikkelaar van toetsvragen/opdrachten krijgt het hier dus vol voor de kiezen.

Een grondgedachte van competentiegericht onderwijs lijkt te zijn dat het traditionele onderwijs tekortschiet omdat daar verworven kennis niet vanzelfsprekend buiten of na de scholing wordt toegepast, en dat het dus beter is om die kennis niet op een schoolse manier te laten leren, maar in authentieke contexten. Natuurlijk zal dan ook blijken dat een deel van die schoolse kennis eigenlijk niet nodig is, en dat in die authentieke contexten andere vaardigheden dan de typisch schoolse nodig zijn. Ziedaar: een heel nieuw onderwijsprogramma.

Natuurlijk is er onderwijs waarvoor de competentiegerichte filosofie adequaat kan zijn. Voor het basisonderwijs is ze in ieder geval niet adequaat, ook niet voor het rekenonderwijs. Het achterliggende fenomeen staat in de literatuur bekend als het probleem van de transfer van kennis, de overdracht van kennis naar nieuwe omstandigheden (Mestre, 2005). Dat is een reëel probleem, zeker. Maar het is geen oplossing die nieuwe omstandigheden dan maar het onderwijs binnen te halen.

In de competentie-filosofie moet de ontwerper van toetsvragen competenties toetsen door opdrachten binnen een adequate context. Het kan nog lastiger: waar studenten zelf hun competenties kiezen waaraan ze in de opleiding willen werken — echt, dat bestaat — moet de ontwerper maar zien opdrachten op die individuele competenties toe te snijden. In de praktijk worden dan allerlei vage oefeningen en situaties gebruikt die een oppervlakkige gelijkenis hebben tot opdrachten zoals die in assessment centers (AC’s) voorkomen. Voor serieuze beoordeling zijn die methoden ongeschikt, want zij hebben een onbewezen validiteit; sterker: als die validiteit niet is onderzocht, is een veilige voorspelling dat validiteit voor zo'n toets of examen ontbreekt. Dit boek zal bepaald geen handreikingen doen voor het ontwerpen van AC-achtige opdrachten. Het ontwerpen van een serieus AC is een buitengewoon kostbare zaak, het is ondenkbaar zoiets te doen voor competentiegericht onderwijs. Althans, niet volgens minimale normen van validiteit (zie par. 2.6).

De disciplines binnen het wetenschappelijk onderwijs verschillen van elkaar in karakter, dus ook wat de leerstof en toetsvragen betreft. In het zicht van die verscheidenheid is de verleiding groot om ontwerpregels voor het ontwerpen van toetsvragen te beperken tot één cluster van verwante vakken. Een eigen onderwijskunde voor ieder cluster van vakken is zo onaantrekkelijk dat er van meet af aan voor een algemene benadering is gekozen. Gevolg daarvan is wel dat de ontwerpvoorbeelden aan de simpele kant zijn, en de ontwerpregels mogelijk wat abstracter zijn dan anders mogelijk zou zijn. Wat er gebeurt wanneer de vragen wel vak-specifiek zijn, laat het toegevoegde casus ‘Algemene taalwetenschap’ zien pdf: de buitenstaander kan toch niet goed navoelen wat het ontwerp bij deze concrete vragen is.

toetsanalyse etcetera.

De kwaliteit van de toetsvragen is bepalend voor alles wat volgt. Maar met kwaliteit alleen zijn alle problemen nog niet opgelost. Het kan zijn dat er onopgemerkte kwaliteitsproblemen zijn, dan kan een klassieke item-analyse helpen bij het opsporen. Ook al zijn alle vragen goed, dan is het nog de vraag hoeveel er nodig zijn om een goede toets te hebben. Een grove aanwijzing is: neem er iets meer dan gebruikelijk. Wie het naadje van deze kous wil weten, kan eens eens wat rondkijken in het project over studiestrategieën hier op deze site.

En dan is er nog een slag te maken: van score naar cijfer. Dat is een kwestie van onderwijscultuur, daar blijft dit boek verder buiten. Het is fair en daarom ernstig gewenst om tevoren aan te geven welke scores welk cijfer opleveren.

Over het bepalen van de grens tussen zakken en slagen het volgende. De ‘methoden’ die de literatuur daarvoor geeft zijn vooral ongefundeerde trucs, u kunt ze niet begrijpen, en u mag ze daarom niet gebruiken. Twee punten zijn bij de cesuurbepaling van belang. Studenten moeten het risico van zakken kunnen dragen. Studenten die de voorgeschreven tijd hebben besteed en dus redelijk voorbereid zijn, moeten een hoge kans van slagen hebben. Het risico om te zakken kan worden uitgerekend, zie hier. De tijdbesteding van studenten moet u kunnen inschatten, desnoods door daar regelmatig een onderzoekje naar te doen.

Uiteindelijke doelen.

Iedere pragmatische benadering heeft zijn grenzen, zo ook die voor toetsen. Wat voor een enkele toets een goede benadering lijkt, kan verwoestend uitwerken wanneer die altijd en overal wordt gebruikt, en alle jongeren daar decennialang aan zijn blootgesteld.

Het beginsel van doorzichtigheid verdient uitbreiding en verdieping. Zo is toetsen op intelligentie in hoge mate ongewenst, dat is een vorm van discriminatie omdat leerlingen niets kunnen doen aan hun eigen intelligentie, persoonlijkheid, en sociale achtergrond. Verschillen in intellectuele capaciteiten en motivatie zijn belangrijk, en in het basisonderwijs zijn die verschillen enorm. Die verschillen zijn op geëigende momenten aan de orde: niet alleen bij beslissende keuzen voor en over individuele leerlingen, maar ook bij de keuze van didactische methoden en het ontwerp van het onderwijs. Dus niet ook nog bij iedere opdracht, proefwerk of toets opnieuw.
Het brede uitgangspunt voor het onderwijs is dat leerlingen en studenten het vertrouwen moeten krijgen, hebben en houden dat zij hun talenten kunnen ontwikkelen, en dat de eigen inspanningen daarvoor worden gezien en erkend. Iedere afzonderlijke toets is ook op dat uitgangspunt een test, de vragen in die toets moeten uiteindelijk daarmee in overeenstemming zijn ontworpen. De doorzichtigheid van De Groot (1970), door Job Cohen (1981) in verband gebracht met algemene juridische beginselen van redelijkheid en wat behoort, is uit te breiden met de maatschappelijke eis dat er vertrouwen moet zijn (zie bijvoorbeeld Coleman, 1990, en Wolfson, 2005), en dat relevante informatie ook bereikbaar is (Sen, 1995).

Waarom is dit weidse perspectief van belang? Wel, zeker in het leerplichtig onderwijs is toetsen een vorm van institutioneel geweld waaraan leerlingen zich niet kunnen onttrekken, anders dan de institutie vaarwel te zeggen. Dat laatste gebeurt overigens ook massaal, zowel zichtbaar als tussentijds vertrek, als onzichtbaar de rit maar uitzitten. Kwaliteit van toetsen is zo ongelooflijk belangrijk, dat is nauwelijks te overschatten.

1.3 Inhoudsoverzicht

In dit boek is niet alles voor iedereen relevant. Het is de bedoeling dat de lezer met de te geven ontwerpregels zelf toetsvragen kan ontwerpen. Daarom geven de verschillende hoofdstukken vooral concrete aanwijzingen, mogelijke varianten, en geboden en verboden, met daaromheen een funderend verhaal. De verschillende hoofdstukken vormen een eenheid in deze zin dat globaal kennisnemen ervan een goede achtergrond geeft om van de ontwerpregels in dat ene hoofdstuk van uw interesse verstandig gebruik te maken.

Hoofdstuk twee bespreekt de diverse typen toetsvragen met hun voor- en nadelen, en gaat uitvoerig in op enkele misverstanden over keuzevragen. De nadruk ligt op de aard van de te toetsen beheersing van de leerstof, die bepaalt soms een voorkeur voor een bepaald vraagtype. Wie al een bescheiden verzameling van vragen heeft, is misschien geïnteresseerd in technieken om deze snel en goed uit te bouwen tot een grotere verzameling (zie 2.5 over rompvragen). Er is aandacht voor het juiste niveau van abstractie in toetsvragen, en dat is vooral een lager — meer concreet — niveau dan gebruikelijk. Met vragen die blijven hangen in algemeenheden en definities is het lastig meer dan een handvol vragen over de stof te schrijven zonder in gekunstelde vragen te vervallen. Erger: het nodigt de student niet uit de leerstof wat dieper te bestuderen. Minder abstract, meer concreet, levert kwaliteit. Overigens komt abstractie op een heel andere manier toch weer prominent in zicht: in het grote belang van het kunnen verklaren en dus begrijpen van verschijnselen door ze te verbinden met algemene wetten bijvoorbeeld.

De nadruk op het risico van overdreven abstractie geldt voor de tekst uit 1983. Bij de onderhanden herziening is dit thema mogelijk goeddeels opgelost in de nu toegevoegde paragraaf 2.6 over validiteit. Ik blijf wel rode vlaggen plaatsen bij vragen die onbedoeld en onnodig een te abstract karakter hebben; hoewel ik daar geen kwantitatieve gegevens over heb, is mijn stellige indruk dat in ieder geval in het hoger onderwijs door docenten zelf ontworpen vragen veel te vaak een te abstract karakter hebben, zoals het direct terugvragen van definities. Ik zal erop toezien dat het thema in ieder geval in hoofdstuk acht ruim aandacht krijgt.

Hoofdstuk drie lijkt een omtrekkende beweging: het geeft geen ontwerpregels voor het ontwerpen van toetsvragen, maar voor het inventariseren van de leerstof. Toch is dit een noodzakelijke tussenstap: het maakt expliciet waarover wel en waarover geen vragen te stellen. Het geeft ook een betere kijk op de aard van de leerstof, om welk soort abstractie het gaat, en hoe die abstracties zijn af te breken tot concrete voorbeelden. De basis voor dit hoofdstuk is eenvoudige kennistheorie, bijvoorbeeld Hempel (1972) of Lehrer (1990), hoe uiteen te leggen wat wij weten over een bepaald domein van kennis waaruit de leerstof is samengevat. Boeiend is dat er verschillende manieren zijn om zaken en verschijnselen te beschrijven of te definiëren, houd die verschillen in de gaten! Het gaat hier om reflectie op de leerstof, een aanloop die nodig is om over die leerstof op een verantwoorde manier vragen te ontwerpen.

De hoofdstukken vier en vijf geven concrete uitwerking aan de technologie voor het ontwerpen van toetsvragen bij, respectievelijk, de begrippen en hun relaties uit de leerstofinventarisatie van hoofdstuk drie. Hoewel basaal van karakter, want dicht blijvend bij de leerstof zelf, zijn deze technieken toch niet op alle punten vanzelfsprekend. Funderende achtergronden zijn naast de al genoemde kennistheorie — beschrijven van kennis — ook wetenschapsfilosofie — wat is kennis en hoe komen we tot kennis — en leerpsychologie — hoe is kennis over te dragen. Maar ook helpt nuchtere bezinning op waar het in het onderwijs wel of juist niet om gaat, omdat onhandige ontwerpen voor toetsvragen makkelijk over deze schreef gaan. Een eclectisch geheel dus, onvermijdelijk. Het onderscheid tussen declaratieve en procedurele kennis helpt om de inhoud van hoofdstuk vier af te bakenen tegen die van hoofddstuk vijf: weten wat, versus weten hoe. Dan is conditionele kennis, weten wanneer wat hoe te gebruiken, in het hoofdstuk over aanpakken van problemen aan de orde. Zie bijvoorbeeld Alexander en Judy (1988, p. 376) voor dit soort karakterisering van domeinkennis.

Hoofdstuk zes gaat op verschillende manieren in op het literatuurtentamen, met nadruk op toetsen van het hebben van een overzicht over breed beschreven onderwerpen. Deze vorm van vragen is in de literatuur — de klassieke studie is Hartog en Rhodes (1936) — berucht omdat docenten er ongelooflijk verschillend mee omgaan, en studenten daarom willekeur ervaren. De vragen gaan verder dan de gegeven leerstof zelf omdat studenten iets met die leerstof moeten doen dat nieuw is, dat stelt bijzondere eisen aan de ontwerpen. Let op: het begrijpen van gestelde vragen is ook begrijpen van tekst: hoofdstuk zes kan makkelijk een verbindende schakel zijn voor het hele boek.

Hoofdstuk zeven behandelt het oplossen van problemen. Het bouwt voort op het voorgaande, zoals het behoorlijk formuleren van de probleemstelling (zie 5.l), het analyseren van het probleem (zie 6.3). en het gebruiken van eigen kennis en inzichten (inferentie, zie 6.4). Het accent ligt op typische structuren van het aanpakken en oplossen van problemen. Het ontwerpen van probleemstellingen benut die structuurkenmerken. De nadruk ligt op het expliciteren van de probleemaanpak zoals de student die zich eigen moet maken. De achterliggende psychologische theorie heeft veel te danken aan de studie van Adriaan de Groot (1946 dbnl) over het denken van de schaker, zodat schaken een handig veld voor voorbeelden levert.

Hoofdstuk acht vormt de logische afsluiting van het ontwerpen: nagaan of de ontworpen toetsvragen voldoen aan redelijke kwaliteitscriteria. Houvast voor wat ‘redelijk’ is biedt de studie van Job Cohen (1981) over de werkwijze van Colleges van Beroep voor de Examens, althans hun facultaire voorlopers eind zeventiger jaren. De nadruk ligt op controle vooraf, omdat het achteraf niet meerekenen van slechte toetsvragen vervelende gevolgen heeft. De controle hoort streng te zijn: het mag niet zo zijn dat belangrijke verschillen in oordeel — die er vaker zijn dan we wensen te denken — in onderlinge gedachtenwisseling weggemasseerd raken. Van minstens zo groot belang is het om schaarse middelen zoveel mogelijk aan het onderwijs zelf, en niet aan toetsing-achteraf (nakijken van schriftelijke tentamens) te besteden: ook in dit opzicht moet er een goede balans tussen onderwijs en toetsing-achteraf zijn.

prototype dubbele verklaring

Meneer Jansen is al enkele jaren somber en komt moeilijk tot dagelijkse bezigheden. Hij is hierdoor in het normale functioneren belemmerd. Wat is hier aan de hand? Motiveer je antwoord.

Dit heet depressief.
Dit is een depressie.
Dit komt door een depressie.

Dehue (2008, hoofdstuk twee). DSM IV labelt samengaan van bepaalde verschijnselen als ‘dysthyme stoornis’ (depressieve stoornis)

verklaren

In dit eenvoudige voorbeeld komen een aantal belangrijke thema’s samen. De vraag is op zichzelf een vraag naar een verklaring van de situatie waarin meneer Jansen verkeert, waarbij volgens DSM IV het juiste antwoord alternatief a. is: maar dat is juist een antwoord dat geen verklaring is, en het is het juiste antwoord omdat mogelijke verklaringen zo omstreden zijn dat ze in de wetenschap geen behoorlijke consensus verwerven. Kortom: verklaren is niet altijd mogelijk. De beide andere alternatieven zijn onjuist; de reden dat in dit geval onjuiste alternatieven toch samengaan met een goed ontwerp van de toetsvraag, is dat de student in dit geval ook moet weten waarom die beide alternatieven onjuist zijn. De student verklaart zijn antwoord nader, en kan daarin aangeven waarom alternatief b. en c. onjuist zijn (reïficatie van wat alleen maar een label is), of waarom alternatief a. juist is, of beide. In dit geval is de keuzevraag een goede vorm, omdat de student de geboden alternatieven alle drie moet weten te wegen, ook tegen elkaar. De alternatieven vormen een homogene set omdat zij als het ware een schaal vormen van geen verklaring (want alleen maar een label), naar een oorzakelijke verklaring (een depressie is er oorzaak van), met ertussen een pseudo-verklaring (het is een depressie, alsof een depressie een ding is, geen label). ‘Dubbele’ verklaring: 1.) de vraag zelf vraagt een verklaring van een specifieke stand van zaken, de klachten van meneer Jansen, en 2.) de student moet het gegeven antwoord verklaren (= rechtvaardigen, motiveren).

Op deze keuzevraag is een reeks varianten mogelijk: vervang het begrip depressie door het begrip ADHD, etcetera — DSM heeft er honderden — en pas het vignet aan. Het vignet, casus, of case is het in de vraag beschreven specifieke geval. Deze keuzevraag is zodoende een sjabloon of rompvraag die het mogelijk maakt om heel vlot een reeks verwante vragen te ontwerpen.

syndromen zoals depressie

Geef aan of de volgende uitspraken wetenschappelijk juist zijn, of niet, en motiveer de antwoorden. Aanwijzing: denk aan DSM (of Dehue 2008, ‘De depressie-epidemie’ hoofdstuk twee).

Het immuunsysteem heeft niet met psychiatrische aandoeningen te maken. juist / onjuist
Auto-immuun-schildklierziekte en manisch-depressieve stoornis hangen deels genetisch samen. juist / onjuist

Voor de gebruikte uitspraken: Malou van Hintum (7 maart 2009). Met schildklierziekte naar de psychiater. De Volkskrant. Kennis, p. 3. Uitspraak a.): door hoogleraar immunologie Hemmo Drexhage toegeschreven aan zijn collega-immunologen. Uitspraak b.): uitspraak van hoogleraar psychiatrie Willem Nolen.

verklaren van juistheid van uitspraken over depressie

Merk op dat de keuzevraag in de voorgaande box zo'n hoog niveau van abstractie heeft, dat er waarschijnlijk geen echte varianten op te maken zijn (Mevrouw Pieters opvoeren is niet echt een variant), althans niet als de vraag over depressie moet gaan. Omdat de vraag een belangrijk onderwerp heeft, en eigenlijk iedere student er een goed antwoord op moet kunnen geven met een rechtvaardiging in eigen woorden, is er geen bezwaar tegen een vraag als deze met vlotte regelmaat in toetsen te laten terugkeren. Een goede ontwerper is hiermee natuurlijk niet tevreden: als het zo belangrijk is, dan zijn er ongetwijfeld ook andere soorten vragen mogelijk waarop wèl betekenisvolle varianten zijn te ontwerpen. Het ligt voor de hand om uitspraken van actoren uit het depressie-veld te nemen, naar de juistheid ervan te vragen, en het antwoord te laten motiveren. Er kan eventueel een aanwijzing bij worden gegeven. Waarschijnlijk brengt alleen al de wekelijkse bijlage van uw kwaliteitskrant telkens nieuw materiaal voor nieuwe varianten op dit type vraag.

Dit voorbeeld illustreert hoe op zich onjuiste uitspraken, of vanuit een bepaald perspectief onjuiste uitspraken, op zinvolle wijze door de ontwerper zijn te gebruiken. Deze uitspraken zijn niet uit de duim gezogen of onzinnig, want ze zijn gedaan door actoren die ertoe doen in het betreffende veld (dat kunnen overigens ook cliënten zijn); het kan dus van belang zijn hoe een student hiermee omgaat, en dan hebben ze zeker een plekje in toetsen verdiend. Omdat het meestal ook verklarende uitspraken zijn, brengen ze ons terug naar het onderwerp van deze sectie: verklaren.

Het boek van 1983 ruimt expliciet geen plaats in voor vragen naar verklaringen. Het is verdraaid lastig om greep te krijgen op dit type vragen. In de herziene tekst komt het vragen van verklaringen nadrukkelijk wèl aan de orde. Het is zelfs zo dat het uitgangspunt moet zijn dat antwoorden altijd komen met een verklaring voor het gegeven antwoord. Bij keuzevragen en korte open vragen is dat niet gebruikelijk, hoogste tijd dus om die wonderlijke traditie te doorbreken. Een verklaring voor een gegeven antwoord geeft aan hoe het antwoord volgt uit een relatie tussen gegevens uit de vraag met meer algemene kennis. Kijk, verklaren past dus in hoofdstuk vijf. Maar omdat de algemene kennis, of een onderdeel van een theorie, niet in de vraag zelf gegeven hoeft te zijn, is er ook sprake van inferentie, en past het verklaren ook in hoofdstuk zes. Is de ‘theorie’ niet meer dan een bepaald begrip, dan is dit verklaren iets dat in hoofdstuk vier thuishoort. Nog interessanter is het wanneer de verklaring in feite een voorspelling is: dat past in hoofdstuk vijf wanneer de voorspelling de uitkomst van een algoritme is, in hoofdstuk zes als de voorspelling de resultante is van inferenties, en in hoofdstuk zeven wanneer de voorspelling de oplossing van een gesteld probleem is. Een bewijsvoering is een verklaring, en al naar gelang de complexiteit van het bewijs kan dat ook in hoofdstuk zeven thuishoren, of in een van de andere hoofdstukken vier tot en met zes. Deze korte uiteenzetting maakt duidelijk dat een verklaring een containerbegrip is, met als wezenlijke kern het verbinden van het gegevene in de vraag, met een algemeenheid. Hempel heeft de filosofische kant hiervan in zijn werk uitgelicht (zijn covering law). Maar er zijn andere manieren om naar de essentie van verklaringen te kijken, zoals die waar verklaringen iets moeten zeggen over oorzakelijke relaties (Strevens, 2008). Fundamenteel onderzoek is overzichtelijk beschreven in Gopnik en Schulz (2007); filosofen en psychologen leveren er ieder hun bijdragen aan. De vertaalslag naar onderwijs is zeker niet vanzelfsprekend, maar Kuhn en Pease (2008) doen het gewoon, met kinderen in de basisschool.

oorzakelijke verklaring

Op 28 januari 1986 verongelukt het ruimteveer Challenger 73 seconden na lancering. Wat was de oorzaak van ongeluk?

falende leiding nam bewust risico’s bij de lancering
te lage temperatuur bij lancering
de controle vooraf was niet sluitend
de vloeibare waterstof en zuurstof in de tanks kwam met elkaar in contact
een ontwerpfout in de stuwraketten
een afdichtring van de stuwraket was defect

De directe oorzaak is de heftige verbranding van de met elkaar in contacte gekomen waterstof en zuurstof uit bezweken brandstoftanks. De andere problemen zijn geen directe oorzaken, maar hebben het ongeluk wel mogelijk gemaakt, en zijn op zich ieder waarschijnlijk juist.

De fysicus Feynman had zich vastgebeten in het onderzoeken van het ongeluk. Zie bijvoorbeeld de Wiki

Filosofen, zoals recent nog Strevens (2008), worstelen met problemen zoals in de box, want hoe valt te onderbouwen wat ‘de’ oorzaak van het ongeluk met de Challenger is? Daar hebben we dan het probleem bij de staart gepakt, want het lijkt niet echt handig om toetsvragen te stellen waarbij stevige discussie mogelijk is over wat goede antwoorden zijn. Maar als hier nu de crux ligt van onderwijs, of van wetenschap, hoe kunnen we het geven van verklaringen dan wegschrappen uit toetsen en examens? Niet doen. Als toetsvraag zou deze vraag vooral interessant door de discussie die hij kan uitlokken onder studenten. Het interessante is ook dat dit geen speelgoedprobleem is, en dat nobelprijswinnaar Feynman zich heeft gestort in de vraag hoe dit ongeluk heeft kunnen gebeuren. Overigens zijn er dagelijks nieuwe voorbeelden te vinden in de krant. Bijvoorbeeld: als de slachtoffers van de Schipholbrand zijn omgekomen door rookvergiftiging, en er nog een veelvoud van relevante omstandigheden zijn die dit mogelijk hebben gemaakt, waarom daar dan met enige willekeur één veronderstelde omstandigheid — een mogelijk onvoorzichtig weggeworpen peuk — uitkiezen om daar een rechtszaak tegen een persoon op te voeren? Is dat recht, of is het iets anders?

Dat verklaringen eigenlijk overal in de hoofdstukken vier tot zeven aan de orde zijn, doet vermoeden dat de scheidslijnen tussen de afzonderlijke hoofdstukken een tikje kunstmatig zijn. Dat is inderdaad zo. Een voorbeeld maakt dat nog eens duidelijk. Hoofdstuk zes behandelt wat het is om een gegeven tekst te begrijpen. Dat levert onmiddellijk het inzicht op dat ook iedere toetsvraag de leerling voor de opgave stelt om allereerst de vraag goed te begrijpen: wat dat is, is in hoofdstuk zes uitgewerkt. Hoewel, wat het is om een wiskundig probleem te begrijpen, is briljant uitgewerkt door George Pólya (1945/1957); het onderwerp is in hoofdstuk zeven aan de orde, en levert onmiddellijk het inzicht op dat het werk van Pólya ook betekenis heeft voor het beantwoorden van andere soorten toetsvragen, zoals die in de hoofdstukken vier en vijf. Zo komt alles bij elkaar.

Sinds 1983 is het internet een factor van betekenis, ook voor toetsen, zie bijvoorbeeld Cassady en Gridley (2005) pdf. Waar mogelijk maakt het boek gebruik van verwijzingen naar online publicaties, het internet is in deze zin nu pregnant in het boek aanwezig. Specifieke technologie voor online toetsen raakt evenwel niet direct aan het ontwerpen van toetsvragen, en blijft in dit boek onbesproken. Toch is een waarschuwing op zijn plaats: wanneer ict-technologie de vorm en inhoud van vragen bepaalt, of een bestaande verzameling van ondermaatse vragen onwrikbaar in een systeem vastlegt, is er een afbreukrisico voor de toetskwaliteit.

Samenvattend. Hoofdstuk twee is een algemeen hoofdstuk over vormen en inhouden (2.6) van toetsvragen. Hoofdstuk drie behandelt de voorbereidende schematisering van de leerstof. De hoofdstukken vier en vijf geven ontwerpregels voor het ontwerpen van toetsvragen bij begrippen en relaties, de bouwstenen van alle leerstof. De hoofdstukken zes en zeven bouwen daarop voort, waarbij hoofdstuk zes speciaal van belang is voor toetsen over tekst en hoofdstuk zeven voor toetsen in de vorm van probleemstellingen. Hoofdstuk acht behandelt de kwaliteit van toetsvragen.

Dit boek behandelt het ontwerpen van toetsvragen. Voor allerlei andere toetskwesties die op de onderwijsvloer spelen, moet de lezer het heil elders zoeken, bijvoorbeeld bij Van Berkel en Bax (2006). Voor een boekje met aanwijzingen zo helder en direct als ik ze niet kan formuleren, ook niet in mijn ‘korte versie,’ gebruik Bender (2003).

1.4 Literatuur

In deze herziening 2006 is de literatuurlijst niet echt evenwichtig, en is gekozen voor eerder te veel dan te weinig. Voor suggesties: email mij.

Voor annotaties bij de hier gegeven literatuur zie annotaties, voor meer literatuuropgaven zie meer literatuur

Patricia A. Alexander and Judith E. Judy (1988). The interaction of domain-specific and strategic knowledge in academic performance. Review of Educational Research, 58, 375-404. [online: JSTOR only]

John R. Anderson, Christian Lebiere, and others (1998). The atomic components of thought. London: Lawrence Erlbaum. questia

John R. Anderson, Lynne M. Reder, and Herbert A. Simon (1996). Situated learning and education. Educational Researcher, 25(4), 5-11. pdf

APA (1966/1974/1985/1999) Standards for educational and psychological tests, Washington, D.C: American Psychological Association.

J. Myron Atkin, Paul Black, Janet Coffey (Eds) (2001). Classroom assessment and the National Science Education Standards. . Committee on Classroom Assessment and the National Science Education Standards. Center for Education, Division of Behavioral and Social Sciences and Education. Washington, DC: National Academy Press. [tekst beschikbaar op nap]

Carl Bereiter (2002a). Education and Mind in the Knowledge Age. Erlbaum. questia

Carl Bereiter (2002b). Design research for sustained innovation. Cognitive Studies, Bulletin of the Japanese Cognitive Science Society, 9, 321-327. pdf

Henk van Berkel en Anneke Bax (Red.) (2006). Toetsen in het hoger onderwijs. Houten: Bohn Stafleu van Loghum.

John H. Bishop (2002). What is the appropriate role for student achievement standards? (pdf of the chapter) In Yolanda K. Kodrzycki Education in the 21st century. Meeting the challenges of a changing world. Conference proceeedings. Federal Reserve Bank of Boston. pdf of the book, appr 320 pp.

Paul Black & Dylan Wiliam (2009). Developing the theory of formative assessment. Educational assessment, evaluation and accountability, 21 concept

John R. Bormuth (1970). On the theory of achievement test items. Chicago: University of Chicago Press. With an appendix by Peter Menzel: On the linguistic bases of the theory of writing items for instruction stated in natural language.

Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071. pdf

Robert L. Brennan (Ed.) (2006). Educational measurement. National Council on Measurement in Education, and American Council on Education. (The third edition is Linn, 1989, the second edition is Thorndike, 1971).

Susan Carey (1998). Knowledge of number: Its evolution and ontogenesis. Science, 242, 641-642. [Look at Carey’s site for a copy]

Jerrell L. Cassady and Betty E. Gridley (2005). The effects of online formative and summative assessment on test anxiety and performance. The Journal of Technology, Learning, and Assessment, 4, number 1. Available from http://escholarship.bc.edu/jtla/.

Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. proefschrift Leiden. Zwolle: Tjeenk Willink.

James S. Coleman (1990). Foundations of social theory. London: Belknap. contents

Robyn M. Dawes (2000). A theory of irrationality as a ‘reasonable’ response to an incomplete specification. Synthese, 122, 133-163. gratis pdf aanvragen

Eduard Jan Dijksterhuis (1950). De mechanisering van het wereldbeeld. Amsterdam: Meulenhoff.

DOZ (1991). Toetsen en beoordelen. (DOZboek 6). Culemborg: Phaedon. [Werkgroep Docenten Onderwijszaken, HBO-Raad]

T. J. H. M. Eggen en P. F. Sanders (Red.) (1993). Psychometrie in de praktijk. Arnhem: CITO. pdf

E. Fischbein (1975). The intuitive sources of probabilistic thinking in children. Dordrecht: Reidel.

J. E. Furst (1981). Bloom’s taxonomy of educational objectives for the cognitive domain: philosophical and educational issues. Review of Educational Research, 51, 441-453. abstract / read free online [questions of epistemoogy] [refers to Richard Pring (1971) Bloom's Taxonomy: A philosophical critique (2), Cambridge Journal of Education, 1:2, 83-91, DOI: 10.1080/0305764710010205 https://sci-hub.tw/10.1080/0305764710010205# ]

Ronald N. Giere (2006). Scientific perspectivism. The University of Chicago Press. [Table of contents pdf. Read chapter one pdf]

Alison Gopnik and Laura Schulz (Eds) (2007). Causal learning. Psychology, philosophy, and computation. Oxford University Press.

A. D. de Groot (1946). Het denken van den schaker. Een experimenteel psychologische studie. Amsterdam: Noord-Hollandsche Uitgevers maatschappij. dbnl

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. html

A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Den Haag: Mouton.

Thomas M. Haladyna (1999 2nd). Developing and validating multiple-choice test items. Erlbaum. [2004 3rd]

Johannes Hartig, Eckhard Klieme and Detlev Leutner (Eds) (2008). Assessment of competencies in educational contexts. Hogrefe & Huber Publishers. details, contents

Carl G. Hempel (1952/1972). Fundamentals of concept formation in empirical science. London: The University Of Chicago Press

Heather C. Hill, Merrie L. Blunk, Charalambos Y. Charalambous, Jennifer M. Lewis, Geoffrey C. Phelps, Laurie Sleep and Deborah Loewenberg Ball (2008). Mathematical knowledge for teaching and the mathematical quality of instruction: An exploratory study. Cognition and Instruction, 26, 430-511.

J. J. B. M. van Hoof (1987). De arbeidsmarkt als arena. Arbeidsmarktproblemen in sociologisch perspectief. Amsterdam: SUA. proefschrift

Deanna Kuhn (2005). Education for thinking. Harvard University Press. excerpt

Deanna Kuhn and Maria Pease (2008). What needs to develop in the development of inquiry skills? Cognition and instruction, 26, 512-559.

W. Lans en G. J. Mellenbergh (1969). Constructie en beoordeling van items: formele aspecten. In A. D. de Groot en R. F. van Naerssen, p. 65-125.

Jose P. Mestre (Ed.) (2005). Transfer of learning: from a modern multidisciplinary perspective. San Francisco: Sage.

R. F. van Naerssen (1970). Over optimaal studeren en tentamens combineren. Rede. html

Steven J. Osterlind (1997). Constructing test items: multiple-choice, constructed-response, performance, and other formats. Kluwer.

C, G. Parshall, J. A. Spray, , Kalohn and T. Davey (2002). Practical considerations in computer-based testing. New York,: Springer-Verlag. [books.google.nl: online, some pages left out]

W. James Popham (1980). Domain specification strategies. In Berk: Criterion-referenced measurement: The state of the art (pp. 15-31). John Hopkins University Press.

Charles M. Reigeluth (Ed.) (1983). Instructional-design theories and models. Erlbaum. isbn 0898592755 [a.o. M. David Merrill: Component Display Theory 279-334 (komt het dichtst bij de lijn die ik heb gevolgd in Toetsvragen schrijven) ]

Charles M. Reigeluth (Ed.) (1987). Instructional theories in action. Lessons illustrating selected theories and models. Erlbaum. isbn 0898598257 [ a.o. M. David Merrill: lesson based on the Component Display Theory, 201-244 (komt het dichtst bij de lijn die ik heb gevolgd in Toetsvragen schrijven)]

Gale H. Roid and Thomas M. Haladyna (1982). A technology for test-item writing. London: Academic Press.

G. M. Seddon (1978). The properties of Bloom’s taxonomy of educational objectives for the cognitive domain. Review of Educational Research, 48, 303-323.

Amartya Sen (1995). Welzijn, vrijheid en maatschappelijke keuze. Opstellen over de politieke economie van het pluralisme. Gekozen door Jos de Beus. Amsterdam: Van Gennep.

L. S. Shulman (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15 #2, 4-14. pdf

James D. Slotta and Micheline T. H. Chi (2006). Helping students understand challenging topics in science through ontology training. Cognitive Science, 24, 261-289. pdf

Michael Strevens (2008). Depth. An account of scientific explanation. Harvard University Press.

Edward L. Thorndike (1904). An introduction to the theory of mental and social measurements. New York: The Science Press.

Robert L. Thorndike (ed.) (1971). Educational measurement. Washington, DC: American Council on Education.

Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

Keith Weber (2008). How mathematicians determine if an argument is a valid proof. Journal of Research in Mathematics Education, 39, 431-459. 10.2307/40539306 JSTOR preview

A. G. Wesman (1971). Writing the test item. In Robert L. Thorndike (ed.) (1971). Educational measurement. Washington, DC: American Council on Education.

Westrhenen, J. van Westrhenen (1976). Aardrijkskundige onderwijsdoelen. Een onderzoek naar de feitelijk nagestreefde, cognitieve leerdoelen van arrdrijkskunde in het M.A.V.O., H.A.V.O. en V.W.O. Proefschrift UvA.

Westrhenen, J. van Westrhenen (1977). De toetsing van onderwijsdoelen. Een empirische studie naar de functie van begrippen en begrippenstructuren in het onderwijsleerproces. Wolters-Noordhoff.

Ben Wilbrink (1983). Toetsvragen schrijven. Utrecht: Het Spectrum. Nu: publiek domein, op website auteur.
pdf Aula 809
html herziening

Ben Wilbrink (1986). Toetsen en testen in het onderwijs. In S.V.O. Jaarverslag/Jaarboek 1985, 275-288. Den Haag: Stichting voor Onderwijsonderzoek. html

Ben Wilbrink (1994). Arbeidsmarkt en hoger onderwijs: een blijvend problematische relatie. Tijdschrift voor Hoger Onderwijs. 12, 24-32. html. open access: https://www.tvho.nl/edition.php?id=60

Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23, 31-48. html

Ben Wilbrink (2006). Psychometrie? Bevrijd examens van het keurslijf. [Ingediend. Niet gepubliceerd] html

D. J. Wolfson (2005). Transactie als bestuurlijke vernieuwing. Op zoek naar samenhang in beleid en uitvoering. WRR Wetenschappelijke Raad voor het Regeringsbeleid. Amsterdam: Amsterdam University Press. www.wrr.nl/pdfdocumenten/V9.pdf [wrr-website is van slag, 2-2008].

Ernest Lepore (2000). Meaning and argument. An introduction to logic through language. Blackwell. isbn 0631205829. [Ik moet dit nog onderzoeken, maar vermoed dat Lepore een goede techniek biedt om logische problemen in toetsvragen op het spoor te komen]

Ben Wilbrink (2018). Op weg naar eerlijk onderwijs. Van Twaalf tot Achttien, september 2018 artikel. Dit is de start van een verkenning over eerlijk onderwijs. U begrijpt het al: toetsvragen moeten ieder voor zich ook eerlijk zijn, dus niet testen op verschillen in intellectuele begaafdheden maar toetsen op beheersing van de leerstof. Kortom: wat A. D. de Groot in 1970 al voorstelde al belangrijk(ste) kwaliteitscriterium voor toetsen.

Het uitkomen van het boek in 1983 viel ongeveer samen met het voornemen van het CvB van de UvA om het COWO op te heffen (bezuinigingsoperatie Taakverdeling en Concentratie of zoiets, landelijk). In de hectiek heb ik nooit meer aandacht geschonken aan een zeer negatieve boekbespreking van 'Toetsvragen schrijven' in 'Onderzoek van Onderwijs' april 1984. Auteur: T. G. Borgesius. Ik heb er een onbevredigend gesprek over gehad met de redactie van het tijdschrift, en daarna kennelijk mijn best gedaan om het hele gedoe te vergeten. In mijn archief duikt die boekbespreking nog wel op, en anno 2024 bedenk ik dat ik er toch nog eens iets mee wil gaan doen: de voor mij belangrijkste punten van kritiek van Borgesius weerleggen. Borgesius was medewerker van het IOWO in Nijmegen; ik kende en ken hem niet (weet niet eens of het een hem of een haar is), maar het is wel zo dat er juist met een collega van hem uitvoerig is gecorrespondeerd over mijn behandeling van keuzevragen, wat heeft geleid tot serieuze aanpassingen van de concepttekst van het boek, tot wederzijdse tevredenheid. Dus ja, wat er in dat IOWO precies heeft gespeeld, het is mij een raadsel. Op dit moment heb ik niet de tijd om er eens goed voor te gaan zitten, en ook een scan te maken van de zeer uitvoerige bespreking van Borgesius. Ik vind het ook bepaald niet fijn om erin te lezen, maar kon het niet laten om althans de laatste regels te lezen. "Het boek is zeker niet aan te bevelen voor docenten die nog geen kennis hebben genomen van een boek als De Groot & Van Naerssen (1969) of Dousma & Horsten (1980)." Begrijpt u nu een beetje wat mijn gemoedstoestand destijds is geweest, na kennisnemen van deze tekst? Het boekk van De Groot & Van Naerssen was destijds enthousiast ontvangen, het was een en al lofrede op de vierkeuzetoets. Wie het vandaag leest met een stevige achtergrond in onderwijsresearch, kan er totaal anders naar kijken: het is van kaft tot kaft puur ideologie. En dat is best opmerkelijk voor iemand als Adriaan de Groot die juist over methodologie voor sociale wetenschappen een belangrijk handboek schreef, en schermde met de forum-gedachte in de wetenschap. Afijn, het was Borgesius kennelijk ontgaan dat 'Toetsvragen schrijven' juist een soort van afrekening is met een oude ideologie over 'objectief toetsen'. Die afrekening vond vooral in 1977 plaats, bij gelegenheid van mijn paper over meerkeuzevragen (die zijn even subjectief als open vragen), zie https://benwilbrink.nl/publicaties/77KeuzevragenORD.htm, ten overstaan van een zaal met vooral medewerkers van het Cito met hun directeur Solberg. Een tamelijk sensationele paperlezing en discussie, waar ik nog steeds met veel genoegen aan terug kan denken. Amen.

Er is een korte versie in de maak, zonder details en zonder inkadering in de literatuur. Maar nog steeds beargumenteerd: de ontwerper moet immers weten wat zij/hij aan het doen is, en waarom dat klopt.

Toetsvragen ontwerpen

Handreiking bij het maken van toetsvragen over de leerstof

Inhoud — Voorwoord — 1. Inleiding

Ben Wilbrink