Oorspronkelijke uitgave 'Toetsvragen schrijven' 1983 Utrecht: Het Spectrum, Aula 809, Onderwijskundige Reeks voor het Hoger Onderwijs ISBN 90-274-6674-0, nu in publiek domein, auteursrechten B. Wilbrink. Onderstaande tekst is een sinds 2006 in bewerking zijnde versie. Voor de oorspronkelijke 1983 tekst zie www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf.



Toetsvragen ontwerpen

Handreiking bij het maken van toetsvragen over de leerstof

Inhoud—Voorwoord—1. Inleiding

Ben Wilbrink



Oorspronkelijke tekst: 'Toetsvragen schrijven' 1983 Het Spectrum Aula 809 1.4Mb pdf. Reeks Onderwijskundige informatie voor het Hoger Onderwijs, onder auspiciën van de Contactgroep Research Wetenschappelijk Onderwijs, redactie G. F. Bernaert, J. H. Daniëls, G. W. H. Heijnen, J. F. J. M. van Hout, M. J. A. Mirande, J. Nedermeijer, A. Pilot, D. W. Vaags en A. I. Vroeijenstein.




Inhoud

0 Voorwoord

1   Inleiding

1.1   Toetsvragen ontwerpen: kunst of kunde?
1.2   Uitgangspunten
1.3   Inhoudsoverzicht
1.4   Literatuur

2   Vraagsoorten, doorzichtigheid, rompvragen en validiteit

2.1   Korte open vragen
2.2   Keuzevragen
2.3   Open vragen
2.4   Doorzichtigheid
2.5   Meervoudig bruikbare vraagvormen
2.6   Validiteit: goed antwoord bewijst kennis
2.7   Literatuur

3   Leerstofinventarisatie

3.1   (Indirect) waarneembare zaken
3.2   Abstracte begrippen en constructs
3.3   Theoretische begrippen
3.4   Onderlinge verknooptheid van begrippen
3.5   Varianten van 'definities'
3.6   Literatuur

4   Toetsvragen ontwerpen bij afzonderlijke begrippen

4.1   Vertalen
4.2   Definiëren
4.3   Voorbeelden geven
4.4   Voorbeelden herkennen en benoemen
4.5   Herkennen en benoemen bij formeel gedefinieerde begrippen
4.6   Beschrijvende uitspraken
4.7   Literatuur

5   Toetsvragen ontwerpen bij relaties tussen begrippen

5.1   Vertalen en afbeelden
5.2   Onderscheiden
5.3   Classificaties
5.4   Stappenschema's, algoritmen, routines
5.5   Wetmatige relaties
5.6   Literatuur

6   Toetsvragen ontwerpen bij tekst

6.1   Participatiecontrole
6.2   Thema's en hoofdpunten
6.3   Analyse
6.4   Inferentie
6.5   Compositie
6.6   Tekst en de naïeve lezer
6.7   Literatuur

7   Problemen stellen

7.1   Over problemen gesproken
7.2   Inventarisatie
7.3   ontwerpregels
7.4   Literatuur

8   Kwaliteit van toetsvragen

8.1   Regels bij het examineren
8.2   Punten om op te controleren
8.3   Onafhankelijke beoordeling van kwaliteit
8.4   Controlelijsten in beknopte vorm
8.5   Literatuur

9   Toetsvragen over Toetsvragen [in opbouw]



Bij deze digitale versie


augustus 2008
Het actualiseren van de tekst uit 1983 heeft meer om het lijf dan ik in 2006 kon voorzien. De onderstaande tekst is daarom nu al weer verouderd, en zal ik binnenkort proberen te actualiseren naar de ondertussen geboekte vordering.

augustus 2008
De bijzondere ontwikkeling van het begrip validiteit in paragraaf 2.6 zal er ook toe leiden dat het theoretisch kader belangrijk zal opschuiven van de nu nog min of meer toetsspecifieke beschouwing naar een meer algemene theoretische onderbouwing. Dat heeft alles te maken met het enorme gewicht dat de traditie heeft in het onderwijsveld, dus ook waar het gaat om beoordelen en examineren. Specifieke disciplines die dat beoordelen en examineren tot onderwerp hebben, takken van de psychometrie zeg maar, gaan al evenzeer gebukt onder dat dode gewicht van de traditie omdat zij deze stilzwijgend als een gegeven beschouwen. Daardoor ontstaat de zorgelijke situatie dat nogal wat onderzoek dat in het onderwijs wordt gedaan juist bevestigend werkt naar al die tradities toe. Dat is zorgelijk omdat het kan leiden tot de misvatting dat de resultaten van dergelijk onderzoek leiden tot inzichten die evidence based zouden zijn, quod non.
Ik geef een voorbeeld. Historisch gezien spelen door leerlingen gemaakte fouten een hoofdrol bij het beoordelen van prestaties. En dat doen ze dus nog steeds, zelfs in de evident absurde vorm bij keuzetoetsen die zo moeilijk mogelijk zijn ontworpen (op basis van het onbegrepen adagium dat toetsvragen niet te makkelijk zouden mogen zijn). Toch is mij geen goede analyse van het hoe en waarom van dit benadrukken van fouten in het onderwijs bekend. Ik zou eens moeten zoeken in literatuur over kennisopvattingen van docenten en onderzoekers, maar verwacht daar op voorhand heel weinig van. Hoe kom ik op deze vraagstelling over opvattingen over fouten? Ik lees in een biografie van Christiaan Huygens dat hij al in het begin van zijn natuurwetenschappelijke onderzoekingen stuit op belangrijke fouten in het werk van onder andere Descartes, in dit geval over kinematica (zoals dat later zou gaan heten). Dat roept de vraag op: hoe algemeen komt het eigenlijk voor dat er in wetenschappelijk werk domweg belangrijke fouten worden gepubliceerd? Komt dat niet veel vaker voor dan we geneigd zijn te denken? Het is een belangrijke vraag, omdat in het onderwijs de impliciete kennisopvatting lijkt te zijn dat het onderwijs er is om het maken van fouten af te leren. En dat examens er zijn om het succes daarvan te controleren. Als in de wereld van de grote mensen, in academia, zou blijken dat het maken van fouten eerder regel dan uitzondering is, hoe gaan we dan om met zo'n afgrond die gaapt tussen onderwijs en praktijk? Concreet: onlangs werd bekend gemaakt dat een investering van tachtig miljoen euro in een ICT-project voor o.a. het UWV in een klap is afgeschreven omdat het project was vastgelopen. Hoeveel fouten zouden hier opgestapeld liggen? Hebben we dan nog steeds het lef om leerlingen af te rekenen op fouten, in plaats van op wat ze wèl kunnen? Welke consequenties heeft dit voor de ontwerper van toetsvragen, van examens, van onderwijs?


In 2006 teruggekeerd naar het onderwerp, is het mij duidelijk dat er interessante aanvullingen nodig zijn die te maken hebben met belangrijke vorderingen in de cognitieve wetenschappen. De inhoudelijke herziening van de tekst is een project van lange adem. Tijdens de verbouwing blijft de winkel open en is de deels herziene tekt op deze website beschikbaar. Op veel plaatsen zal de tekst eerst een slag moeilijker worden—of erger—voordat het gaat lukken om lastige onderwerpen op een heldere manier over het voetlicht te brengen en de wetenschappelijke onderbouwing meer naar bijlagen of artikelen te verhuizen.

Als toetsvragen gaan over kennis—in de brede betekenis van kennis waarin we ook spreken over een kenniseconomie—dan ontkomen we er niet aan ons een helder beeld te moeten vormen van wat het is om kennis te hebben, hoe het verwerven van die kennis verloopt, en dat alles terwijl er ook nog het probleem is dat 'nieuwe' kennis—wat dat dan ook is—meestal 'oude' kennis moet vervangen. Een voorbeeld is het onderwijs in de natuurkunde. Leerlingen beginnen daaraan met naïeve opvattingen—een folk physics—die zacht gezegd haaks staan op de klassieke natuurkunde in het lesprogramma. Miskennen van het bestaan van die naïeve opvattingen bedreigt het slagen van het onderwijs, zelfs al laten toetsresultaten zien dat de leerlingen de klassieke sommen kunnen maken. Een toets die dat presteert, deugt dus voor geen meter, wat goed Nederlands is voor 'is niet valide.' Het algemene filosofische kader dat ik gebruik is goed beschreven in Popp (1998), terwijl ik voor het begrip 'validiteit' steun op Borsboom, Mellenbergh en Van Heerden (2004) die nogal afstand nemen tot de geaccepteerde literatuur over constructieve validiteit zoals te vinden in handboeken als Brennan (2006).

In de literatuur over toetsen en testen zijn vanaf dag nul, zeg de publicatie van Thorndike's (1904) boek over testen, perverse opvattingen aanwezig over het karakter van deze instrumenten als meetinstrumenten. Michell (1999 ×) behandelt deze fundamentele problematiek. Ik kan nog niet overzien tot welke gevolgen dit leidt voor een ontwerptechnologie voor toetsvragen. Maar een specifieke moeilijkheid op dit terrein is al wel duidelijk, en een publiek geheim: er zijn verschillende wegen waarlangs het mogelijk is om tot goede prestaties te komen, gegeven dat de toetsen valide zijn. Afgezien van toevalligheden, waarover hierbeneden meer, kan dezelfde prestatie zijn bereikt door vooral harder dan anderen te werken (motivatie, tijdbesteding), door vooral intelligenter dan anderen te zijn (talent, een bonus van een nog kort leven lang intellectueel gemotiveerd te zijn), door vooral meer intellectuele bagage mee te brengen dan waar anderen over beschikken (door eerdere betere prestaties, de al genoemde bonus, of gewoon ouder te zijn), door de voorbereiding beter te plannen dan anderen doen (minder uitstelgedrag, meer gedisciplineerde studiemethode), of met frauduleuze praktijken van studenten zelf of van anderen (Hofstee, 1999 html). Kortom, de stelling dat een toets iets meet blijkt heel complex te zijn, want hij meet tegelijk van alles en nog wat. Strikt genomen is voor de bewijsvoering wat toetsen meten de methode van conjoint measurement nodig (zie bijvoorbeeld Michell, o.c. laatste hoofdstuk), en zo'n bewijsvoering is mij (nog) niet bekend. Mail mij als u een publicatie kent waarin zoiets is uitgevoerd. Nee, padanalyse (zoals in Tromp en Wilbrink, 1977 html), of structural equation modelling is echt iets anders. Hoe dat ook zij, en los van de vraag of en wat een toets meet, is het wel duidelijk dat al naar gelang het gekozen ontwerp van toetsvragen, bepaalde routes naar een goed toetsresultaat een voorsprong kunnen krijgen, en andere een handicap. Een cynisch voorbeeld van het laatste is dat studenten die bepaald dieper op de stof ingaan dan bij de toets aan de orde is, daarvoor straf kunnen krijgen, wat uit empirisch onderzoek een niet ongebruikelijke uitkomst is. Dat is verspilling in het kwadraat van de tijd van de student.

En dan is er nog het probleem van de eenzijdigheid van schriftelijke toetsen—met eigenlijk alleen vragen naar de bekende weg, alleen vragen waar een eenduidig antwoord op is—waar dit boek bij herziening meer aandacht voor moet hebben. Aan de basis van die aandacht liggen dan Stephen Toulmin's (1957) The uses of argument. en het op zijn werk geïnspireerde The skills of argument van Deanna Kuhn (1991). Haar Education for thinking (2005) gaat verder—in meerder betekenissen—in het pleidooi om de traditionele prioriteit van het 'leren van vakken' te vervangen door het 'leren omgaan met de wereld.' De behandeling zal ik niet in een afzonderlijk hoofdstuk wegzetten, maar ik zal ieder van de hoofdstukken 3 tot en met 7 ermee gaan verrijken. Vragen naar de bekende weg blijken vooral ook redactiesommen te zijn, waar goed onderzoek over beschikbaar is, zoals in Verschaffel, Greer en De Corte, 2000 besproken.


[December 2006] Het bijzondere van het werk van Deanna Kuhn, waar zij zelf nog aan voorbij lijkt te gaan, is dat het gaat om een onderwijscultuur en in het bijzonder om onderwijstechnieken die het mogelijk maken om gericht te werken aan de omslag van oude naar nieuwe kennis waarvan hierboven al sprake was. De relevante literatuur: conceptual change, een fenomeen dat primair is ten opzichte van de omslag in inzichten van nieuweling naar expert. Die combinatie van leren denken met goed te beschrijven inhoudelijke domeinen zoals bijvoorbeeld de natuurkunde, zal ongetwijfeld tot bijzonder krachtige en gefocuste—bv. op onderzoek naar algemene misvattingen en folk-science-opvattingen—didactiek leiden, die in handen van adequaat opgeleide leraren kleine wondertjes in het onderwijs kan bewerkstelligen. Dat is dus een ontwikkeling die in zekere zin een tegenstelling is tot het ongebonden bezig zijn dat in stromingen zoals competentiegericht leren en het nieuwe leren is te vinden.

Het gaat nu om een bijzondere verbinding van een paar lijnen van onderzoek, waarvoor ik literatuur verzamel en bespreek in onder andere physicseducation.htm en meno.htm. De Meno-pagina—Meno was de man op zoek naar kennis die hij nog niet had, en die niet zou kunnen vinden omdat hij niet wist waar hij naar op zoek was—moet antwoorden geven op de prangende vraag hoe het mogelijk is dat studenten überhaupt hun inzicht in de wereld veranderen, en welke instructieve benaderingen daarbij onder welke condities behulpzaam zijn. Een aantal onderzoekslijnen in het natuurkundeonderwijs—die expliciet de folk physics van de student aanvatten—laten in empirisch onderzoek zien welke van die technieken inderdaad werken (o.a., waarover in de volgende hoofdstukken meer: Hestenes; Chi en Slotta). Vanuit deze conceptie over wat adequaat onderwijs is ontstaat een nieuwe benadering van de problematiek hoe adequate toetsvragen te ontwerpen: dat ontwerp moet immers geworteld zijn in deze onderwijsvisie. Het ontwerpen van toetsvragen krijgt kenmerken van het ontwerpen van empirisch onderzoek, op zijn minst van de daaraan verbonden dataverzameling. Bij de herziening van dit boek werk ik deze verdiepte onderwijsvisie geleidelijk in de opbouw van de tekst in, omdat het ondenkbaar is op dit punt een snelle inhaalslag te kunnen maken. De moeilijkheid is immers ook dat dit boek een algemene strekking heeft, en daarom voor de opgave staat om verworvenheden in een specifiek veld, zoals het onderwijs in de natuurkunde, te veralgemeniseren. Voor dat laatste is het nodig specifieke verworvenheden in het onderwijs in de natuurkunde onder een algemene cognitief-psychologische noemer te brengen, en vandaaruit analoog materiaal in andere disciplines op te sporen, eventueel zelf te construeren. Mondt dit uit in de naieve idee van competentiegericht onderwijs? Integendeel, die competenties in het managementjargon zijn a-theoretische begrippen, zij dekken geen enkele theorie, en kunnen onmogelijk de basis zijn voor valide toetsen.


Is het voorgaande niet eigenlijk een pleidooi voor wat in de literatuur construct validity heet? Nee, die constructieve validiteit, de term zegt het al, is een wat gekunstelde poging om psychologische tests een betere theoretische status te geven, als het ware door ze te koppelen aan theorieën van de buren. Borsboom e.a. (2004) gaan er uitvoerig op in, ik verwijs daarnaar. Beoordelen in het onderwijs moet geldig zijn voor waar het in het onderwijs om gaat, en dat is iets anders dan dat deze oordelen samen moeten hangen met intellectuele vaardigheden van de leerlingen. Dat laatste doen ze altijd wel, en kan daarom nooit een voldoende onderbouwing zijn voor de geldigheid van oordelen.


Koppel het vragenstellen niet los van het onderwijs, en ga er niet zomaar vanuit dat het altijd vragen aan leerlingen zijn. Kijk in het werk van Deanna Kuhn (2005), en zie daar het belang van leerlingen die zelf vragen stellen, dat in dialoog met elkaar doen, onder begeleiding die zowel vakbekwaam is wat inhoud (natuurkunde, rekenen, etc) betreft, als wat deze veeleisende didactiek betreft. Ongeveer het tegendeel van wat meestal gesleten wordt als competentiegericht onderwijs.


Toetsen zijn in de 20e eeuw altijd opgevat als een soort meetinstrumenten, waar een optelling van het aantal goede antwoorden de uitslag geeft. Dat is een ingrijpende betekenisverschuiving geweest ten opzichte van het meer neutrale rangordenen van studenten naar hun geleverde prestaties, meestal het aantal fouten dat zij in de loop van de cursus hebben verzameld. Deze meetopvatting is een eigen leven gaan leiden en is nu een bepalende factor in het onderwijs, een hindernis bovendien op de weg naar kwaliteit van dat onderwijs. Het is niet onmogelijk dat de combinatie van de eerder genoemde ontwikkelingen uitmondt in een andere benadering van beoordelen, waarbij niet het aantal goed op quiz-achtige toetsen bepalend is, maar een juiste aanpak van tenminste één betekenisvol probleem. Wie aan de hand van een of twee problemen demonstreert natuurkundig inzicht te hebben en niet meer gehinderd is door de eigen oorspronkelijke folk physics, kan in beginsel alle soortgelijke problemen adequaat aanpakken. Het beoordelen verschuift dan van een compensatoire benadering—estafette, alles middelen—naar een disjunctieve—hoogspringen, aannemelijk maken dat je het kunt. De conjunctieve beoordeling—hordenloop, ieder vak moet op zich voldoende zijn—is altijd al een fatale vergissing in het onderwijs geweest, misschien een onachtzaamheid bij het ontstaan van differentiatie in de vakken in de Latijnse school. Zo'n ontwikkeling zou een bevrijding zijn, en de weg vrijmaken voor harde toepassing van wat wel meer authentieke vormen van toetsing heet, die ook beter inpasbaar zijn als integraal onderdeel van het instructieproces.

Het ontwerpen van toetsvragen zoals in 1983 behandeld, is vandaag nog even uniek als dat in 1983 het geval was. Mij is sinds 1983 alleen de DOZ-publicatie (1991) over toetsen bekend waarin deze aanpak van ontwerpen van toetsvragen is overgenomen. Toetsvragen schrijven heeft geen school gemaakt, en vult daarom nog steeds dezelfde lacune in de onderwijskundige literatuur. Dat blijkt mij bij tijd en wijle ook uit commentaar van mensen die dit boek op hun pad vinden. De koudwatervrees die enkele collega's voor de benadering in dit boek hebben volgt mogelijk uit ontzag voor de omvangrijke toetsliteratuur die is gebaseerd op methoden uit de psychologische testleer. Was toetsen in het onderwijs maar zo eenvoudig als het testen voor selectie of diagnostiek. De cognitieve psychologie is een betere voedingsbodem voor een ontwerptheorie voor toetsvragen.

In een paar zinnen samengevat is de visie deze. Onderwijs gaat over het verrijken van de kennis van de student, waarbij kennis breed is op te vatten zoals dat in de cognitieve psychologie—of cognitive science—gebeurt. Enige kennis—core knowledge—krijgen we bij de geboorte mee als beginkapitaal, alle andere kennis moeten we verwerven door echt nieuwe kennis te ontwikkelen op basis van oude kennis, door bestaande kennis door te ontwikkelen, door meer van al bestaande kennis op te nemen. Het onderwijs hoort een voortdurende uitdaging te zijn, voor kinderen en jong volwassenen die overigens van nature razend nieuwsgierig zijn. De didactiek die nodig is voor die voortdurende uitdaging bestaat voor een niet onbelangrijk deel uit het stellen van adequate vragen. Omdat summatieve toetsvragen niet principieel verschillen van de didactische of formatieve vragen, is de ontwerptechnologie voor al deze typen van vragen in wezen dezelfde. Dit boek gaat dus de uitdaging aan zo'n ontwerptechnologie te ontwikkelen.


Dit boek, en zeker de herziening, is vooral een avontuur waarin grenzen van bekend terrein gretig worden overschreden. Natuurlijk blijven de talrijke eenvoudige aanwijzingen overeind, over helderheid van taal, weglaten van derde en zeker vierde alternatieven bij keuzevragen. Daarnaast ook onverwachte of minder bekende mogelijkheden voor de ontwerper. Een voorbeeld, dat nog verdere uitwerking in de volgende hoofdstukken nodig heeft, is het volgende.

De traditionele vorm voor toetsvragen is dat deze gesloten zijn in de zin dat er tenminste een goed antwoord op de gestelde vraag mogelijk is. En niet meer dan dat. Dus bij korte open vragen en keuzevragen is het niet gebruikelijk om de leerling ook een toelichting op het gegeven antwoord te laten geven. Op dit punt is een radicaal andere ontwerpfilosofie mogelijk: zonder te weten wat de leerling heeft bewogen tot het geven van juist dit antwoord, is het lastig om het gegeven antwoord te waarderen, en is het dus ook niet helemaal duidelijk hoe de vraag bij de leerling is overgekomen. Voor een ontwerper van toetsvragen is dat niet prettig. Voor gebruikers van de cognitieve taxonomie van Bloom is het bijvoorbeeld helemaal niet vanzelfsprekend dat de antwoorden op 'begripsvragen' op basis van 'begrip' zijn gegeven. De gedachte is nu dat bij iedere combinatie van vraag en antwoord, ook het waarom van het gegeven antwoord erbij hoort. Vraag daar dus naar. Door dat systematisch te doen, moet de leerling zich altijd rekenschap geven van het hoe en waarom van zijn antwoorden, zij moet zich voortdurend rekenschap geven van het eigen weten. Bij constructieve vragen is dat overigens altijd al tamelijk vanzelfsprekend: de weg waarlangs een opgegeven probleem wordt opgelost, hoort typisch tot het antwoord op de vraag. Welnu, pas dat ook toe op korte open vragen en keuzevragen. De noemer waar dit onder is te vangen, is dat leerlingen moeten begrijpen wat ze doen, en daar blijk van geven. Nota bene: dit is een ander begrijpen dan in de cognitieve taxonomie van Bloom c.s. (1956). Bijkomend voordeeltje: leerlingen krijgen niet meer voortdurend de boodschap dat het vooral de bedoeling is goede antwoorden te weten, en niet waarom die antwoorden goed zijn. Aan het eind van de dag, en na de schoolloopbaan, gaat het immers om dat weten van het waarom. Een uitwerking die waarschijnlijk goed dekt waar ik hier op doel, is te vinden in Understanding by design door Wiggins en McTighe (1998), terwijl een wetenschappelijke onderbouwing en uitwerking van wat het is om tekst—of leerstof—te begrijpen is te vinden in het werk van Robert Sternberg, met name Randi, Grigorenko en Sternberg (2005), dat natuurlijk in hoofdstuk 6 over vragen bij tekst aan de orde is.

Antwoorden toelichten, zoals in het direct voorgaande aangestipt, is niet een onderwerp waarover makkelijk onderzoekliteratuur is te vinden. Het is juist in de marge van ander onderzoek dat ik interessante aanwijzingen vind. Zo verwijst Sophian (2008, p. ) bijvoorbeeld naar onderzoek over de effecten van self-explanation, en zij doet dat naar aanleiding van experimenteel onderwijs van breuken waarin het begrijpen van breuken centraal staat, in plaats van het kunnen hanteren van de procedures om met breuken om te gaan. Er moet veel cognitief-psychologisch onderzoek beschikbaar zijn over de effecten van het nadrukkelijk verwoorden van wat je zojuist hebt geleerd en begrepen, op dat begrijpen zelf, en op de wendbaarheid in het gebruik van de zo opgedane kennis, vergeleken met anderen die een meer passieve stijl van leren volgen. Questioning is, meen ik, zo'n onderzoekthema, eind zeventiger jaren: vragen stellen bij tekst, door de lezer van de tekst en niet door de ontwerper van toetsvragen. Het gaat hier om een tweesnijdend zwaard: uitleggen waarom gegeven antwoorden goed zijn maakt het beoordelen van die antwoorden zoveel rijker, en het maakt ook de leerling rijker omdat het nogmaals een gelegenheid is om die kennis beter te begrijpen en te integreren met andere kennis.

Catherine Sophian (2007). The origins of mathematical knowledge in childhood. Lawrence Erlbaum.

M. T. H. Chi (2000). Self-explaining Expository Texts: The dual processes of generating inferences and repairing mental models. In Robert Glaser: Advances in Instructional Psychology 5 (pp. 161-238), Erlbaum. pdf (scan) or questia (text)


Er staat sinds 2006 een stapsgewijze herziening van dit boek op stapel, tussentijds op deze site te vinden als de hoofdstuksgewijze versie onder de titel Toetsvragen ontwerpen, met onder andere veel meer voorbeelden. Ik wil daarom graag horen van ervaringen uit de praktijk, zowel de opbeurende als de teleurstellende. Nog meer voorbeelden komen in parallel-hoofdstukken, meteen in het Engels te schrijven. De oorspronkelijke tekst uit 1983 blijft als pdf-bestand beschikbaar.

Ben Wilbrink
Leiden, april/december 2006



Voorwoord

Gemarkeerde passages, zoals deze, zijn doorgaans aantekeningen die een opdracht inhouden om iets—een idee, het werk van een auteur, een lijn van onderzoek—te verwerken in de tekst van de paragraaf, het hoofdstuk, of het boek. In enkele gevallen geef ik er mee aan nu af te wijken van een in 1983 ingenomen positie; een voorbeeld daarvan is de oude aanbeveling om bij open vragen met modelantwoorden te werken, waarbij ik nu geneigd ben om beducht te zijn voor bureaucratisering van de beoordeling die betaald wordt met tijd die niet meer beschikbaar is om onderwijs te geven.


De bedoeling is dat dit boek ontwerpregels geeft die in beginsel geldig zijn voor toetsvragen voor alle disciplines. Dat is een moeilijke positie, en voor een auteur alleen eigenlijk een onmogelijke opgave, in ieder geval onmogelijk binnen een normaal dienstverband. Hoe dat ook zij, de gebrekkige uitgave van 1983 was in ieder geval een goed begin, waarvoor binnen het toenmalige onderwijscentrum van de Universiteit van Amsterdam—het COWO—nog net ruimte was. Deze herziene versie bouwt erop voort. De verschillende disciplines van deze wereld—denk aan geneeskunde, wiskunde, geschiedenis, de beheersing van de eigen taal—hebben zich soms in splendid isolation van elkaar ontwikkeld, zeker ook binnen het onderwijs. (Robbert Dijkgraaf heeft er een aardige column over in de NRC van 26 mei 2007; hij is mathematisch fysicus, en ziet vanuit die positie met lede ogen aan hoe de wiskunde en de natuurkunde zich in de vorige eeuw van elkaar hebben geisoleerd.) Die eigen ontwikkeling geldt ook de didactiek van de vakken, en daarmee de onderwijsmethoden en de tradities bij het beoordelen van leerlingen. Een voorbeeld van een volkomen uit de hand gelopen—want zie Verschaffel, Greer en De Corte 2000—beoordelingsgewoonte in een vak waar men dat niet zou verwachten, zijn de redactiesommen in het reken- en wiskundeonderwijs. Merkwaardig, die redactiesommen zijn ook in heel veel andere vakken een gebruikelijke vorm van toetsvragen! Dit boek gaat dus met zijn pretentie algemene ontwerpregels te bieden, roeren in diverse wespennesten.
Zo'n algemene benadering is in zekere zin natuurlijk gebruikelijk voor boeken over toetsen en de enkele boeken die specifiek het ontwerpen van toetsvragen behandelen, maar daar beperkt de algemene behandeling zich tot de vormaspecten van toetsvragen. Globaal zijn dat de onderwerpen die dit boek in hoofdstuk 2 en 8 behandelt, enigszins afgezonderd van de inhoudelijke ontwerpregels.
Een algemene aanpak van inhoudelijke ontwerpregels is alleen goed mogelijk op een wetenschappelijk theoretische basis die algemeen is in relatie tot vakspecifieke didactiek en gewoonten. Dat leidt onverbiddelijk tot de kennisleer (epistemologie) waar het de beschrijving van vakinhouden betreft, en de cognitieve psychologie waar het gaat om alles wat te maken heeft met hoe mensen met die vakinhouden omgaan. De cognitieve psychologie waar dit boek gebruik van maakt is weliswaar van een hoog theoretisch gehalte, bijvoorbeeld de cognitieve theorie van John Anderson, maar die theorie staat rotsvast in een strenge empirische traditie van onderzoek. De algemene theorie leidt tot heftige botsingen met specifieke vakdidactiek, zoals in het geval van wiskunde verwoord in bijvoorbeeld Anderson, Reder, en Simon (1996 pdf). Maar het omgekeerde gebeurt ook: de manier waarop in het veld van de natuurkunde onderzocht wordt hoe het mogelijk is dat studenten ondanks al hun stevige nakuurkundige kennis toch ook nog sterke naive natuurkundige opvattingen hebben, leidt tot inzichten die een algemene betekenis hebben voor methoden van onderwijs en toetsen (zie hier voor literatuur over folk physics en hoe het onderwijs daar mee om kan gaan—of dat nog steeds kan vertikken)


Na meer dan duizend jaar West-Europese ervaring met het ondervragen van studenten is het opmerkelijk dat er nog steeds weinig of geen goede methoden beschikbaar zijn voor het gericht ontwerpen van die vragen. De dagelijkse praktijk is, ook bij nationale toetsontwikkelaars zoals het Cito, dat het maken van toetsvragen de taak is van (teams van) docenten, die daarvoor niet getraind zijn in het hanteren van adequate technieken voor het ontwerpen—in plaats van bedenken—van toetsvragen bij gegeven leerstof.

Het belang van goede ontwerpregels voor het ontwerpen van toetsvragen is evident: bij gebrek daaraan loopt de kwaliteit van het onderwijs sluipenderwijs weg. Waar het bedenken van toetsvragen een zaak van intuïtie of van de creatieve inval is, en niet van een helder ontwerp, blijft het lastig om de kwaliteit van het onderwijs te verbeteren. De toetsresultaten zijn immers een belangrijke aanwijzing voor wat er met het onderwijs is bereikt, en toetsen die iets van onbekende creativiteit meten doen hun werk in dat opzicht onvoldoende.

Dit boek wil een samenhangend geheel van ontwerpregels bieden voor de vertaalslag van leerstof naar toetsvragen. Deze nadruk op de adequate inhoud van toetsvragen onderscheidt dit boek ook van de eerste Amerikaanse poging om de beschikbare technieken voor het ontwerpen van toetsvragen in een overzichtelijke vorm voor de onderwijspraktijk te presenteren: de Technology of test item writing van Roid en Haladyna (1982). Daar is het ideaal juist om leerstofonafhankelijke technieken te hanteren. Beide boeken zijn dan ook als enigszins complementair te zien. Het is het aloude dilemma van vorm of vent, maar omdat het ontwerpen van toetsvragen geen literaire oefening is, is het beter zowel de vorm als de inhoud in het ontwerp mee te nemen. Overigens is Haladyna doorgegaan met studie van ontwerpregels van de leerstof-onafhankelijke soort, het hoofdstuk 'Writing the test item' in zijn (1999) vat de consensus op dit gebied samen, zoals ook in zijn (2002) artikel te vinden http://depts.washington.edu/currmang/Toolsforteaching/MCItemWritingGuidelinesJAME.pdf [niet meer beschikbaar? 2-2008]. De lijstjes in hoofdstuk 8 zijn met die consensus min of meer in overeenstemming, maar dan hebben we het wel over de eenvoudige geboden en verboden voor de vorm van de vragen, niet over de hersenbrekers die nodig zijn om vragen inhoudelijk te ontwerpen.

De te presenteren ontwerpregels zijn bruikbaar, maar geen oplossing voor alle problemen. De behandeling is beknopt, en probeert vrij te blijven van de bijzonderheden die eigen zijn aan specifieke disciplines. Slechts enkele bladzijden behandelen het leggen van dwarsverbanden—analyse en inferentie—waar eerder een behandeling in afzonderlijke hoofdstukken op zijn plaats zou zijn. Toetsen op het oplossen van problemen krijgt een karige behandeling in slechts een enkel hoofdstuk. Ook brengt de algemene behandeling met zich mee dat de lezer geen kant-en-klare ontwerpregels voor het eigen vakgebied aantreft, maar dat deze telkens afgeleid moeten worden van de algemene regels en de voorbeelden. In het jargon van dit boek gezegd: de tekst is nogal abstract van karakter, en zou aan duidelijkheid winnen bij een veel uitgebreider verzameling van concrete voorbeelden van aanraders en afraders. Wat vormaspecten betreft is een indrukwekkende reeks van missers te vinden bij landelijke quizzen met een hoog profiel, zoals de Nationale Wetenschapsquiz, waarvan een aantal door mij zijn becommentarieerd. Diezelfde quiz demonstreert levensgroot het probleem van een adequate beschrijving van wat precies de bedoeling van een toets is: wat is de missie voor de Nationale Wetenschapsquiz, wat is precies het wetenschappelijke in het deelnemen aan of kijken naar die quiz? Als die missie onbenoemd blijft, hoe is het dan mogelijk om de inhoudelijke kwaliteit van de toetsvragen te beoordelen? Inderdaad, dat is dan alleen op triviale wijze mogelijk.

Een enkel woord nog over aard van deze ontwerpregels. Ik kies voor ontwerpregels die de vragen laten aansluiten bij de aard en de structuur van de leerstof. Nee, dat is te kort door de bocht: ook de aard en structuur van de kennis die de student om te beginnen zelf meebrengt speelt een rol: als die kennis niet als uitgangspunt voor de instructie wordt genomen, kan ze het opnemen van de zo heel andere aangeboden kennis belemmeren. Het in de onderwijskunde gangbare psychologiseren, dat eist dat toetsvragen aansluiten op bepaalde veronderstelde denkprocessen in het hoofd van de student, is fundamenteel iets anders dan wat bedoeld wordt met het als uitgangspunt nemen van de kennis van het gezonde verstand—ook wel folk science genoemd—van de individuele student. Het eerste is de bekende benadering van het onderverdelen van de aangeboden en zo te toetsen leerstof in termen van kennis, inzicht, toepassing, analyse, evaluatie en synthese, kortom de cognitieve taxonomie van Bloom en de zijnen (1956). O zeker, er recente cognitieve theorie die nauw aansluit bij neurologische modellen en kennis, waar dit boek gebruik van maakt, maar dat heeft werkelijk niets met de bloomiaanse psychologismen te maken. Het tweede is het beschouwen en onderzoeken van kennisstructuren en de manier waarop daar veranderingen in ontstaan, zoals de cognitieve wetenschappen die in de laatste decennia van de vorige eeuw zijn gaan onderzoeken. Dat onderzoek staat dicht bij wat overigens uit wetenschapshistorisch en -filosofisch onderzoek bekend is, waar ook de tekst uit 1983 al aansluiting bij heeft gezocht.

De nadruk op gedrag van studenten is een stap in de goede richting, maar psychologiseert nog steeds. Het psychologische uitgangspunt overheerst in de onderwijskunde, maar wordt wel hier en daar genuanceerd of verlaten (Furst, 1981). Het verrassende is nu dat verschillende eenvoudige—niet omstreden—wijsheden uit de wetenschapsfilosofische hoek heel bruikbare aanknopingspunten bieden. Het gaat dan om de aard en de functie van definities (veel toetsvragen blijken over definities te gaan), het onderscheid tussen observeerbare, abstracte en theoretische begrippen, en dergelijke. Uit de cognitive sciences valt bij dat alles vooral ook te leren hoe het studenten mogelijk is eigen intuïtieve opvattingen in te wisselen tegen de breed geaccepteerde wetenschappelijke kennis die in soms buitengewoon lang en moeizaam onderzoek is verworven. De bedoeling is dat die meta-kennis leidt tot ontwerpregels voor het ontwerpen van toetsvragen die de docent onmiddellijk als adequaat kan herkennen.



BEN WILBRINK

Amsterdam 1982/Leiden 2006


... an experience, a very humble experience, is capable of generating and carrying any amount of theory (or intellectual content), but a theory apart from an experience cannot be definitely grasped even as a theory.

John Dewey, in: Democracy and education.


"The principal difficulty that Dewey had in implementing his theory, as he admitted, was that he lacked a philosophy of experience (...). By this I mean that he had neither a metaphor nor a technology through which to make specific his ideas about how people can create something like mathematical knowledge from experience. He did not have a genetic epistemology. Dewey was confident that problem solving was the key to the growth of knowledge, as evidenced by his repeated references to it, but he never explained how problem solving provided the key to intellectual growth, nor how one might actively promote it." (p. 192) Patrick W. Thompson (1985). Experience, problem solving, and learning mathematics: Considerations in developing mathematics curricula. In Edward A. Silver: Teaching and learning mathematical problem solving: Multiple research perspectives. Erlbaum. questia



1 Inleiding


Eind 2006 is de grote lijn voor de herziening van dit boek duidelijk, en daarmee is ook de tekst voor dit eerste hoofdstuk in grote lijnen de definitieve herziene versie. Waar de versie 1983 uitgaat van het gegeven van de leerstof, waarover toetsvragen zijn te ontwerpen, is dat in de herziene versie radicaal opgeschoven naar het gegeven van het leerproces, met daarbij adequate vragen. Alleen uitgaan van de aangeboden leerstof gaat voorbij aan de opvattingen waarmee studenten binnenkomen, opvattingen die soms hun leren vergemakkelijken, maar mogelijk vaker dat in de weg zitten. Goede instructie speelt op die opvattingen in. Toetsen, vragen stellen, hoort bij die instructie, is daar althans niet los van te zien. Dat leidt binnen de kortste keren tot het benadrukken van het belang van vragen naar redenen, naar verklaring van gegeven antwoorden. Waar in 1983 juist die vragen om te verklaren geen plaats konden krijgen, krijgen ze dat nu juist bij voorrang. Uitwerken van ontwerpregels hiervoor zal enige tijd vergen, maar gelukkig biedt de onderzoekliteratuur uit de cognitive sciences een zee van goede voorbeelden. Het werk ligt nog voor de boeg, maar de koers is uitgezet. Het wetenschappelijke kader is met de eerder op deze webpagina genoemde literatuur in grote lijnen al aangegeven.


27-12-2006
Er verandert toch wel wat. Ik wil een aantal heldere uitgangspunten hebben, dat is nog hetzelfde, maar in de uitgangspunten zelf gaat er iets verschuiven.
Vragen moeten in het bijzonder ook bestand zijn tegen oneigenlijk gebruik, oneigenlijke voorbereiding door studenten etc. Dat betekent: niet op een hoog niveau van—uit het hoofd te leren—abstractie. Al mag er best sprake zijn van uit het hoofd geleerde kennis, voorzover dat bijvoorbeeld een voorwaarde is voor het tot stand komen van inzicht (denk aan getalbegrip bij kleine kinderen, in de onderzoeklijn van Susan Carey (1998)). Dus dat onderscheid concreet-abstract komt dubbel en dwars terug, veel verder uitgewerkt en met meer inhoud: het moet glashelder uit te leggen zijn.
Vragen moeten naar de vorm perfect zijn. Het is ongehoord om daar nog missers in te accepteren, daar moeten we echt mee ophouden. Het is een toch wel wat breder begrip, omdat bijvoorbeeld voor keuzevragen de bijzondere spelregels meegenomen moeten worden. Toverwoord is hier misschien: consistentie. Wanneer van de leerlingen wordt gevraagd nauwkeurig te lezen, is een minimale eis ook aan de ontwerper van de vraag om verdraaid nauwkeurig te ontwerpen. In de praktijk is dat vaak anders.
Een bescheiden palet van mogelijke vraagvormen; kort open, keuze, open. Daar moeten we het ongeveer mee doen, aangevuld met het vragen om uitleg van gegeven antwoorden.
Het ontwerp moet sporen met de gekozen scoring. Dat zal nog best lastig zijn omdat het een ongewoon uitgangspunt is. We zijn immers gewend aan scoren in de zin van : ieder goed antwoord een punt. Andere scoringsvormen moeten mogelijk zijn, zoals: tenminste 1 goed is voldoende. Dat heeft consequenties voor het ontwerp van de vragen, en dit keer zijn dat geen inperkende, maar juist ruimte scheppende consequenties. De deur naar 'authentieke' vragen gaat minstens op een brede kier open.


Dit boek geeft een technologie voor docenten die hun eigen toetsvragen ontwerpen, maar ik sluit niet uit dat het ook van belang kan zijn voor onderzoekers die met beoordelen in het onderwijs bemoeienis hebben. De nadruk ligt op vragen voor proefwerken of tentamens: de kwaliteitseisen zijn hier strenger, hoewel de aard van de vragen niet wezenljk anders is—mag zijn—dan die waarmee de docent leerprocessen richting geeft of bijstuurt. Het bedenken van telkens weer nieuwe toetsvragen heeft docenten—evenals professionele schrijvers van toetsvragen—altijd al veel moeite gekost. De reden is dat er geen technologie voor het ontwerpen van toetsvragen beschikbaar is, zodat men iedere nieuw te bedenken vraag al gauw als een nieuwe—en dan vooral creatieve—uitdaging ziet. Boeken over toetsen in het onderwijs geven overzichten van soorten vragen die zoal in gebruik zijn, met reeksen voorbeelden, en lijstjes van te vermijden onhandigheden. Een ontwerptechnologie is daar niet te vinden, de vertaalslag van leerstof naar vragen erover—van het leren naar vragen daarover, wat een wezenlijk verdergaande opvatting is—blijft vrijwel onbesproken, of is letterlijk een zaak van de intuïtie van de ervaren docent. Overigens is de vorm van toetsvragen een thematiek die rijk genoeg is voor een eigen technologie, zie het werk van Roid en Haladyna (1982).


schema van alles

Figuur 1. Schema van alles. De getallen staan voor de hoofdstukken. Voor software om zoiets te maken zie http://cmap.ihmc.us/



Er is een technologie nodig voor het inhoudelijke ontwerp van toetsvragen, voor het maken van de vertaalslag van leerstof naar vragen erover, waar nodig verrijkt over de band van de intuïtieve opvattingen waarmee studenten binnenkomen en hoe deze te laten evolueren. Dat kan een verzameling van ontwerpregels zijn om rechtstreeks de leerstof om te vormen tot vragen over zichzelf. Dat is een helder doel, maar er zijn verschillende visies op de te volgen weg. Een linguïstische uitwerking is gegeven door Bormuth (1970), maar dit is geen begaanbare weg voor docenten. Dit boek blijft om te beginnen zo dicht mogelijk bij de leerstof zelf, legt deze uiteen in in zijn samenstellende delen, waarop vervolgens de ontwerpregels zijn toe te passen. In veel gevallen vraagt het bestaan van gezond-verstand-opvattingen bij studenten om daarop gerichte instructiemethoden, zodat ook de toetsvragen in overeenstemming met die complexere instructietechnologie zijn te ontwerpen. Waar de zestiger en zeventiger jaren van de vorige eeuw het expliciteren van doelen als noodzakelijke eerste stap zag, is dat nu het expliciteren van de epistemologie van zowel de aankomende student als van de aan te bieden stof zelf, en daarmee ook van het mogelijke proces van de evolutie van de eerste naar de laatste. Het canonieke voorbeeld is dat van de naïeve natuurkunde versus de klassieke natuurkunde van Newton, maar dergelijke tegenstellingen doen zich bijna per definitie bij alle onderdelen van het onderwijs voor. Bijna per definitie: wanneer naïeve opvattingen zouden sporen met wetenschappelijke, is onderwijs immers niet zo geweldig nodig.


1.1 Toetsvragen ontwerpen: kunst of kunde?


Het is een wijdverbreide opvatting dat het ontwerpen van toetsvragen alleen goed mogelijk is door creatieve geesten die dat van nature in de vingers hebben en veel ervaring hebben. In een vroege publicatie van Lans en Mellenbergh (1969, p. 84) is dat al kenmerkend geformuleerd.

Is de itemschrijver zich van de doelstellingen bewust, dan moet hij de items gaan bedenken. Waar haalt hij nu een idee voor een item vandaan? Dit probleem wordt door sommigen opgelost door aan het bureau te gaan zitten en na te denken. Anderen komen gemakkelijker op ideeën wanneer zij met iets heel anders bezig zijn, zoals afwassen, of douchen. Vaak komt men ook op een idee naar aanleiding van problemen, die in de klas bij de behandeling van de stof naar voren zijn gekomen.

Vandaag is de situatie weinig veranderd. Ook instellingen die nationale toetsen maken, zoals het Cito, en Educational Testing Service in de VS, laten het ontwerpen van toetsvragen over aan docenten die tegen een bescheiden vergoeding vragen moeten 'bedenken.' Een saillante formulering uit de Amerikaanse literatuur:

Iedere toets begint met een idee van de toetsvragenschrijver. Een van de moeilijkste problemen waarmee hij geconfronteerd wordt, is het produceren en selecteren van ideeën voor zijn toetsvragen. (...)
Er is geen automatisme dat ideeën voor zijn toetsvragen genereert. Ze moeten worden uitgevonden of ontdekt, en in dat proces zijn toevallige gedachten en inspiraties erg belangrijk.

Aldus Wesman in zijn hoofdstuk 'Writing the test item' in het standaardwerk van Thorndike (1971, p. 86) over toetsen. In zijn inleiding stelt Wesman nogal nadrukkelijk dat het ontwerpen van toetsvragen in wezen creatief is—het is een kunst.

Op dezelfde wijze als er geen verzameling formules bestaat voor het maken van een goed verhaal of schilderij, kan er geen verzameling regels bestaan die de vervaardiging van goede toetsvragen garanderen. (p. 81)

Een kwarteeuw later verwoordt een andere auteur hetzelfde, kennelijk niet zo creatieve, idee: Osterlind (2000), in de laatste bladzijde van zijn boek waarin hij de lezer nog enkele belangrijke boodschappen meegeeft.

"From the outset of this book, it has been emphasized that constructing test items is a complex task, requiring both technical skill and creativity." Het boek gaat over die technische vaardigheden. "Creativity, however, is an element of item construction that can only be identified; it cannot be explained. Item writers, as individuals, will bring their own sense of art to the task."
[Osterlind, 1997, p. 308]


Het zou niet alleen voor de toetsvragen ontwerpende docent jammer zijn wanneer Wesman en Osterlind gelijk hebben. Veel spijtiger is het voor de studenten. De onvermijdelijke tegenhanger van toetsvragen die uit de kunst zijn, is immers dat het beantwoorden van dergelijke vragen ook een kunst is.

Er is nog een andere, praktische, reden waarom het primaat van de creatieve inval zorgelijk is. Er zijn meestal veel vragen over toch maar beperkte hoeveelheden leerstof nodig. Dan moeten de duisterste krochten van creativiteit worden opgezocht om nog weer eens iets 'nieuws' te bedenken, want die oude toetsvragen zijn bij studenten bekend en dus niet meer bruikbaar. Nog in de zeventiger jaren probeerden docenten vaak om hun toetsvragen geheim te houden, om ze zo toch opnieuw te kunnen gebruiken. Maar die geheimzinnigheid leidde tot tal van problemen, en wordt nu niet meer getolereerd. Een richtlijn van het College van Bestuur van de Universiteit van Amsterdam dat studenten gemaakte toetsen kunnen inzien, was een directe aansporing om ontwerpregels te ontwikkelen die het mogelijk maken kwalitatief hoogwaardige toetsvragen in groter hoeveelheden te ontwerpen.

Voor de ongewapende toetsvragenschrijver kan iedere nieuw te bedenken vraag dus een hersenbreker worden. Dit boek geeft ontwerpregels om die impasse te doorbreken, voor de vorm van toetsvragen, maar vooral voor de adequate inhoud van de vragen. Hoofdstuk 2 behandelt de keuze van een geschikte vraagvorm, zoals open vragen of juist meerkeuzevragen, en de zorg voor kwaliteit van de vraagstelling. Hoofdstuk 3 werkt uit wat precies de inhoud van een vak of een leerboek is—wat is het dat we in brede zin 'kennis' van het vak noemen—en latere hoofdstukken werken dat voor de verschillende soorten van kennis uit naar het ontwerpen van passende toetsvragen. Een voorbeeld kan aangeven wat de strekking is van de inhoudelijke benadering.

redactiesom

Mark woont 300 meter van school, Piet woont 500 meter van school. Hoe ver is het van het huis van Mark naar het huis van Piet?

Over redactiesommen van het bovenstaande soort is een ondertussen uitgebreide onderzoekliteratuur beschikbaar. Het blijkt dat leerlingen van 12 jaar dit experimentele type opgave in het voorbeeld vooral fout beantwoorden. Inderdaad, 800 meter, of 200 meter, is geen goed antwoord. Er is van alles geprobeerd om leerlingen te bewegen realistische antwoorden op dit type redactiesommen te laten geven, met gering succes. De neiging bij de onderzoekers in dit veld, zie bijvoorbeeld Verschaffel, Greer en De Corte (2000) voor een overzicht, is om allerlei veronderstellingen te opperen over de aard van het onderwijs dat tot dit soort twijfelachtige prestaties leidt. Die theorievorming, maar vooral de empirische resultaten in deze lijn van onderzoek, maken redactiesommen bij uitstek geschikt om er aanwijzingen uit te halen voor een ontwerptechnologie voor toetsvragen. Daar is geen filosoferen over verborgen onderwijsprogramma's voor nodig, het volstaat om te signaleren dat voor redactiesommen zoals in het onderwijs typisch aan de orde, een behoorlijk onderwijskundig ontwerp ontbreekt. Dat geldt waarschijnlijk evenzo voor redactieopgaven voor andere vakken, maar bij rekenen komen de relevante kenmerken scherper uit.

Terug naar het voorbeeld van de afstand van het huis van Mark naar dat van Piet. Leerlingen die '800' antwoorden, vatten de redactiesom op als een optelsom, en zo hebben ze dat waarschijnlijk ook geleerd. Maar een redactiesom is volgens welke rationele regels voor het opstellen van toetsvragen dan ook, geen adequate vorm voor het toetsen van de beheersing van de regels voor het optellen. Optelsommen zijn gewoon optelsommen. Optelsommen horen tot de categorie opgaven over relaties tussen begrippen, en dat is hoofdstuk 5 in dit boek. Optellen is iets met de relatie tussen getallen. Het getalbegrip is een verhaal apart, ook daar is mooi onderzoek naar gedaan door Susan Carey (1998), en toetsvragen voor dat getalbegrip horen tot de categorie vragen over begrippen, hoofdstuk 4 in dit boek. Maar hoe zit het dan met redactiesommen? De meerwaarde van de redactiesom boven gewone sommen zit nu juist in de vertaalslag van de gegevens naar een adequaat wiskundig model, de daaruit afgeleide aanpak voor de oplossing, en de controle of de gevonden oplossing inderdaad het gestelde probleem beantwoordt. Redactiesommen zijn dus een prototype voor opgaven in de categorie probleemoplossen, in dit boek behandeld in hoofdstuk 7. Redactiesommen zijn eigenlijk geen sommen, het zijn probleemstellingen. Dat karakter miskennen, leidt tot tamelijk rampzalig, want van de door leerlingen ervaren werkelijkheid vervreemd onderwijs. Dat is precies wat onderzoek over redactiesommen (word problems) heeft aangetoond. Wie niet is overtuigd dat het met die redactiesommen zo erg is gesteld, zie de Nationale Rekentoets 2006 hier, een toets die door het Cito is opgesteld. Neem voorlopig maar even als werkhypothese aan dat dit type probleem niet beperkt is tot het onderwijs aan twaalfjarigen, en evenmin tot rekenen en wiskunde, maar dat het een probleem is dat het hele onderwijs doortrekt. Omdat het zo nauw verweven is met tekorten in het ontwerpen van toetsvragen en dus ook van oefenmateriaal, dicteert het mede de inhoud van dit boek. Hoofdstuk 6 is niet genoemd: dat gaat over vragen bij teksten, en neemt een positie in tussen vragen over relaties (hoofdstuk 5) en probleemoplossen (hoofdstuk 7): het gaat verder dan vragen over gegeven relaties, en bereidt enkele van de afzonderlijke stappen bij het oplossen van problemen.

Er kan over redactiesommen dus pittige strijd ontstaan tussen bijvoorbeeld ouders en leraren, al naar gelang de interpretatie van bepaalde sommen. Kijk, dat is het gebied van de rechtmatigheid, en dat is in hoofdstuk 8 aan de orde. Verschaffel e.a. (2000) citeren overigens heel fraaie voorbeelden van dergelijke discussies. Door hun talige karakter zijn redactiesommen ook vatbaar voor ontwerpgebreken in die sfeer: het Nederlands is te moeilijk voor zelfs de gemiddelde leerling, of bepaalde woorden zijn onbegrijpelijk voor veel leerlingen met Nederlands als tweede taal. In de mate waarin dat het geval is, toetsen de sommen vooral achtergrond van de leerlingen, en geen rekenvaardigheid. Ook dat is onderwerp van hoofdstuk 8, en zou ook in de Nederlandse politiek hoog op de agenda moeten staan (Leseman, 2007).

Omdat er zoveel experimenteel onderzoek is gedaan over hoe iedereen omgaat met redactiesommen in het basisonderwijs, is het aan de hand daarvan ook glashelder hoe kritiekloos toegepaste traditionele methoden voor het opstellen van redactiesommen tot gevolg hebben dat de leerlingen ervan overtuigd raken dat alle opgaven altijd een enkel eenduidig antwoord hebben, dat is krijgen door de laatst behandelde procedure toe te passen. In de verarmde taal van de redactiesommen geven bepaalde woordjes een sterke aanwijzing over wat de leerling moet doen: 'over' betekent dan van elkaar aftrekken van de getallen in de som, het is dus overbodig om de opgave in zijn geheel goed te lezen. Voed kinderen daarin op gedurende twaalf jaar, en ziedaar: incompetentiegericht onderwijs. Ook dit zijn vormaspecten, in hoofdstuk 2 aan de orde. Zelfs opgaven die op zichzelf een kwalitatief goed ontwerp hebben, kunnen sterke negatieve gevolgen hebben wanneer ze als type vraag ondoordacht massaal worden gebruikt.

En zo blijkt het mogelijk om technieken voor het ontwerpen van toetsvragen mede te baseren op empirisch bewijs dat juist buiten het gebruikelijke onderzoek naar toetsen—educational measurement—is verzameld, vaak in cognitief-psychologisch onderzoek zoals van Carey, Kuhn of Bereiter, maar ook in de nissen van vakspecifiek onderzoek zoals binnen wiskunde of natuurkunde. Want het mag uit De mechanisering van het wereldbeeld van Dijksterhuis (1951) toch bekend zijn dat er voor natuurkundeopgaven een probleem is dat analoog is aan dat van de redactiesommen in de wiskunde: leerlingen of ook volwassen studenten leren wel the tricks of the trade, maar blijken daarmee, tot starre verbazing van hun leraren, nog niet bevrijd van naieve opvattingen over natuurkunde. Er zijn werkelijk spectaculaire resultaten die dat in iedere willekeurige klas of groep laten zien aan de hand van toch in wezen heel eenvoudige vragen over kogelbanen en dergelijke. Ook dit fenomeen is voorwerp van uitvoerig internationaal onderzoek, gericht op het vinden van didactische mogelijkheden om het probleem op een goede manier de baas te kunnen (zie bijvoorbeeld Slotta en Chi, 2006 pdf). Een en ander heeft natuurlijk alles te maken met hoe toetsvragen inhoudelijk adequaat te ontwerpen.


1.2 Uitgangspunten


Dit boek berust op een aantal nadrukkelijke uitgangspunten die het karakter van de ontwerpregels bepalen. De algemene insteek maakt graag gebruik van ontwikkelingen en publicaties die buiten mainstream educational measurement liggen, zoals Atkin, Black en Coffey (2001, page). De reden is de hopelijk consequent volgehouden inspanning om toetsen als ingebed in een complexe context te behandelen, in plaats van als een geïsoleerd gebeuren.


hoe rationeel mogen we zijn?

Een voorbeeld van zo'n onverwachte bron is een artikel van Robyn Dawes (2000) over hoe moeilijk het is om problemen goed op te lossen, en hoe makkelijk het is de eigen slordigheden in een oplossing te herkennen zodra iemand de betere oplossing laat zien. Wonderlijk asymmetrisch. Het is niet dat we geneigd zijn irrationeel te redeneren, integendeel. De flessenhals is dat we problemen te oppervlakkig karakteriseren en er dan een op zich wel rationele, maar desondanks ondeugdelijke, oplossing voor bedenken.

Dat gaat op voor puzzels, natuurlijk, anders zouden ze hun bekoring verliezen. Maar ook voor de ontwerper van toetsvragen? Ja, die kan van het fenomeen gebruik maken—er is een enorme literatuur over herkennen versus produceren van goede antwoorden. En de ontwerper moet doordrongen zijn van de draagwijdte van de stelling van Dawes: dat weten wat een rationele oplossing is, het verdraaid lastig kan maken nog begrip te hebben voor irrationele oplossingen van anderen, zoals leerlingen. En laat de ontwerper ook naar zichzelf kijken in deze spiegel van Dawes: irrationele fouten in het ontwerp van een toetsvraag—bijvoorbeeld de Wetenschapsquiz heeft er een reeks voorbeelden van—zijn onvermijdelijk; geef dan ook onmiddellijk toe wanneer iemand ze aanwijst, zorg ervoor dat iemand ze kan aanwijzien voorafgaand aan het drukken van de toets. Fantastisch, bedankt Robyn Dawes.


bereiken studenten de doelen? niet: verschillen ze van elkaar?
Omdat mensen—en dus ook leerlingen—enorm kunnen verschillen, is de (verborgen) verleiding altijd aanwezig om het beoordelen te richten op die verschillen, in plaats van op de vraag of Jan, Piet en Marie de doelen hebben bereikt. Eeuwenoude onderwijscultuur (Wilbrink, 1997 html) is ook al gericht op belonen van de 'best presterende' studenten, wat in de praktijk niet de studenten zijn die in de cursus het meest hebben geleerd, maar die al veel wisten bij het begin van de cursus.

Wie verschillen wil testen kan het best vragen maken zoals ze ook in intelligentietests voorkomen, en dat heeft met het gegeven onderwijs dus niets van doen. Toetsvragen daarentegen, moeten representatief zijn voor wat er in het onderwijs is behandeld: iedereen moet, althans in beginsel, in staat zijn daar een goede score op te behalen, ongeacht de eigen intelligentie. Onderwijs stopt uiteraard ergens nog voordat perfectie is bereikt, en waar dat ongeveer is hangt af van hoe moeilijk of makkelijk de te ontwerpen vragen zijn. Let op: omdat perfecte stofbeheersing een fictie is, is het onvermijdelijk zo dat op voorhand de kans dat een student een bepaalde vraag correct beantwoordt kleiner is dan honderd procent. Dat betekent dat toeval de score meebepaalt.

Een toets is op zijn minst een steekproef van mogelijke vragen die over de beheersing van de stof zijn te stellen. De uitslag van zo'n steekproef is noodzakelijk afhankelijk van toevalligheden: het hadden immers ook andere vragen kunnen zijn, dan was de totaalscore mogelijk een heel andere geweest. Het probleem is nu dat in de educational measurement literatuur de steekproeffluctuaties als fouten van de meting worden behandeld. Wat klinkklare onzin is. Fouten zijn afwijkingen die door ongelukkig ontworpen vragen ontstaan, bijvoorbeeld, maar niet door een correct uitgevoerde steekproef. Er is een enorme spraakverwarring ontstaan over wat heet betrouwbaarheid van toetsen, en in het kielzog daarvan ook over wat 'validiteit' van toetsen is. Een recente publicatie van Borsboom, Mellenbergh en Van Heerden is een belangrijke stap in de richting van opheldering van dit cluster van verwarring. Het heeft alles met het ontwerp van toetsvragen te maken: er komt een sterke nadruk te liggen op de eis aannemelijk te maken dat antwoorden op de vraag direct met specifieke beheersing etc. hebben te maken, en afwijzen van de gedachte dat eventuele tekortkomingen weg zullen vallen wanneer maar voldoende (mogelijk onvolkomen) vragen worden gesteld.
NB. Het hier gestelde vraagt nog verdere onderbouwing aan de hand van, onder andere, de genoemde literatuur. Een onmiddellijk gevolg voor de manier van toetsen komt in een volgende box aan de orde.

Verschillen tussen studenten zijn deels dus ook toeval, wat weinigen zich ten volle realiseren. Deze toevallige verschillen zijn niet echt door beter ontwerpen van toetsvragen tegen te gaan, anders dan onnodig moeilijke vragen te vermijden. Toevallige verschillen zijn inherent aan het beoordelen in het onderwijs.

Voor de juiste interpretatie van al die verschillen is een helder referentiepunt nodig, en zo'n referentiepunt is beschikbaar. Onderwijs dat ergens over gaat, en studenten die redelijk studeren, moeten duidelijk beter presteren dan een groep die dat onderwijs nog niet heeft gevolgd en de stof evenmin al heeft bestudeerd. Een toets die dat verschil niet kan aantonen, bestaat mogelijk uit vragen die niet goed zijn ontworpen; een alternatieve verklaring is dat het onderwijs uit algemene babbels bestaat, dat studenten er met de pet naar hebben gegooid, of beide.

Nu is het ook mogelijk aan te geven waarom 'makkelijke' vragen toch goede ontwerpen kunnen zijn: als ze makkelijk zijn voor de studenten die het onderwijs hebben gevolgd, terwijl ze tegelijk moeilijk zijn voor wie dat nog niet heeft gedaan. Dit criterium laat nog alle ruimte voor het verdere ontwerp van vragen, sterker: het neemt de blokkerende misvatting weg dat vragen niet te makkelijk zouden mogen zijn. Dat heeft te maken met de verwarring dat toetsen eigenlijk net psychologische tests zijn, wat ze niet zijn (Wilbrink, 1986 html)

Traditionele opvattingen over toetsen zijn gebaseerd op het tellen van fouten of punten, en op basis daarvan vergelijken van leerlingen met elkaar. In letterlijke vorm kwam dat nog in de eerste jaren van de vorige eeuw voor op het stedelijk gymnasium van Groningen. Maar belangrijk is te signaleren dat in de received view over toetsen, die teruggaat tot Edward Thorndike (1904), hetzelfde idee de basis vormt van de claim dat toetsen, net als instrumenten in de natuurkunde, meetinstrumenten zijn. Dat betekent dat in de praktijk van alle dag toetsen worden geconstrueerd met het oogmerk (verschillen in) de mate van beheersing van A of Y vast te stellen. Maar dat is niet de enige mogelijkheid om zoiets als beheersing te toetsen. Het is immers met kennis en inzicht zo, dat vaak al bij een enkele goed gestelde vraag duidelijk is of Jan of Marie het gevraagde beheerst, of nog niet. Disjunctief toetsen heet dat: op een serie vragen of toetsen boekt de leerling een 'voldoende' resultaat door tenminste een vraag of toets juist te beantwoorden. Dat zou een prachtig model kunnen zijn voor het schoolonderzoek als onderdeel van eindexamens. In de vorm van practica kennen we dat al lang, wat A.D. de Groot 'H-onderdelen'—handelingsonderdelen—noemde. In Piagetiaans onderzoek is deze manier van toetsen waarschijnlijk prominent aanwezig, maar ik moet dat nog uitzoeken (Borsboom e.a. noemen een Piagetiaans onderzoekprogramma als voorbeeld voor adequaat geconstrueerde valide toetsen). Een enigszins analoog probleem is dat van de selectie: gaat het om de meest geschikten, of alleen de geschikten? Dat maakt een een wereld van verschil in de uitwerking, en verandert wezenlijk de inhoud van de validiteitsvraag.

De toets werp zijn schaduw ver vooruit: feed-forward, backwash.
Studenten hebben belang bij hun toetsresultaten, en zullen er het nodige aan willen doen om er goed mee weg te komen. Dat is ook de reden voor al dat toetsen in het onderwijs, gewoon om iedereen bij de les te houden. Studenten willen graag weten wat er kan worden gevraagd—en wat niet—om zich zo doeltreffend te kunnen voorbereiden. Docenten doen er verstandig aan dit spel goed mee te spelen, zoals door Adriaan de Groot (1970) en Van Naerssen (1970) ieder op eigen wijze bepleit. De toets straalt daarmee een sterk effect naar voren uit, ik noem dat feedforward—in de literatuur ook backwash genoemd (Bishop, 2002)—wat staat tegenover feed-back die achteraf tot effecten leidt, maar in de toetspraktijk vaak een slag in de lucht is omdat op dat moment voor de leerling/student niets meer van die feedback afhangt.

Geef goede informatie over de te verwachten toetsvragen, en stem onderwijs en toets op elkaar af. Toets wat is onderwezen, onderwijs wat wordt getoetst. Het is duidelijk dat hier veel afhangt van het ontwerp van de afzonderlijke toetsvragen, en van een evenwichtige verdeling van vragen over de stof.

Wat geldt voor ieder afzonderlijk vak, geldt des te sterker voor het hele onderwijs zoals de leerling—en later de student—dat doorloopt. De dominante manier van toetsen is onderdeel van het informele curriculum, en leert als zodanig de leerling een bepaalde kijk op de wereld. Wat er zo gebeurt, is zelden nadrukkelijk de bedoeling van het onderwijs. Door vrijwel altijd vragen te stellen waar eenduidig goede of foute antwoorden op mogelijk zijn, werkt het onderwijs aan het vestigen van een wereldbeeld dat niet helemaal strookt met de zelden perfect voorspelbare werkelijkheid van alledag. Een illustratief onderzoek op dit punt is te vinden in Fischbein (1975) (zie hier).

wat nu met de doelen?
Toetsen moeten representatief zijn voor het voorafgaande onderwijs. Niet dat in de toets nog weer eens alle opgaven voorkomen die in het onderwijs behandeld zijn, maar het is wel de bedoeling dat de toets representatief is voor het bedoelde eindniveau van stofbeheersing.

In het gesprek over onderwijs, ook het politieke gesprek, is veel te doen over de doelen, ja soms zijn daar hele waslijsten van opgesteld. Maar doelen zijn nog geen toetsvragen, en het is niet altijd even vanzelfsprekend hoe doelen in vragen zijn te vertalen. Het is ook wel een tikje ingewikkeld: naast leerstof en toetsvragen, ook nog een set doelen. Dit boek er eenvoudig van uit dat bij het ontwerpen van toetsvragen deze direct uit de leerstof of de leerstofinventarisatie (hoofdstuk 3) worden afgeleid. Wie dat wil, mag een bestaande doelenformulering als zo'n mogelijke leerstofinventarisatie opvatten.

At the end of the day telt alleen de toets. De toets is de operationalisatie (wederom hoofdstuk 3) van wat studenten van de stof moeten kennen en kunnen. Maar toch is dit een hopeloos tekortschietende beschrijving, zie de box hierbeneden die weergeeft hoe bijvoorbeeld Bereiter (2002a) de situatie karakteriseert. Als de doelen verder gaan dan wat de toets in feite vraagt, is dat daarmee gereduceerd tot overbodige franje. Draai dit om: ook hooggestemde doelen—of ze op papier staan of niet doet niet zo ter zake—moeten een vertaling krijgen in adequate ontwerpen voor toetsvragen. Draai dat nog een keer om: het is best mogelijk—en heel praktisch—dat een verzameling zorgvuldig ontworpen toetsvragen beter weergeeft wat de doelen van een cursus zijn, dan een reeks expliciete doelformuleringen.


Een kernprobleem in de didactiek van veel vakken is dat de leerlingen al binnenkomen met soms sterke maar naïeve opvattingen over de zaken waar dat vak over gaat. In de natuurkunde is dat het best onderzocht, beschreven, en hier en daar ook uitgewerkt tot nieuwe didactiek. Het gekke is nu dat ook over onderwijs een stortvloed van naïeve ideeën bestaan bij alle betrokkenen, inclusief onderzoekers van onderwijs: kennis, vaardigheden en inzicht zijn 'dingen' die op een of andere manier gelocaliseerd zijn in de hoofden van de leerlingen. Tenminste: als het onderwijs succes heeft gehad. Dit is wat Carl Bereiter (2002a) folk psychology noemt. Dit soort ideeën is enorm versterkt door het werk van Benjamin Bloom en de zijnen uit 1956 over de cognitieve doelen van onderwijs. En voeg daar ook maar aan toe: door de platte vertaling die het werk van Dewey uiteindelijk in het onderwijsveld heeft gekregen. Tegenover de reductie tot inhoud, activiteiten en zelfs zelf-expressie ('het nieuwe leren') stelt Bereiter dat het in het onderwijs hoort te gaan om het begrijpen van de wereld, en dat zulk begrip 'telt' als het vermogen vormt om dat begrip later verder uit te breiden. Dat is een variant op de zinspreuk van John Dewey uit 1916 (Bereiter p. 444 note 9) dat leren zinvol is wanneer het in staat stelt tot verder leren. Voor de goede verstaander betekent deze filosofie dat het in het onderwijs, althans wat de uiteindelijke doelen betreft, niet gaat om 'ding-achtige' kennis en vaardigheden, maar om proces-achtige vermogens tot verdere ontwikkeling. Dat is een formulering die sterk doet denken aan het onderscheid dat James Slotta en Michelene Chi (2006) maken tussen folk concepts die een sterk 'stoffelijk' karakter hebben, 'dingachtig,' en wetenschappelijke begrippen die juist niet zo'n dingmatig karakter hebben maar een complex soort processen zijn. Dat laatste geldt zowel natuurkundige begrippen als electriciteit, karacht, als begrippen in andere wetenschappen, zoals natuurlijke selectie, intelligentie, maar dus ook het verwerven van inzicht!


authentiek authentiek.
Authentieke toetsvragen, hoe ontwerpt men die? Laten we eerst vaststellen dat er niets mis is met adequaat ontworpen toetsvragen. Zou dat niet zo zijn, dan zijn ze niet adequaat ontworpen. Dit is misschien een flauwe opmerking, maar het is wel ernst. Onderwijs en studietijd is een vrijplaats, vrij van de beslommeringen van het overige maatschappelijke leven, waar het juist op voorbereidt. Onderwijs kan en moet in deze zin altijd ànders zijn, juist geen replica. De wereld is ietsje complexer geworden dan in de tijd van de ambachtsgilden, waar de gezel authentiek kon leren (en ook werd uitgebuit), en niet verondersteld werd meer te leren dan strikt noodzakelijk.

De beweging van authentiek toetsen heeft zijn wortels in de VS, waar het is ontstaan in reactie op het verpletterende gewicht dat de eenvormige gestandaardiseerde toetsen daar op het onderwijs en op jongeren hebben. Op die manier heeft datzelfde authentieke toetsen in Nederland minder bestaansgrond, al verandert dat met iedere Cito-toets, peutertoets en taaltoets die politici verplicht op willen leggen.

Authentiek toetsen en competenties (zie beneden) vallen in menige onderwijsopvatting samen. De grens tussen onderwijs en beroep vervaagt hier op riskante wijze. Jacques van Hoof (1987) heeft in zijn Arbeidmarkt als arena de eeuwige strijd geschetst over wie opdraait voor opleidingskosten: de studenten, de overheid, of de werkgevers. De laatste decennia hebben de werkgevers dat gewonnen, zij halen nu goedkope arbeidskrachten binnen als stageaires, en verschuiven via competentie-gericht onderwijs hun bedrijfsopleidingen naar publiek bekostigde scholen. Een uitzondering is de bekorting van de studieduur in de 80-er jaren in het wetenschappelijk onderwijs, waar het bedrijfsleven (commissie Wagner) om vroeg omdat zij wat jongere afgestudeerden graag een extra interne opleiding wilden geven. Dat is pas echt authentiek. Uiteindelijk zien ook werkgevers in dat stages een inferieure tijdbesteding zijn, dat die tijd beter is besteed aan vakken die direct bijdragen aan vakbekwaamheid.

Toetsvragen ontwerpen hoort inherent authentiek te zijn, in de zin van geldig voor de doelen, met zo weinig mogelijk compromissen. Natuurlijk, toetsen van kennis is al gauw wat kunstmatig; hoe verder het toetsen van het het onderwijs zelf af komt te staan des te ernstiger dat is. Breng ze daarom zoveel mogelijk samen, onder het motto dat leren niet zonder goede feedback kan. Als dat is wat authentiek toetsen heet, ga dan uw gang.

competenties windhandel.
Er is in het onderwijsveld een wildgroei die de kwaliteit bedreigt: naïeve praat over competenties, competentie-gericht onderwijs en toetsing van competenties. De term 'competenties' staat vrijwel zonder uitzondering voor van-alles-en-nog-wat, meestal voor heel complexe conglomeraten van vaardigheden en persoonlijke eigenschappen. De term is daarmee alleen al betekenisloos, en hoort niet thuis in het professionele gesprek over onderwijs en toetsing. Een lakmoesproef voor publicaties over competenties is of er serieus aandacht wordt gegeven aan de validiteit van het begrip, en vooral van de daarop geënte toetsen. De term 'validiteit' is wèl een afgebakend begrip, zie daarvoor de Richtlijnen van het Nederlands Instituut voor Psychologen (NIP) (1988) (zie literatuur hfdst. 8). Waarom juist een psychologische code hier aangehaald? Dat heeft te maken met de nauwe band die auteurs leggen tussen competenties en wat aan de orde is in assessment centers (ACs). ACs zijn instrumenten voor personeelsselectie, en zijn als zodanig onderworpen aan alle restricties die voor selectietests gelden. De literatuur over de validiteit van ACs stemt niet vrolijk: die validiteit is moeilijk aantoonbaar, de ontwerpregel is dat AC's geen extra validiteit geven boven wat overigens al aan informatie bekend is. De schaarse uitzonderingen betreffen ACs die tegen astronomische kosten worden ontwikkeld en vervolgens dus ook geheim gehouden moeten worden, een restrictie die zich niet laat verenigen met goed onderwijs. Buitenstaanders worden door auteurs zelden op deze problemen geattendeerd. Een stug Nederlands voorbeeld is Jansen's (1991) 'Het beoordelen van managers,' over AC's. De ondertitel van dit invloedrijke boek is 'Effectiviteit van assessment center methoden bij selectie en ontwikkeling van managers.' Dat is een empirische claim, niet waar? In het boek wordt die claim niet hard gemaakt, of erger: er wordt bij herhaling bezworen dat ACs werken, om vervolgens over te gaan op de vraag hoe ze werken. De lakmoesproef: NIP 1988 komt in de literatuurlijst van het boek inderdaad niet voor, evemin als het Amerikaanse zusje van de APA (1999).

Voor docenten die links en rechts om de oren worden gemept met competenties, is het bovenstaande geen vrolijke mededeling. Twee dingen daarover. Allereerst: hanteer de ontwerpregel dat 'competentie' altijd staat voor iets 'anders,' waar altijd een goede Nederlandse term voor is: vraag daar dan naar, en neem geen genoegen met versluierende antwoorden. Gaat het om concrete kennis of vaardigheden? Zeg dat dan. Gaat het om persoonlijkheidseigenschappen? Aha, daar mag het onderwijs natuurlijk niet op toetsen, dat komt in de buurt van discriminatie. Het laatste is overigens een belangrijk punt bij het ontwerpen van toetsvragen: de zaak toetsen, niet de taalbeheersing of intelligentie. En vervolgens: er is een afzonderlijke webpagina waarop ik annotaties bij de competentie-literatuur geef.

Hoe het dan wel moet? Laat onderwijs en arbeidsmarkt, zie bijvoorbeeld mijn (1986) html, niet onontwarbaar door elkaar heen lopen; onderwijs is geen langjarige sollicitatieprocedure. Houd de groei naar expertise gescheiden van het eventueel aanbrengen van een beroepsmatige houding. Houd de eerste in de peiling door adequate toetsing, de tweede door de heel andere, daarbij passende, maatregelen.

Omdat dit toch wel heel direct de kwaliteit van toetsen raakt, is het goed te bedenken dat communicatieve en aanverwante vaardigheden—die hoog scoren onder de competenties—meestal niet met vakbekwaamheid te maken hebben. Managers onderscheiden even vakbekwame sollicitanten of medewerkers gemakzuchtig naar dit soort vaardigheden, maar dat heeft werkelijk niets met hun werkelijke bijdrage aan het bedrijfsresultaat te maken. Bovenop deze misvatting komt vervolgens een tweede misvatting, dat 'dus' de opleiding die communicatieve etcetera vaardigheden bijzou moeten brengen en toetsen. Als ingang tot de literatuur die hier relevant is, de aansluiting onderwijs-arbeidsmarkt, zie bijvoorbeeld mijn 1984 html.

de ontwerpregels zijn algemeen bruikbaar.
De disciplines binnen het wetenschappelijk onderwijs verschillen van elkaar in karakter, dus ook wat de leerstof en toetsvragen betreft. In het zicht van die verscheidenheid is de verleiding groot om ontwerpregels voor het ontwerpen van toetsvragen te beperken tot één cluster van verwante vakken. Een eigen onderwijskunde voor ieder cluster van vakken is zo onaantrekkelijk dat er van meet af aan voor een algemene benadering is gekozen. Gevolg daarvan is wel dat de ontwerpvoorbeelden aan de simpele kant zijn, en de ontwerpregels mogelijk wat abstracter zijn dan anders mogelijk zou zijn. Wat er gebeurt wanneer de vragen wel vak-specifiek zijn, laat het toegevoegde casus 'Alegemene taalwetenschap' zien pdf: de buitenstaander kan toch niet goed navoelen wat het ontwerp bij deze concrete vragen is.

toetsanalyse etcetera.
De kwaliteit van de toetsvragen is bepalend voor alles wat volgt. Dat is trouwens ook de reden voor dit boek over het ontwerpen van vragen. Maar met kwaliteit alleen zijn alle problemen nog niet opgelost. Het kan zijn dat er onopgemerkte kwaliteitsproblemen zijn, dan kan een klassieke item-analyse helpen bij het opsporen. Ook al zijn alle vragen goed, dan is het nog de vraag hoeveel er nodig zijn om een goede toets te hebben. Een grove aanwijzing is: neem er iets meer dan gebruikelijk. Wie het naadje van deze kous wil weten, kan eens eens wat rondkijken in het project over studiestrategieën op deze site pagina.

En dan is er nog een slag te maken: van score naar cijfer. Dat is een kwestie van onderwijscultuur, daar blijft dit boek verder buiten. Het is fair en daarom ernstig gewenst om tevoren aan te geven welke scores welk cijfer opleveren.

Over het bepalen van de grens tussen zakken en slagen het volgende. De 'methoden' die de literatuur daarvoor geeft zijn vooral ongefundeerde trucs, u kunt ze niet begrijpen, en mag ze daarom niet gebruiken. Twee punten zijn bij de cesuurbepaling van belang. Studenten moeten het risico van zakken kunnen dragen. Studenten die de voorgeschreven tijd hebben besteed en dus redelijk voorbereid zijn, moeten slagen. Het risico om te zakken kan worden uitgerekend, zie hier. De tijdbesteding van studenten moet u kunnen inschatten, desnoods door daar regelmatig een onderzoekje naar te doen.

Uiteindelijke doelen.
Iedere pragmatische benadering heeft zijn grenzen, zo ook die voor toetsen. Wat voor een enkele toets een goede benadering lijkt, kan verwoestend uitwerken wanneer die altijd en overal wordt gebruikt, en alle jongeren daar decennialang aan zijn blootgesteld.

Het beginsel van doorzichtigheid verdient uitbreiding en verdieping. Zo is toetsen op intelligentie in hoge mate ongewenst, dat is een vorm van discriminatie omdat leerlingen niets kunnen doen aan hun eigen intelligentie, persoonlijkheid, en sociale achtergrond. Verschillen in intellectuele capaciteiten en motivatie zijn belangrijk, en in het basisonderwijs zijn die verschillen enorm. Die verschillen zijn op geëigende momenten aan de orde: niet alleen bij beslissende keuzen voor en over individuele leerlingen, maar ook bij de keuze van didactische methoden en het ontwerp van het onderwijs. Dus niet ook nog bij iedere opdracht, proefwerk of toets opnieuw.
Het brede uitgangspunt voor het onderwijs is dat leerlingen en studenten het vertrouwen moeten krijgen, hebben en houden dat zij hun talenten kunnen ontwikkelen, en dat de eigen inspanningen daarvoor worden gezien en erkend. Iedere afzonderlijke toets is ook op dat uitgangspunt een test, de vragen in die toets moeten uiteindelijk daarmee in overeenstemming zijn ontworpen. De doorzichtigheid van De Groot (1970), door Job Cohen (1981) in verband gebracht met algemene juridische beginselen van redelijkheid en wat behoort, is uit te breiden met de maatschappelijke eis dat er vertrouwen moet zijn (zie bijvoorbeeld Coleman, 1990, en Wolfson, 2005), en dat relevante informatie ook bereikbaar is (Sen, 1995).

Waarom is dit weidse perspectief van belang? Wel, zeker in het leerplichtig onderwijs is toetsen een vorm van institutioneel geweld waaraan leerlingen zich niet kunnen onttrekken, anders dan de institutie vaarwel te zeggen. Dat laatste gebeurt overigens ook massaal, zowel zichtbaar als tussentijds vertrek, als onzichtbaar de rit maar uitzitten. Kwaliteit van toetsen is zo ongelooflijk belangrijk, dat is nauwelijks te overschatten.


1.3 Inhoudsoverzicht


In dit boek is niet alles voor iedereen even relevant. Het is de bedoeling dat de lezer met de te geven ontwerpregels zelf toetsvragen kan ontwerpen. Daarom geven de verschillende hoofdstukken vooral concrete aanwijzingen, mogelijke varianten, en geboden en verboden, met daaromheen een funderend verhaal. De verschillende hoofdstukken vormen een eenheid in deze zin dat globaal kennisnemen ervan een goede achtergrond geeft om van de ontwerpregels in dat ene hoofdstuk van uw interesse verstandig gebruik te maken.

Hoofdstuk 2 bespreekt de diverse vraagvormen met hun voor- en nadelen, en stipt enkele misverstanden over keuzevragen aan. De nadruk ligt op de aard van de te toetsen leerstof, die bepaalt soms een voorkeur voor een bepaald vraagtype. Wie al een bescheiden verzameling van vragen heeft, is misschien geïnteresseerd in technieken om deze snel en goed uit te bouwen tot grotere verzameling (zie 2.5). Er is aandacht voor het juiste niveau van abstractie in toetsvragen, en dat is vooral een lager—meer concreet—niveau dan gebruikelijk. Met vragen die blijven hangen in algemeenheden en definities is het lastig meer dan een handvol vragen over de stof te schrijven zonder in gekunstelde vragen te vervallen. Erger: het nodigt de student niet uit de leerstof wat dieper te bestuderen. Minder abstract, meer concreet, levert kwaliteit.
Hoofdstuk 3 lijkt een omtrekkende beweging: het geeft geen ontwerpregels voor het ontwerpen van toetsvragen, maar voor het inventariseren van de leerstof. Toch is dit een noodzakelijke tussenstap: het maakt expliciet waarover wel en waarover geen vragen te stellen. Het geeft ook een betere kijk op de aard van de leerstof is, om welk soort abstractie het gaat, en hoe die abstracties zijn af te breken tot concrete voorbeelden. De basis voor dit hoofdstuk is eenvoudige kennistheorie, bijvoorbeeld Hempel (1972) of Lehrer (1990), hoe uiteen te leggen wat wij weten over een bepaald domein van kennis, en wel: de leerstof. Boeiend is dat er verschillende manieren zijn om zaken en verschijnselen te beschrijven of te definiëren, houd die verschillen in de gaten! Het gaat hier om reflectie op de leerstof, een aanloop die nodig is om over die leerstof op een verantwoorde manier vragen te ontwerpen.
De hoofdstukken 4 en 5 geven concrete uitwerking aan de technologie voor het ontwerpen van toetsvragen bij, respectievelijk, de begrippen en hun relaties uit de leerstofinventarisatie van hoofdstuk 3. Hoewel basaal van karakter, want dicht blijvend bij de leerstof zelf, zijn deze technieken toch niet op alle punten vanzelfsprekend. Funderende achtergronden zijn naast de al genoemde kennistheorie—beschrijven van kennis—ook wetenschapsfilosofie—wat is kennis en hoe komen we tot kennis—en leerpsychologie—hoe is kennis over te dragen. Maar ook helpt nuchtere bezinning op waar het in het onderwijs wel of juist niet om gaat, omdat onhandige ontwerpen voor toetsvragen makkelijk over deze schreef gaan. Een eclectisch geheel dus, onvermijdelijk. Het onderscheid tussen declaratieve en procedurele kennis helpt om de inhoud van hoofdstuk 4 af te bakenen tegen die van hoofddstuk 5: weten wat, versus weten hoe. Dan is conditionele kennis, weten wanneer wat hoe te gebruiken, in het hoofdstuk over aanpakken van problemen aan de orde. Zie bijvoorbeeld Alexander en Judy (1988, p. 376) voor dit soort karakterisering van domeinkennis.

Hoofdstuk 6 gaat op verschillende manieren in op het literatuurtentamen, met nadruk op toetsen van het hebben van een overzicht over breed beschreven onderwerpen. Deze vorm van vragen is in de literatuur—de klassieke studie is Hartog en Rhodes (1936)—berucht omdat docenten er ongelooflijk verschillend mee omgaan, en studenten daarom grote willekeur ervaren. De vragen gaan verder dan de gegeven leerstof zelf omdat studenten iets met die leerstof moeten doen dat nieuw is, dat stelt bijzondere eisen aan de ontwerpen.

Hoofdstuk 7 behandelt het oplossen van problemen. Het bouwt voort op het voorgaande, zoals het behoorlijk formuleren van de probleemstelling (zie 5.l), het analyseren van het probleem (zie 6.3). en het gebruiken van eigen kennis en inzichten (inferentie, zie 6.4). Het accent ligt op typische structuren van het aanpakken en oplossen van problemen. Het ontwerpen van probleemstellingen benut die structuurkenmerken. De nadruk ligt op het expliciteren van de probleemaanpak zoals de student die zich eigen moet maken. De achterliggende psychologische theorie heeft veel te danken aan de studie van Adriaan de Groot (1946) over het denken van de schaker, zodat schaken een handig veld voor voorbeelden levert.

Hoofdstuk 8 vormt de logische afsluiting van het ontwerpen: nagaan of de ontworpen toetsvragen voldoen aan redelijke kwaliteitscriteria. Houvast voor wat 'redelijk' is biedt de studie van Job Cohen (1981) over de werkwijze van Colleges van Beroep voor de Examens, althans hun facultaire voorlopers eind zeventiger jaren. De nadruk ligt op controle vooraf, omdat het achteraf niet meerekenen van slechte toetsvragen vervelende gevolgen heeft. De controle hoort streng te zijn: het mag niet zo zijn dat belangrijke verschillen in oordeel—die er vaker zijn dan we wensen te denken—in onderlinge gedachtenwisseling weggemasseerd raken. Van minstens zo groot belang is het schaarse middelen zoveel mogelijk aan het onderwijs zelf, en niet aan toetsing-achteraf te besteden: ook in dit opzicht moet er een goede balans tussen onderwijs en toetsing-achteraf zijn.

Sinds 1983 is het internet een factor van betekenis, ook voor toetsen, zie bijvoorbeeld Cassady en Gridley (2005) pdf. Waar mogelijk maakt het boek gebruik van verwijzingen naar online publicaties, het internet is in deze zin nu pregnant in het boek aanwezig. Specifieke technologie voor online toetsen raakt evenwel niet direct aan het ontwerpen van toetsvragen, en blijft in dit boek onbesproken. Toch is een waarschuwing op zijn plaats: wanneer ict-technologie de vorm en inhoud van vragen bepaalt, of een bestaande verzameling van ondermaatse vragen onwrikbaar in een systeem vastlegt, is er een afbreukrisico voor de toetskwaliteit.

Samenvattend. Hoofdstuk 2 is een algemeen hoofdstuk over vormen van toetsvragen. Hoofdstuk 3 behandelt de voorbereidende schematisering van de leerstof. De hoofdstukken 4 en 5 geven ontwerpregels voor het ontwerpen van toetsvragen bij begrippen en relaties, de bouwstenen van alle leerstof. De hoofdstukken 6 en 7 bouwen daarop voort, waarbij hoofdstuk 6 speciaal van belang is voor toetsen over tekst en hoofdstuk 7 voor toetsen in de vorm van probleemstellingen. Hoofdstuk 8 behandelt de kwaliteit van toetsvragen.

Dit boek behandelt het ontwerpen van toetsvragen. Voor allerlei andere toetskwesties die op de onderwijsvloer spelen, moet de lezer het heil elders zoeken, bijvoorbeeld bij Van Berkel en Bax (2006).

1.4 Literatuur


In deze herziening 2006 is de literatuurlijst niet echt evenwichtig, en is gekozen voor eerder te veel dan te weinig. Voor suggesties: email mij.

Patricia A. Alexander and Judith E. Judy (1988). The interaction of domain-specific and strategic knowledge in academic performance. Review of Educational Research, 58, 375-404.

John R. Anderson, Christian Lebiere, and others (1998). The atomic components of thought. London: Lawrence Erlbaum. questia

John R. Anderson, Lynne M. Reder, and Herbert A. Simon (1996). Situated learning and education. Educational Researcher, 25(4), 5-11. pdf

APA (1966/1974/1985/1999) Standards for educational and psychological tests, Washington, D.C: American Psychological Association.

J. Myron Atkin, Paul Black, Janet Coffey (Eds) (2001). Classroom assessment and the National Science Education Standards. . Committee on Classroom Assessment and the National Science Education Standards. Center for Education, Division of Behavioral and Social Sciences and Education. Washington, DC: National Academy Press. download page; executive summary html

Isaac I. Bejar, René R. Lawless, Mary E. Morley, Michael E. Wagner, Randy E. Bennett, and Javier Revuelta (2003). A feasibility study of on-the-fly item generation in adaptive testing. The Journal of Technology, Learning, and Assessment, 2, number 3. pdf.

Carl Bereiter (2002a). Education and Mind in the Knowledge Age. Erlbaum. questia

Carl Bereiter (2002b). Design research for sustained innovation. Cognitive Studies, Bulletin of the Japanese Cognitive Science Society, 9, 321-327. pdf

Henk van Berkel en Anneke Bax (Red.) (2006). Toetsen in het hoger onderwijs. Houten: Bohn Stafleu van Loghum.

John H. Bishop (2002). What is the appropriate role for student achievement standards? (pdf of the chapter) In Yolanda K. Kodrzycki Education in the 21st century. Meeting the challenges of a changing world. Conference proceeedings. Federal Reserve Bank of Boston. pdf of the book, appr 320 pp.

John R. Bormuth (1970). On the theory of achievement test items. Chicago: University of Chicago Press. With an appendix by Peter Menzel: On the linguistic bases of the theory of writing items for instruction stated in natural language.

Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071. pdf

Robert L. Brennan (Ed.) (2006). Educational measurement. National Council on Measurement in Education, and American Council on Education. (The third edition is Linn, 1989, the second edition is Thorndike, 1971).

Susan Carey (1998). Knowledge of number: Its evolution and ontogenesis. Science, 242, 641-642.

John B. Carroll (1987). New perspectives in the analysis of abilities. In Royce R. Ronning, Jane C. Conoley, John A. Glover, and Joseph C. Witt (Eds.) (1987). The influence of cognitive psychology on testing. Buros-Nebraska Symposium on Measurement and Testing. Volume 3 (pp. 267-84).

Jerrell L. Cassady and Betty E. Gridley (2005). The effects of online formative and summative assessment on test anxiety and performance. The Journal of Technology, Learning, and Assessment, 4, number 1. Available from http://escholarship.bc.edu/jtla/.

Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. proefschrift Leiden. Zwolle: Tjeenk Willink.

James S. Coleman (1990). Foundations of social theory. London: Belknap. contents

Lee J. Cronbach (1971). Test validation. In Robert L. Thorndike (Ed.) p. 443-507.

Robyn M. Dawes (2000). A theory of irrationality as a 'reasonable' response to an incomplete specification. Synthese, 122, 133-163. gratis pdf aanvragen

Eduard Jan Dijksterhuis (1950). De mechanisering van het wereldbeeld. Amsterdam: Meulenhoff.

DOZ (1991). Toetsen en beoordelen. (DOZboek 6). Culemborg: Phaedon.

Francis Y. Edgeworth (1888). The statistics of examinations. Journal of the Royal Statistical Society, 51, 599-635.

E. Fischbein (1975). The intuitive sources of probabilistic thinking in children. Dordrecht: Reidel.

J. E. Furst (1981). Bloom's taxonomy of educational objectives for the cognitive domain: philosophical and educational issues. Review of Educational Research, 51, 441-453.

A. D. de Groot (1946). Het denken van den schaker. Een experimenteel psychologische studie. Amsterdam: Noord-Hollandsche Uitgevers maatschappij. dbnl

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376.

A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Den Haag: Mouton.

Thomas M. Haladyna (1999 2nd). Developing and validating multiple-choice test items. Erlbaum. [2004 3rd]

P. Hartog and E. Rhodes (1936). The marks of examiners. London: Macmillan.

Carl G. Hempel (1952/1972). Fundamentals of concept formation in empirical science. London: The University Of Chicago Press

Hartmut von Hentig (1980). Die Krise des Abiturs und eine Alternative. Stuttgart, Ernst Klett.

W. K. B. Hofstee (1999). Ritualisering van het onderwijs? Tijdschrift voor Hoger Onderwijs, 17, 20-29. html

J. J. B. M. van Hoof (1987). De arbeidsmarkt als arena. Arbeidsmarktproblemen in sociologisch perspectief. Amsterdam: SUA. proefschrift

Deanna Kuhn (1991). The skills of argument. Cambridge University Press.

Donald Laming (2003). Marking university examinations: some lessons from psychophysics. Psychology Learning and Teaching, 3, 89-96 pdf

W. Lans en G. J. Mellenbergh (1969). Constructie en beoordeling van items: formele aspecten. In A. D. de Groot en R. F. van Naerssen, p. 65-125.

Keith Lehrer (1990). Theory of knowledge. Routledge.

Joel Michell (1999). Measurement in psychology. A critical history of a methodological concept. Cambridge University Press. questia

R. F. van Naerssen (1970). Over optimaal studeren en tentamens combineren. Rede. html

Steven J. Osterlind (1997). Constructing test items: multiple-choice, constructed-response, performance, and other formats. Kluwer.

Jerome A. Popp (1998). Naturalizing philosophy of education. John Dewey in the Postanalytic Period. Southern Illinois University Press.

Judi Randi, Elena L. Grigorenko, R. J. Sternberg: Revisiting Definitions of Reading Comprehension: Just What Is Reading Comprehension Anyway? In Susan E. Israel, Cathy Collins Block, Kathryn L. Bauserman, Kathryn Kinnucan-Welsch (Eds) (2005). Metacognition in literacy learning : theory, assessment, instruction, and professional development. Erlbaum. Gale H. Roid and Thomas M. Haladyna (1982). A technology for test-item writing. London: Academic Press.

G. M. Seddon (1978). The properties of Bloom's taxonomy of educational objectives for the cognitive domain. Review of Educational Research, 48, 303-323.

Amartya Sen (1995). Welzijn, vrijheid en maatschappelijke keuze. Opstellen over de politieke economie van het pluralisme. Gekozen door Jos de Beus. Amsterdam: Van Gennep.

James D. Slotta and Micheline T. H. Chi (2006). Helping students understand challenging topics in science through ontology training. Cognitive Science, 24, 261-289. pdf

Edward L. Thorndike (1904). An introduction to the theory of mental and social measurements. New York: The Science Press.

Robert L. Thorndike (ed.) (1971). Educational measurement. Washington, DC: American Council on Education.

Dick Tromp en Ben Wilbrink (1977). Het meten van studietijd. In Congresboek Onderwijs Research Dagen 1977, p. 186-189. html

Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

A. G. Wesman (1971). Writing the test item. In Robert L. Thorndike (ed.) (1971). Educational measurement. Washington, DC: American Council on Education.

Grant Wiggins and Jay McTighe (1998). Understanding by design. ASCD. sample chapters of 2005 2nd edition

Ben Wilbrink (1986). Toetsen en testen in het onderwijs. In S.V.O. Jaarverslag/Jaarboek 1985, 275-288. Den Haag: Stichting voor Onderwijsonderzoek. html

Ben Wilbrink (1992). Casus keuzevragen ontwerpen algemene taalwetenschap. pdf

Ben Wilbrink (1994). Arbeidsmarkt en hoger onderwijs: een blijvend problematische relatie. Tijdschrift voor Hoger Onderwijs. 12, 24-32. html

Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23, 31-48. html

D. J. Wolfson (2005). Transactie als bestuurlijke venieuwing. Op zoek naar samenhang in beleid en uitvoering. WRR Wetenschappelijke Raad voor het Regeringsbeleid. Amsterdam: Amsterdam University Press. www.wrr.nl/pdfdocumenten/V9.pdf [wrr-website is van slag, 2-2008].



meer literatuur


Barbara J. Shapiro (2000). A culture of fact. England, 1550-1720. Ithaca: Cornell University Press.

Lorin W. Anderson and D. R. Kratwohl (Eds) (2001). A taxonomy for learning, teaching, and assessing. A revision of Bloom's taxonomy of educational objectives. New York: Addison-Wesley.


W. Bender (****). Toetsen in het hoger onderwijs. Van Gorcum.

Patricia W. Cheng (1997). From Covariation to Causation: A Causal Power Theory. Psychological Review, 104, 367-405. pdf

Sabine Dierick, Filip Dochy, Gerard Van de Watering (2001). Assessment in het hoger onderwijs. Over de implicaties van nieuwe toetsvormen voor de edumetrie. Tijdschrift voor Hoger Onderwijs, 18. html

Ginette Delandshere (2002). Assessment as inquiry. Teachers College Record, 104, 1461-1484. pdf

Marianne Elshout-Mohr en Ron Oostdam (2001). Assessment van competenties in een dynamisch curriculum. Amsterdam: SCO-Kohnstamm Instituut. isbn 9068136569, 147 pp.

Willem K. B. Hofstee (1999). Principes van beoordeling: Methodiek en ethiek van selectie, examinering en evaluatie. Lisse: Swets & Zeitlinger.


Frank C. Keil (2006). Explanation and understanding. Annual Review of Psycology, 57, 227-254. pdf

Yunnwen Lien and Patricia W. Cheng (2000). Distinguishing Genuine from Spurious Causes: A Coherence Hypothesis. Cognitive Psychology, 40, 87-137. pdf

Jason Millman and Jennifer Greene (1989). The specification and development of tests of achievement and ability. In Linn, p. 335-366.

Robert J. Mislevy and Geneva D. Haertel (2006 draft). Implications of evidence-centered design for educational testing. PADI Technical Report 17. pdf

Robert J. Mislevy, Linda S. Steinberg and Russell G. Almond (2003). On the structure of educational assessments. CSE Technical Report 597 pdf

Richard E. Nisbett (Ed) (1993). Rules for reasoning. Erlbaum.

Charles M. Reigeluth (ed.) (1983). Instructional-design theories and models. Overview of their current status. Hillsdale, New Jersey: Lawrence Erlbaum.

Charles M. Reigeluth (ed.) (1987). Instructional theories in action. Lessons illustrating selected theories and models. Hillsdale, New Jersey: Lawrence Erlbaum.

Valerie J. Shute (2008). Focus on formative feedback. Review of Educational Research, 78, 153-189. ETS Research Report 2007

J. van Westrhenen (1977). De toetsing van onderwijsdoelen. Een empirische studie naar de functie van begrippen en begrippenstructuren in het onderwijsleerproces. Groningen: Wolters-Noordhoff.



1.5 Link

Toetswijzer—Citogroep http://www.toetswijzer.nl/






10 januari 2011 \contact ben apenstaartje benwilbrink.nl   freelance advies ontwikkeling onderzoek

Valid HTML 4.01!   http://www.benwilbrink.nl/projecten/06toetsvragen1.htm