Oorspronkelijke uitgave 'Toetsvragen schrijven' 1983 Utrecht: Het Spectrum, Aula 809, Onderwijskundige Reeks voor het Hoger Onderwijs ISBN 90-274-6674-0, nu in publiek domein, auteursrechten B. Wilbrink. Onderstaande tekst is een sinds 2006 in bewerking zijnde versie. Voor de oorspronkelijke 1983 tekst zie www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf.



Toetsvragen ontwerpen.
werk-aantekeningen en meer literatuur

Handreiking bij het maken van toetsvragen over de leerstof

Inhoud—Voorwoord—1. Inleiding

Ben Wilbrink




Bij deze digitale versie


augustus 2008
Het actualiseren van de tekst uit 1983 heeft meer om het lijf dan ik in 2006 kon voorzien. De onderstaande tekst is daarom nu al weer verouderd, en zal ik binnenkort proberen te actualiseren naar de ondertussen geboekte vordering.

augustus 2008
De bijzondere ontwikkeling van het begrip validiteit in paragraaf 2.6 zal er ook toe leiden dat het theoretisch kader belangrijk zal opschuiven van de nu nog min of meer toetsspecifieke beschouwing naar een meer algemene theoretische onderbouwing. Dat heeft alles te maken met het enorme gewicht dat de traditie heeft in het onderwijsveld, dus ook waar het gaat om beoordelen en examineren. Specifieke disciplines die dat beoordelen en examineren tot onderwerp hebben, takken van de psychometrie zeg maar, gaan al evenzeer gebukt onder dat dode gewicht van de traditie omdat zij deze stilzwijgend als een gegeven beschouwen. Daardoor ontstaat de zorgelijke situatie dat nogal wat onderzoek dat in het onderwijs wordt gedaan juist bevestigend werkt naar al die tradities toe. Dat is zorgelijk omdat het kan leiden tot de misvatting dat de resultaten van dergelijk onderzoek leiden tot inzichten die evidence based zouden zijn, quod non.
Ik geef een voorbeeld. Historisch gezien spelen door leerlingen gemaakte fouten een hoofdrol bij het beoordelen van prestaties. En dat doen ze dus nog steeds, zelfs in de evident absurde vorm bij keuzetoetsen die zo moeilijk mogelijk zijn ontworpen (op basis van het onbegrepen adagium dat toetsvragen niet te makkelijk zouden mogen zijn). Toch is mij geen goede analyse van het hoe en waarom van dit benadrukken van fouten in het onderwijs bekend. Ik zou eens moeten zoeken in literatuur over kennisopvattingen van docenten en onderzoekers, maar verwacht daar op voorhand heel weinig van. Hoe kom ik op deze vraagstelling over opvattingen over fouten? Ik lees in een biografie van Christiaan Huygens dat hij al in het begin van zijn natuurwetenschappelijke onderzoekingen stuit op belangrijke fouten in het werk van onder andere Descartes, in dit geval over kinematica (zoals dat later zou gaan heten). Dat roept de vraag op: hoe algemeen komt het eigenlijk voor dat er in wetenschappelijk werk domweg belangrijke fouten worden gepubliceerd? Komt dat niet veel vaker voor dan we geneigd zijn te denken? Het is een belangrijke vraag, omdat in het onderwijs de impliciete kennisopvatting lijkt te zijn dat het onderwijs er is om het maken van fouten af te leren. En dat examens er zijn om het succes daarvan te controleren. Als in de wereld van de grote mensen, in academia, zou blijken dat het maken van fouten eerder regel dan uitzondering is, hoe gaan we dan om met zo'n afgrond die gaapt tussen onderwijs en praktijk? Concreet: onlangs werd bekend gemaakt dat een investering van tachtig miljoen euro in een ICT-project voor o.a. het UWV in een klap is afgeschreven omdat het project was vastgelopen. Hoeveel fouten zouden hier opgestapeld liggen? Hebben we dan nog steeds het lef om leerlingen af te rekenen op fouten, in plaats van op wat ze wèl kunnen? Welke consequenties heeft dit voor de ontwerper van toetsvragen, van examens, van onderwijs?


In de literatuur over toetsen en testen zijn vanaf dag nul, zeg de publicatie van Thorndike's (1904) boek over testen, perverse opvattingen aanwezig over het karakter van deze instrumenten als meetinstrumenten. Michell (1999 ×) behandelt deze problematiek fundamenteel, maar gaat voorbij aan de pragmatiek van de toetserij in het onderwijs. Ik kan nog niet overzien tot welke gevolgen dit leidt voor een ontwerptechnologie voor toetsvragen. Maar een specifieke moeilijkheid op dit terrein is al wel duidelijk, en een publiek geheim: er zijn verschillende wegen waarlangs het mogelijk is om tot goede prestaties te komen, gegeven dat de toetsen valide zijn. Afgezien van toevalligheden, waarover hierbeneden meer, kan dezelfde prestatie zijn bereikt door vooral harder dan anderen te werken (motivatie, tijdbesteding), door vooral intelligenter dan anderen te zijn (talent, een bonus van een nog kort leven lang intellectueel gemotiveerd te zijn), door vooral meer intellectuele bagage mee te brengen dan waar anderen over beschikken (door eerdere betere prestaties, de al genoemde bonus, of gewoon ouder te zijn), door de voorbereiding beter te plannen dan anderen doen (minder uitstelgedrag, meer gedisciplineerde studiemethode), of met frauduleuze praktijken van studenten zelf of van anderen (Hofstee, 1999). Kortom, de stelling dat een toets iets meet blijkt heel complex te zijn, want hij meet tegelijk van alles en nog wat. Strikt genomen is voor de bewijsvoering wat toetsen meten de methode van conjoint measurement nodig (zie bijvoorbeeld Michell, o.c. laatste hoofdstuk), en zo'n bewijsvoering is mij (nog) niet bekend. Mail mij als u een publicatie kent waarin zoiets is uitgevoerd. Nee, padanalyse (zoals in Tromp en Wilbrink, 1977 html), of structural equation modelling is echt iets anders. Hoe dat ook zij, en los van de vraag of en wat een toets meet, is het wel duidelijk dat al naar gelang het gekozen ontwerp van toetsvragen, bepaalde routes naar een goed toetsresultaat een voorsprong kunnen krijgen, en andere een handicap. Een cynisch voorbeeld van het laatste is dat studenten die bepaald dieper op de stof ingaan dan bij de toets aan de orde is, daarvoor straf kunnen krijgen, wat uit empirisch onderzoek een niet ongebruikelijke uitkomst is. Dat is verspilling in het kwadraat van de tijd van de student.

Joel Michell (1999). Measurement in psychology. A critical history of a methodological concept. Cambridge University Press. questia

W. K. B. Hofstee (1999). Ritualisering van het onderwijs? Tijdschrift voor Hoger Onderwijs, 17, 20-29. http://www.tvho-online.nl/publish/articles/000191/article.htm [deze site gaat verhuizen naar Boom Uitgevers Den Haag, 1-2009]

Dick Tromp en Ben Wilbrink (1977). Het meten van studietijd. In Congresboek Onderwijs Research Dagen 1977, p. 186-189. html


Is het voorgaande niet eigenlijk een pleidooi voor wat in de literatuur construct validity heet? Nee, die constructieve validiteit, de term zegt het al, is een wat gekunstelde poging om psychologische tests een betere theoretische status te geven, als het ware door ze te koppelen aan theorieën van de buren. Borsboom e.a. (2004) gaan er uitvoerig op in, ik verwijs daarnaar. Beoordelen in het onderwijs moet valide zijn voor waar het in het onderwijs om gaat, en dat is iets anders dan dat deze oordelen samen moeten hangen met intellectuele vaardigheden van de leerlingen. Dat laatste doen ze altijd wel, en kan daarom nooit een voldoende onderbouwing zijn voor de geldigheid van oordelen.


[December 2006] Het bijzondere van het werk van Deanna Kuhn, waar zij zelf nog aan voorbij lijkt te gaan, is dat het gaat om een onderwijscultuur en in het bijzonder om onderwijstechnieken die het mogelijk maken om gericht te werken aan de omslag van oude naar nieuwe kennis waarvan hierboven al sprake was. De relevante literatuur: conceptual change, een fenomeen dat primair is ten opzichte van de omslag in inzichten van nieuweling naar expert. Die combinatie van leren denken met goed te beschrijven inhoudelijke domeinen zoals bijvoorbeeld de natuurkunde, zal ongetwijfeld tot bijzonder krachtige en gefocuste—bv. op onderzoek naar algemene misvattingen en folk-science-opvattingen—didactiek leiden, die in handen van adequaat opgeleide leraren kleine wondertjes in het onderwijs kan bewerkstelligen. Dat is dus een ontwikkeling die in zekere zin een tegenstelling is tot het ongebonden bezig zijn dat in stromingen zoals competentiegericht leren en het nieuwe leren is te vinden.

Het gaat nu om een bijzondere verbinding van een paar lijnen van onderzoek, waarvoor ik literatuur verzamel en bespreek in onder andere physicseducation.htm en meno.htm. De Meno-pagina—Meno was de man op zoek naar kennis die hij nog niet had, en die niet zou kunnen vinden omdat hij niet wist waar hij naar op zoek was—moet antwoorden geven op de prangende vraag hoe het mogelijk is dat studenten überhaupt hun inzicht in de wereld veranderen, en welke instructieve benaderingen daarbij onder welke condities behulpzaam zijn. Een aantal onderzoekslijnen in het natuurkundeonderwijs—die expliciet de folk physics van de student aanvatten—laten in empirisch onderzoek zien welke van die technieken inderdaad werken (o.a., waarover in de volgende hoofdstukken meer: Hestenes; Chi en Slotta). Vanuit deze conceptie over wat adequaat onderwijs is ontstaat een nieuwe benadering van de problematiek hoe adequate toetsvragen te ontwerpen: dat ontwerp moet immers geworteld zijn in deze onderwijsvisie. Het ontwerpen van toetsvragen krijgt kenmerken van het ontwerpen van empirisch onderzoek, op zijn minst van de daaraan verbonden dataverzameling. Bij de herziening van dit boek werk ik deze verdiepte onderwijsvisie geleidelijk in de opbouw van de tekst in, omdat het ondenkbaar is op dit punt een snelle inhaalslag te kunnen maken. De moeilijkheid is immers ook dat dit boek een algemene strekking heeft, en daarom voor de opgave staat om verworvenheden in een specifiek veld, zoals het onderwijs in de natuurkunde, te veralgemeniseren. Voor dat laatste is het nodig specifieke verworvenheden in het onderwijs in de natuurkunde onder een algemene cognitief-psychologische noemer te brengen, en vandaaruit analoog materiaal in andere disciplines op te sporen, eventueel zelf te construeren. Mondt dit uit in de naieve idee van competentiegericht onderwijs? Integendeel, die competenties in het managementjargon zijn a-theoretische begrippen, zij dekken geen enkele theorie, en kunnen onmogelijk de basis zijn voor valide toetsen.


Dit boek, en zeker de herziening, is vooral een avontuur waarin grenzen van bekend terrein gretig worden overschreden. Natuurlijk blijven de talrijke eenvoudige aanwijzingen overeind, over helderheid van taal, weglaten van derde en zeker vierde alternatieven bij keuzevragen. Daarnaast ook onverwachte of minder bekende mogelijkheden voor de ontwerper. Een voorbeeld, dat nog verdere uitwerking in de volgende hoofdstukken nodig heeft, is het volgende.

De traditionele vorm voor toetsvragen is dat deze gesloten zijn in de zin dat er tenminste een goed antwoord op de gestelde vraag mogelijk is. En niet meer dan dat. Dus bij korte open vragen en keuzevragen is het niet gebruikelijk om de leerling ook een toelichting op het gegeven antwoord te laten geven. Op dit punt is een radicaal andere ontwerpfilosofie mogelijk: zonder te weten wat de leerling heeft bewogen tot het geven van juist dit antwoord, is het lastig om het gegeven antwoord te waarderen, en is het dus ook niet helemaal duidelijk hoe de vraag bij de leerling is overgekomen. Voor een ontwerper van toetsvragen is dat niet prettig. Voor gebruikers van de cognitieve taxonomie van Bloom is het bijvoorbeeld helemaal niet vanzelfsprekend dat de antwoorden op 'begripsvragen' op basis van 'begrip' zijn gegeven. De gedachte is nu dat bij iedere combinatie van vraag en antwoord, ook het waarom van het gegeven antwoord erbij hoort. Vraag daar dus naar. Door dat systematisch te doen, moet de leerling zich altijd rekenschap geven van het hoe en waarom van zijn antwoorden, zij moet zich voortdurend rekenschap geven van het eigen weten. Bij constructieve vragen is dat overigens altijd al tamelijk vanzelfsprekend: de weg waarlangs een opgegeven probleem wordt opgelost, hoort typisch tot het antwoord op de vraag. Welnu, pas dat ook toe op korte open vragen en keuzevragen. De noemer waar dit onder is te vangen, is dat leerlingen moeten begrijpen wat ze doen, en daar blijk van geven. Nota bene: dit is een ander begrijpen dan in de cognitieve taxonomie van Bloom c.s. (1956). Bijkomend voordeeltje: leerlingen krijgen niet meer voortdurend de boodschap dat het vooral de bedoeling is goede antwoorden te weten, en niet waarom die antwoorden goed zijn. Aan het eind van de dag, en na de schoolloopbaan, gaat het immers om dat weten van het waarom. Een uitwerking die waarschijnlijk goed dekt waar ik hier op doel, is te vinden in Understanding by design door Wiggins en McTighe (1998), terwijl een wetenschappelijke onderbouwing en uitwerking van wat het is om tekst—of leerstof—te begrijpen is te vinden in het werk van Robert Sternberg, met name Randi, Grigorenko en Sternberg (2005), dat natuurlijk in hoofdstuk 6 over vragen bij tekst aan de orde is.

Antwoorden toelichten, zoals in het direct voorgaande aangestipt, is niet een onderwerp waarover makkelijk onderzoekliteratuur is te vinden. Het is juist in de marge van ander onderzoek dat ik interessante aanwijzingen vind. Zo verwijst Sophian (2008, p. ) bijvoorbeeld naar onderzoek over de effecten van self-explanation, en zij doet dat naar aanleiding van experimenteel onderwijs van breuken waarin het begrijpen van breuken centraal staat, in plaats van het kunnen hanteren van de procedures om met breuken om te gaan. Er moet veel cognitief-psychologisch onderzoek beschikbaar zijn over de effecten van het nadrukkelijk verwoorden van wat je zojuist hebt geleerd en begrepen, op dat begrijpen zelf, en op de wendbaarheid in het gebruik van de zo opgedane kennis, vergeleken met anderen die een meer passieve stijl van leren volgen. Questioning is, meen ik, zo'n onderzoekthema, eind zeventiger jaren: vragen stellen bij tekst, door de lezer van de tekst en niet door de ontwerper van toetsvragen. Het gaat hier om een tweesnijdend zwaard: uitleggen waarom gegeven antwoorden goed zijn maakt het beoordelen van die antwoorden zoveel rijker, en het maakt ook de leerling rijker omdat het nogmaals een gelegenheid is om die kennis beter te begrijpen en te integreren met andere kennis.

Catherine Sophian (2007). The origins of mathematical knowledge in childhood. Lawrence Erlbaum.

M. T. H. Chi (2000). Self-explaining Expository Texts: The dual processes of generating inferences and repairing mental models. In Robert Glaser: Advances in Instructional Psychology 5 (pp. 161-238), Erlbaum. pdf (scan) or questia (text) Judi Randi, Elena L. Grigorenko, R. J. Sternberg: Revisiting Definitions of Reading

Comprehension: Just What Is Reading Comprehension Anyway? In Susan E. Israel, Cathy Collins Block, Kathryn L. Bauserman, Kathryn Kinnucan-Welsch (Eds) (2005). Metacognition in literacy learning : theory, assessment, instruction, and professional development. Erlbaum.

Grant Wiggins and Jay McTighe (1998). Understanding by design. ASCD. sample chapters of 2005 2nd edition




Voorwoord


Een enkel woord nog over aard van deze ontwerpregels. Ik kies voor ontwerpregels die de vragen laten aansluiten bij de aard en de structuur van de leerstof. Nee, dat is te kort door de bocht: ook de aard en structuur van de kennis die de student om te beginnen zelf meebrengt speelt een rol: als die kennis niet als uitgangspunt voor de instructie wordt genomen, kan ze het opnemen van de zo heel andere aangeboden kennis belemmeren. Het in de onderwijskunde gangbare psychologiseren, dat eist dat toetsvragen aansluiten op bepaalde veronderstelde denkprocessen in het hoofd van de student, is fundamenteel iets anders dan wat bedoeld wordt met het als uitgangspunt nemen van de kennis van het gezonde verstand—ook wel folk science genoemd—van de individuele student. Het eerste is de bekende benadering van het onderverdelen van de aangeboden en zo te toetsen leerstof in termen van kennis, inzicht, toepassing, analyse, evaluatie en synthese, kortom de cognitieve taxonomie van Bloom en de zijnen (1956). O zeker, er is recente cognitieve theorie die nauw aansluit bij neurologische modellen en kennis, waar dit boek gebruik van maakt, maar dat heeft werkelijk niets met de bloomiaanse psychologismen te maken. Het tweede is het beschouwen en onderzoeken van kennisstructuren en de manier waarop daar veranderingen in ontstaan, zoals de cognitieve wetenschappen die in de laatste decennia van de vorige eeuw zijn gaan onderzoeken. Dat onderzoek staat dicht bij wat overigens uit wetenschapshistorisch en -filosofisch onderzoek bekend is, waar ook de tekst uit 1983 al aansluiting bij heeft gezocht.

De nadruk op gedrag van studenten is een stap in de goede richting, maar psychologiseert nog steeds. Het psychologische uitgangspunt overheerst in de onderwijskunde, maar wordt wel hier en daar genuanceerd of verlaten (Furst, 1981). Het verrassende is nu dat verschillende eenvoudige—niet omstreden—wijsheden uit de wetenschapsfilosofische hoek heel bruikbare aanknopingspunten bieden. Het gaat dan om de aard en de functie van definities (veel toetsvragen blijken over definities te gaan), het onderscheid tussen observeerbare, abstracte en theoretische begrippen, en dergelijke. Uit de cognitive sciences valt bij dat alles vooral ook te leren hoe het studenten mogelijk is eigen intuïtieve opvattingen in te wisselen tegen de breed geaccepteerde wetenschappelijke kennis die in soms buitengewoon lang en moeizaam onderzoek is verworven. De bedoeling is dat die meta-kennis leidt tot ontwerpregels voor het ontwerpen van toetsvragen die de docent onmiddellijk als adequaat kan herkennen.





... an experience, a very humble experience, is capable of generating and carrying any amount of theory (or intellectual content), but a theory apart from an experience cannot be definitely grasped even as a theory.

John Dewey, in: Democracy and education.


"The principal difficulty that Dewey had in implementing his theory, as he admitted, was that he lacked a philosophy of experience (...). By this I mean that he had neither a metaphor nor a technology through which to make specific his ideas about how people can create something like mathematical knowledge from experience. He did not have a genetic epistemology. Dewey was confident that problem solving was the key to the growth of knowledge, as evidenced by his repeated references to it, but he never explained how problem solving provided the key to intellectual growth, nor how one might actively promote it." (p. 192) Patrick W. Thompson (1985). Experience, problem solving, and learning mathematics: Considerations in developing mathematics curricula. In Edward A. Silver: Teaching and learning mathematical problem solving: Multiple research perspectives. Erlbaum. questia

1 Inleiding


Eind 2006 is de grote lijn voor de herziening van dit boek duidelijk, en daarmee is ook de tekst voor dit eerste hoofdstuk in grote lijnen de definitieve herziene versie. Waar de versie 1983 uitgaat van het gegeven van de leerstof, waarover toetsvragen zijn te ontwerpen, is dat in de herziene versie radicaal opgeschoven naar het gegeven van het leerproces, met daarbij adequate vragen. Alleen uitgaan van de aangeboden leerstof gaat voorbij aan de opvattingen waarmee studenten binnenkomen, opvattingen die soms hun leren vergemakkelijken, maar mogelijk vaker dat in de weg zitten. Goede instructie speelt op die opvattingen in. Toetsen, vragen stellen, hoort bij die instructie, is daar althans niet los van te zien. Dat leidt binnen de kortste keren tot het benadrukken van het belang van vragen naar redenen, naar verklaring van gegeven antwoorden. Waar in 1983 juist die vragen om te verklaren geen plaats konden krijgen, krijgen ze dat nu juist bij voorrang. Uitwerken van ontwerpregels hiervoor zal enige tijd vergen, maar gelukkig biedt de onderzoekliteratuur uit de cognitive sciences een zee van goede voorbeelden. Het werk ligt nog voor de boeg, maar de koers is uitgezet.


27-12-2006
Er verandert toch wel wat. Ik wil een aantal heldere uitgangspunten hebben, dat is nog hetzelfde, maar in de uitgangspunten zelf gaat er iets verschuiven.
Vragen moeten in het bijzonder ook bestand zijn tegen oneigenlijk gebruik, oneigenlijke voorbereiding door studenten etc. Dat betekent: niet op een hoog niveau van—uit het hoofd te leren—abstractie. Al mag er best sprake zijn van uit het hoofd geleerde kennis, voorzover dat bijvoorbeeld een voorwaarde is voor het tot stand komen van inzicht (denk aan getalbegrip bij kleine kinderen, in de onderzoeklijn van Susan Carey (1998)). Dus dat onderscheid concreet-abstract komt dubbel en dwars terug, veel verder uitgewerkt en met meer inhoud: het moet glashelder uit te leggen zijn.
Vragen moeten naar de vorm perfect zijn. Het is ongehoord om daar nog missers in te accepteren, daar moeten we echt mee ophouden. Het is een toch wel wat breder begrip, omdat bijvoorbeeld voor keuzevragen de bijzondere spelregels meegenomen moeten worden. Toverwoord is hier misschien: consistentie. Wanneer van de leerlingen wordt gevraagd nauwkeurig te lezen, is een minimale eis ook aan de ontwerper van de vraag om verdraaid nauwkeurig te ontwerpen. In de praktijk is dat vaak anders.
Een bescheiden palet van mogelijke vraagvormen; kort open, keuze, open. Daar moeten we het ongeveer mee doen, aangevuld met het vragen om uitleg van gegeven antwoorden.
Het ontwerp moet sporen met de gekozen scoring. Dat zal nog best lastig zijn omdat het een ongewoon uitgangspunt is. We zijn immers gewend aan scoren in de zin van : ieder goed antwoord een punt. Andere scoringsvormen moeten mogelijk zijn, zoals: tenminste 1 goed is voldoende. Dat heeft consequenties voor het ontwerp van de vragen, en dit keer zijn dat geen inperkende, maar juist ruimte scheppende consequenties. De deur naar 'authentieke' vragen gaat minstens op een brede kier open.



1.2 Uitgangspunten


competenties windhandel.
Er is in het onderwijsveld een wildgroei die de kwaliteit bedreigt: naïeve praat over competenties, competentie-gericht onderwijs en toetsing van competenties. De term 'competenties' staat vrijwel zonder uitzondering voor van-alles-en-nog-wat, meestal voor heel complexe conglomeraten van vaardigheden en persoonlijke eigenschappen. De term is daarmee alleen al betekenisloos, en hoort niet thuis in het professionele gesprek over onderwijs en toetsing. Een lakmoesproef voor publicaties over competenties is of er serieus aandacht wordt gegeven aan de validiteit van het begrip, en vooral van de daarop geënte toetsen. De term 'validiteit' is wèl een afgebakend begrip, zie daarvoor de Richtlijnen van het Nederlands Instituut voor Psychologen (NIP) (1988) (zie literatuur hfdst. 8). Waarom juist een psychologische code hier aangehaald? Dat heeft te maken met de nauwe band die auteurs leggen tussen competenties en wat aan de orde is in assessment centers (ACs). ACs zijn instrumenten voor personeelsselectie, en zijn als zodanig onderworpen aan alle restricties die voor selectietests gelden. De literatuur over de validiteit van ACs stemt niet vrolijk: die validiteit is moeilijk aantoonbaar, de ontwerpregel is dat AC's geen extra validiteit geven boven wat overigens al aan informatie bekend is. De schaarse uitzonderingen betreffen ACs die tegen astronomische kosten worden ontwikkeld en vervolgens dus ook geheim gehouden moeten worden, een restrictie die zich niet laat verenigen met goed onderwijs. Buitenstaanders worden door auteurs zelden op deze problemen geattendeerd. Een stug Nederlands voorbeeld is Jansen's (1991) 'Het beoordelen van managers,' over AC's. De ondertitel van dit invloedrijke boek is 'Effectiviteit van assessment center methoden bij selectie en ontwikkeling van managers.' Dat is een empirische claim, niet waar? In het boek wordt die claim niet hard gemaakt, of erger: er wordt bij herhaling bezworen dat ACs werken, om vervolgens over te gaan op de vraag hoe ze werken. De lakmoesproef: NIP 1988 komt in de literatuurlijst van het boek inderdaad niet voor, evemin als het Amerikaanse zusje van de APA (1999).

Voor docenten die links en rechts om de oren worden gemept met competenties, is het bovenstaande geen vrolijke mededeling. Twee dingen daarover. Allereerst: hanteer de ontwerpregel dat 'competentie' altijd staat voor iets 'anders,' waar altijd een goede Nederlandse term voor is: vraag daar dan naar, en neem geen genoegen met versluierende antwoorden. Gaat het om concrete kennis of vaardigheden? Zeg dat dan. Gaat het om persoonlijkheidseigenschappen? Aha, daar mag het onderwijs natuurlijk niet op toetsen, dat komt in de buurt van discriminatie. Het laatste is overigens een belangrijk punt bij het ontwerpen van toetsvragen: de zaak toetsen, niet de taalbeheersing of intelligentie. En vervolgens: er is een afzonderlijke webpagina waarop ik annotaties bij de competentie-literatuur geef.

Hoe het dan wel moet? Laat onderwijs en arbeidsmarkt, zie bijvoorbeeld mijn (1986) html, niet onontwarbaar door elkaar heen lopen; onderwijs is geen langjarige sollicitatieprocedure. Houd de groei naar expertise gescheiden van het eventueel aanbrengen van een beroepsmatige houding. Houd de eerste in de peiling door adequate toetsing, de tweede door de heel andere, daarbij passende, maatregelen.

Omdat dit toch wel heel direct de kwaliteit van toetsen raakt, is het goed te bedenken dat communicatieve en aanverwante vaardigheden—die hoog scoren onder de competenties—meestal niet met vakbekwaamheid te maken hebben. Managers onderscheiden even vakbekwame sollicitanten of medewerkers gemakzuchtig naar dit soort vaardigheden, maar dat heeft werkelijk niets met hun werkelijke bijdrage aan het bedrijfsresultaat te maken. Bovenop deze misvatting komt vervolgens een tweede misvatting, dat 'dus' de opleiding die communicatieve etcetera vaardigheden bij zou moeten brengen en toetsen. Als ingang tot de literatuur die hier relevant is, de aansluiting onderwijs-arbeidsmarkt, zie bijvoorbeeld mijn 1984 html.

Ben Wilbrink (1994). Arbeidsmarkt en hoger onderwijs: een blijvend problematische relatie. Tijdschrift voor Hoger Onderwijs. 12, 24-32. html

Dochy, Filip Dochy, Ludo Heylen en Herman van de Mosselaer (Red.) (2002). Assessment in onderwijs. Nieuwe toetsvormen en examinering in studentgericht onderwijs en competentiegericht onderwijs. Lemma.


Doorzichtigheid is bij De Groot een vaag begrip. Cohen juridificeert het, dat maakt het zeker beter hanteerbaar. Het is mogelijk het tentamenmodel van Van Naerssen te zien als een uitwerking van het beginsel. Het is niet onmogelijk dat er een meer fundamentele benadering mogelijk is, langs de volgende lijn. De stelling van Joel Michell (1999) is dat de pretenties van tests en toetsen dat ze 'meetinstrumenten' zijn, op een zinledige definitie van meten berusten. Als Michell gelijk heeft, dan gaat men bij toetsen in het onderwijs lichtzinnig om met de constructie van toetsen, in het bijzonder het ontwerp van toetsvragen. Het adagium dat toetsvragen schrijven een kunst is, is daar een blijk van. Het opperen van dat soort onzin wordt afgedekt door een definitie van 'meten' waarin ongeveer alles is toegestaan om getallen (scores, cijfers) aan leerlingen te koppelen, behoudens wat niet door de psychometrische beugel kan. Het psychometrische juk is zelf natuurlijk identiek met de definitie van meten als alles wat toekennen van getallen volgens een regel is. Als het mogelijk is die ballast uit de wereld van 'educational measurement' af te werpen, dan kan het begrip doorzichtigheid op een funderende wijze inhoud krijgen: gebaseerd op explicitering van wat het is om kennis van het betreffende vak te hebben. Ofwel: het begrip validiteit zoals voorgesteld door Borsboom, Mellenbergh en Van Heerden (2004).


Meer stages, een goed idee?


De stage vindt eigenlijk iedereen wel een goed onderdeel om in het onderwijs in te brengen. Maar is het introduceren van (meer) stages vanzelfsprekend een verbetering? Denk er even over na. Het springende punt is dat die stage ten koste gaat van tijd die anders aan ‘gewone’ schoolse activiteiten zou zijn besteed, aan ouderwetse kennis en vaardigheden zeg maar. Werkgevers zullen zeggen dat ze stages toejuichen, maar geconfronteerd met deze kosten van stages draaien ze als een blad aan de boom om.

Welnu, competentiegericht onderwijs brengt die stage als het ware als dominante methode het onderwijs zelf binnen. Onderwijs als vrijplaats is dan geschiedenis geworden. Ik maak mij sterk dat werkgevers zo zelfs geen eigen bedrijfsopleiding zouden inrichten, als zij nog weten wat een bedrijfsopleiding is.

competentiegericht avant la lettre: realistisch rekenen


Het Nederlandse basisonderwijs is al doordrongen van competentiegericht onderwijs waar het om het rekenen gaat. Rekenen is tegenwoordig vrijwel overal in Nederland het realistisch rekenen van het Freudenthal Instituut, en zoals het waarschijnlijk minder gelukkig is vertaald in concrete rekenmethoden, in handen van leerkrachten die er weer op geheel eigen wijze mee om kunnen gaan. Rekenopgaven zijn alleen goede ‘realistische’ rekenopgaven wanneer er context in is gegeven; vroeger heetten dergelijke sommen gewoon redactiesommen. Bij het realistisch rekenen als methode hebben die sommen de oefening van rekenvaardigheid zelf verdrongen. In de filosofie van het realistisch rekenen is dat niet erg, want rekenen kun je tegenwoordig op rekenmachines doen. In 2008 is maatschappelijke onrust ontstaan over gebrekkige rekenprestaties van de Nederlandse jeugd, en hoewel er waarschijnlijk geen oorzakelijke relatie is tussen de competentie-filosofie in het rekenonderwijs als zodanig en de achterblijvende resultaten van dat onderwijs, hebben ze ongetwijfeld met elkaar te maken. (Van Putten, 2005, p. 125 pdf) Meer voor de hand liggende mogelijke oorzaken van achterblijvende rekenprestaties: minder uren geroosterd voor basale rekenvaardigheden; minder vakkennis bij de leerkrachten die rekenonderwijs verzorgen, een veranderende onderwijscultuur, gebrekkige onderwijsmethodieken waardoor time on task verloren gaat (hier).

1.3 Inhoudsoverzicht


geen aantekeningen


2. Vraagsoorten, doorzichtigheid, rompvragen en validiteit


Beoordelen is een spel van vragen-en-antwoorden. Het is bepaald zeldzaam wanneer de beoordeelde nadrukkelijk de vragensteller is. Historisch is dat wel aannemelijk: het catechetische model van inlijving van nieuwelingen in een geloofsgemeenschap gaat ervan uit dat zoiets alleen kan wanneer de indoctrinatie is geslaagd. Is dat ook een adequaat model voor onderwijs in de 21e eeuw? Op zijn minst niet altijd en overal. Bepaald geen gering doel van onderwijs is immers dat het leerlingen toerust zelf de juiste vragen te stellen. Op bepaalde plaatsen is dat heel evident, denk aan diagnostiek voor artsen in opleiding. Op andere ligt dat veel minder voor de hand omdat onze naieve modellen verhinderen om dat te zien: Deanna Kuhn (2005) demonstreert hoe dat is te doorbreken, en haar werk is gelukkig niet het enige in deze richting. Over vragen stellen, en wat telt als antwoorden op die vragen, is een rijke literatuur voorhanden, verdeeld over tal van disciplines, zoals logica, filosofie, taalwetenschap, sociale wetenschappen, en psychologie. Dit boek maakt er gebruik van. Bijzonder passend zou neurocognitief onderzoek zijn naar wat er in de hersenen gebeurt tussen het begrijpen van een vraag en het hebben van een antwoord, niet? Het gaat dan om het bereik tussen directe associaties en complexe inferenties, dat is ongeveer alles wat aan de orde is van hoofdstuk 4 over begrippen, tot hoofdstuk 7 over probleemoplossen.


Wat iedereen een zorg moet zijn: al dat toetsen is te vanzelfsprekend. Dat geldt ook de vormen van die toetsen, en wat allerlei experts daarover beweren (include me). Allerlei politici/bestuurslagen maken misbruik van toetsresultaten—détournement de pouvoir. Maar ook docenten en studenten hebben sterke opvattingen over toetsen die niet altijd sporen met waar het in het onderwijs uiteindelijk om gaat: studenten naar (hun) vermogen toerusten voor hun rollen in de samenleving. Daarom: betwijfel alles wat vanzelfsprekend lijkt, en behoud het goede.
Een voorbeeld van zoiets vanzelfsprekends is het idee dat toetsen gaan over de beheersing van de behandelde stof. De werkelijkheid is anders: leerlingen hebben altijd al eigen ideeën over de zaken waar die stof over gaat, en onderwijs kan alleen geslaagd heten wanneer zij van die eigen ideeën doorgroeien naar wetenschappelijk gefundeerde ideeën in het leerboek. Dat stelt bepaald andere eisen aan toetsvragen, zowel de formatieve als de summatieve. Het aardige is nu, dat deze visie aangeeft dat het er bij toetsen niet zozeer om gaat vast te stellen hoe 'goed' de stof is opgenomen, maar of überhaupt het inzicht is veranderd van de aanvankelijke naiviteit naar het vakinhoudelijke inzicht, als ik dat zo even mag noemen. Dus veel minder een percentage beheersing vaststellen, als een kwaliteitssprong in inzichten tonen. Dat stelt andere eisen aan de te ontwerpen vragen. Daarnaast zal er altijd stof zijn die gewoon (uit het hoofd) geleerd moet worden, van stampwerk tot informatie verzamelen, maar dat kan alleen gerechtvaardigd zijn als het in dienst staat van hogere doelen. Het omgekeerde zal meestal ook gelden: hogere doelen blijven zinledig zonder adequate inhoud.
Voor de toets die u dit weekeinde moet ontwerpen, is het verstandig om dicht te blijven bij hoe u het de vorige keer ook hebt gedaan. Voor de langere termijn is het de uitdaging om de knulligheid van vandaag in te ruilen voor een realiseerbare droom.

De huidige toetspraktijk is gegroeid dankzij ontelbare kleine en grote gebeurtenissen in het onderwijs, de politiek, en de samenleving. Denk niet dat die huidige praktijk iets is dat ergens op een tekentafel is vormgegeven. Er kunnen problemen aan deze toetspraktijk kleven, ook zonder dat direct betrokkenen daar een vermoeden van hebben. Vooral de tegenwoordige preferente vorm van korte toetsvragen is verdacht, zeker in afsluitende toetsen en examens. Dit is een toetsvorm die historisch gezien nog tamelijk jong is, enkele eeuwen op een bijna duizendjarige onderwijsgeschiedenis. Die, pak hem beet, tweehonderd jaar sinds de vestiging van het rijk van de Mathematical Tripos in Cambridge als de koningin van de examens, hebben een enorme invloed gehad op zowel de vormen van toetsing in het onderwijs, als op de inhoud en didactiek van datzelfde onderwijs. Dat maakt het nogal lastig vandaag de dag om te beoordelen of er een gezonde verhouding bestaat tussen toetsing, onderwijs, en de maatschappelijke doelen van dat onderwijs. Kijken we wat verder terug, naar didactische methoden en examens in de middeleeuwen, dan is die korte toetsvraag en zijn bijbehorende in kleine stukjes opknipbare leerstof goeddeels afwezig. De catechismus kan een uitzondering zijn, daar ben ik niet goed in. Neem de universitaire examens als voorbeeld: die bestaan, evenals dat bij andere gilden het geval is, uit het afleggen van meesterproeven, in dit geval uit het deelnemen aan een disputatie en het geven van een college over kort tevoren opgegeven stof. Misschien veel relevanter om te vermelden: de kandidaat kreeg pas toestemming om examen af te leggen als zeker was dat hij—jazeker, altijd mannen—dat ook tot een goed resultaat zou brengen. Examens in een ceremoniële rol, zoals vandaag de dag nog gebruikelijk bij promoties. Voor meer geschiedenis zie mijn (1995) html. Kortom, bekijk het gebruik van korte toetsvragen met gezonde achterdocht, ook als ze kwalitatief uitmuntend zijn en functioneel lijken te zijn: hoe zou het onderwijs functioneren zonder de druk van deze vorm van afsluitende toetsing? De stelling dat hedendaagse hogedruk-toetsen (Cito-toets groep 8, bijvoorbeeld) slecht onderwijs uitlokt en inkapselt, is een heel eind te verdedigen. NB: het laatste is iets anders dan het verschijnsel dat eindexamens in het voortgezet onderwijs, vergelijkenderwijs internationaal, voor meer kwaliteit in dat onderwijs zorgen dan zonder dergelijke examens het geval is.

2.1 Korte open vragen



2.2 Keuzevragen


objectiviteit

2.3 Open vragen


Over het beoordelen van open vragen, vooral opstellen, bestaat een uitgebreide literatuur vanaf het begin van de vorige eeuw. Het spijt me te moeten zeggen dat de vroege empirische onderzoeken vooral misleidend zijn: het lijkt erop alsof de onderzoekers erop uit waren het gebruik van open vragen af te branden, wat ten gunste zou zijn van de korte open vragen en vooral de gesloten vragen waaraan vaak dezelfde onderzoekers een goed belegde boterham verdienden. Helaas zijn latere onderzoekers niet bijzonder kritisch geweest, en hebben zij de gemankeerde methodologie van hun voorgangers herhaald. Het gevolg is geweest dat het onderwijsveld een ruk naar het meerkeuze-kapitalisme heeft ondergaan (Michell, 1999; Lagemann, 2000). Het gaat mij natuurlijk niet om de zure kritiek, maar om een goede plaatsbepaling waar het om het gebruik van open vragen gaat. Ze verdienen een behoorlijke rehabilitatie. Dat zou ook goed van pas komen omdat diverse onderwijsvernieuwingen afscheid aan het nemen zijn van feitjestoetserij met keuzevragen, en dat vervangen door portfolio's en allerlei andere nieuwe vormen van open vragen. Die rehabilitatie berust op verschillende argumenten: het 'psychometrische' beeld van gebrekkige betrouwbaarheid is aantoonbaar misleidend, de validiteit van korte en vooral gesloten vragen schiet in de onderwijspraktijk vaak schromelijk tekort omdat ze niet beantwoorden aan de kerndoelen van het onderwijs, een goede beoordeling van open vragen vereist niet vanzelfsprekend dat daar uitvoerige modelantwoorden en meerdere beoordelaars voor nodig zijn, en tenslotte: het zou wel eens kunnen zijn dat de beste onderwijsmethoden het helemaal zonder toetsing kunnen doen (Bereiter, 2002, Education and Mind in the Knowledge Age, in zijn geheel, en in het bijzonder hoofdstuk 8) waarbij het onderwijs zelf functioneert als 'open vragen' aan de leerlingen. Schitterend, niet? Het gáát ergens over, mensen!


2.6 Validiteit: een goed antwoord bewijst kennis


De titel suggereert dat deze paragraaf gaat over validiteit van afzonderlijke toetsvragen. Dat is ook wel zo, maar als onderdeel van een bredere opvatting over validiteit. De reden is eenvoudig deze: de optelling van valide toetsvragen hoeft niet een valide toets te zijn, een valide examen, of een valide curriculum. Er komt zo ongelooflijk veel meer bij kijken. En zo veel meer ook dan de gebruikelijke aanbevelingen over het samenstellen van toetsen zodanig dat de toets representatief is voor de opgegeven stof.


1919 eclipse negative.jpg

hoe sterk buigt de zon lichtstralen af?


Het meten van de exacte positie van een ster heeft voor astromen nauwelijks geheimen meer. Zo'n meting is perfect valide, dus. Er kan een extreme omstandigheid zijn waarin die validiteit niet helemaal vanzelfsprekend is. Bij de volledige zonsverduistering van 1919 was het mogelijk de positie van sterren dicht bij de zon te zien en te meten: hun lichtstralen scheerden er vlak langs. De meting leverde een positie op die afweek van de voorspelling door de Newtoniaanse theorie. Voor deze theorie was de meting niet echt valide. De algemene relativiteitstheorie van Einstein voorspelde die positie beter, de kromming van de ruimte door het zwaartekrachtveld van de zon, en dat was wereldnieuws. Voor die laatste theorie was de meting dus wel valide, zoals een sociale wetenschapper zou zeggen. Natuurkundigen kennen het begrip validiteit niet, voor hen is het van belang wat de theoretische betekenis van de geobserveerde feiten is, of zij theoretisch te verklaren zijn. De suggestie is hier: validiteit is niet een kenmerk van een observatie als zodanig, maar van zijn interpretatie binnen een theorie.

Over het toetsen van de algemene relativiteitstheorie zie om te beginnen bijvoorbeeld http://en.wikipedia.org/wiki/Tests_of_general_relativity

de hier gebruikte thumbnail van de 1919 zonsverduistering: http://en.wikipedia.org/wiki/Wikipedia:Picture_peer_review/1919_eclipse_negative.jpg, opgehaald. Klikken geeft de oorspronkelijke negatieve afdruk uit de expeditie van Sir Arthur Eddington, met tussen dunne streepjes aangegeven de zes sterren waarvan posities zijn bepaald.


De taal gaat ons hier zeker parten spelen. Psychologen hebben de term 'validiteit' geclaimd voor bepaalde kenmerken van hun psychologische tests. Daar kunnen we nu makkelijk afstand van nemen dankzij het werk van Borsboom c.s. (2004). In de logica zegt men wel van een argument dat het valide is of niet, en van uitspraken dat deze waar zijn of niet (NB: dus argumenten zijn geen uitspraken, en omgekeerd). Dat is interessant, omdat op het micro-niveau van de vraag zelf het zo is dat deze om een uitleg vraagt, dus een redenering (argument) [ik heb grote problemen met logica, en kan me daar niet met een jantje-van-leiden vanaf maken omdat logica op tal van manieren in vraagontwerpen binnen kan sluipen, denk alleen al aan de pseudo-logische vorm van tweekeuzevragen]. Dat gebruik van de term 'valide' is iets anders dan het bredere begrip 'validiteit' van toetsvragen zoals ik het in deze paragraaf uitwerk.

Ik neig er nu naar de validiteitskwestie voor toetsvragen gelijk te stellen aan de vraag naar het theoretisch kader voor het ontwerpen van toetsvragen. Deze paragraaf 2.6 laat zich het best lezen als een theoretisch kader, inderdaad. En dus ook alleen maar een kader: allerlei precieze invullingen zullen bijvoorbeeld door de ontwerper zelf gegeven moeten worden, of door wetenschappelijk onderzoek (dat in de meeste gevallen al beschikbaar zal blijken).


Het is een enorme uitdaging om helder te krijgen wat het is voor een toetsvraag om valide te zijn. Een absolute voorwaarde voor succes is om afstand te nemen van bijna alles wat in de psychometrische literatuur over validiteit van tests en toetsen is gepubliceerd. De argumentatie daarvoor is geleverd door Borsboom, Mellenbergh en Van Heerden (2004). Zij presenteren bovendien een alternatief, zodat hun publicatie een kwestie van creatieve destructie is geworden. Ik neem deze uitwerking van validiteit over bij ongeveer alles wat ik in dit boek over het ontwerpen van toetsvragen heb te melden. Helaas is de behandeling van Borsboom e.a. van validiteit beperkt tot validiteit van psychologische tests, en dus niet zonder meer ook toe te passen op toetsen van studieprestaties. De hefboom om Borsboom e.a. toch toe te kunnen passen in het onderwijs is de waarneming dat hun begrip van validiteit vrijwel een op een overeenkomt met wat typische eisen van validiteit zijn voor de instrumentatie van experimenten in het psychologisch laboratorium. Het voorbeeld dat zij noemen is Piagetiaans onderzoek, waarvan hedendaagse varianten van groot belang zijn voor iedere theorie voor het ontwerpen van toetsvragen. Beschouw onderwijs als een psychologisch experiment, en de uitwerking van wat validiteit van toetsvragen is volgt dan op tamelijk directe wijze.
Borsboom e.a. stellen dat validiteit typisch een probleem is bij onderzoek in de sociale wetenschappen, en vrijwel afwezig zou zijn voor onderzoek in de natuurwetenschappen. Die stelling is eenvoudig te weerleggen. Thomas Kuhn heeft dat in feite op een mooie manier gedaan, door te laten zien hoe wat vandaag algemeen als valide wordt beschouwd, morgen heel anders kan zijn: de paradigmawisseling. Of neem de geschiedenis van bijvoorbeeld het begrip 'massa,' zoals grondig beschreven door Max Jammer: een enorme intellectuele worsteling, een worsteling die gaat over wat Borsboom e.a. de validiteitskwestie zouden noemen. Ook wiskunde ontkomt niet aan validiteitskwesties, Lakatos heeft zich in zijn vroege werk hierop geworpen, en Koetsier (1991) geeft daar een indringende beschrijving en verdere uitwerking aan. Nu lijkt dit een zijpad te zijn, maar daar kijk ik zelf toch iets anders tegenaan. Onderwijs gaat voor een groot deel over wiskunde en natuurwetenschappen, dus daar worden heel wat toetsvragen voor ontworpen. Het is denkbaar, en ik zal dat ook uitwerken, dat de schoolse wiskunde en natuurwetenschappen op gespannen voet staan met hoe die disciplines de facto worden beoefend. Kijk naar de gelikte presentaties in willekeurig welk leerboek, waar iedere twijfel en alle strijd gecensureerd lijkt te zijn. Dan is het niet zo vreemd dat de gedachte post kan vatten dat in wiskunde en natuurwetenschappen er geen problemen zijn met validiteit van hun instrumenten. En onmiddellijk volgt dat het onderwijs op deze manier gegeven, wel eens behoorlijk contra-productief kan zijn, een vermoeden dat Hans Freudenthal voor zijn eigen vak nogal nadrukkelijk heeft uitgesproken. Een uurtje nadat ik deze tekst schreef, brengt de post mij een passende observatie van Gerrit Breeuwsma, zie de box, en stel uzelf de vraag welk type toetsvragen dan in het psychologieonderwijs thuishoort. Is het vragen naar declaratieve kennis dan wel valide?


domeinen van validiteit


het corpus: onze wiskundige etcetera kennis


Wiskundigen spreken wel van het wiskundig corpus (bijv. in Keestra, p. 106, 107), en kunnen dan uitleggen hoeveel wiskundige publicaties er de laatste tien jaar zijn bijgekomen (het laatste hoofdstuk in Keestra). De cultuurgeschiedenis van de wiskunde (Keestra, 2006) is door de bijdragende auteurs geschreven in de eigen vrije tijd, wat toch wel opmerkelijk is: hoort het bekend maken van het wiskundig corpus, bij welk publiek dan ook (collega's, opdrachtgevers, studenten), niet tot de taken van de wiskundige? Is wiskunde die niet in enige vorm bekend is gemaakt, aan enig publiek, wel onderdeel van het wiskundig corpus? Machiel Keestra (Red.) (2006). Een cultuurgeschiedenis van de wiskunde. Uitgeverij Nieuwezijds.


Het probleem is nu, zoals Struik in het citaat in de box laat zien, dat wiskundigen nogal eens gek zijn op puzzels, en mogelijk het onderscheid tussen oplossen van wiskundige problemen als puzzel, danwel als wiskunde, niet altijd scherp maken. Het zal mij niet verbazen wanneer onderzoekers erin slagen aannemelijk te maken dat de ontoegankelijkheid van wiskundige vakken voor veel middelbare scholieren iets met deze thematiek heeft te maken. De stelling is verdedigbaar dat wiskundige opgaven niet valide zijn wanneer het puzzelopgaven zijn. Puzzelen gaat wiskunde te buiten, ook al maken wiskundigen graag puzzels — in beide betekenissen van 'maken' — en ook al bieden sommige puzzels grote uitdagingen om ze wiskundig te doorgronden. Wiskunde als elegante tijdbesteding, wat het voor Plato en zijn tijdgenoten in hun slavenmaatschappij was (Struik), is al evenzeer een verheven vorm van puzzelen. De juiste balans tussen puzzelen en wiskunde bedrijven, tussen vorming en mathematiseren, daar gaat het om. De puzzel is misschien didactisch handig uit te buiten, de vorming nodigt uit tot misbruik als toelatingsdrempel tot maatschappelijke elites.


metadisciplines
Articuleren van het corpus


wat is expertise m.b.t. dat corpus?

In de tijd dat meetkunde nog een belangrijk vak in het middelbaar onderwjs was, had e leerling dus altijd een passer en lineaal bij zich. Ook op het eindexamen, natuurlijk. Wat zou meetkunde zonder passer en lineaal zijn? Wat stellen meetkunde-opgaven voor die zonder passer en lineaal beantwoord moeten worden? Kijk, daar zit het springende punt: zodra om schoolorganisatorische of toetstechnische redenen de gesitueerdheid van de te toetsen kennis tussen haakjes wordt gezet, verdwijnt ook de validiteit van de toetsvragen in zo'n kunstmatige conditie tussen haakjes. Dat toetsresultaten aantoonbaar in hoge mate overeenkomen met wat bij valide toetsing de resultaten geweest zouden zijn, maakt ze niet plaatsvervangend ook valide. Dat is nu juist het traject dat Borsboom e.a. (2004) gesloten hebben verklaard.

Bij het eindexamen meetkunde zoals ik dat in 1962 aflegde, moest er volop met passer en lineaal worden geconstrueerd. Dat is dus prima in orde, want dat is per definitie wat het is om Euclidische meetkunde te bedrijven. De bange vraag is nu dat er mogelijk belangrijke leerstof is die op eigen manieren gesitueerd is in de buitenwereld, maar waarover toetsvragen worden gesteld die abstraheren van die gesitueerdheid, waarbij als het ware 'de passer en lineaal' niet echt mogen worden gebruikt, maar alleen in de verbeelding, een soort 'hoofdmeetkunde' dus. Wie kan mij op dit thema informatie geven?


Een algebraboekje: Stoelinga en Van Tol Leerboek der algebra voor H.B.S., Gymnasium en Lyceum. 16e druk 1958. P. 5 is de eerste bladzijde van het inleidende hoofdstuk, gaat over het "gebruik van letters." Meteen een vraagstuk, van het bekende irrelevante type: "Drie personen A, B en C moeten f 100 verdelen zodanig, dat B tweemaal zoveel krijgt als A, terwijl C f 10 minder ontvant dan B. Hoeveel krijgt ieder?" Als dit is waar algebra over gaat, is de motivatie van de meeste leerlingen meteen verspeeld. Afijn, de oplossing wordt meteen uitgewerkt, geen woord van toelichting op de grote truc: gaan rekenen met een grootheid die je niet kent, in dit geval "het geld van A." Natuurlijk, "het geld van A" kunnen we makkelijker aanduiden met een x. Maar waarom is dat zo? Wie heeft dat ontdekt? Hoe deed men dat vroeger dan? Enzovoort. Dan heb ik het nog helemaal niet over neurocognitieve randvoorwaarden voor het ontstaan van enig begrip van wat hier wordt 'uitgelegd" (mag je dat wel uitleg noemen?). Er zijn dan nog wel enkele historisch belangrijke fenomen onbesproken gebleven, zoals de achtergrond van het gebruiken van dit soort idiote vraagstukjes (de Babyloniërs deden dat ook al, maar dat is nauwelijks een rechtvaardiging). Afijn, dit schoolboek is zelf historie geworden, maar ik vertrouw hedendaagse methoden ook voor geen cent, om maar in het jargon van vraagstuk I te blijven spreken. Waarom hebben al die lesboekschrijcers zich zo uit de naad gewerkt om leerlingen afschuw voor het vak bij te brengen? Is het ongeduld? Hooghartigheid? Waarom mag een gymnasiast niet weten wat Descartes heeft bijgedragen aan de dagelijkse technieken van de algebra? Waarom laten we hem/haar in de waan dat algebra gaat over het oplossen van gegeven wonderlijke vraagstukjes?

de neuropsychologie van kennis

de 'heelheid' van wat we denken te weten

Dit is volstrekt een losse flodder, maar ik probeer toch maar dit vage idee onder woorden te brengen, om te zien waar het toe kan leiden. Het idee is bijvoorbeeld van belang voor de NWQ, en komt hierop neer: onze zintuigen en hersenen toveren ons niet alleen een fantastisch 'heel' beeld van de wereld voor onze ogen (dat is niet 'werkelijk', er zit bijv. een gele vlek in ons oog waar geen beeld is en waar objecten in de wereld gewoon in kunnen verdwijnen, ook in het verkeer!), maar ook een fantastisch 'heel', of beter: 'geheeld' beeld van wat we zelf weten over de wereld (namelijk: alles). Schoenmakers die niet bij hun leest blijven, zijn in staat zonder met de ogen te knipperen de domste dingen te doen (in de ogen van de ambachtsvrouw op wiens gebied de schoenmaker zich begeeft). Hoogleraren hebben er wel eens een handje van zich sterke uitspraken te veroorloven die buiten hun eigen vak liggen. Hoewel iedereen beter kan weten, want het is toch aan den lijve ervaren hoeveel tijd het kost om een ambacht in de vingers te krijgen, hebben die grijze hersencellen van ons er lol in ons wijs te maken dat we nu ook van andere onderwerpen heel veel weten, quod non (wat dus niet zo is). Een van de mooie dingen van de wetenschap is dat ze de wereld probeert beter te begrijpen en daar allerlei technieken voor heeft, en de resultaten daarvan ook probeert te communiceren naar de wereld (u en ik). De interessante spanning waar de ontwerper van vragen voor de NWQ gebruik van kan maken, en er zijn heel veel vragen in eerdere jaargangen die daar wel verwantschap mee hebben, is om de deelnemer in situaties te brengen waarin eigenlijk alle ingrediënten voor het produceren van een goede uitleg wel voorhanden zijn, maar waar de 'geheeldheid' van onze common sense kennis sterk drukt naar een aantrekkelijk voor de hand liggende maar totaal misplaatste uitleg.
Dit is allemaal natuurlijk wat serieuzer dan alleen voor de NWQ bedoeld. Onze parlementariërs, bijvoorbeeld, roepen voortdurend allerlei dingen waar zij zelf geen bal verstand van hebben, en als ze het wel hebben moeten ze hun collega's daar nog maar van zien te overtuigen. Kijk, en daar zit de kneep. De Diederik Samsons van deze wereld hebben het niet altijd even makkelijk om de op hun gebied ongeschoolde medemens ervan te overtuigen dat het voor wet A of beleid C niet echt verstandig is ervan uit te gaan dat de zon voortaan niet meer in het Oosten opkomt, maar in het Westen. Er zullen tal van uitvluchten worden bedacht, die de hardheid van het Samson-argument in feite niet herkennen of onderkennen. [Diederik Samson is een kerngeleerde op een prominente positie in het Nederlandse parlement, goed dat we zulke mensen daar nog steeds hebben]
Er is een familieverwantschap met de ontwikkelingsstadia in het denken van jongeren: er is het adolescente stadium waarin mijn idee net zo goed is als jouw of ieder ander idee, van cultuur-relativisme dus. Ik weet niet of die ontwikkelingsstadia (Deanna Kuhn (2005) zegt er iets over in relatie tot onderwijs) direct verband houden met de ontwikkeling van de hersenen (daar weet Jelle Jolles 'alles' van).
Het springende punt is, en daar moet ik wel enkele sleutelpublicaties over vinden, dat onze zintuigen en hersenen naar een sterke geheeldheid, closure, in onze waarneming toe werken. Onderzoek naar de waarde van getuigenverklaringen, en waarom die waarde zo beperkt is, heeft hier direct mee te maken. Onze hersenen zijn zo ongelooflijk goed in het aanvullen van gebrekkige informatie tot iets dat afgerond en 'heel' lijkt, maar in feite alleen die schijn heeft omdat onze hersenen zo werken, niet omdat het een juiste afspiegeling van de wereld is. Evolutionair gezien heeft dit natuurlijk fantastisch gewerkt, omdat het optimaal gebruik maakt van onvolledige kennis. Maar juist in schoolse situaties kan het ons behoorlijk tegen gaan zitten (net als in de rechtszaal).
Afterthought. Voor de niet van nature nieuwsgierigen onder ons is er dus het probleem dat zij (hun gezamenlijke grijze hersencellen) voor zichzelf het idee kunnen hebben niet meer kennis nodig te hebben dan zij nu al hebben, terwijl school, de samenleving, voortdurend anders roept. Als school dat vervolgens niet waarmaakt, omdat de schoolse kennis als triviaal en irrelevant voor het dagelijks leven wordt ervaren, heeft iedereen een probleem.


een model van de kennis van de student




een leermodel: hoe kennis groeit, verandert

heuristieken voor leren


een diagnostiek van veranderende kennis

Wonderlijk. Ik schrijf bovenstaande notitie uit op 13 mei in de vroege ochtend, en lees onmiddellijk daarna het bericht in de Volkskrant dat in bovenstaande box is samengevat. Serendipiteit heet dat. Ik worstel met de vraag wat een diagnostische systematiek voor toetsvragen moet zijn, en zie dan een kanjer van een casus in de krant. Ik wijs er al jaren op dat het dagelijks nieuws een fantastische bron voor casuïstiek is waar de ontwerper van toetsvragen goed gebruik van kan maken, en dit gevalletje laat mooi zien hoe dat kan werken. Ik love it.


terugkoppeling, toetsen, examineren

Strategieën

technische bedreigingen van validiteit




Waar in het bovenstaande gemakshalve sprake is kennis van de individuele student, moet natuurlijk worden gelezen dat het gaat om kennis in de zin zoals omschreven in de eerste vier niveaus.

Validiteit van toetsvragen is zodoende een complex begrip, maar ik zal aan de hand van voorbeelden laten zien hoe in iedere categorie toch een heldere afbakening is te geven van wat valide is, en wat niet meer, zoals in het eerste voorbeeld over de puzzelende wiskundige al voor het eerste niveau is gedaan.

In de sociale en gedragswetenschappen is een heel eigen cultuur ontstaan waar er wordt gesproken over de verschillende kwaliteiten van de gebruikte meetinstrumenten, dus toetsen en tests, waar ook vragenlijsten toe behoren. In de natuurwetenschappen bestaat uiteraard ook een uitgesproken cultuur waar het gaat om het ontwerpen en gebruiken van meetinstrumenten, en die lijkt op het eerste gezicht waarachtig niets van doen te hebben met de gamma-cultuur. In ieder geval is de systeemscheiding in het denken over beide 'soorten' meetinstrumenten zo sterk, dat er weinig of geen vruchtbare uitwisseling van ideeën over en weer is, met uitzondering van fundamenteel onderzoek naar wat meten is (exponent daarvan is zeker het werk van Patrick Suppes). Wie er oog voor heeft, kan goud delven in de literatuur aan de andere zijde. Bijvoorbeeld Osinga en Maaskant's (1982) Handboek elektronische meetinstrumenten. De term 'validiteit' komt in dit boek niet voor, maar wie goed leest ziet hoe uiterst moeizaam en zorgvuldig een rijk arsenaal van meetprocedures en -instrumenten is opgebouwd, direct gekoppeld aan relevante theorie: de validiteit is in de procedures en instrumenten geconstrueerd, als het ware, en vermoedelijk precies zoals Borsboom, Mellenbergh en Van Heerden (2004) het ook graag voor de sociale wetenschappen zouden zien gebeuren. Zo ook de term betrouwbaarheid: die komt alleen bij het begrip betrouwbaarheidsinterval op de proppen, overigens doen ingenieurs het met een heel arsenaal aan onderscheiden termen en begrippen die gezamenlijk dekken wat in de sociale wetenschappen 'betrouwbaarheid' heet. Ongeveer zoals de Eskimo's een rijke woordenschat hebben voor de vele nuances waarin sneeuw verschijnt, waar wij het met natte sneeuw en stuifsneeuw wel ongeveer gehad hebben. Kortom: wie echt iets wil maken van betrouwbaarheid, kan te rade gaan bij de natuurwetenschappen, en dan natuurlijk niet bij de schoolboekjes die doen alsof er helemaal geen meetproblemen zijn, maar bij de literatuur die dicht staat bij wat er in laboratoria en ijkingsinstituten gaande is.


3. Leerstofinventarisatie

The idea of knowledge as the contents of a mental filing cabinet is, I believe, the most stultifying conception in educational thought.

Carl Bereiter, p. 24 in his 2002 Education and mind in the knowledge age. Erlbaum. questia

Dit hoofdstuk gaat beschrijven wat kennis zoal kan zijn. Dat is prachtig, zeker wanneer die beschrijving overtuigend uitpakt. Maar er is een klein probleempje mee: het hebben van kennis is alleen zinvol wanneer die kennis toegankelijk is in situaties waarin die kennis nodig is. Denk dan vooral aan onverwachte situaties, aan situaties waarin er niet een vanzelfsprekende verbinding is met voor die situatie relevante kennis. Het prototype: probleemoplossen. Sleutelpublicatie over toegankelijk krijgen van beschikbare kennis bij het oplossen van wiskundige problemen: Polya (1945). Een overzicht van wat we weten over die toegankelijkheid—access—: Prawat (1989). Verwant aan het begrip toegankelijkheid—access—is dat van overdracht—transfer. De filosofie achter het Utrechtse realistisch rekenen is gekenmerkt door de wens dat leerlingen schoolse kennis ook buiten school gaan gebruiken: transfer dus.Transfer is een nogal ongrijpbaar fenomeen, daar wil Prawat iets aan doen.] N.a.v. Prawat leg ik de volgende bespiegeling voor.
Het toetsen van kennis, waar mijn boek over zegt te gaan, schiet tekort omdat mooie scores niet voldoende zijn om er zeker van te zijn dat de betreffende studenten die kennis ook kunnen en zullen gebruiken in echt nieuwe situaties. Voor dat laatste is niet alleen het hebben van kennis een voorwaarde, maar vooral het verbonden zijn van die kennis. Daar volgt uit dat de ontwerper van toetsvragen meteen zou moeten doorstoten naar het toetsen van die verbondenheid van kennis. Voor de didactiek lijkt eruit te volgen dat het belangrijk is dat kennis goed verbonden is, en dat die verbondheid van kennis zeker belangrijker is dan het hebben van veel kennis die mogelijk slecht verbonden is. Om kennis te verbinden is het nodig voortdurend bezig te zijn met verklaren en gevolgen trekken (inferenties). Verbind dan de didactiek en het ontwerpen: laat in beginsel antwoorden altijd rechtvaardigen. Dat beginsel kwam in voorgaande hoofdstukken ook al aan de orde, het gaat als bindmiddel dienen tussen een reeks onderwerpen die voor het ontwerpen van toetsvragen van belang zijn.


De kern van deze zaak [inventariseren] is al eens helder beschreven door Anderson in zijn ‘How to construct achievement tests’ (1972), wat de andere helft van het werkt lijkt te zijn, maar dat is schijn: wie gaat inventariseren, moet wel een helder idee hebben over wat er valt te vragen.

Richard C. Anderson (1972). How to construct achievement tests to assess comprehension. Review of Educational Research, 42, 145-170.


Deze indeling naar waarneembare, abstracte en theoretische begrippen is in 1983 gekozen omdat het op dat moment een goede mogelijkheid bood om een snelle omschakeling te maken van de enigszins pseudo-wetenschappelijke indeling in de Bloomiaanse taxonomie van cognitieve doelen, naar een indeling afgeleid van kennistheorie zoals onder andere in het werk van Hempel te vinden. Anno 2007 is dat nog steeds adequaat, maar kan er een wezenlijk steviger fundament onder worden gelegd. Het is niet onmogelijk dat ik meega in het denken van Carl Bereiter (2002), en gebruik ga maken van de Wereld-3-metafoor van Karl Popper. Popper werkt hierin immers uit dat 'kennis' niet iets is dat in de hoofden van mensen zit (een naieve psychologie) (niet iets mentaals is, Wereld 2), evenmin iets is dat in de fysieke wereld van voorwerpen en gebeurtenissen thuishoort (Wereld 1), maar een eigen realiteit heeft die hij in Wereld 3 situeert, de wereld van publieke kennis en wetenschappelijke theorie, en in de behandeling van Carl Bereiter dus ook bij uitstek de wereld van kennis en begrip waar het in het onderwijs om gaat. De implicatie voor het ontwerpen van toetsvragen is dat vragen over waarneming, abstractie en theorie tenminste voor een belangrijk deel vragen in of over Wereld 3 zijn. Het klinkt als science fiction, maar let op: hier moeten goede mogelijkheden te vinden zijn om de door Borsboom, Mellenbergh en van Heerden (2003) gestelde validateitskwestie voor toetsen een adequate invulling te geven.


Nota Bene. In de oorspronkelijke uitgave in 1983 is alleen terloops aandacht besteed aan misvattingen en mental models van studenten die haaks staan op de aangeboden theoretische modellen (McDermott 1998; meer algemeen over cognitieve modellen, maar dan in de context van het natuurkunde-onderwijs: zie Redish, 2004 pdf, voor een overzicht). De vooronderstelling is destijds stilzwijgend geweest dat leren een kwestie is van alles-of-niets: ofwel de leerling heeft die specifieke kennis en dat inzicht, en kan die regel toepassen, ofwel hij of zij bakt er helemaal niets van. En inderdaad, veel leren gaat toch op die manier. Maar er zijn ook heel veel zaken waarin bestaande kennis en inzichten het opnemen van nieuwe kennis en inzichten hinderen. Het schema in de kop van hoofdstuk 6 geeft dat expliciet aan, omdat bij het leren uit tekst het al gauw het geval is dat er spanning is tussen de nieuw aangeboden kennis, en bestaande kennis en inzichten.

Bij het ontwerpen van toetsvragen is het eenvoudige schema om te peilen of specifieke kennis al dan niet aanwezig is. Op een meer geavanceerd niveau zal de ontwerper van toetsvragen rekening houden met tal van mogelijkheden waarop nieuwe kennis in het geheel niet of op een verstoorde manier is opgenomen. Niet om leerlingen in de val te laten lopen—strikvragen zijn uit den boze—maar omdat de instructie ook nadrukkelijk op die mogelijkheden van misverstaan van het aangeboden materiaal is gericht.

Eenvoudige voorbeelden zijn de Schwere Wörter van deze wereld, of het mechanisch toepassen van rekenregels in plaats van antwoorden op basis van goed begrip. In de literatuur over mental models, zoals Johnson-Laird (1989), zijn prachtige voorbeelden te vinden van systeemscheiding tussen naieve denkbeelden over beweging, en wat diezelfde gevorderde student daarover juist heel goed heeft geleerd in zijn specialisatie natuurkunde. Maar al op veel eenvoudiger niveau speelt die enorme spanning tussen naieve ideeën over bepaalde onderwerpen, en wat daarover aan informatie wordt aangeboden of gevonden; zie voor zowel een goed beeld van waar het hier om gaat, als van de alomvattende aanwezigheid van dit probleem in het (in dit geval middelbaar) onderwijs het boek van Deanna Kuhn (2005).

Bij de inhoudelijke vernieuwing van de tekst uit 1983 zal deze thematiek tot aanzienlijke aanvullingen leiden. Overigens geeft Dijksterhuis in een paar welgekozen zinnen (1950, p. 32-33) aan hoe moeilijk de weg voor de student natuurkunde is: wat hij denkt te zien is niet wat er gebeurt, wat de klassieke natuurkunde zegt dat er gebeurt is zo extreem geïdealiseerd dat dat in werkelijkheid niet kan gebeuren. Moet de student de kunstjes van het vak maar uit zijn hoofd leren, of wat? Nancy Cartwright werkt de thematiek filosofisch uit, bijvoorbeeld haar (1983) How the laws of physics lie. En waarom zou dat voor andere disciplines wezenlijk anders liggen dan voor de klassieke natuurkunde?



vaagheid van begrippen


James A. Hampton (2007). Typicality, graded membership, and vagueness. Cognitive Science, 31, 355-384.




3.1 (Indirect) waarneembare zaken (begrippen)


3.2 Abstracte begrippen en constructs


Een derde categorie in de zijnsleer van Michelene Chi vormt die van de denkbeelden, mental states. Ik weet nog niet of dit onderscheid geweldig handig handig is. Denkbeelden, kennis, zijn toch ongetwijfeld ook zich ontwikkelende processen, in ieder geval geen denkbeelden die als zodanig een plaats ergens in het lichaam hebben. Hier heeft mogelijk al kruisbestuiving plaatsgevonden tussen het boven al aangeduide werk van Carl Bereiter, en dat van Michelene Chi.


Tenslotte staat nog de vraag open hoe abstracties in de wiskunde zich verhouden tot de drie door Michele Chi onderscheiden categorieën, en de uiteenzetting van Carl Bereiter. 'Abstracties in de wiskunde' kunnen de kennisobjecten in de wiskunde zelf zijn, dat is hier niet bedoeld, of de abstracties die leerlingen/studenten zich vormen in het wiskundeonderwijs. Wat dat laatste betreft, ben ik (maart 2007) alleen het werk van Van Hiele tegengekomen in de weergave van Hans Freudenthal. Het zou best eens kunnen dat het werk van A. D. de Groot 'Het denken van den schaker' dbnl precies de goede richting is, dan zou in de school van Newell en Simon relevant empirisch onderzoek te vinden moeten zijn. Ik verwacht eerlijk gezegd niet meteen heel relevant materiaal te vinden bij Polya, of Schoenfeld, en al helemaal niet bij Freudenthal omdat hij een echte minachting heeft voor het empirisch cognitief onderzoek dat absoluut nodig is om greep te krijgen op wat het is om je wiskundige abstracties eigen te maken. Merk op dat ik in deze paragraaf het woord 'context' nog niet heb laten vallen, dat is immers de term die past bij het huidige gedachtengoed in de wiskundige wereld, en waarschijnlijk terecht, maar dat is nog niet direct door deugdelijk wetenschappelijk onderzoek ondersteund (mogelijk met uitzondering van het onderzoek van de Van Hieles).


3.3 Theoretische begrippen


3.4 Onderlinge verknooptheid van begrippen


3.5 Varianten van definities


4. Toetsvragen ontwerpen bij afzonderlijke begrippen


Een andere mogelijkheid is om termen te vervangen door vaktermen, maar dan is onmiddellijk het probleem dat benoemde relaties ook vaktermen zijn. Dit laatste lijkt dus een goed argument om het te houden bij begrippen. Excuus voor het ongemak.
Het dieperliggende probleem is dat de woordkeuze bepaalde verwachtingen met zich meebrengt die mogelijk niet goed zijn te rijmen met de staande theorie, en dan gaat het om zowel kennisleer als cognitieve theorie. Wat die laatste betreft is de ACT-R theorie van Anderson mogelijk bepalend. In die theorie wordt declaratieve kennis onderscheiden van procedurele, en mogelijk is dat onderscheid gelijk aan, verwant met, of samenhangend met wat ik ook met het onderscheid van de begrippen in hoofdstuk 4 en de relaties in hoofdstuk 5 bedoel. Maar zelfs al zou ik voluit voor het onderscheid tussen declaratieve en procedurele kennis kiezen, dan resulteert daar evenmin een scherpe demarcatie uit. De procedurele kennis van vandaag kan immers de declaratieve kennis van morgen zijn, althans wanneer het gaat om denkprocessen.
Een interessant geval is dat van het optellen van getallen onder de 10, bijvoorbeeld de optelling 3 + 4 = 7. Dit ziet er toch uit als procedurele kennis, niet? Maar dat is het niet, omdat 3 + 4 = 7 een afspraak is die we met elkaar hebben gemaakt, waarvan de achtergrond het proces van tellen kan zijn. Die afspraak moet gewoon geleerd worden, het is declaratieve kennis. Heel anders is de zaak bij 13 + 14 = ? , om die vraag te beantwoorden is procedurele kennis nodig, procedurele kennis die werkt met declaratieve kennis zoals 3 + 4 = 7, en 1 + 1 = 2, wat tientallen zijn, enzovoort. Voor de wat meer ervaren rekenaar is 13 + 14 = 27 declaratieve kennis geworden, hij weet dat als feit. De cognitieve theorie van Anderson werkt het fantastische spel uit tussen declaratieve kennis, chunks in de termen van ACT-R, en procedurele kennis, producties genoemd: wat te doen wanneer zich een bepaalde conditie voordoet. Van het werk van Anderson en zijn collega's, zie bijvoorbeeld Anderson, Lebiere and others (2000), zal ik in dit en in de komende hoofdstukken gebruik maken. De genoemde producties spelen een sleutelrol bij probleemoplossen, in hoofdstuk 7.


4.1 Vertalen


Wat deze paragraag 4.1 mist, is een goede set voorbeelden en afraders. Ik zal onder andere uit de literatuur die voorbeelden boven water halen. Aan de hand van een canonieke set voorbeelden is de theorie scherper te formuleren. Bijvoorbeeld de thematiek van context en transfer, in het bovenstaande alleen aangestipt, zal bij uitstek bij de eenvoudige opgaven van het vertalen van woorden of vaktermen in zijn consequenties uitgewerkt kunnen worden (o.a. van Streun (2005). Nog een stap verder: het zou prachtig zijn een ideaal-vak met ideaal-vragen te hebben, waarvoor de wiskunde ook al weer een goede kandidaat is (helaas blijken wiskundeopgaven soms ver van het ideaal van goed ontworpen toetsvragen af te staan, dat geldt zeker voor redactiesommen: Verschaffel, Greer en De Corte, 2000) Anne van Streun (2005). Onderwijs ontwerpen en onderzoeken. http://www.rug.nl/fwn/voorzieningen/ido/Betadidactiek/Onderzoek/docs/onderwijsOntwerpenEnOnderzoeken.pdf?as=pdf [eind december 2008 niet meer online?]



rekenen, ook als inspiratie voor andere vakken



4.2 Definiëren



4.3 Voorbeelden geven


4.4 Voorbeelden herkennen en benoemen


4.5 Herkennen en benoemen bij formeel gedefinieerde termen


4.6 Beschrijvende uitspraken


Wat in deze paragraaf ontbreekt is het volgende. Een goed casus van een klein stukje cursusstof, met daarin veel van die beschrijvende uitspraken, en een setje voor de hand liggende open vragen erover. Dan een ombouw van die voor-de-hand-liggende vragen naar een aantal messcherpe keuzevragen die een actieve beheersing van de stof vragen. Wat is 'actieve beheersing:' voorbeelden 'achter' die beschrijvende uitspraken kunnen geven, of als zodanig herkennen. Dat ideaal is maar in beperkte mate te realiseren, omdat iedereen al ziet dat de vragen over dat stukje stof gaan, maar in een toets over een hele cursus, of op een onverwacht moment in het werkelijke leven afgenomen, is dat weggevertje minder pregnant. Kijk, dat is het soort validiteit waar het bij toetsen om gaat, als tenminste het doel van 'actieve beheersing' wordt ondersteund.


5. Toetsvragen over relaties tussen begrippen


5.5 Wetmatige relaties, modellen of theorieën


De tekst uit 1983 is waarschijnlijk veel te makkelijk, ook wel naïef. Deze paragraaf vraagt om een nieuwe onderbouwing, niet in de laatste plaats omdat juist hier zaken van oorzaak en gevolg aan de orde zijn. Dat is begripsmatig en dus ook didactisch lastig, en tegelijk volgens sommigen een hoge prioriteit voor onderwijs (zoals Kuhn, 2005). Een nieuw kader zal ik beginnen op basis van Nancy Cartwright (1983). How the laws of physics lie. Dit is een kennistheoretische analyse van de aard van wetenschappelijke wetten, zowel die op het niveau van de waarneembare verschijnselen, als die op theoretisch niveau. Een belangrijke issue is het onderscheid tussen het louter samengaan van verschijnselen, en dat van oorzakelijke verbanden tussen verschijnselen. Het laat zich raden dat de didactiek van specifieke wetten afhankelijk is van de aard van die wetten, zodat ook het ontwerp van toetsvragen niet om de systematiek van verschillende typen van wetten heen kan. Daar staat tegenover dat er mogelijk veel gemeenschappelijk is aan wetten uit verschillende vakgebieden, verschillende wetten in hetzelfde vakgebied: Brian Ellis (1965) behandelt de bewegingswetten van Newton buitengewoon grondig, ook als kenmerkend voor de manier waarop dergelijke wetten in wetenschap en toepassing fungeren. Ellis doet dat wetenschapsfilosofisch, niet gericht op didactische problemen, maar daar komen we wel uit. Zijn bijdrage is lastig te vinden, ik zal er de hoofdpunten uit samenvatten voorzover van belang voor de ontwerper van toetsvragen; er is daarnaast naturulijk een zee van wetenschapsfilosofische publicaties over de bewegingswetten van Newton waarin de meeste dooe Ellis behandelde zaken wel terugkomen, ook bij Nancy Cartwright. Overigens is Ronald Giere's (2006) mogelijk een beter passende kapstok voor een ontwerptechnologie van toetsvragen dan die van Nancy Cartwright.


5.3 Classificaties


Het gaat hier om determineren en om het stellen van diagnoses, om meteen maar de waarschijnlijk lastigste vaardigheden te noemen. Relevante theorie is bijvoorbeeld te vinden bij Anderson (1996), maar er is veel meer empirisch onderzoek dat bijvoorbeeld direct gericht is op het stellen van diagnoses door artsen en specialisten, en daarbinnen is er ondertussen weer veel werk gedaan over het stellen van diagnoses in beoordelingssituaties. Ik ben niet echt goed thuis in de ACT-theorie van Anderson, en vermoed dat deze theorie ondertussen sterk beïnvloed zal zijn door modellen van parallel distributed learning. De theorie is van belang voor de ontwerper van toetsvragen, omdat de theorie het mogelijk maakt de moeilijkheid van opgaven op dit terrein beter in te schatten. Eenvoudig lijkende opgaven kunnen werkelijk beestachtig moeilijk zijn, de ontwerper moet zichzelf hier maar liever niet voor de malle houden.


John R. Anderson (1996). ACT: A simple theory of complex cognition. questia American Psychologist, 51, 355-365. (Award address).

6. Toetsvragen ontwerpen bij tekst

1 Augustus 2007. Het theoretisch kader voor dit hoofdstuk was voor de uitgave van 1983 nog wat gebrekkig. Het is niet zo dat er een kwart eeuw later geweldige nieuwe ontwikkelingen zijn, maar het is meer een kwestie van het leggen van dwarsverbanden die achteraf wel logisch lijken, maar vooraf toch minder makkelijk zichtbaar waren. Als het gaat om tekst in het onderwijs, dan zijn er onmiddellijk twee verschillende benaderingen: het leren omgaan met teksten als zodanig—leren lezen, om maar eens iets te noemen (Snow, Griffin en Burns (2005)—en het opnemen van de in teksten gepresenteerde inhouden. Het eerste onderwerp gaat over vaardigheden bij het lezen, het tweede over de kennis opgedaan uit tekst. Het eerste onderwerp is meer aan de orde in het basisonderwijs, het tweede in het voortgezet en hoger onderwijs. Maar dat zijn onderscheidingen die niet scherp zijn te trekken.


De bijzondere verhouding tussen goed lezen en het opnemen van kennis uit tekst is dat het gaat om een verschil in nadruk, respectievelijk op leren om informatie uit tekst te halen, en die informatie uit een tekst te halen die voor de betreffende cursus van belang is. Wat is dat dan, leren een tekst begrijpend te lezen? Onderzoek met kinderen die moeite hebben om begrijpend te lezen, laat zien wat er zoal komt kijken bij dat begrijpend lezen (Cain en Oakhill, 2007). Die verschillende aspecten—analyse, inferentie, wereldkennis, kennis van context, kennis van verhaalstructuren, het besef iets niet te begrijpen, beheersen van verwijzende voornaamwoorden en andere samenhang aanbrengende verbindingswoorden—zijn op een vanzelfsprekende manier ook aan de orde bij de ervaren lezer die tekst om zijn inhoud bestudeert, en vormen zo zeker ook mogelijke aangrijpingspunten voor het ontwerp van toetsvragen.


Het onderzoek naar redactiesommen—zie wordproblems.htm—lijkt een perfect gescheiden onderzoekswereld te zijn (met Vosniadou als uitzondering?), en het onderzoek naar redactiesommen levert ongelooflijk scherpe resultaten op vergeleken met het wat machteloze vooral correlationele onderzoek in het overzicht van Cain en Oakhill (2007) naar begrijpend lezen. Een redactiesom is een tekst die de leerling begrijpend moet lezen. Dat begrijpen blijkt dan sterk beïnvloed door de context van de klascultuur, tot in het absurde toe. Hetzelfde is te verwachten bij het begrijpend leren lezen als zodanig. En wie bekend is met toetsen in het hoger onderwijs ziet dat idiote trekjes van onderwijscultuur zo gebruikelijk zijn dat niemand er van opkijkt. De laatste zin is onbegrijpelijk, maar dat is juist het leuke van tekst.

En dan is er over taalvaardigheden, dus ook over het schrijven van tekst, heel veel te doen in het (hoger) onderwijs: allerlei competenties, schrijfcurssussen, etcetera. Dat is vooral gebaseerd op misvattingen, aangestuurd door wensen van werkgevers, en is verspilling van tijd. Door de vormen de inhouden niet meer zien is een ernstige vorm van bijziendheid, juist ook in het onderwijs.


Ik ben op zoek naar empirisch onderzoek naar de manier waarop docenten vragen stellen over hun leerstof die vooral in de vorm van veel tekst is aangeboden. Denk aan vakken als geschiedenis, aardrijkskunde, biologie, rechten, taalwetenschap, bijna alles dat 'inleidend' heet. Wanneer dat vragen stellen zonder veel nadenken gebeurt zal dat dicht liggen bij het terugvragen van wat er in de tekst zelf staat, nodigt dat de leerlingen niet uit tot begrijpend lezen van de stof, en leidt het tot falend onderwijs. Het Beknopt leerboek der land- en volkenkunde van Bos (1909, zesde druk) geeft de scholier 338 bladzijden informatie, maar er staat geen enkele opgave voor de leerling in. Schuiling (1915, vijfde druk) Nederland. Handboek der aardrijkskunde maakt er 742 bladzijden groot quarto van, alleen voor Nederland, vooral voor onderwijzers zelf bedoeld, maar zonder opgaven voor leerlingen. "De stof, door de leerlingen verwerkt en overgeschreven, is echter langzamerhand zoodanig uitgedijd, dat het overschrijven tijdroovend begon te worden." Het begrijpen van de aardrijkskunde bestond mogelijk eind 19e eeuw uit het opschrijven van wat de onderwijzer dicteerde. Kennen we dat model niet van het universitaire collegedictaat? Dat was begin 19e eeuw in Nederland soms nog in het Latijn, op dicteersnelheid.
Het naieve model is hier dus: toetsen van de geleerde tekst vraagt de inhoud van die tekst zelf terug. Die armzaligheid moeten we voorbij.


8. Kwaliteit van toetsvragen


19-8-2007 Ik begin te vermoeden dat het mogelijk is om voor de thematiek van de kwaliteiten van toetsvragen een schets van een stevig theoretisch kader te maken. Niet nu meteen, uit de losse hand, maar er valt al wel iets over te zeggen.
Om te beginnen zou ik een contrast willen aanbrengen tussen dat nieuwe kader en de algemeen aanvaarde visie dat de kwaliteiten van toetsvragen hun (bijdrage aan) betrouwbaar en validiteit betreffen. Hoofdstuk twee heeft al belangrijke accenten verlegd waar het om validiteit en betrouwbaarheid gaat. Ik gebruik maar een persoonlijke ervaring om hier de stelling op te richten dat het reduceren van kwaliteit tot kwesties van validiteit en betrouwbaarheid vooral mystificerend werkt. Misschien kunnen we beter uitgaan van de gedachte dat ook bij een goede aanpak bij het ontwerpen van toetsvragen er fouten en missers zullen zijn, zoals dat bij ieder productieproces het geval is. Denk aan het wegvallen van het goede alternatief bij een meerkeuzevraag (de pinguïn-vraag in een recente Wetenschapsquiz, waar een voormalig staatssecretaris wetenschapsbeleid omstandig ging uitleggen waarom het (foute) alternatief dat ten onrechte als het goede was aangemerkt, goed zou zijn), en aan al die kleine verraderlijke schendingen van eenvoudige ontwerpregels zoals in hoofdstuk twee besproken. Dat zijn productiefouten, en natuurlijk hebben die gevolgen voor wat u graag als validiteit en betrouwbaarheid bestempelt, maar het gaat wat ver om dergelijke fouten zèlf 'invalide' of 'onbetrouwbaar' te noemen. Dat is wat ik met mystificeren bedoel.
Heel direct is er natuurlijk de mogelijkheid van kwaliteitsproblemen die voortvloeien uit ontwerpen die niet volledig valide zijn, valide in de zin zoals in hoofdstuk besproken in aansluiting op Borsboom, Mellenbergh en Van Heerden (2004). Perfecte validiteit is een mooi ideaal om naar te streven, maar er zijn tal van randvoorwaarden en belemmeringen die dat in de weg zullen staan. Het praktische streven is om daar een goede balans tussen te vinden, dat kan best spannend zijn.
Een nog weer andere vorm van bedreiging van kwaliteit wordt zichtbaar zodra we verder kijken dan alleen de toets van dit moment: een onderwijsloopbaan kan makkelijk tot twee decennia duren, met erg veel ruimte om kleine onbedoelde effecten van afzonderlijke toetsmomenten te laten stapelen tot massieve onbedoelde onderwijseffecten. Heel goed is die bedreiging van de kwaliteit van toetsvragen te zien in recent onderzoek naar redactiesommen (word problems), bijvoorbeeld zoals samengebracht in Verschaffel, Greer en De Corte (2000). Het is op dit moment nog niet duidelijk welke gevolgen dit type onderzoek voor de examenpraktijk gaat hebben, maar de impact zal stevig zijn. We kunnen ondertussen nog ongestoord doormodderen met onze kortzichtige toetspraktijken, want buiten het genoemde onderzoek naar de vreemde effecten die gebruikelijke redactiesommen op de denkwereld van leerlingen hebben, is er nauwelijks of geen onderzoek in deze richting gaande. Over de misvormende werking van onderwijs als zodanig—althans van de manier waarop we dat in wetten vorm hebben gegeven en in wetten hebben vastgelegd—is dat onderzoek er natuurlijk wèl, maar het is bepaald niet populair in onderwijs- en politieke kringen. Ik geef nog maar eens een voorbeeld: het autoritaire karakter van gebruikelijke manieren om te toetsen staat bepaald op gespannen voet met belangrijke onderwijsdoelen waarin de vorming tot zelfstandig staatsburgerschap, de vorming van democratische houdingen, het zelfstandig verwerven van (Wereld 3) kennis centraal staan. Er zijn geweldige gemiste kansen om toetsing en beoordeling op zo'n manier vorm te geven dat ze juist in die opzichten een belangrijke pijler van het onderwijs zelf worden. Nee, ik bedoel niet de primitieve gedachte van onderlinge beoordeling zoals die begin zeventiger jaren opgeld deed in 'revolutionaire' universiteiten. De autoritaire misvatting is een mooi bruggetje naar de laatste categorie.

8.1 Regels bij het examineren


Een nog uit te werken geheel nieuw onderwerp is het volgende. Uit onderzoek sinds de zeventiger jaren is het glashelder geworden dat leerlingen niet als een onbeschreven blad aan het onderwijs beginnen, om daar de aangeboden theorie ongehinderd door mogelijk al bestaande opvattingen over te nemen. Integendeel: kinderen hebben bij wijze van spreken al een uitgesproken wereldbeeld over belangrijke zaken zoals biologie, natuurkunde, en rekenen, waarmee de didactiek rekening moet houden op straffe van mislukking. De prangende vraag die dan opdoemt is: wie is verantwoordelijk voor het mogelijk mislukken van het onderwijs aan Jan, Piet of Marie, wanneer bij de toets zou blijken dat delen van oorspronkelijke 'misvattingen' nog steeds bestaan? Precies, geef daar maar eens antwoord op. De consequenties voor kwaliteit kunnen bepaald verstrekkend zijn: niet alleen moeten vragen zo zijn ontworpen dat althans belangrijke bekende misvattingen kunnen blijken, vervolgens moeten eventueel nog bestaande misvattingen aan een verantwoordelijke persoon worden toegeschreven. Die verantwoordelijke persoon is, u vermoedt het al, niet vanzelfsprekend de leerling of student. En dan ligt er een klein probleempje, niet? Dat heeft hiermee te maken dat gemaakte fouten vaak berusten op misvattingen, en dat tenminste sommige misvattingen deel uitmaken van het 'wereldbeeld' waarmee de leerling aan het onderwijs is begonnen. Dat 'wereldbeeld' heeft een zekere interne samenhang, is niet maar een toevallig samenraapsel van denkbeelden, en dat rechtigt de leerling om er, zonder overtuigingskracht van haar leraar, aan vast te houden. Dat is de stelling. Er is een berg literatuur om dit te onderbouwen, voor de jongste kinderen is het werk van Susan Carey (bijvoorbeeld haar 2004) relevant. Wees niet verbaasd in dat werk een stevig fundament uit de cognitieve psychologie zowel als uit de wetenschapsfilosofie aan te treffen. In tussentijd is deze geplaatste noot hopelijk een aansporing tot bescheidenheid bij het beoordelen van leerlingen en studenten.


Toetsen heeft de neiging autoritair te zijn, hoewel dat niet inherent is aan toetsen zelf, maar aan institutionele contexten waarin het is ingebed. Er valt dan wel een boom op te zetten over een minder autoritatief en dus ook meer democratisch onderwijs, zie Mischa de Winter (WRR-rapport), maar ik wil het hier bij het beoordelen zelf houden. Er moet dus in het proces van beoordelen een tegenwicht georganiseerd zijn, zoals goede informele zowel als formele vormen van hoor en wederhoor. Ik reken dat ook maar tot het kwaliteitsthema, hoewel het een beetje oneigenlijk is. Het interessante is nu, dat de argumenten die in hoor- en wederhoor over tafel gaan, de kwaliteit of een bepaald gebrek aan kwaliteit van de toets betreffen. Welke argumenten dan hoe en waarom worden gehonoreerd, en welke niet, is voor heel deze kwaliteitsbewaking van eminent belang.


vragen en opgaven blijven binnen de duidelijk omschreven omvang van de stof


De formulering van Cohen neemt 'de duidelijk omschreven omvang van de stof' tot uitgangspunt. Het probleem daarmee is dat weliswaar die omschrijving heel duidelijk kan zijn, maar daarmee niet onaantastbaar is. Wat dan op de proppen komt is een bredere kwestie van kwaliteit: is die duidelijk omschreven omvang van de stof wel juist, of valt deze misschien aan te vechten? Een voorbeeld van op goede gronden aanvechten van duidelijk omschreven cursusmateriaal is te vinden in het oordeel van Alfred North Whitehead dat een groot deel van de cursusstof van bijvoorbeeld wiskunde bestaat uit inert matter, in gewoon Nederlands is dat ballast. Ik moet nog onderzoeken welke mogelijke gevolgen een en ander heeft als het gaat om het betwisten van de kwaliteit van het ontwerp van afzonderlijke toetsvragen. Het algemene argument is dat een docent, een leerboek, of een opleiding ten onrechte bepaalde inhouden kunnen hebben gekozen, en/of andere inhouden weggelaten. De keuze van inhouden heeft hier natuurlijk alles te maken met een bepaalde onderwijsopvatting waarop 'de duidelijk omschreven stof' stoelt, en, zoals met zoveel dingen in het leven, zo'n opvatting kan aanvechtbaar zijn, is dat in de regel ook, dat hoort ook zo te zijn. Het wordt spannend wanneer de aanvechter aannemelijk kan maken dat er sprake is van didactisch onbehoorlijk handelen, dus van benadeling van studenten, bijvoorbeeld tot uiting komend bij een afsluitende toets. Als het even kan laten we het niet op individuele procedures aankomen, natuurlijk, maar stichten we een onderzoekinstituut dat zich diepgaand met de betreffende kwesties gaat bezig houden; in ons land hebben we zo bijvoorbeeld het Freudenthal Instituut. Maar instituut of niet, het beginsel blijft dat 'de duidelijk omschreven omvang van de stof' jammerlijk tekort kan schieten wanneer deze tegen het licht wordt gehouden van de wet, de missie van de instelling, of het wetenschappelijk gesprek over de tekortkomingen van een bepaalde didactiek. Dus ook op deze wijze zijn de bevoegdheden van docenten beperkt, in dit geval op een heel interessante manier omdat als het ware de strengere wiskunde in een gegeven cursus de vijand van een betere didactiek kan zijn: de valkuil is dat docenten het in de ogen van hun academische vakgenoten dus beter kunnen doen, en tegelijk didactisch kunnen falen. De Amerikaanse New Math is hierop gestruikeld. Hans Freudenthal heeft het beter uitgelegd (en geholpen in Nederland die New Math buiten de deur te houden), en hoewel hij ook dat niet empirisch heeft onderzocht, is het ongetwijfeld een verdedigbare stellingname.


8.2 Punten om op te controleren


juni 2008. Controleren is een complex begrip. Een proefafname is een controle. Intervisie is een controle. Nog weer een andere benadering is de logische analyse van de ontworpen vragen en hun mogelijke antwoorden, waarbij het idee is dat deugdelijke vragen op zijn minst ook logisch consistent moeten zijn. In paragraaf 2.6 is een korte uiteenzetting van het mogelijke belang van een logische benadering gegeven. In een afzonderlijke logica.htm pagina ga ik proberen materiaal te verzamelen en duidelijke voorbeelden uit te werken. Los daarvan zijn een aantal van de in dit hoofdstuk 8 behandelde thema's en punten ook al van logische aard; in onze Westerse cultuur is het nu eenmaal onmogelijk om logica geheel uit de weg te gaan.


8.3 Onafhankelijke beoordeling van kwaliteit




1.4 literatuur met annotaties


Patricia A. Alexander and Judith E. Judy (1988). The interaction of domain-specific and strategic knowledge in academic performance. Review of Educational Research, 58, 375-404.

Carl Bereiter (2002a). Education and Mind in the Knowledge Age. Erlbaum. questia

Carl Bereiter (2002b). Design research for sustained innovation. Cognitive Studies, Bulletin of the Japanese Cognitive Science Society, 9, 321-327. pdf

Henk van Berkel en Anneke Bax (Red.) (2006). Toetsen in het hoger onderwijs. Houten: Bohn Stafleu van Loghum.

John H. Bishop (2002). What is the appropriate role for student achievement standards? (pdf of the chapter) In Yolanda K. Kodrzycki Education in the 21st century. Meeting the challenges of a changing world. Conference proceeedings. Federal Reserve Bank of Boston. pdf of the book, appr 320 pp.

Jerrell L. Cassady and Betty E. Gridley (2005). The effects of online formative and summative assessment on test anxiety and performance. The Journal of Technology, Learning, and Assessment, 4, number 1. Available from http://escholarship.bc.edu/jtla/.

Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. proefschrift Leiden. Zwolle: Tjeenk Willink.

James S. Coleman (1990). Foundations of social theory. London: Belknap. contents

Eduard Jan Dijksterhuis (1950). De mechanisering van het wereldbeeld. Amsterdam: Meulenhoff.

A. D. de Groot (1946). Het denken van den schaker. Een experimenteel psychologische studie. Amsterdam: Noord-Hollandsche Uitgevers maatschappij. dbnl

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376.

A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Den Haag: Mouton.

P. Hartog and E. Rhodes (1936). The marks of examiners. London: Macmillan.

Carl G. Hempel (1952/1972). Fundamentals of concept formation in empirical science. London: The University Of Chicago Press

Deanna Kuhn (1991). The skills of argument. Cambridge University Press.

Deanna Kuhn (2005). Education for thinking. Harvard University Press. excerpt

Deanna Kuhn and Maria Pease (2008). What needs to develop in the development of inquiry skills? Cognition and instruction, 26, 512-559.

Keith Lehrer (1990). Theory of knowledge. Routledge.

Jose P. Mestre (Ed.) (2005). Transfer of learning: from a modern multidisciplinary perspective. San Francisco: Sage. commentaar en samenvatting

Steven J. Osterlind (1997). Constructing test items: multiple-choice, constructed-response, performance, and other formats. Kluwer.

C. M. van Putten (2005). Strategiegebruik bij het oplossen van deelsommen. In Jan Janssen, Frank van der Schoot en Bas Hemker: Balans [32] van het reken-wiskundeonderwijs aan het einde van de basisschool. 4. Uitkomsten van de vierde peiling in 2004. (125-131). Cito. pdf

James D. Slotta and Micheline T. H. Chi (2006). Helping students understand challenging topics in science through ontology training. Cognitive Science, 24, 261-289. pdf

Verschaffel, Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

D. J. Wolfson (2005). Transactie als bestuurlijke venieuwing. Op zoek naar samenhang in beleid en uitvoering. WRR Wetenschappelijke Raad voor het Regeringsbeleid. Amsterdam: Amsterdam University Press. www.wrr.nl/pdfdocumenten/V9.pdf [wrr-website is van slag, 2-2008].




1.4 meer literatuur


Lorin W. Anderson and D. R. Kratwohl (Eds) (2001). A taxonomy for learning, teaching, and assessing. A revision of Bloom's taxonomy of educational objectives. New York: Addison-Wesley.


Isaac I. Bejar, René R. Lawless, Mary E. Morley, Michael E. Wagner, Randy E. Bennett, and Javier Revuelta (2003). A feasibility study of on-the-fly item generation in adaptive testing. The Journal of Technology, Learning, and Assessment, 2, number 3. pdf.

W. Bender (****). Toetsen in het hoger onderwijs. Van Gorcum.

John B. Carroll (1987). New perspectives in the analysis of abilities. In Royce R. Ronning, Jane C. Conoley, John A. Glover, and Joseph C. Witt (Eds.) (1987). The influence of cognitive psychology on testing. Buros-Nebraska Symposium on Measurement and Testing. Volume 3 (pp. 267-84).

Patricia W. Cheng (1997). From Covariation to Causation: A Causal Power Theory. Psychological Review, 104, 367-405. pdf

Sabine Dierick, Filip Dochy, Gerard Van de Watering (2001). Assessment in het hoger onderwijs. Over de implicaties van nieuwe toetsvormen voor de edumetrie. Tijdschrift voor Hoger Onderwijs, 18.

Ginette Delandshere (2002). Assessment as inquiry. Teachers College Record, 104, 1461-1484. pdf

Marianne Elshout-Mohr en Ron Oostdam (2001). Assessment van competenties in een dynamisch curriculum. Amsterdam: SCO-Kohnstamm Instituut. isbn 9068136569, 147 pp.

Thomas M. Haladyna (1999 2nd). Developing and validating multiple-choice test items. Erlbaum. [2004 3rd]

Hartmut von Hentig (1980). Die Krise des Abiturs und eine Alternative. Stuttgart, Ernst Klett.

Willem K. B. Hofstee (1999). Principes van beoordeling: Methodiek en ethiek van selectie, examinering en evaluatie. Lisse: Swets & Zeitlinger.


Frank C. Keil (2006). Explanation and understanding. Annual Review of Psycology, 57, 227-254. pdf

Deanna Kuhn (2005). Education for thinking. Harvard University Press. excerpt

Yunnwen Lien and Patricia W. Cheng (2000). Distinguishing Genuine from Spurious Causes: A Coherence Hypothesis. Cognitive Psychology, 40, 87-137. pdf

Jason Millman and Jennifer Greene (1989). The specification and development of tests of achievement and ability. In Linn, p. 335-366.

Robert J. Mislevy and Geneva D. Haertel (2006 draft). Implications of evidence-centered design for educational testing. PADI Technical Report 17. pdf

Robert J. Mislevy, Linda S. Steinberg and Russell G. Almond (2003). On the structure of educational assessments. CSE Technical Report 597 pdf

Richard E. Nisbett (Ed) (1993). Rules for reasoning. Erlbaum.

Charles M. Reigeluth (ed.) (1983). Instructional-design theories and models. Overview of their current status. Hillsdale, New Jersey: Lawrence Erlbaum.

Charles M. Reigeluth (ed.) (1987). Instructional theories in action. Lessons illustrating selected theories and models. Hillsdale, New Jersey: Lawrence Erlbaum.

Gale Roid and Tom Haladyna (1980). The emergence of an item-writing technology. Review of Educatonal Research, 50, 293-314.

Barbara J. Shapiro (2000). A culture of fact. England, 1550-1720. Ithaca: Cornell University Press.

Valerie J. Shute (2008). Focus on formative feedback. Review of Educational Research, 78, 153-189. ETS Research Report 2007

J. van Westrhenen (1977). De toetsing van onderwijsdoelen. Een empirische studie naar de functie van begrippen en begrippenstructuren in het onderwijsleerproces. Groningen: Wolters-Noordhoff.





2 literatuur met annotaties


Willem Bartjens (1604/1779). De vernieuwde cyfferinge van Mr. Willem Bartjens, waar uyt men meest alle de grond-regulen van de reeken-konst leeren kan. By Joannes Kannewet.

N. D. Belnap, Jr., and T. B. Steel, Jr. (1976). The logic of questions and answers. London: Yale University Press.

Randy Elliott Bennett and William C. Ward (Eds) (1993). Construction versus choice in cognitive measurement. Issues in constructed response, performance testing, and portfolio assessment. Hillsdale, New Jersey: Lawrence Erlbaum. questia

Benjamin S. Bloom, J. Thomas Hastings and George F. Madaus (Eds) (1971). Handbook on formative and summative evaluation of student learning. London: McGraw-Hill.

K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf

Hans F. M. Crombag, Jerry G. Gaff, and Ten M. Chang (1975). Study behavior and academic performance. Tijdschrift voor Onderwijsresearch, 1, 3-14.

Paul Drijvers (2006). Context, abstractie en vaardigheid in schoolalgebra. NAW, 5/7. pdf

A. D. de Groot (1961). Methodologie. Grondslagen van onderzoek en denken in de gedragswetenschappen. Den Haag: Mouton. dbnl

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376.html

A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Den Haag, Mouton.

Thomas M. Haladyna (1999 2nd). Developing and validating multiple-choice test items. Erlbaum. (2004 3rd)

Thomas Haladyna, Steven M. Downing, and Michael C. Rodriguez (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15, 309-334. http://depts.washington.edu/currmang/Toolsforteaching/MCItemWritingGuidelinesJAME.pdf [gebroken link? 1-2009]

Willem K. B. Hofstee (1985). Beoordeling van de kwaliteit van wetenschappelijk onderzoek: fundamentele kwesties. In Becker, H. A., en A. F. J. van Raan: Kwaliteit in de wetenschap. Een meetbaar begrip? (p. 71-86). Leiden: DSWO-Press.

Marjolein Kool (1999). Die conste vanden getale. Een studie over Nederlandstalige rekenboeken uit de vijftiende en zestiende eeuw, met een glossarium van rekenkundige termen. Hilversum: Verloren. html audio

Maria Kozhevnikov, Michael A. Motes and Mary Hegarty (2007). Spatial visualization in physics problem solving. Cognitive Science, 31, 549-579.

Deanna Kuhn (2005). Education for thinking (2005). Harvard University Press. excerpt.

R. F. van Naerssen (1969). Meer gecompliceerde scoringswijzen. In De Groot en Van Naerssen, Studietoetsen, construeren, afnemen, analyseren (p. 259-271). Den Haag, Mouton.

Sharon L. Nichols and David C. Berliner (2005). The Inevitable Corruption of Indicators and Educators Through High-Stakes Testing. Education Policy Studies Laboratory, Arizona State University pdf (180 pp.).

Jody Paul (not dated, 1994?). Improving educational assessment by incorporating confidence measurement, analysis of self-awareness, and performance evaluation. The Computer-Based Alternative Assessment (CBAA) Project. pdf

W. James Popham (2005). America's 'failing' schools. How parents and teachers can cope with No Child Left Behind. Routledge.

Henry L. Roediger III and Elizabeth J. Marsh (2005). The positive and negative consequences of multiple-choice testing. Journal of Experimental Psychology, Learning, Memory, and Cognition, 31, 1155-1159. pdf

Gale H. Roid and Thomas M. Haladyna (1982). A technology for test-item writing. London: Academic Press.

Edward L. Thorndike (1924). The psychology of arithmetic. New York: The Macmillan Company.

Robert L. Thorndike (Ed.) (1971). Educational measurement. Second edition. Washington D.C.: American Council on Education.

Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

Frits E. Zegers (1989). Het meten van overeenstemming. Nederlands Tijdschrift voor de Psychologie, 44, 145-156.


The Journal of Technology, Learning, and Assessment.


IMS Question and Test Interoperability Overview. html


SketchUp, een vrij 3D tekenprogramma van Google


TIMMS 2007 Trends in International Mathematics and Science Study pdf 3Mb, example mathematics items pdf, example science items pdf


CAA Centre Computer-asisted assessment in higher education site, handleiding ontwerpen keuzetoetsen pdf



European Union Science Olympiad voorbeeldvragen html





meer literatuur hoofdstuk 2 Vraagsoorten


Robyn Arianrhod (2005). Einstein's Heroes: Imagining the World Through the Language of Mathematics. Oxford University Press.

Francis Y. Edgeworth (1888). The statistics of examinations. Journal of the Royal Statistical Society, 51, 599-635.

Donald Laming (2003). Marking university examinations: some lessons from psychophysics. Psychology Learning and Teaching, 3, 89-96 pdf

Frederick M. Lord and Melvin R. Novick (1968). Statistical theories of mental test scores. Addison-Wesley.

Gün R. Semin (2000). Language as a cognitive and behavioral structuring resource: question-answer exchanges. In Wolfgang Stroebe and Miles Hewstone: European review of social psychology. Volume 11 ( p. 75-104). Wiley.

Ben Wilbrink (1992). Casus keuzevragen ontwerpen algemene taalwetenschap. pdf

 


geschiedenis


De geschiedenis van ideeën over en gebruik van toetsvragen is van belang om de eenvoudige reden dat toevallig historisch gegroeide methoden makkelijk worden geheiligd als een soort bewezen canon, terwijl er van enig 'bewijs' in verre verten geen sprake is. Ik zal er ooit afzonderlijk aandacht aan besteden. Hieronder vast, min of meer toevallig op basis van wat in mijn eigen bibliotheek aanwezig is, een voorschot.

beroemde middeleeuwse vragen (ca 1100) van een leerling aan zijn meester

"Dit is die Dietsche Lucidarius, hoe die clerc den meester vraecht ende di meester antwert."

Nolanda Klunder (2005). Lucidarius. De Middelnederlandse Lucidarius-teksten en hun relatie tot de Europese traditie. Prometheus.

Daniel Starch (1916). Educational measurements. New York: Macmillan.

J. Duursma en L. Lammerse (1928). Natuurkunde I. Arnhem: Ten Brink's Uitgeverij. met antwoordenboekje.

Frances M. Austin (1949). The art of questioning in the classroom. London: University of London Press.

J. R. Gerberich (1956). Specimen objective test items. A guide to achievement test construction. Longmans.

John R. Bormuth (1970). On the theory of achievement test items. Chicago: University of Chicago Press.


meer literatuur hoofdstuk 2.6 Validiteit


John R. Anderson (1988). The expert module. In Martha C. Polson and J. Jeffrey Richardson (Eds) (1988). Foundations of intelligent tutoring systems (21-54). Erlbaum. [books.google questia.com]

Robyn Arianrhod (2005). Einstein's Heroes: Imagining the World Through the Language of Mathematics. Oxford University Press.

Horace Barlow, Colin Blakemore and Miranda Weston-Smith (Eds) (1990). Images and understanding. Thoughts about images. Ideas about understanding. Cambridge University Press.

Janice Glasgow, N. Hari Narayanan, and B. Chandrasekaran (Eds) (1995). Diagrammatic reasoning. Cognitive and computational perspectives. Cambridge, Massachusetts: MIT Press.

Bert Meuffels (2004). Cijfergeven over de grens. Examens, 1, maart, 15-17.

Robert Linn, Eva L. Baker and Stephen B. Dunbar (1991). Complex, performance-based assessment: Expectatons and validation criteria. CSE Technical Report 331 pdf, Educational Researcher, 20(8), 15-21.

Stella Baruk (1998). L'âge du capitaine. De l'erreur en mathématiques. [Ik heb dit boek nog niet bemachtigd]

Randy Elliot Bennett (2004). How the Internet Will Help Large-Scale Assessment Reinvent Itself. In Fran C. Blumberg, Howard T. Everson and Mitchell Rabinowitz: The Design of Instruction and Evaluation: Affordances of Using Media and Technology. Erlbaum. questia

Marco de Boni (2004). Relevance in open domain question answering: Theoretical framework and application. Thesis. University of York, Department of Computer Science. pdf 1.4Mb

Albert Burgos (2004). Guessing and gambling. Economics Bulletin, 4, No. 4 pp. 1-10. http://www.economicsbulletin.com/2004/volume4/EB-04D80001A.pdf

Michelene T. H. Chi (1997). Quantifying Qualitative Analyses of Verbal Data: a Practical Guide. Journal of the Learning Sciences, 6, 271-316. questia or pdf

M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. Proefschrift R.U. Leiden. Zwolle: Tjeenk Willink.

Hans F. M. Crombag (1981). Over het inrichten van leersituaties, in: A. I. Vroeijenstein, Kwaliteitsverbetering hoger onderwijs. Voorburg: CBOWO/Stichting Nationaal Congres.

Stillman Drake (1990) Galileo: Pioneer scientist. University of Toronto Press.

Yeap Ban Har, Ho Siew Yin, Berinderjeet Kaur & Lee Ngan Hoe (2002?). Children making sense during word problem solving. pdf paper.

Willem K. B. Hofstee (1983). Beoordelingen van subsidie-aanvragen voor onderwijsresearch: een psychometrische evaluatie. Tijdschrift voor Onderwijsresearch, 8, 273-283.

Jabornegg (2004). Der Portfolio-Ansatz in der Schülerbeurteilung der USA und seine Bedeutung für die Schüerbeurteilung in der neuen kaufmännischen Grundbildung (NKG). Dissertation pdf

Kempen, G., & van Wijk, C. (1981). Hoe uit opstellen een objektieve index voor formuleervaardigheid afgeleid kan worden. Taalbeh. 3, 32-44.p class='lit'> Leanne R. Ketterlin-Geller (2005). Knowing what all students know: Procedures for developing universal design for assessment. The Journal of Technology, Learning, and Assessment, 4. pdf

R. Eric Landrum, Jeffrey R. Cashin and Kristina S. Theis (1993). More evidence in favor of three-option multiple-choice tests. Educational and Psychological Measurement, 53, 771-778. pdf

A. Leen (1961). De ontwikkeling van het rekenonderwijs op de lagere school in de 19e en het begin van de 20ste eeuw. Groningen; Wolters. Proefschrift Vrije Universiteit Amsterdam.

Frederick M. Lord (1964). The effect of random guessing on test validity. Educational and Psychological Measurement, 24, 745-747. [Deze jaargang in Leiden niet aanwezig. Ik zoek nog een kopie]

Dick Meijer, Daniela Fasoglio (2006). Handreiking schoolexamen moderne vreemde talen havo/vwo Duits, Engels, Frans Voortgezet onderwijs. Herziening examenprogramma's havo/vwo . SLO. pdf

H. De Neve en P. J. Janssen (1992). Succesvol examineren in het hoger onderwijs. Leuven: Acco.

Martin Nuy (1994). Toetsen voor cijfers: proefwerken, schoolonderzoeken, tentamens. Nijkerk: Intro. Mooi cursusboek, kort, helder, overzichtelijk, veel voorbeelden, vooral over het ontwerpen van toetsvragen.

W. James Popham (1981). Modern educational measurement. London: Prentice-Hall, 1981.

Michael C. Rodriguez (2003). Construct equivalence of multiple-choice and constructed-response items: A random effects synthesis of correlations. Journal of Educational Measurement, 40, 163-184. [moet ik nog bestuderen]

Kathleen Scalise and Bernard Gifford (2006). Computer-Based Assessment in E-Learning: A Framework for Constructing “Intermediate Constraint” Questions and Tasks for Technology Platforms. Journal of Technology, Learning, and Assessment, 4(6). Retrieved [date] from http://www.jtla.org

Tamara van Schilt-Mol (2007). Differential Item Functioning en Itembias in de Cito-Eindtoets Basisonderwijs. Oorzaken van onbedoelde moeilijkheden in toetsopgaven voor leerlingen van Turkse en Marokkaanse afkomst. Dissertation Tilburg University, commercial edition: Uitgeverij Aksant

Lambert Schuwirth (2006). Toetsen met korte casussen. In Henk van Berkel en Anneke Bax: Toetsen in het hoger onderwijs (p. 127-143). Houten: Bohn Stafleu van Loghum.

Lambert W. T. Schuwirth and Cees P. M. van der Vleuten (2003). Written assessment. BMJ 2003;326:643-645 (22 March). html

Herbert A. Simon (1976). The understanding process: problem isomorphs. Cognitive Psychology, 8, 165-190. Reprinted in Herbert A. Simon: Models of thought. New Haven: Yale University Press.

Guillermo Solano-Flores, Richard J. Shavelson, and Steven A. Schneider (2001). Expanding the Notion of Assessment Shell: From Task Development Tool to Instrument for Guiding the Process of Science Assessment Development. Revista Electrónica de Investigación Educativa, 3. pdf

C. P. Sparks (1980). Open versus secure testing. Personnel Psychology, 33, 1-2.

Janine Swaak and Ton de Jong (1996). Measuring intuitive knowledge in science: The development of the what-if test. Studies in Educational Evaluation, 22, 341-362. pdf

D. Tempelaar en D. N. M. de Gruijter (2004). Computertoetsing bij de Emerge-instellingen. Eindrapport deelproject OP4.3; versie 7.131204. Emerge. pdf

Denny Borsboom (2003). Conceptual issues in psychological measurement. Dissertation University of Amsterdam.

Denny Borsboom (2005). Measuring the mind. Conceptual issues in contemporary psychometrics. Cambridge University Press.

Denny Borsboom, Jaap van Heerden and Gideon J. Mellenbergh (2003). Validity and truth. In: H. Yanai, A. Okada, K. Shigemasu, Y. Kano and J. J. Meulman: ), New developments in psychometrics. Proceedings of the International Meeting of the Psychometric Society 2001 (pp. 321-328). Tokyo: Springer. pdf

Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden (2002). Functional thought experiments. Synthese, 130, 379-387. pdf

Teun Koetsier (1991). Lakatos' philosophy of mathematics. A historical approach. North-Holland. Studies in the History and Philosophy of Mathematics, volume 3.

Marjolein Kool (1999). Die conste vanden getale. Een studie over Nederlandstalige rekenboeken uit de vijftiende en zestiende eeuw, met een glossarium van rekenkundige termen. Hilversum: Verloren. html audio

Frederick M. Lord and Melvin R. Novick (1968). Statistical theories of mental test scores. Addison-Wesley.

Craig R. M. McKenzie, John T. Wixted, David C. Noelle and Gohar Gyurjyan (2001). Relation between confidence in yes-no and forced-choice tasks. Journal of Experimental Psychology: General, 130, 140-155. pdf

Robert Sternberg (2008). Applying psychological theories to educational practice. American Educational Research Journal, 45, 150-165. abstract

Robert Sternberg (2003). What is an 'expert student?' Educational Researcher, 32, #8, 5-9.

M. Norton Wise (Ed.) (1995). The values of precision. Princeton University Press. (ao.: Andrea Rusnock: Quantification, Precision, and Accuracy: Determinations of Population in the Ancien Regime - Ken Alder: A Revolution to Measure: The Political Economy of the Metric System in France - Kathryn M. Olesko: The Meaning of Precision: The Exact Sensibility in Early Nineteenth-Century Germany - Simon Schaffer: Accurate measurement is an English science - Andrew Warwick: The Laboratory of Theory or What's Exact about the Exact Sciences?)

Ben Wilbrink (2004). Toetsopvattingen van docenten. Concept html


meer literatuur hoofdstuk 3 Leerstofinventarisatie


M. David Merrill and Richard C. Boutwell: Instructional development: methodology and research, F. N. Kerlinger (Ed) (1973). Review of research in education volume 1. Itasca, Illinois: F.E. Peacock Publishers. (95-129)

Peter Achinstein (1968). Concepts of science. A philosophical analysis. Baltimore: The Johns Hopkins Press.