Oorspronkelijke uitgave 'Toetsvragen schrijven' 1983 Utrecht: Het Spectrum, Aula 809, Onderwijskundige Reeks voor het Hoger Onderwijs ISBN 90-274-6674-0, nu in publiek domein, auteursrechten B. Wilbrink. Onderstaande tekst is een sinds 2006 in bewerking zijnde versie. Voor de oorspronkelijke 1983 tekst zie www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf.

Toetsvragen ontwerpen.
werk-aantekeningen en meer literatuur

Handreiking bij het maken van toetsvragen over de leerstof

Inhoud—Voorwoord—1. Inleiding

Ben Wilbrink

Bij deze digitale versie

augustus 2008
Het actualiseren van de tekst uit 1983 heeft meer om het lijf dan ik in 2006 kon voorzien. De onderstaande tekst is daarom nu al weer verouderd, en zal ik binnenkort proberen te actualiseren naar de ondertussen geboekte vordering.

augustus 2008
De bijzondere ontwikkeling van het begrip validiteit in paragraaf 2.6 zal er ook toe leiden dat het theoretisch kader belangrijk zal opschuiven van de nu nog min of meer toetsspecifieke beschouwing naar een meer algemene theoretische onderbouwing. Dat heeft alles te maken met het enorme gewicht dat de traditie heeft in het onderwijsveld, dus ook waar het gaat om beoordelen en examineren. Specifieke disciplines die dat beoordelen en examineren tot onderwerp hebben, takken van de psychometrie zeg maar, gaan al evenzeer gebukt onder dat dode gewicht van de traditie omdat zij deze stilzwijgend als een gegeven beschouwen. Daardoor ontstaat de zorgelijke situatie dat nogal wat onderzoek dat in het onderwijs wordt gedaan juist bevestigend werkt naar al die tradities toe. Dat is zorgelijk omdat het kan leiden tot de misvatting dat de resultaten van dergelijk onderzoek leiden tot inzichten die evidence based zouden zijn, quod non.
Ik geef een voorbeeld. Historisch gezien spelen door leerlingen gemaakte fouten een hoofdrol bij het beoordelen van prestaties. En dat doen ze dus nog steeds, zelfs in de evident absurde vorm bij keuzetoetsen die zo moeilijk mogelijk zijn ontworpen (op basis van het onbegrepen adagium dat toetsvragen niet te makkelijk zouden mogen zijn). Toch is mij geen goede analyse van het hoe en waarom van dit benadrukken van fouten in het onderwijs bekend. Ik zou eens moeten zoeken in literatuur over kennisopvattingen van docenten en onderzoekers, maar verwacht daar op voorhand heel weinig van. Hoe kom ik op deze vraagstelling over opvattingen over fouten? Ik lees in een biografie van Christiaan Huygens dat hij al in het begin van zijn natuurwetenschappelijke onderzoekingen stuit op belangrijke fouten in het werk van onder andere Descartes, in dit geval over kinematica (zoals dat later zou gaan heten). Dat roept de vraag op: hoe algemeen komt het eigenlijk voor dat er in wetenschappelijk werk domweg belangrijke fouten worden gepubliceerd? Komt dat niet veel vaker voor dan we geneigd zijn te denken? Het is een belangrijke vraag, omdat in het onderwijs de impliciete kennisopvatting lijkt te zijn dat het onderwijs er is om het maken van fouten af te leren. En dat examens er zijn om het succes daarvan te controleren. Als in de wereld van de grote mensen, in academia, zou blijken dat het maken van fouten eerder regel dan uitzondering is, hoe gaan we dan om met zo'n afgrond die gaapt tussen onderwijs en praktijk? Concreet: onlangs werd bekend gemaakt dat een investering van tachtig miljoen euro in een ICT-project voor o.a. het UWV in een klap is afgeschreven omdat het project was vastgelopen. Hoeveel fouten zouden hier opgestapeld liggen? Hebben we dan nog steeds het lef om leerlingen af te rekenen op fouten, in plaats van op wat ze wèl kunnen? Welke consequenties heeft dit voor de ontwerper van toetsvragen, van examens, van onderwijs?

In de literatuur over toetsen en testen zijn vanaf dag nul, zeg de publicatie van Thorndike's (1904) boek over testen, perverse opvattingen aanwezig over het karakter van deze instrumenten als meetinstrumenten. Michell (1999 ×) behandelt deze problematiek fundamenteel, maar gaat voorbij aan de pragmatiek van de toetserij in het onderwijs. Ik kan nog niet overzien tot welke gevolgen dit leidt voor een ontwerptechnologie voor toetsvragen. Maar een specifieke moeilijkheid op dit terrein is al wel duidelijk, en een publiek geheim: er zijn verschillende wegen waarlangs het mogelijk is om tot goede prestaties te komen, gegeven dat de toetsen valide zijn. Afgezien van toevalligheden, waarover hierbeneden meer, kan dezelfde prestatie zijn bereikt door vooral harder dan anderen te werken (motivatie, tijdbesteding), door vooral intelligenter dan anderen te zijn (talent, een bonus van een nog kort leven lang intellectueel gemotiveerd te zijn), door vooral meer intellectuele bagage mee te brengen dan waar anderen over beschikken (door eerdere betere prestaties, de al genoemde bonus, of gewoon ouder te zijn), door de voorbereiding beter te plannen dan anderen doen (minder uitstelgedrag, meer gedisciplineerde studiemethode), of met frauduleuze praktijken van studenten zelf of van anderen (Hofstee, 1999). Kortom, de stelling dat een toets iets meet blijkt heel complex te zijn, want hij meet tegelijk van alles en nog wat. Strikt genomen is voor de bewijsvoering wat toetsen meten de methode van conjoint measurement nodig (zie bijvoorbeeld Michell, o.c. laatste hoofdstuk), en zo'n bewijsvoering is mij (nog) niet bekend. Mail mij als u een publicatie kent waarin zoiets is uitgevoerd. Nee, padanalyse (zoals in Tromp en Wilbrink, 1977 html), of structural equation modelling is echt iets anders. Hoe dat ook zij, en los van de vraag of en wat een toets meet, is het wel duidelijk dat al naar gelang het gekozen ontwerp van toetsvragen, bepaalde routes naar een goed toetsresultaat een voorsprong kunnen krijgen, en andere een handicap. Een cynisch voorbeeld van het laatste is dat studenten die bepaald dieper op de stof ingaan dan bij de toets aan de orde is, daarvoor straf kunnen krijgen, wat uit empirisch onderzoek een niet ongebruikelijke uitkomst is. Dat is verspilling in het kwadraat van de tijd van de student.

Joel Michell (1999). Measurement in psychology. A critical history of a methodological concept. Cambridge University Press. questia

W. K. B. Hofstee (1999). Ritualisering van het onderwijs? Tijdschrift voor Hoger Onderwijs, 17, 20-29. http://www.tvho-online.nl/publish/articles/000191/article.htm [deze site gaat verhuizen naar Boom Uitgevers Den Haag, 1-2009]

Dick Tromp en Ben Wilbrink (1977). Het meten van studietijd. In Congresboek Onderwijs Research Dagen 1977, p. 186-189. html

Dit is een serieuze methode, maar vooral ook een heuristisch model voor de verschillende manieren waarop studieresultaten tot stand kunnen komen, of verschillen tussen studieresultaten van meerdere leerlingen.

Is het voorgaande niet eigenlijk een pleidooi voor wat in de literatuur construct validity heet? Nee, die constructieve validiteit, de term zegt het al, is een wat gekunstelde poging om psychologische tests een betere theoretische status te geven, als het ware door ze te koppelen aan theorieën van de buren. Borsboom e.a. (2004) gaan er uitvoerig op in, ik verwijs daarnaar. Beoordelen in het onderwijs moet valide zijn voor waar het in het onderwijs om gaat, en dat is iets anders dan dat deze oordelen samen moeten hangen met intellectuele vaardigheden van de leerlingen. Dat laatste doen ze altijd wel, en kan daarom nooit een voldoende onderbouwing zijn voor de geldigheid van oordelen.

[December 2006] Het bijzondere van het werk van Deanna Kuhn, waar zij zelf nog aan voorbij lijkt te gaan, is dat het gaat om een onderwijscultuur en in het bijzonder om onderwijstechnieken die het mogelijk maken om gericht te werken aan de omslag van oude naar nieuwe kennis waarvan hierboven al sprake was. De relevante literatuur: conceptual change, een fenomeen dat primair is ten opzichte van de omslag in inzichten van nieuweling naar expert. Die combinatie van leren denken met goed te beschrijven inhoudelijke domeinen zoals bijvoorbeeld de natuurkunde, zal ongetwijfeld tot bijzonder krachtige en gefocuste—bv. op onderzoek naar algemene misvattingen en folk-science-opvattingen—didactiek leiden, die in handen van adequaat opgeleide leraren kleine wondertjes in het onderwijs kan bewerkstelligen. Dat is dus een ontwikkeling die in zekere zin een tegenstelling is tot het ongebonden bezig zijn dat in stromingen zoals competentiegericht leren en het nieuwe leren is te vinden.

Het gaat nu om een bijzondere verbinding van een paar lijnen van onderzoek, waarvoor ik literatuur verzamel en bespreek in onder andere physicseducation.htm en meno.htm. De Meno-pagina—Meno was de man op zoek naar kennis die hij nog niet had, en die niet zou kunnen vinden omdat hij niet wist waar hij naar op zoek was—moet antwoorden geven op de prangende vraag hoe het mogelijk is dat studenten überhaupt hun inzicht in de wereld veranderen, en welke instructieve benaderingen daarbij onder welke condities behulpzaam zijn. Een aantal onderzoekslijnen in het natuurkundeonderwijs—die expliciet de folk physics van de student aanvatten—laten in empirisch onderzoek zien welke van die technieken inderdaad werken (o.a., waarover in de volgende hoofdstukken meer: Hestenes; Chi en Slotta). Vanuit deze conceptie over wat adequaat onderwijs is ontstaat een nieuwe benadering van de problematiek hoe adequate toetsvragen te ontwerpen: dat ontwerp moet immers geworteld zijn in deze onderwijsvisie. Het ontwerpen van toetsvragen krijgt kenmerken van het ontwerpen van empirisch onderzoek, op zijn minst van de daaraan verbonden dataverzameling. Bij de herziening van dit boek werk ik deze verdiepte onderwijsvisie geleidelijk in de opbouw van de tekst in, omdat het ondenkbaar is op dit punt een snelle inhaalslag te kunnen maken. De moeilijkheid is immers ook dat dit boek een algemene strekking heeft, en daarom voor de opgave staat om verworvenheden in een specifiek veld, zoals het onderwijs in de natuurkunde, te veralgemeniseren. Voor dat laatste is het nodig specifieke verworvenheden in het onderwijs in de natuurkunde onder een algemene cognitief-psychologische noemer te brengen, en vandaaruit analoog materiaal in andere disciplines op te sporen, eventueel zelf te construeren. Mondt dit uit in de naieve idee van competentiegericht onderwijs? Integendeel, die competenties in het managementjargon zijn a-theoretische begrippen, zij dekken geen enkele theorie, en kunnen onmogelijk de basis zijn voor valide toetsen.

Dit boek, en zeker de herziening, is vooral een avontuur waarin grenzen van bekend terrein gretig worden overschreden. Natuurlijk blijven de talrijke eenvoudige aanwijzingen overeind, over helderheid van taal, weglaten van derde en zeker vierde alternatieven bij keuzevragen. Daarnaast ook onverwachte of minder bekende mogelijkheden voor de ontwerper. Een voorbeeld, dat nog verdere uitwerking in de volgende hoofdstukken nodig heeft, is het volgende.

De traditionele vorm voor toetsvragen is dat deze gesloten zijn in de zin dat er tenminste een goed antwoord op de gestelde vraag mogelijk is. En niet meer dan dat. Dus bij korte open vragen en keuzevragen is het niet gebruikelijk om de leerling ook een toelichting op het gegeven antwoord te laten geven. Op dit punt is een radicaal andere ontwerpfilosofie mogelijk: zonder te weten wat de leerling heeft bewogen tot het geven van juist dit antwoord, is het lastig om het gegeven antwoord te waarderen, en is het dus ook niet helemaal duidelijk hoe de vraag bij de leerling is overgekomen. Voor een ontwerper van toetsvragen is dat niet prettig. Voor gebruikers van de cognitieve taxonomie van Bloom is het bijvoorbeeld helemaal niet vanzelfsprekend dat de antwoorden op 'begripsvragen' op basis van 'begrip' zijn gegeven. De gedachte is nu dat bij iedere combinatie van vraag en antwoord, ook het waarom van het gegeven antwoord erbij hoort. Vraag daar dus naar. Door dat systematisch te doen, moet de leerling zich altijd rekenschap geven van het hoe en waarom van zijn antwoorden, zij moet zich voortdurend rekenschap geven van het eigen weten. Bij constructieve vragen is dat overigens altijd al tamelijk vanzelfsprekend: de weg waarlangs een opgegeven probleem wordt opgelost, hoort typisch tot het antwoord op de vraag. Welnu, pas dat ook toe op korte open vragen en keuzevragen. De noemer waar dit onder is te vangen, is dat leerlingen moeten begrijpen wat ze doen, en daar blijk van geven. Nota bene: dit is een ander begrijpen dan in de cognitieve taxonomie van Bloom c.s. (1956). Bijkomend voordeeltje: leerlingen krijgen niet meer voortdurend de boodschap dat het vooral de bedoeling is goede antwoorden te weten, en niet waarom die antwoorden goed zijn. Aan het eind van de dag, en na de schoolloopbaan, gaat het immers om dat weten van het waarom. Een uitwerking die waarschijnlijk goed dekt waar ik hier op doel, is te vinden in Understanding by design door Wiggins en McTighe (1998), terwijl een wetenschappelijke onderbouwing en uitwerking van wat het is om tekst—of leerstof—te begrijpen is te vinden in het werk van Robert Sternberg, met name Randi, Grigorenko en Sternberg (2005), dat natuurlijk in hoofdstuk 6 over vragen bij tekst aan de orde is.

Antwoorden toelichten, zoals in het direct voorgaande aangestipt, is niet een onderwerp waarover makkelijk onderzoekliteratuur is te vinden. Het is juist in de marge van ander onderzoek dat ik interessante aanwijzingen vind. Zo verwijst Sophian (2008, p. ) bijvoorbeeld naar onderzoek over de effecten van self-explanation, en zij doet dat naar aanleiding van experimenteel onderwijs van breuken waarin het begrijpen van breuken centraal staat, in plaats van het kunnen hanteren van de procedures om met breuken om te gaan. Er moet veel cognitief-psychologisch onderzoek beschikbaar zijn over de effecten van het nadrukkelijk verwoorden van wat je zojuist hebt geleerd en begrepen, op dat begrijpen zelf, en op de wendbaarheid in het gebruik van de zo opgedane kennis, vergeleken met anderen die een meer passieve stijl van leren volgen. Questioning is, meen ik, zo'n onderzoekthema, eind zeventiger jaren: vragen stellen bij tekst, door de lezer van de tekst en niet door de ontwerper van toetsvragen. Het gaat hier om een tweesnijdend zwaard: uitleggen waarom gegeven antwoorden goed zijn maakt het beoordelen van die antwoorden zoveel rijker, en het maakt ook de leerling rijker omdat het nogmaals een gelegenheid is om die kennis beter te begrijpen en te integreren met andere kennis.

Catherine Sophian (2007). The origins of mathematical knowledge in childhood. Lawrence Erlbaum.

M. T. H. Chi (2000). Self-explaining Expository Texts: The dual processes of generating inferences and repairing mental models. In Robert Glaser: Advances in Instructional Psychology 5 (pp. 161-238), Erlbaum. pdf (scan) or questia (text) Judi Randi, Elena L. Grigorenko, R. J. Sternberg: Revisiting Definitions of Reading

Comprehension: Just What Is Reading Comprehension Anyway? In Susan E. Israel, Cathy Collins Block, Kathryn L. Bauserman, Kathryn Kinnucan-Welsch (Eds) (2005). Metacognition in literacy learning : theory, assessment, instruction, and professional development. Erlbaum.

Grant Wiggins and Jay McTighe (1998). Understanding by design. ASCD. sample chapters of 2005 2nd edition

Voorwoord

Een enkel woord nog over aard van deze ontwerpregels. Ik kies voor ontwerpregels die de vragen laten aansluiten bij de aard en de structuur van de leerstof. Nee, dat is te kort door de bocht: ook de aard en structuur van de kennis die de student om te beginnen zelf meebrengt speelt een rol: als die kennis niet als uitgangspunt voor de instructie wordt genomen, kan ze het opnemen van de zo heel andere aangeboden kennis belemmeren. Het in de onderwijskunde gangbare psychologiseren, dat eist dat toetsvragen aansluiten op bepaalde veronderstelde denkprocessen in het hoofd van de student, is fundamenteel iets anders dan wat bedoeld wordt met het als uitgangspunt nemen van de kennis van het gezonde verstand—ook wel folk science genoemd—van de individuele student. Het eerste is de bekende benadering van het onderverdelen van de aangeboden en zo te toetsen leerstof in termen van kennis, inzicht, toepassing, analyse, evaluatie en synthese, kortom de cognitieve taxonomie van Bloom en de zijnen (1956). O zeker, er is recente cognitieve theorie die nauw aansluit bij neurologische modellen en kennis, waar dit boek gebruik van maakt, maar dat heeft werkelijk niets met de bloomiaanse psychologismen te maken. Het tweede is het beschouwen en onderzoeken van kennisstructuren en de manier waarop daar veranderingen in ontstaan, zoals de cognitieve wetenschappen die in de laatste decennia van de vorige eeuw zijn gaan onderzoeken. Dat onderzoek staat dicht bij wat overigens uit wetenschapshistorisch en -filosofisch onderzoek bekend is, waar ook de tekst uit 1983 al aansluiting bij heeft gezocht.

De nadruk op gedrag van studenten is een stap in de goede richting, maar psychologiseert nog steeds. Het psychologische uitgangspunt overheerst in de onderwijskunde, maar wordt wel hier en daar genuanceerd of verlaten (Furst, 1981). Het verrassende is nu dat verschillende eenvoudige—niet omstreden—wijsheden uit de wetenschapsfilosofische hoek heel bruikbare aanknopingspunten bieden. Het gaat dan om de aard en de functie van definities (veel toetsvragen blijken over definities te gaan), het onderscheid tussen observeerbare, abstracte en theoretische begrippen, en dergelijke. Uit de cognitive sciences valt bij dat alles vooral ook te leren hoe het studenten mogelijk is eigen intuïtieve opvattingen in te wisselen tegen de breed geaccepteerde wetenschappelijke kennis die in soms buitengewoon lang en moeizaam onderzoek is verworven. De bedoeling is dat die meta-kennis leidt tot ontwerpregels voor het ontwerpen van toetsvragen die de docent onmiddellijk als adequaat kan herkennen.

... an experience, a very humble experience, is capable of generating and carrying any amount of theory (or intellectual content), but a theory apart from an experience cannot be definitely grasped even as a theory.

John Dewey, in: Democracy and education.

"The principal difficulty that Dewey had in implementing his theory, as he admitted, was that he lacked a philosophy of experience (...). By this I mean that he had neither a metaphor nor a technology through which to make specific his ideas about how people can create something like mathematical knowledge from experience. He did not have a genetic epistemology. Dewey was confident that problem solving was the key to the growth of knowledge, as evidenced by his repeated references to it, but he never explained how problem solving provided the key to intellectual growth, nor how one might actively promote it." (p. 192) Patrick W. Thompson (1985). Experience, problem solving, and learning mathematics: Considerations in developing mathematics curricula. In Edward A. Silver: Teaching and learning mathematical problem solving: Multiple research perspectives. Erlbaum. questia

1 Inleiding

Eind 2006 is de grote lijn voor de herziening van dit boek duidelijk, en daarmee is ook de tekst voor dit eerste hoofdstuk in grote lijnen de definitieve herziene versie. Waar de versie 1983 uitgaat van het gegeven van de leerstof, waarover toetsvragen zijn te ontwerpen, is dat in de herziene versie radicaal opgeschoven naar het gegeven van het leerproces, met daarbij adequate vragen. Alleen uitgaan van de aangeboden leerstof gaat voorbij aan de opvattingen waarmee studenten binnenkomen, opvattingen die soms hun leren vergemakkelijken, maar mogelijk vaker dat in de weg zitten. Goede instructie speelt op die opvattingen in. Toetsen, vragen stellen, hoort bij die instructie, is daar althans niet los van te zien. Dat leidt binnen de kortste keren tot het benadrukken van het belang van vragen naar redenen, naar verklaring van gegeven antwoorden. Waar in 1983 juist die vragen om te verklaren geen plaats konden krijgen, krijgen ze dat nu juist bij voorrang. Uitwerken van ontwerpregels hiervoor zal enige tijd vergen, maar gelukkig biedt de onderzoekliteratuur uit de cognitive sciences een zee van goede voorbeelden. Het werk ligt nog voor de boeg, maar de koers is uitgezet.

27-12-2006
Er verandert toch wel wat. Ik wil een aantal heldere uitgangspunten hebben, dat is nog hetzelfde, maar in de uitgangspunten zelf gaat er iets verschuiven.
Vragen moeten in het bijzonder ook bestand zijn tegen oneigenlijk gebruik, oneigenlijke voorbereiding door studenten etc. Dat betekent: niet op een hoog niveau van—uit het hoofd te leren—abstractie. Al mag er best sprake zijn van uit het hoofd geleerde kennis, voorzover dat bijvoorbeeld een voorwaarde is voor het tot stand komen van inzicht (denk aan getalbegrip bij kleine kinderen, in de onderzoeklijn van Susan Carey (1998)). Dus dat onderscheid concreet-abstract komt dubbel en dwars terug, veel verder uitgewerkt en met meer inhoud: het moet glashelder uit te leggen zijn.
Vragen moeten naar de vorm perfect zijn. Het is ongehoord om daar nog missers in te accepteren, daar moeten we echt mee ophouden. Het is een toch wel wat breder begrip, omdat bijvoorbeeld voor keuzevragen de bijzondere spelregels meegenomen moeten worden. Toverwoord is hier misschien: consistentie. Wanneer van de leerlingen wordt gevraagd nauwkeurig te lezen, is een minimale eis ook aan de ontwerper van de vraag om verdraaid nauwkeurig te ontwerpen. In de praktijk is dat vaak anders.
Een bescheiden palet van mogelijke vraagvormen; kort open, keuze, open. Daar moeten we het ongeveer mee doen, aangevuld met het vragen om uitleg van gegeven antwoorden.
Het ontwerp moet sporen met de gekozen scoring. Dat zal nog best lastig zijn omdat het een ongewoon uitgangspunt is. We zijn immers gewend aan scoren in de zin van : ieder goed antwoord een punt. Andere scoringsvormen moeten mogelijk zijn, zoals: tenminste 1 goed is voldoende. Dat heeft consequenties voor het ontwerp van de vragen, en dit keer zijn dat geen inperkende, maar juist ruimte scheppende consequenties. De deur naar 'authentieke' vragen gaat minstens op een brede kier open.

1.2 Uitgangspunten

competenties windhandel.
Er is in het onderwijsveld een wildgroei die de kwaliteit bedreigt: naïeve praat over competenties, competentie-gericht onderwijs en toetsing van competenties. De term 'competenties' staat vrijwel zonder uitzondering voor van-alles-en-nog-wat, meestal voor heel complexe conglomeraten van vaardigheden en persoonlijke eigenschappen. De term is daarmee alleen al betekenisloos, en hoort niet thuis in het professionele gesprek over onderwijs en toetsing. Een lakmoesproef voor publicaties over competenties is of er serieus aandacht wordt gegeven aan de validiteit van het begrip, en vooral van de daarop geënte toetsen. De term 'validiteit' is wèl een afgebakend begrip, zie daarvoor de Richtlijnen van het Nederlands Instituut voor Psychologen (NIP) (1988) (zie literatuur hfdst. 8). Waarom juist een psychologische code hier aangehaald? Dat heeft te maken met de nauwe band die auteurs leggen tussen competenties en wat aan de orde is in assessment centers (ACs). ACs zijn instrumenten voor personeelsselectie, en zijn als zodanig onderworpen aan alle restricties die voor selectietests gelden. De literatuur over de validiteit van ACs stemt niet vrolijk: die validiteit is moeilijk aantoonbaar, de ontwerpregel is dat AC's geen extra validiteit geven boven wat overigens al aan informatie bekend is. De schaarse uitzonderingen betreffen ACs die tegen astronomische kosten worden ontwikkeld en vervolgens dus ook geheim gehouden moeten worden, een restrictie die zich niet laat verenigen met goed onderwijs. Buitenstaanders worden door auteurs zelden op deze problemen geattendeerd. Een stug Nederlands voorbeeld is Jansen's (1991) 'Het beoordelen van managers,' over AC's. De ondertitel van dit invloedrijke boek is 'Effectiviteit van assessment center methoden bij selectie en ontwikkeling van managers.' Dat is een empirische claim, niet waar? In het boek wordt die claim niet hard gemaakt, of erger: er wordt bij herhaling bezworen dat ACs werken, om vervolgens over te gaan op de vraag hoe ze werken. De lakmoesproef: NIP 1988 komt in de literatuurlijst van het boek inderdaad niet voor, evemin als het Amerikaanse zusje van de APA (1999).

Voor docenten die links en rechts om de oren worden gemept met competenties, is het bovenstaande geen vrolijke mededeling. Twee dingen daarover. Allereerst: hanteer de ontwerpregel dat 'competentie' altijd staat voor iets 'anders,' waar altijd een goede Nederlandse term voor is: vraag daar dan naar, en neem geen genoegen met versluierende antwoorden. Gaat het om concrete kennis of vaardigheden? Zeg dat dan. Gaat het om persoonlijkheidseigenschappen? Aha, daar mag het onderwijs natuurlijk niet op toetsen, dat komt in de buurt van discriminatie. Het laatste is overigens een belangrijk punt bij het ontwerpen van toetsvragen: de zaak toetsen, niet de taalbeheersing of intelligentie. En vervolgens: er is een afzonderlijke webpagina waarop ik annotaties bij de competentie-literatuur geef.

Hoe het dan wel moet? Laat onderwijs en arbeidsmarkt, zie bijvoorbeeld mijn (1986) html, niet onontwarbaar door elkaar heen lopen; onderwijs is geen langjarige sollicitatieprocedure. Houd de groei naar expertise gescheiden van het eventueel aanbrengen van een beroepsmatige houding. Houd de eerste in de peiling door adequate toetsing, de tweede door de heel andere, daarbij passende, maatregelen.

Omdat dit toch wel heel direct de kwaliteit van toetsen raakt, is het goed te bedenken dat communicatieve en aanverwante vaardigheden—die hoog scoren onder de competenties—meestal niet met vakbekwaamheid te maken hebben. Managers onderscheiden even vakbekwame sollicitanten of medewerkers gemakzuchtig naar dit soort vaardigheden, maar dat heeft werkelijk niets met hun werkelijke bijdrage aan het bedrijfsresultaat te maken. Bovenop deze misvatting komt vervolgens een tweede misvatting, dat 'dus' de opleiding die communicatieve etcetera vaardigheden bij zou moeten brengen en toetsen. Als ingang tot de literatuur die hier relevant is, de aansluiting onderwijs-arbeidsmarkt, zie bijvoorbeeld mijn 1984 html.

Ben Wilbrink (1994). Arbeidsmarkt en hoger onderwijs: een blijvend problematische relatie. Tijdschrift voor Hoger Onderwijs. 12, 24-32. html

Dochy, Filip Dochy, Ludo Heylen en Herman van de Mosselaer (Red.) (2002). Assessment in onderwijs. Nieuwe toetsvormen en examinering in studentgericht onderwijs en competentiegericht onderwijs. Lemma.

Doorzichtigheid is bij De Groot een vaag begrip. Cohen juridificeert het, dat maakt het zeker beter hanteerbaar. Het is mogelijk het tentamenmodel van Van Naerssen te zien als een uitwerking van het beginsel. Het is niet onmogelijk dat er een meer fundamentele benadering mogelijk is, langs de volgende lijn. De stelling van Joel Michell (1999) is dat de pretenties van tests en toetsen dat ze 'meetinstrumenten' zijn, op een zinledige definitie van meten berusten. Als Michell gelijk heeft, dan gaat men bij toetsen in het onderwijs lichtzinnig om met de constructie van toetsen, in het bijzonder het ontwerp van toetsvragen. Het adagium dat toetsvragen schrijven een kunst is, is daar een blijk van. Het opperen van dat soort onzin wordt afgedekt door een definitie van 'meten' waarin ongeveer alles is toegestaan om getallen (scores, cijfers) aan leerlingen te koppelen, behoudens wat niet door de psychometrische beugel kan. Het psychometrische juk is zelf natuurlijk identiek met de definitie van meten als alles wat toekennen van getallen volgens een regel is. Als het mogelijk is die ballast uit de wereld van 'educational measurement' af te werpen, dan kan het begrip doorzichtigheid op een funderende wijze inhoud krijgen: gebaseerd op explicitering van wat het is om kennis van het betreffende vak te hebben. Ofwel: het begrip validiteit zoals voorgesteld door Borsboom, Mellenbergh en Van Heerden (2004).

Meer stages, een goed idee?

De stage vindt eigenlijk iedereen wel een goed onderdeel om in het onderwijs in te brengen. Maar is het introduceren van (meer) stages vanzelfsprekend een verbetering? Denk er even over na. Het springende punt is dat die stage ten koste gaat van tijd die anders aan ‘gewone’ schoolse activiteiten zou zijn besteed, aan ouderwetse kennis en vaardigheden zeg maar. Werkgevers zullen zeggen dat ze stages toejuichen, maar geconfronteerd met deze kosten van stages draaien ze als een blad aan de boom om.

Welnu, competentiegericht onderwijs brengt die stage als het ware als dominante methode het onderwijs zelf binnen. Onderwijs als vrijplaats is dan geschiedenis geworden. Ik maak mij sterk dat werkgevers zo zelfs geen eigen bedrijfsopleiding zouden inrichten, als zij nog weten wat een bedrijfsopleiding is.

competentiegericht avant la lettre: realistisch rekenen

Het Nederlandse basisonderwijs is al doordrongen van competentiegericht onderwijs waar het om het rekenen gaat. Rekenen is tegenwoordig vrijwel overal in Nederland het realistisch rekenen van het Freudenthal Instituut, en zoals het waarschijnlijk minder gelukkig is vertaald in concrete rekenmethoden, in handen van leerkrachten die er weer op geheel eigen wijze mee om kunnen gaan. Rekenopgaven zijn alleen goede ‘realistische’ rekenopgaven wanneer er context in is gegeven; vroeger heetten dergelijke sommen gewoon redactiesommen. Bij het realistisch rekenen als methode hebben die sommen de oefening van rekenvaardigheid zelf verdrongen. In de filosofie van het realistisch rekenen is dat niet erg, want rekenen kun je tegenwoordig op rekenmachines doen. In 2008 is maatschappelijke onrust ontstaan over gebrekkige rekenprestaties van de Nederlandse jeugd, en hoewel er waarschijnlijk geen oorzakelijke relatie is tussen de competentie-filosofie in het rekenonderwijs als zodanig en de achterblijvende resultaten van dat onderwijs, hebben ze ongetwijfeld met elkaar te maken. (Van Putten, 2005, p. 125 pdf) Meer voor de hand liggende mogelijke oorzaken van achterblijvende rekenprestaties: minder uren geroosterd voor basale rekenvaardigheden; minder vakkennis bij de leerkrachten die rekenonderwijs verzorgen, een veranderende onderwijscultuur, gebrekkige onderwijsmethodieken waardoor time on task verloren gaat (hier).

1.3 Inhoudsoverzicht

geen aantekeningen

2. Vraagsoorten, doorzichtigheid, rompvragen en validiteit

Beoordelen is een spel van vragen-en-antwoorden. Het is bepaald zeldzaam wanneer de beoordeelde nadrukkelijk de vragensteller is. Historisch is dat wel aannemelijk: het catechetische model van inlijving van nieuwelingen in een geloofsgemeenschap gaat ervan uit dat zoiets alleen kan wanneer de indoctrinatie is geslaagd. Is dat ook een adequaat model voor onderwijs in de 21e eeuw? Op zijn minst niet altijd en overal. Bepaald geen gering doel van onderwijs is immers dat het leerlingen toerust zelf de juiste vragen te stellen. Op bepaalde plaatsen is dat heel evident, denk aan diagnostiek voor artsen in opleiding. Op andere ligt dat veel minder voor de hand omdat onze naieve modellen verhinderen om dat te zien: Deanna Kuhn (2005) demonstreert hoe dat is te doorbreken, en haar werk is gelukkig niet het enige in deze richting. Over vragen stellen, en wat telt als antwoorden op die vragen, is een rijke literatuur voorhanden, verdeeld over tal van disciplines, zoals logica, filosofie, taalwetenschap, sociale wetenschappen, en psychologie. Dit boek maakt er gebruik van. Bijzonder passend zou neurocognitief onderzoek zijn naar wat er in de hersenen gebeurt tussen het begrijpen van een vraag en het hebben van een antwoord, niet? Het gaat dan om het bereik tussen directe associaties en complexe inferenties, dat is ongeveer alles wat aan de orde is van hoofdstuk 4 over begrippen, tot hoofdstuk 7 over probleemoplossen.

Wat iedereen een zorg moet zijn: al dat toetsen is te vanzelfsprekend. Dat geldt ook de vormen van die toetsen, en wat allerlei experts daarover beweren (include me). Allerlei politici/bestuurslagen maken misbruik van toetsresultaten—détournement de pouvoir. Maar ook docenten en studenten hebben sterke opvattingen over toetsen die niet altijd sporen met waar het in het onderwijs uiteindelijk om gaat: studenten naar (hun) vermogen toerusten voor hun rollen in de samenleving. Daarom: betwijfel alles wat vanzelfsprekend lijkt, en behoud het goede.
Een voorbeeld van zoiets vanzelfsprekends is het idee dat toetsen gaan over de beheersing van de behandelde stof. De werkelijkheid is anders: leerlingen hebben altijd al eigen ideeën over de zaken waar die stof over gaat, en onderwijs kan alleen geslaagd heten wanneer zij van die eigen ideeën doorgroeien naar wetenschappelijk gefundeerde ideeën in het leerboek. Dat stelt bepaald andere eisen aan toetsvragen, zowel de formatieve als de summatieve. Het aardige is nu, dat deze visie aangeeft dat het er bij toetsen niet zozeer om gaat vast te stellen hoe 'goed' de stof is opgenomen, maar of überhaupt het inzicht is veranderd van de aanvankelijke naiviteit naar het vakinhoudelijke inzicht, als ik dat zo even mag noemen. Dus veel minder een percentage beheersing vaststellen, als een kwaliteitssprong in inzichten tonen. Dat stelt andere eisen aan de te ontwerpen vragen. Daarnaast zal er altijd stof zijn die gewoon (uit het hoofd) geleerd moet worden, van stampwerk tot informatie verzamelen, maar dat kan alleen gerechtvaardigd zijn als het in dienst staat van hogere doelen. Het omgekeerde zal meestal ook gelden: hogere doelen blijven zinledig zonder adequate inhoud.
Voor de toets die u dit weekeinde moet ontwerpen, is het verstandig om dicht te blijven bij hoe u het de vorige keer ook hebt gedaan. Voor de langere termijn is het de uitdaging om de knulligheid van vandaag in te ruilen voor een realiseerbare droom.

De huidige toetspraktijk is gegroeid dankzij ontelbare kleine en grote gebeurtenissen in het onderwijs, de politiek, en de samenleving. Denk niet dat die huidige praktijk iets is dat ergens op een tekentafel is vormgegeven. Er kunnen problemen aan deze toetspraktijk kleven, ook zonder dat direct betrokkenen daar een vermoeden van hebben. Vooral de tegenwoordige preferente vorm van korte toetsvragen is verdacht, zeker in afsluitende toetsen en examens. Dit is een toetsvorm die historisch gezien nog tamelijk jong is, enkele eeuwen op een bijna duizendjarige onderwijsgeschiedenis. Die, pak hem beet, tweehonderd jaar sinds de vestiging van het rijk van de Mathematical Tripos in Cambridge als de koningin van de examens, hebben een enorme invloed gehad op zowel de vormen van toetsing in het onderwijs, als op de inhoud en didactiek van datzelfde onderwijs. Dat maakt het nogal lastig vandaag de dag om te beoordelen of er een gezonde verhouding bestaat tussen toetsing, onderwijs, en de maatschappelijke doelen van dat onderwijs. Kijken we wat verder terug, naar didactische methoden en examens in de middeleeuwen, dan is die korte toetsvraag en zijn bijbehorende in kleine stukjes opknipbare leerstof goeddeels afwezig. De catechismus kan een uitzondering zijn, daar ben ik niet goed in. Neem de universitaire examens als voorbeeld: die bestaan, evenals dat bij andere gilden het geval is, uit het afleggen van meesterproeven, in dit geval uit het deelnemen aan een disputatie en het geven van een college over kort tevoren opgegeven stof. Misschien veel relevanter om te vermelden: de kandidaat kreeg pas toestemming om examen af te leggen als zeker was dat hij—jazeker, altijd mannen—dat ook tot een goed resultaat zou brengen. Examens in een ceremoniële rol, zoals vandaag de dag nog gebruikelijk bij promoties. Voor meer geschiedenis zie mijn (1995) html. Kortom, bekijk het gebruik van korte toetsvragen met gezonde achterdocht, ook als ze kwalitatief uitmuntend zijn en functioneel lijken te zijn: hoe zou het onderwijs functioneren zonder de druk van deze vorm van afsluitende toetsing? De stelling dat hedendaagse hogedruk-toetsen (Cito-toets groep 8, bijvoorbeeld) slecht onderwijs uitlokt en inkapselt, is een heel eind te verdedigen. NB: het laatste is iets anders dan het verschijnsel dat eindexamens in het voortgezet onderwijs, vergelijkenderwijs internationaal, voor meer kwaliteit in dat onderwijs zorgen dan zonder dergelijke examens het geval is.

2.1 Korte open vragen

2.2 Keuzevragen

objectiviteit

2.3 Open vragen

Over het beoordelen van open vragen, vooral opstellen, bestaat een uitgebreide literatuur vanaf het begin van de vorige eeuw. Het spijt me te moeten zeggen dat de vroege empirische onderzoeken vooral misleidend zijn: het lijkt erop alsof de onderzoekers erop uit waren het gebruik van open vragen af te branden, wat ten gunste zou zijn van de korte open vragen en vooral de gesloten vragen waaraan vaak dezelfde onderzoekers een goed belegde boterham verdienden. Helaas zijn latere onderzoekers niet bijzonder kritisch geweest, en hebben zij de gemankeerde methodologie van hun voorgangers herhaald. Het gevolg is geweest dat het onderwijsveld een ruk naar het meerkeuze-kapitalisme heeft ondergaan (Michell, 1999; Lagemann, 2000). Het gaat mij natuurlijk niet om de zure kritiek, maar om een goede plaatsbepaling waar het om het gebruik van open vragen gaat. Ze verdienen een behoorlijke rehabilitatie. Dat zou ook goed van pas komen omdat diverse onderwijsvernieuwingen afscheid aan het nemen zijn van feitjestoetserij met keuzevragen, en dat vervangen door portfolio's en allerlei andere nieuwe vormen van open vragen. Die rehabilitatie berust op verschillende argumenten: het 'psychometrische' beeld van gebrekkige betrouwbaarheid is aantoonbaar misleidend, de validiteit van korte en vooral gesloten vragen schiet in de onderwijspraktijk vaak schromelijk tekort omdat ze niet beantwoorden aan de kerndoelen van het onderwijs, een goede beoordeling van open vragen vereist niet vanzelfsprekend dat daar uitvoerige modelantwoorden en meerdere beoordelaars voor nodig zijn, en tenslotte: het zou wel eens kunnen zijn dat de beste onderwijsmethoden het helemaal zonder toetsing kunnen doen (Bereiter, 2002, Education and Mind in the Knowledge Age, in zijn geheel, en in het bijzonder hoofdstuk 8) waarbij het onderwijs zelf functioneert als 'open vragen' aan de leerlingen. Schitterend, niet? Het gáát ergens over, mensen!

2.6 Validiteit: een goed antwoord bewijst kennis

De titel suggereert dat deze paragraaf gaat over validiteit van afzonderlijke toetsvragen. Dat is ook wel zo, maar als onderdeel van een bredere opvatting over validiteit. De reden is eenvoudig deze: de optelling van valide toetsvragen hoeft niet een valide toets te zijn, een valide examen, of een valide curriculum. Er komt zo ongelooflijk veel meer bij kijken. En zo veel meer ook dan de gebruikelijke aanbevelingen over het samenstellen van toetsen zodanig dat de toets representatief is voor de opgegeven stof.

hoe sterk buigt de zon lichtstralen af?

Het meten van de exacte positie van een ster heeft voor astromen nauwelijks geheimen meer. Zo'n meting is perfect valide, dus. Er kan een extreme omstandigheid zijn waarin die validiteit niet helemaal vanzelfsprekend is. Bij de volledige zonsverduistering van 1919 was het mogelijk de positie van sterren dicht bij de zon te zien en te meten: hun lichtstralen scheerden er vlak langs. De meting leverde een positie op die afweek van de voorspelling door de Newtoniaanse theorie. Voor deze theorie was de meting niet echt valide. De algemene relativiteitstheorie van Einstein voorspelde die positie beter, de kromming van de ruimte door het zwaartekrachtveld van de zon, en dat was wereldnieuws. Voor die laatste theorie was de meting dus wel valide, zoals een sociale wetenschapper zou zeggen. Natuurkundigen kennen het begrip validiteit niet, voor hen is het van belang wat de theoretische betekenis van de geobserveerde feiten is, of zij theoretisch te verklaren zijn. De suggestie is hier: validiteit is niet een kenmerk van een observatie als zodanig, maar van zijn interpretatie binnen een theorie.

Over het toetsen van de algemene relativiteitstheorie zie om te beginnen bijvoorbeeld http://en.wikipedia.org/wiki/Tests_of_general_relativity

de hier gebruikte thumbnail van de 1919 zonsverduistering: http://en.wikipedia.org/wiki/Wikipedia:Picture_peer_review/1919_eclipse_negative.jpg, opgehaald. Klikken geeft de oorspronkelijke negatieve afdruk uit de expeditie van Sir Arthur Eddington, met tussen dunne streepjes aangegeven de zes sterren waarvan posities zijn bepaald.

De taal gaat ons hier zeker parten spelen. Psychologen hebben de term 'validiteit' geclaimd voor bepaalde kenmerken van hun psychologische tests. Daar kunnen we nu makkelijk afstand van nemen dankzij het werk van Borsboom c.s. (2004). In de logica zegt men wel van een argument dat het valide is of niet, en van uitspraken dat deze waar zijn of niet (NB: dus argumenten zijn geen uitspraken, en omgekeerd). Dat is interessant, omdat op het micro-niveau van de vraag zelf het zo is dat deze om een uitleg vraagt, dus een redenering (argument) [ik heb grote problemen met logica, en kan me daar niet met een jantje-van-leiden vanaf maken omdat logica op tal van manieren in vraagontwerpen binnen kan sluipen, denk alleen al aan de pseudo-logische vorm van tweekeuzevragen]. Dat gebruik van de term 'valide' is iets anders dan het bredere begrip 'validiteit' van toetsvragen zoals ik het in deze paragraaf uitwerk.

Ik neig er nu naar de validiteitskwestie voor toetsvragen gelijk te stellen aan de vraag naar het theoretisch kader voor het ontwerpen van toetsvragen. Deze paragraaf 2.6 laat zich het best lezen als een theoretisch kader, inderdaad. En dus ook alleen maar een kader: allerlei precieze invullingen zullen bijvoorbeeld door de ontwerper zelf gegeven moeten worden, of door wetenschappelijk onderzoek (dat in de meeste gevallen al beschikbaar zal blijken).

Het is een enorme uitdaging om helder te krijgen wat het is voor een toetsvraag om valide te zijn. Een absolute voorwaarde voor succes is om afstand te nemen van bijna alles wat in de psychometrische literatuur over validiteit van tests en toetsen is gepubliceerd. De argumentatie daarvoor is geleverd door Borsboom, Mellenbergh en Van Heerden (2004). Zij presenteren bovendien een alternatief, zodat hun publicatie een kwestie van creatieve destructie is geworden. Ik neem deze uitwerking van validiteit over bij ongeveer alles wat ik in dit boek over het ontwerpen van toetsvragen heb te melden. Helaas is de behandeling van Borsboom e.a. van validiteit beperkt tot validiteit van psychologische tests, en dus niet zonder meer ook toe te passen op toetsen van studieprestaties. De hefboom om Borsboom e.a. toch toe te kunnen passen in het onderwijs is de waarneming dat hun begrip van validiteit vrijwel een op een overeenkomt met wat typische eisen van validiteit zijn voor de instrumentatie van experimenten in het psychologisch laboratorium. Het voorbeeld dat zij noemen is Piagetiaans onderzoek, waarvan hedendaagse varianten van groot belang zijn voor iedere theorie voor het ontwerpen van toetsvragen. Beschouw onderwijs als een psychologisch experiment, en de uitwerking van wat validiteit van toetsvragen is volgt dan op tamelijk directe wijze.
Borsboom e.a. stellen dat validiteit typisch een probleem is bij onderzoek in de sociale wetenschappen, en vrijwel afwezig zou zijn voor onderzoek in de natuurwetenschappen. Die stelling is eenvoudig te weerleggen. Thomas Kuhn heeft dat in feite op een mooie manier gedaan, door te laten zien hoe wat vandaag algemeen als valide wordt beschouwd, morgen heel anders kan zijn: de paradigmawisseling. Of neem de geschiedenis van bijvoorbeeld het begrip 'massa,' zoals grondig beschreven door Max Jammer: een enorme intellectuele worsteling, een worsteling die gaat over wat Borsboom e.a. de validiteitskwestie zouden noemen. Ook wiskunde ontkomt niet aan validiteitskwesties, Lakatos heeft zich in zijn vroege werk hierop geworpen, en Koetsier (1991) geeft daar een indringende beschrijving en verdere uitwerking aan. Nu lijkt dit een zijpad te zijn, maar daar kijk ik zelf toch iets anders tegenaan. Onderwijs gaat voor een groot deel over wiskunde en natuurwetenschappen, dus daar worden heel wat toetsvragen voor ontworpen. Het is denkbaar, en ik zal dat ook uitwerken, dat de schoolse wiskunde en natuurwetenschappen op gespannen voet staan met hoe die disciplines de facto worden beoefend. Kijk naar de gelikte presentaties in willekeurig welk leerboek, waar iedere twijfel en alle strijd gecensureerd lijkt te zijn. Dan is het niet zo vreemd dat de gedachte post kan vatten dat in wiskunde en natuurwetenschappen er geen problemen zijn met validiteit van hun instrumenten. En onmiddellijk volgt dat het onderwijs op deze manier gegeven, wel eens behoorlijk contra-productief kan zijn, een vermoeden dat Hans Freudenthal voor zijn eigen vak nogal nadrukkelijk heeft uitgesproken. Een uurtje nadat ik deze tekst schreef, brengt de post mij een passende observatie van Gerrit Breeuwsma, zie de box, en stel uzelf de vraag welk type toetsvragen dan in het psychologieonderwijs thuishoort. Is het vragen naar declaratieve kennis dan wel valide?

domeinen van validiteit

het corpus: onze wiskundige etcetera kennis

Wiskundigen spreken wel van het wiskundig corpus (bijv. in Keestra, p. 106, 107), en kunnen dan uitleggen hoeveel wiskundige publicaties er de laatste tien jaar zijn bijgekomen (het laatste hoofdstuk in Keestra). De cultuurgeschiedenis van de wiskunde (Keestra, 2006) is door de bijdragende auteurs geschreven in de eigen vrije tijd, wat toch wel opmerkelijk is: hoort het bekend maken van het wiskundig corpus, bij welk publiek dan ook (collega's, opdrachtgevers, studenten), niet tot de taken van de wiskundige? Is wiskunde die niet in enige vorm bekend is gemaakt, aan enig publiek, wel onderdeel van het wiskundig corpus? Machiel Keestra (Red.) (2006). Een cultuurgeschiedenis van de wiskunde. Uitgeverij Nieuwezijds.

Het probleem is nu, zoals Struik in het citaat in de box laat zien, dat wiskundigen nogal eens gek zijn op puzzels, en mogelijk het onderscheid tussen oplossen van wiskundige problemen als puzzel, danwel als wiskunde, niet altijd scherp maken. Het zal mij niet verbazen wanneer onderzoekers erin slagen aannemelijk te maken dat de ontoegankelijkheid van wiskundige vakken voor veel middelbare scholieren iets met deze thematiek heeft te maken. De stelling is verdedigbaar dat wiskundige opgaven niet valide zijn wanneer het puzzelopgaven zijn. Puzzelen gaat wiskunde te buiten, ook al maken wiskundigen graag puzzels — in beide betekenissen van 'maken' — en ook al bieden sommige puzzels grote uitdagingen om ze wiskundig te doorgronden. Wiskunde als elegante tijdbesteding, wat het voor Plato en zijn tijdgenoten in hun slavenmaatschappij was (Struik), is al evenzeer een verheven vorm van puzzelen. De juiste balans tussen puzzelen en wiskunde bedrijven, tussen vorming en mathematiseren, daar gaat het om. De puzzel is misschien didactisch handig uit te buiten, de vorming nodigt uit tot misbruik als toelatingsdrempel tot maatschappelijke elites.

metadisciplines

Articuleren van het corpus

wat is expertise m.b.t. dat corpus?

In de tijd dat meetkunde nog een belangrijk vak in het middelbaar onderwjs was, had e leerling dus altijd een passer en lineaal bij zich. Ook op het eindexamen, natuurlijk. Wat zou meetkunde zonder passer en lineaal zijn? Wat stellen meetkunde-opgaven voor die zonder passer en lineaal beantwoord moeten worden? Kijk, daar zit het springende punt: zodra om schoolorganisatorische of toetstechnische redenen de gesitueerdheid van de te toetsen kennis tussen haakjes wordt gezet, verdwijnt ook de validiteit van de toetsvragen in zo'n kunstmatige conditie tussen haakjes. Dat toetsresultaten aantoonbaar in hoge mate overeenkomen met wat bij valide toetsing de resultaten geweest zouden zijn, maakt ze niet plaatsvervangend ook valide. Dat is nu juist het traject dat Borsboom e.a. (2004) gesloten hebben verklaard.

Bij het eindexamen meetkunde zoals ik dat in 1962 aflegde, moest er volop met passer en lineaal worden geconstrueerd. Dat is dus prima in orde, want dat is per definitie wat het is om Euclidische meetkunde te bedrijven. De bange vraag is nu dat er mogelijk belangrijke leerstof is die op eigen manieren gesitueerd is in de buitenwereld, maar waarover toetsvragen worden gesteld die abstraheren van die gesitueerdheid, waarbij als het ware 'de passer en lineaal' niet echt mogen worden gebruikt, maar alleen in de verbeelding, een soort 'hoofdmeetkunde' dus. Wie kan mij op dit thema informatie geven?

Een algebraboekje: Stoelinga en Van Tol Leerboek der algebra voor H.B.S., Gymnasium en Lyceum. 16e druk 1958. P. 5 is de eerste bladzijde van het inleidende hoofdstuk, gaat over het "gebruik van letters." Meteen een vraagstuk, van het bekende irrelevante type: "Drie personen A, B en C moeten f 100 verdelen zodanig, dat B tweemaal zoveel krijgt als A, terwijl C f 10 minder ontvant dan B. Hoeveel krijgt ieder?" Als dit is waar algebra over gaat, is de motivatie van de meeste leerlingen meteen verspeeld. Afijn, de oplossing wordt meteen uitgewerkt, geen woord van toelichting op de grote truc: gaan rekenen met een grootheid die je niet kent, in dit geval "het geld van A." Natuurlijk, "het geld van A" kunnen we makkelijker aanduiden met een x. Maar waarom is dat zo? Wie heeft dat ontdekt? Hoe deed men dat vroeger dan? Enzovoort. Dan heb ik het nog helemaal niet over neurocognitieve randvoorwaarden voor het ontstaan van enig begrip van wat hier wordt 'uitgelegd" (mag je dat wel uitleg noemen?). Er zijn dan nog wel enkele historisch belangrijke fenomen onbesproken gebleven, zoals de achtergrond van het gebruiken van dit soort idiote vraagstukjes (de Babyloniërs deden dat ook al, maar dat is nauwelijks een rechtvaardiging). Afijn, dit schoolboek is zelf historie geworden, maar ik vertrouw hedendaagse methoden ook voor geen cent, om maar in het jargon van vraagstuk I te blijven spreken. Waarom hebben al die lesboekschrijcers zich zo uit de naad gewerkt om leerlingen afschuw voor het vak bij te brengen? Is het ongeduld? Hooghartigheid? Waarom mag een gymnasiast niet weten wat Descartes heeft bijgedragen aan de dagelijkse technieken van de algebra? Waarom laten we hem/haar in de waan dat algebra gaat over het oplossen van gegeven wonderlijke vraagstukjes?

de neuropsychologie van kennis

de 'heelheid' van wat we denken te weten

Dit is volstrekt een losse flodder, maar ik probeer toch maar dit vage idee onder woorden te brengen, om te zien waar het toe kan leiden. Het idee is bijvoorbeeld van belang voor de NWQ, en komt hierop neer: onze zintuigen en hersenen toveren ons niet alleen een fantastisch 'heel' beeld van de wereld voor onze ogen (dat is niet 'werkelijk', er zit bijv. een gele vlek in ons oog waar geen beeld is en waar objecten in de wereld gewoon in kunnen verdwijnen, ook in het verkeer!), maar ook een fantastisch 'heel', of beter: 'geheeld' beeld van wat we zelf weten over de wereld (namelijk: alles). Schoenmakers die niet bij hun leest blijven, zijn in staat zonder met de ogen te knipperen de domste dingen te doen (in de ogen van de ambachtsvrouw op wiens gebied de schoenmaker zich begeeft). Hoogleraren hebben er wel eens een handje van zich sterke uitspraken te veroorloven die buiten hun eigen vak liggen. Hoewel iedereen beter kan weten, want het is toch aan den lijve ervaren hoeveel tijd het kost om een ambacht in de vingers te krijgen, hebben die grijze hersencellen van ons er lol in ons wijs te maken dat we nu ook van andere onderwerpen heel veel weten, quod non (wat dus niet zo is). Een van de mooie dingen van de wetenschap is dat ze de wereld probeert beter te begrijpen en daar allerlei technieken voor heeft, en de resultaten daarvan ook probeert te communiceren naar de wereld (u en ik). De interessante spanning waar de ontwerper van vragen voor de NWQ gebruik van kan maken, en er zijn heel veel vragen in eerdere jaargangen die daar wel verwantschap mee hebben, is om de deelnemer in situaties te brengen waarin eigenlijk alle ingrediënten voor het produceren van een goede uitleg wel voorhanden zijn, maar waar de 'geheeldheid' van onze common sense kennis sterk drukt naar een aantrekkelijk voor de hand liggende maar totaal misplaatste uitleg.
Dit is allemaal natuurlijk wat serieuzer dan alleen voor de NWQ bedoeld. Onze parlementariërs, bijvoorbeeld, roepen voortdurend allerlei dingen waar zij zelf geen bal verstand van hebben, en als ze het wel hebben moeten ze hun collega's daar nog maar van zien te overtuigen. Kijk, en daar zit de kneep. De Diederik Samsons van deze wereld hebben het niet altijd even makkelijk om de op hun gebied ongeschoolde medemens ervan te overtuigen dat het voor wet A of beleid C niet echt verstandig is ervan uit te gaan dat de zon voortaan niet meer in het Oosten opkomt, maar in het Westen. Er zullen tal van uitvluchten worden bedacht, die de hardheid van het Samson-argument in feite niet herkennen of onderkennen. [Diederik Samson is een kerngeleerde op een prominente positie in het Nederlandse parlement, goed dat we zulke mensen daar nog steeds hebben]
Er is een familieverwantschap met de ontwikkelingsstadia in het denken van jongeren: er is het adolescente stadium waarin mijn idee net zo goed is als jouw of ieder ander idee, van cultuur-relativisme dus. Ik weet niet of die ontwikkelingsstadia (Deanna Kuhn (2005) zegt er iets over in relatie tot onderwijs) direct verband houden met de ontwikkeling van de hersenen (daar weet Jelle Jolles 'alles' van).
Het springende punt is, en daar moet ik wel enkele sleutelpublicaties over vinden, dat onze zintuigen en hersenen naar een sterke geheeldheid, closure, in onze waarneming toe werken. Onderzoek naar de waarde van getuigenverklaringen, en waarom die waarde zo beperkt is, heeft hier direct mee te maken. Onze hersenen zijn zo ongelooflijk goed in het aanvullen van gebrekkige informatie tot iets dat afgerond en 'heel' lijkt, maar in feite alleen die schijn heeft omdat onze hersenen zo werken, niet omdat het een juiste afspiegeling van de wereld is. Evolutionair gezien heeft dit natuurlijk fantastisch gewerkt, omdat het optimaal gebruik maakt van onvolledige kennis. Maar juist in schoolse situaties kan het ons behoorlijk tegen gaan zitten (net als in de rechtszaal).
Afterthought. Voor de niet van nature nieuwsgierigen onder ons is er dus het probleem dat zij (hun gezamenlijke grijze hersencellen) voor zichzelf het idee kunnen hebben niet meer kennis nodig te hebben dan zij nu al hebben, terwijl school, de samenleving, voortdurend anders roept. Als school dat vervolgens niet waarmaakt, omdat de schoolse kennis als triviaal en irrelevant voor het dagelijks leven wordt ervaren, heeft iedereen een probleem.

een model van de kennis van de student

een leermodel: hoe kennis groeit, verandert

heuristieken voor leren

een diagnostiek van veranderende kennis

Wonderlijk. Ik schrijf bovenstaande notitie uit op 13 mei in de vroege ochtend, en lees onmiddellijk daarna het bericht in de Volkskrant dat in bovenstaande box is samengevat. Serendipiteit heet dat. Ik worstel met de vraag wat een diagnostische systematiek voor toetsvragen moet zijn, en zie dan een kanjer van een casus in de krant. Ik wijs er al jaren op dat het dagelijks nieuws een fantastische bron voor casuïstiek is waar de ontwerper van toetsvragen goed gebruik van kan maken, en dit gevalletje laat mooi zien hoe dat kan werken. Ik love it.

terugkoppeling, toetsen, examineren

Strategieën

technische bedreigingen van validiteit

Waar in het bovenstaande gemakshalve sprake is kennis van de individuele student, moet natuurlijk worden gelezen dat het gaat om kennis in de zin zoals omschreven in de eerste vier niveaus.

Validiteit van toetsvragen is zodoende een complex begrip, maar ik zal aan de hand van voorbeelden laten zien hoe in iedere categorie toch een heldere afbakening is te geven van wat valide is, en wat niet meer, zoals in het eerste voorbeeld over de puzzelende wiskundige al voor het eerste niveau is gedaan.

In de sociale en gedragswetenschappen is een heel eigen cultuur ontstaan waar er wordt gesproken over de verschillende kwaliteiten van de gebruikte meetinstrumenten, dus toetsen en tests, waar ook vragenlijsten toe behoren. In de natuurwetenschappen bestaat uiteraard ook een uitgesproken cultuur waar het gaat om het ontwerpen en gebruiken van meetinstrumenten, en die lijkt op het eerste gezicht waarachtig niets van doen te hebben met de gamma-cultuur. In ieder geval is de systeemscheiding in het denken over beide 'soorten' meetinstrumenten zo sterk, dat er weinig of geen vruchtbare uitwisseling van ideeën over en weer is, met uitzondering van fundamenteel onderzoek naar wat meten is (exponent daarvan is zeker het werk van Patrick Suppes). Wie er oog voor heeft, kan goud delven in de literatuur aan de andere zijde. Bijvoorbeeld Osinga en Maaskant's (1982) Handboek elektronische meetinstrumenten. De term 'validiteit' komt in dit boek niet voor, maar wie goed leest ziet hoe uiterst moeizaam en zorgvuldig een rijk arsenaal van meetprocedures en -instrumenten is opgebouwd, direct gekoppeld aan relevante theorie: de validiteit is in de procedures en instrumenten geconstrueerd, als het ware, en vermoedelijk precies zoals Borsboom, Mellenbergh en Van Heerden (2004) het ook graag voor de sociale wetenschappen zouden zien gebeuren. Zo ook de term betrouwbaarheid: die komt alleen bij het begrip betrouwbaarheidsinterval op de proppen, overigens doen ingenieurs het met een heel arsenaal aan onderscheiden termen en begrippen die gezamenlijk dekken wat in de sociale wetenschappen 'betrouwbaarheid' heet. Ongeveer zoals de Eskimo's een rijke woordenschat hebben voor de vele nuances waarin sneeuw verschijnt, waar wij het met natte sneeuw en stuifsneeuw wel ongeveer gehad hebben. Kortom: wie echt iets wil maken van betrouwbaarheid, kan te rade gaan bij de natuurwetenschappen, en dan natuurlijk niet bij de schoolboekjes die doen alsof er helemaal geen meetproblemen zijn, maar bij de literatuur die dicht staat bij wat er in laboratoria en ijkingsinstituten gaande is.

3. Leerstofinventarisatie

The idea of knowledge as the contents of a mental filing cabinet is, I believe, the most stultifying conception in educational thought.

Carl Bereiter, p. 24 in his 2002 Education and mind in the knowledge age. Erlbaum. questia

Dit hoofdstuk gaat beschrijven wat kennis zoal kan zijn. Dat is prachtig, zeker wanneer die beschrijving overtuigend uitpakt. Maar er is een klein probleempje mee: het hebben van kennis is alleen zinvol wanneer die kennis toegankelijk is in situaties waarin die kennis nodig is. Denk dan vooral aan onverwachte situaties, aan situaties waarin er niet een vanzelfsprekende verbinding is met voor die situatie relevante kennis. Het prototype: probleemoplossen. Sleutelpublicatie over toegankelijk krijgen van beschikbare kennis bij het oplossen van wiskundige problemen: Polya (1945). Een overzicht van wat we weten over die toegankelijkheid—access—: Prawat (1989). Verwant aan het begrip toegankelijkheid—access—is dat van overdracht—transfer. De filosofie achter het Utrechtse realistisch rekenen is gekenmerkt door de wens dat leerlingen schoolse kennis ook buiten school gaan gebruiken: transfer dus.Transfer is een nogal ongrijpbaar fenomeen, daar wil Prawat iets aan doen.] N.a.v. Prawat leg ik de volgende bespiegeling voor.
Het toetsen van kennis, waar mijn boek over zegt te gaan, schiet tekort omdat mooie scores niet voldoende zijn om er zeker van te zijn dat de betreffende studenten die kennis ook kunnen en zullen gebruiken in echt nieuwe situaties. Voor dat laatste is niet alleen het hebben van kennis een voorwaarde, maar vooral het verbonden zijn van die kennis. Daar volgt uit dat de ontwerper van toetsvragen meteen zou moeten doorstoten naar het toetsen van die verbondenheid van kennis. Voor de didactiek lijkt eruit te volgen dat het belangrijk is dat kennis goed verbonden is, en dat die verbondheid van kennis zeker belangrijker is dan het hebben van veel kennis die mogelijk slecht verbonden is. Om kennis te verbinden is het nodig voortdurend bezig te zijn met verklaren en gevolgen trekken (inferenties). Verbind dan de didactiek en het ontwerpen: laat in beginsel antwoorden altijd rechtvaardigen. Dat beginsel kwam in voorgaande hoofdstukken ook al aan de orde, het gaat als bindmiddel dienen tussen een reeks onderwerpen die voor het ontwerpen van toetsvragen van belang zijn.

De kern van deze zaak [inventariseren] is al eens helder beschreven door Anderson in zijn ‘How to construct achievement tests’ (1972), wat de andere helft van het werkt lijkt te zijn, maar dat is schijn: wie gaat inventariseren, moet wel een helder idee hebben over wat er valt te vragen.

Richard C. Anderson (1972). How to construct achievement tests to assess comprehension. Review of Educational Research, 42, 145-170.

Dit overzichtsartikel mag dan gedateerd zijn waar het de besproken literatuur betreft, de strekking ervan is in 2006 nog even relevant als in 1972.

Deze indeling naar waarneembare, abstracte en theoretische begrippen is in 1983 gekozen omdat het op dat moment een goede mogelijkheid bood om een snelle omschakeling te maken van de enigszins pseudo-wetenschappelijke indeling in de Bloomiaanse taxonomie van cognitieve doelen, naar een indeling afgeleid van kennistheorie zoals onder andere in het werk van Hempel te vinden. Anno 2007 is dat nog steeds adequaat, maar kan er een wezenlijk steviger fundament onder worden gelegd. Het is niet onmogelijk dat ik meega in het denken van Carl Bereiter (2002), en gebruik ga maken van de Wereld-3-metafoor van Karl Popper. Popper werkt hierin immers uit dat 'kennis' niet iets is dat in de hoofden van mensen zit (een naieve psychologie) (niet iets mentaals is, Wereld 2), evenmin iets is dat in de fysieke wereld van voorwerpen en gebeurtenissen thuishoort (Wereld 1), maar een eigen realiteit heeft die hij in Wereld 3 situeert, de wereld van publieke kennis en wetenschappelijke theorie, en in de behandeling van Carl Bereiter dus ook bij uitstek de wereld van kennis en begrip waar het in het onderwijs om gaat. De implicatie voor het ontwerpen van toetsvragen is dat vragen over waarneming, abstractie en theorie tenminste voor een belangrijk deel vragen in of over Wereld 3 zijn. Het klinkt als science fiction, maar let op: hier moeten goede mogelijkheden te vinden zijn om de door Borsboom, Mellenbergh en van Heerden (2003) gestelde validateitskwestie voor toetsen een adequate invulling te geven.

Nota Bene. In de oorspronkelijke uitgave in 1983 is alleen terloops aandacht besteed aan misvattingen en mental models van studenten die haaks staan op de aangeboden theoretische modellen (McDermott 1998; meer algemeen over cognitieve modellen, maar dan in de context van het natuurkunde-onderwijs: zie Redish, 2004 pdf, voor een overzicht). De vooronderstelling is destijds stilzwijgend geweest dat leren een kwestie is van alles-of-niets: ofwel de leerling heeft die specifieke kennis en dat inzicht, en kan die regel toepassen, ofwel hij of zij bakt er helemaal niets van. En inderdaad, veel leren gaat toch op die manier. Maar er zijn ook heel veel zaken waarin bestaande kennis en inzichten het opnemen van nieuwe kennis en inzichten hinderen. Het schema in de kop van hoofdstuk 6 geeft dat expliciet aan, omdat bij het leren uit tekst het al gauw het geval is dat er spanning is tussen de nieuw aangeboden kennis, en bestaande kennis en inzichten.

Bij het ontwerpen van toetsvragen is het eenvoudige schema om te peilen of specifieke kennis al dan niet aanwezig is. Op een meer geavanceerd niveau zal de ontwerper van toetsvragen rekening houden met tal van mogelijkheden waarop nieuwe kennis in het geheel niet of op een verstoorde manier is opgenomen. Niet om leerlingen in de val te laten lopen—strikvragen zijn uit den boze—maar omdat de instructie ook nadrukkelijk op die mogelijkheden van misverstaan van het aangeboden materiaal is gericht.

Eenvoudige voorbeelden zijn de Schwere Wörter van deze wereld, of het mechanisch toepassen van rekenregels in plaats van antwoorden op basis van goed begrip. In de literatuur over mental models, zoals Johnson-Laird (1989), zijn prachtige voorbeelden te vinden van systeemscheiding tussen naieve denkbeelden over beweging, en wat diezelfde gevorderde student daarover juist heel goed heeft geleerd in zijn specialisatie natuurkunde. Maar al op veel eenvoudiger niveau speelt die enorme spanning tussen naieve ideeën over bepaalde onderwerpen, en wat daarover aan informatie wordt aangeboden of gevonden; zie voor zowel een goed beeld van waar het hier om gaat, als van de alomvattende aanwezigheid van dit probleem in het (in dit geval middelbaar) onderwijs het boek van Deanna Kuhn (2005).

Bij de inhoudelijke vernieuwing van de tekst uit 1983 zal deze thematiek tot aanzienlijke aanvullingen leiden. Overigens geeft Dijksterhuis in een paar welgekozen zinnen (1950, p. 32-33) aan hoe moeilijk de weg voor de student natuurkunde is: wat hij denkt te zien is niet wat er gebeurt, wat de klassieke natuurkunde zegt dat er gebeurt is zo extreem geïdealiseerd dat dat in werkelijkheid niet kan gebeuren. Moet de student de kunstjes van het vak maar uit zijn hoofd leren, of wat? Nancy Cartwright werkt de thematiek filosofisch uit, bijvoorbeeld haar (1983) How the laws of physics lie. En waarom zou dat voor andere disciplines wezenlijk anders liggen dan voor de klassieke natuurkunde?

vaagheid van begrippen

James A. Hampton (2007). Typicality, graded membership, and vagueness. Cognitive Science, 31, 355-384.

Geen heldere uiteenzetting, wat me heeft verbaasd. Mogelijk heeft Hampton een paar grote oogkleppen op. Hoe dat ook zij, zijn stuk geeft wel aan dat er in deze niche van onderzoekers enige verwarring heerst.

3.1 (Indirect) waarneembare zaken (begrippen)

3.2 Abstracte begrippen en constructs

Een derde categorie in de zijnsleer van Michelene Chi vormt die van de denkbeelden, mental states. Ik weet nog niet of dit onderscheid geweldig handig handig is. Denkbeelden, kennis, zijn toch ongetwijfeld ook zich ontwikkelende processen, in ieder geval geen denkbeelden die als zodanig een plaats ergens in het lichaam hebben. Hier heeft mogelijk al kruisbestuiving plaatsgevonden tussen het boven al aangeduide werk van Carl Bereiter, en dat van Michelene Chi.

Tenslotte staat nog de vraag open hoe abstracties in de wiskunde zich verhouden tot de drie door Michele Chi onderscheiden categorieën, en de uiteenzetting van Carl Bereiter. 'Abstracties in de wiskunde' kunnen de kennisobjecten in de wiskunde zelf zijn, dat is hier niet bedoeld, of de abstracties die leerlingen/studenten zich vormen in het wiskundeonderwijs. Wat dat laatste betreft, ben ik (maart 2007) alleen het werk van Van Hiele tegengekomen in de weergave van Hans Freudenthal. Het zou best eens kunnen dat het werk van A. D. de Groot 'Het denken van den schaker' dbnl precies de goede richting is, dan zou in de school van Newell en Simon relevant empirisch onderzoek te vinden moeten zijn. Ik verwacht eerlijk gezegd niet meteen heel relevant materiaal te vinden bij Polya, of Schoenfeld, en al helemaal niet bij Freudenthal omdat hij een echte minachting heeft voor het empirisch cognitief onderzoek dat absoluut nodig is om greep te krijgen op wat het is om je wiskundige abstracties eigen te maken. Merk op dat ik in deze paragraaf het woord 'context' nog niet heb laten vallen, dat is immers de term die past bij het huidige gedachtengoed in de wiskundige wereld, en waarschijnlijk terecht, maar dat is nog niet direct door deugdelijk wetenschappelijk onderzoek ondersteund (mogelijk met uitzondering van het onderzoek van de Van Hieles).

3.3 Theoretische begrippen

3.4 Onderlinge verknooptheid van begrippen

3.5 Varianten van definities

4. Toetsvragen ontwerpen bij afzonderlijke begrippen

Een andere mogelijkheid is om termen te vervangen door vaktermen, maar dan is onmiddellijk het probleem dat benoemde relaties ook vaktermen zijn. Dit laatste lijkt dus een goed argument om het te houden bij begrippen. Excuus voor het ongemak.
Het dieperliggende probleem is dat de woordkeuze bepaalde verwachtingen met zich meebrengt die mogelijk niet goed zijn te rijmen met de staande theorie, en dan gaat het om zowel kennisleer als cognitieve theorie. Wat die laatste betreft is de ACT-R theorie van Anderson mogelijk bepalend. In die theorie wordt declaratieve kennis onderscheiden van procedurele, en mogelijk is dat onderscheid gelijk aan, verwant met, of samenhangend met wat ik ook met het onderscheid van de begrippen in hoofdstuk 4 en de relaties in hoofdstuk 5 bedoel. Maar zelfs al zou ik voluit voor het onderscheid tussen declaratieve en procedurele kennis kiezen, dan resulteert daar evenmin een scherpe demarcatie uit. De procedurele kennis van vandaag kan immers de declaratieve kennis van morgen zijn, althans wanneer het gaat om denkprocessen.
Een interessant geval is dat van het optellen van getallen onder de 10, bijvoorbeeld de optelling 3 + 4 = 7. Dit ziet er toch uit als procedurele kennis, niet? Maar dat is het niet, omdat 3 + 4 = 7 een afspraak is die we met elkaar hebben gemaakt, waarvan de achtergrond het proces van tellen kan zijn. Die afspraak moet gewoon geleerd worden, het is declaratieve kennis. Heel anders is de zaak bij 13 + 14 = ? , om die vraag te beantwoorden is procedurele kennis nodig, procedurele kennis die werkt met declaratieve kennis zoals 3 + 4 = 7, en 1 + 1 = 2, wat tientallen zijn, enzovoort. Voor de wat meer ervaren rekenaar is 13 + 14 = 27 declaratieve kennis geworden, hij weet dat als feit. De cognitieve theorie van Anderson werkt het fantastische spel uit tussen declaratieve kennis, chunks in de termen van ACT-R, en procedurele kennis, producties genoemd: wat te doen wanneer zich een bepaalde conditie voordoet. Van het werk van Anderson en zijn collega's, zie bijvoorbeeld Anderson, Lebiere and others (2000), zal ik in dit en in de komende hoofdstukken gebruik maken. De genoemde producties spelen een sleutelrol bij probleemoplossen, in hoofdstuk 7.

4.1 Vertalen

Wat deze paragraag 4.1 mist, is een goede set voorbeelden en afraders. Ik zal onder andere uit de literatuur die voorbeelden boven water halen. Aan de hand van een canonieke set voorbeelden is de theorie scherper te formuleren. Bijvoorbeeld de thematiek van context en transfer, in het bovenstaande alleen aangestipt, zal bij uitstek bij de eenvoudige opgaven van het vertalen van woorden of vaktermen in zijn consequenties uitgewerkt kunnen worden (o.a. van Streun (2005). Nog een stap verder: het zou prachtig zijn een ideaal-vak met ideaal-vragen te hebben, waarvoor de wiskunde ook al weer een goede kandidaat is (helaas blijken wiskundeopgaven soms ver van het ideaal van goed ontworpen toetsvragen af te staan, dat geldt zeker voor redactiesommen: Verschaffel, Greer en De Corte, 2000) Anne van Streun (2005). Onderwijs ontwerpen en onderzoeken. http://www.rug.nl/fwn/voorzieningen/ido/Betadidactiek/Onderzoek/docs/onderwijsOntwerpenEnOnderzoeken.pdf?as=pdf [eind december 2008 niet meer online?]

Met een mooie collectie voorbeelden van toetsvragen in relatie tot transfer.

rekenen, ook als inspiratie voor andere vakken

4.2 Definiëren

4.3 Voorbeelden geven

4.4 Voorbeelden herkennen en benoemen

4.5 Herkennen en benoemen bij formeel gedefinieerde termen

4.6 Beschrijvende uitspraken

Wat in deze paragraaf ontbreekt is het volgende. Een goed casus van een klein stukje cursusstof, met daarin veel van die beschrijvende uitspraken, en een setje voor de hand liggende open vragen erover. Dan een ombouw van die voor-de-hand-liggende vragen naar een aantal messcherpe keuzevragen die een actieve beheersing van de stof vragen. Wat is 'actieve beheersing:' voorbeelden 'achter' die beschrijvende uitspraken kunnen geven, of als zodanig herkennen. Dat ideaal is maar in beperkte mate te realiseren, omdat iedereen al ziet dat de vragen over dat stukje stof gaan, maar in een toets over een hele cursus, of op een onverwacht moment in het werkelijke leven afgenomen, is dat weggevertje minder pregnant. Kijk, dat is het soort validiteit waar het bij toetsen om gaat, als tenminste het doel van 'actieve beheersing' wordt ondersteund.

5. Toetsvragen over relaties tussen begrippen

5.5 Wetmatige relaties, modellen of theorieën

De tekst uit 1983 is waarschijnlijk veel te makkelijk, ook wel naïef. Deze paragraaf vraagt om een nieuwe onderbouwing, niet in de laatste plaats omdat juist hier zaken van oorzaak en gevolg aan de orde zijn. Dat is begripsmatig en dus ook didactisch lastig, en tegelijk volgens sommigen een hoge prioriteit voor onderwijs (zoals Kuhn, 2005). Een nieuw kader zal ik beginnen op basis van Nancy Cartwright (1983). How the laws of physics lie. Dit is een kennistheoretische analyse van de aard van wetenschappelijke wetten, zowel die op het niveau van de waarneembare verschijnselen, als die op theoretisch niveau. Een belangrijke issue is het onderscheid tussen het louter samengaan van verschijnselen, en dat van oorzakelijke verbanden tussen verschijnselen. Het laat zich raden dat de didactiek van specifieke wetten afhankelijk is van de aard van die wetten, zodat ook het ontwerp van toetsvragen niet om de systematiek van verschillende typen van wetten heen kan. Daar staat tegenover dat er mogelijk veel gemeenschappelijk is aan wetten uit verschillende vakgebieden, verschillende wetten in hetzelfde vakgebied: Brian Ellis (1965) behandelt de bewegingswetten van Newton buitengewoon grondig, ook als kenmerkend voor de manier waarop dergelijke wetten in wetenschap en toepassing fungeren. Ellis doet dat wetenschapsfilosofisch, niet gericht op didactische problemen, maar daar komen we wel uit. Zijn bijdrage is lastig te vinden, ik zal er de hoofdpunten uit samenvatten voorzover van belang voor de ontwerper van toetsvragen; er is daarnaast naturulijk een zee van wetenschapsfilosofische publicaties over de bewegingswetten van Newton waarin de meeste dooe Ellis behandelde zaken wel terugkomen, ook bij Nancy Cartwright. Overigens is Ronald Giere's (2006) mogelijk een beter passende kapstok voor een ontwerptechnologie van toetsvragen dan die van Nancy Cartwright.

5.3 Classificaties

Het gaat hier om determineren en om het stellen van diagnoses, om meteen maar de waarschijnlijk lastigste vaardigheden te noemen. Relevante theorie is bijvoorbeeld te vinden bij Anderson (1996), maar er is veel meer empirisch onderzoek dat bijvoorbeeld direct gericht is op het stellen van diagnoses door artsen en specialisten, en daarbinnen is er ondertussen weer veel werk gedaan over het stellen van diagnoses in beoordelingssituaties. Ik ben niet echt goed thuis in de ACT-theorie van Anderson, en vermoed dat deze theorie ondertussen sterk beïnvloed zal zijn door modellen van parallel distributed learning. De theorie is van belang voor de ontwerper van toetsvragen, omdat de theorie het mogelijk maakt de moeilijkheid van opgaven op dit terrein beter in te schatten. Eenvoudig lijkende opgaven kunnen werkelijk beestachtig moeilijk zijn, de ontwerper moet zichzelf hier maar liever niet voor de malle houden.

John R. Anderson (1996). ACT: A simple theory of complex cognition. questia American Psychologist, 51, 355-365. (Award address).

abstract zie questia

6. Toetsvragen ontwerpen bij tekst

1 Augustus 2007. Het theoretisch kader voor dit hoofdstuk was voor de uitgave van 1983 nog wat gebrekkig. Het is niet zo dat er een kwart eeuw later geweldige nieuwe ontwikkelingen zijn, maar het is meer een kwestie van het leggen van dwarsverbanden die achteraf wel logisch lijken, maar vooraf toch minder makkelijk zichtbaar waren. Als het gaat om tekst in het onderwijs, dan zijn er onmiddellijk twee verschillende benaderingen: het leren omgaan met teksten als zodanig—leren lezen, om maar eens iets te noemen (Snow, Griffin en Burns (2005)—en het opnemen van de in teksten gepresenteerde inhouden. Het eerste onderwerp gaat over vaardigheden bij het lezen, het tweede over de kennis opgedaan uit tekst. Het eerste onderwerp is meer aan de orde in het basisonderwijs, het tweede in het voortgezet en hoger onderwijs. Maar dat zijn onderscheidingen die niet scherp zijn te trekken.

De bijzondere verhouding tussen goed lezen en het opnemen van kennis uit tekst is dat het gaat om een verschil in nadruk, respectievelijk op leren om informatie uit tekst te halen, en die informatie uit een tekst te halen die voor de betreffende cursus van belang is. Wat is dat dan, leren een tekst begrijpend te lezen? Onderzoek met kinderen die moeite hebben om begrijpend te lezen, laat zien wat er zoal komt kijken bij dat begrijpend lezen (Cain en Oakhill, 2007). Die verschillende aspecten—analyse, inferentie, wereldkennis, kennis van context, kennis van verhaalstructuren, het besef iets niet te begrijpen, beheersen van verwijzende voornaamwoorden en andere samenhang aanbrengende verbindingswoorden—zijn op een vanzelfsprekende manier ook aan de orde bij de ervaren lezer die tekst om zijn inhoud bestudeert, en vormen zo zeker ook mogelijke aangrijpingspunten voor het ontwerp van toetsvragen.

Het onderzoek naar redactiesommen—zie wordproblems.htm—lijkt een perfect gescheiden onderzoekswereld te zijn (met Vosniadou als uitzondering?), en het onderzoek naar redactiesommen levert ongelooflijk scherpe resultaten op vergeleken met het wat machteloze vooral correlationele onderzoek in het overzicht van Cain en Oakhill (2007) naar begrijpend lezen. Een redactiesom is een tekst die de leerling begrijpend moet lezen. Dat begrijpen blijkt dan sterk beïnvloed door de context van de klascultuur, tot in het absurde toe. Hetzelfde is te verwachten bij het begrijpend leren lezen als zodanig. En wie bekend is met toetsen in het hoger onderwijs ziet dat idiote trekjes van onderwijscultuur zo gebruikelijk zijn dat niemand er van opkijkt. De laatste zin is onbegrijpelijk, maar dat is juist het leuke van tekst.

En dan is er over taalvaardigheden, dus ook over het schrijven van tekst, heel veel te doen in het (hoger) onderwijs: allerlei competenties, schrijfcurssussen, etcetera. Dat is vooral gebaseerd op misvattingen, aangestuurd door wensen van werkgevers, en is verspilling van tijd. Door de vormen de inhouden niet meer zien is een ernstige vorm van bijziendheid, juist ook in het onderwijs.

Ik ben op zoek naar empirisch onderzoek naar de manier waarop docenten vragen stellen over hun leerstof die vooral in de vorm van veel tekst is aangeboden. Denk aan vakken als geschiedenis, aardrijkskunde, biologie, rechten, taalwetenschap, bijna alles dat 'inleidend' heet. Wanneer dat vragen stellen zonder veel nadenken gebeurt zal dat dicht liggen bij het terugvragen van wat er in de tekst zelf staat, nodigt dat de leerlingen niet uit tot begrijpend lezen van de stof, en leidt het tot falend onderwijs. Het Beknopt leerboek der land- en volkenkunde van Bos (1909, zesde druk) geeft de scholier 338 bladzijden informatie, maar er staat geen enkele opgave voor de leerling in. Schuiling (1915, vijfde druk) Nederland. Handboek der aardrijkskunde maakt er 742 bladzijden groot quarto van, alleen voor Nederland, vooral voor onderwijzers zelf bedoeld, maar zonder opgaven voor leerlingen. "De stof, door de leerlingen verwerkt en overgeschreven, is echter langzamerhand zoodanig uitgedijd, dat het overschrijven tijdroovend begon te worden." Het begrijpen van de aardrijkskunde bestond mogelijk eind 19e eeuw uit het opschrijven van wat de onderwijzer dicteerde. Kennen we dat model niet van het universitaire collegedictaat? Dat was begin 19e eeuw in Nederland soms nog in het Latijn, op dicteersnelheid.
Het naieve model is hier dus: toetsen van de geleerde tekst vraagt de inhoud van die tekst zelf terug. Die armzaligheid moeten we voorbij.

8. Kwaliteit van toetsvragen

19-8-2007 Ik begin te vermoeden dat het mogelijk is om voor de thematiek van de kwaliteiten van toetsvragen een schets van een stevig theoretisch kader te maken. Niet nu meteen, uit de losse hand, maar er valt al wel iets over te zeggen.
Om te beginnen zou ik een contrast willen aanbrengen tussen dat nieuwe kader en de algemeen aanvaarde visie dat de kwaliteiten van toetsvragen hun (bijdrage aan) betrouwbaar en validiteit betreffen. Hoofdstuk twee heeft al belangrijke accenten verlegd waar het om validiteit en betrouwbaarheid gaat. Ik gebruik maar een persoonlijke ervaring om hier de stelling op te richten dat het reduceren van kwaliteit tot kwesties van validiteit en betrouwbaarheid vooral mystificerend werkt. Misschien kunnen we beter uitgaan van de gedachte dat ook bij een goede aanpak bij het ontwerpen van toetsvragen er fouten en missers zullen zijn, zoals dat bij ieder productieproces het geval is. Denk aan het wegvallen van het goede alternatief bij een meerkeuzevraag (de pinguïn-vraag in een recente Wetenschapsquiz, waar een voormalig staatssecretaris wetenschapsbeleid omstandig ging uitleggen waarom het (foute) alternatief dat ten onrechte als het goede was aangemerkt, goed zou zijn), en aan al die kleine verraderlijke schendingen van eenvoudige ontwerpregels zoals in hoofdstuk twee besproken. Dat zijn productiefouten, en natuurlijk hebben die gevolgen voor wat u graag als validiteit en betrouwbaarheid bestempelt, maar het gaat wat ver om dergelijke fouten zèlf 'invalide' of 'onbetrouwbaar' te noemen. Dat is wat ik met mystificeren bedoel.
Heel direct is er natuurlijk de mogelijkheid van kwaliteitsproblemen die voortvloeien uit ontwerpen die niet volledig valide zijn, valide in de zin zoals in hoofdstuk besproken in aansluiting op Borsboom, Mellenbergh en Van Heerden (2004). Perfecte validiteit is een mooi ideaal om naar te streven, maar er zijn tal van randvoorwaarden en belemmeringen die dat in de weg zullen staan. Het praktische streven is om daar een goede balans tussen te vinden, dat kan best spannend zijn.
Een nog weer andere vorm van bedreiging van kwaliteit wordt zichtbaar zodra we verder kijken dan alleen de toets van dit moment: een onderwijsloopbaan kan makkelijk tot twee decennia duren, met erg veel ruimte om kleine onbedoelde effecten van afzonderlijke toetsmomenten te laten stapelen tot massieve onbedoelde onderwijseffecten. Heel goed is die bedreiging van de kwaliteit van toetsvragen te zien in recent onderzoek naar redactiesommen (word problems), bijvoorbeeld zoals samengebracht in Verschaffel, Greer en De Corte (2000). Het is op dit moment nog niet duidelijk welke gevolgen dit type onderzoek voor de examenpraktijk gaat hebben, maar de impact zal stevig zijn. We kunnen ondertussen nog ongestoord doormodderen met onze kortzichtige toetspraktijken, want buiten het genoemde onderzoek naar de vreemde effecten die gebruikelijke redactiesommen op de denkwereld van leerlingen hebben, is er nauwelijks of geen onderzoek in deze richting gaande. Over de misvormende werking van onderwijs als zodanig—althans van de manier waarop we dat in wetten vorm hebben gegeven en in wetten hebben vastgelegd—is dat onderzoek er natuurlijk wèl, maar het is bepaald niet populair in onderwijs- en politieke kringen. Ik geef nog maar eens een voorbeeld: het autoritaire karakter van gebruikelijke manieren om te toetsen staat bepaald op gespannen voet met belangrijke onderwijsdoelen waarin de vorming tot zelfstandig staatsburgerschap, de vorming van democratische houdingen, het zelfstandig verwerven van (Wereld 3) kennis centraal staan. Er zijn geweldige gemiste kansen om toetsing en beoordeling op zo'n manier vorm te geven dat ze juist in die opzichten een belangrijke pijler van het onderwijs zelf worden. Nee, ik bedoel niet de primitieve gedachte van onderlinge beoordeling zoals die begin zeventiger jaren opgeld deed in 'revolutionaire' universiteiten. De autoritaire misvatting is een mooi bruggetje naar de laatste categorie.

8.1 Regels bij het examineren

Een nog uit te werken geheel nieuw onderwerp is het volgende. Uit onderzoek sinds de zeventiger jaren is het glashelder geworden dat leerlingen niet als een onbeschreven blad aan het onderwijs beginnen, om daar de aangeboden theorie ongehinderd door mogelijk al bestaande opvattingen over te nemen. Integendeel: kinderen hebben bij wijze van spreken al een uitgesproken wereldbeeld over belangrijke zaken zoals biologie, natuurkunde, en rekenen, waarmee de didactiek rekening moet houden op straffe van mislukking. De prangende vraag die dan opdoemt is: wie is verantwoordelijk voor het mogelijk mislukken van het onderwijs aan Jan, Piet of Marie, wanneer bij de toets zou blijken dat delen van oorspronkelijke 'misvattingen' nog steeds bestaan? Precies, geef daar maar eens antwoord op. De consequenties voor kwaliteit kunnen bepaald verstrekkend zijn: niet alleen moeten vragen zo zijn ontworpen dat althans belangrijke bekende misvattingen kunnen blijken, vervolgens moeten eventueel nog bestaande misvattingen aan een verantwoordelijke persoon worden toegeschreven. Die verantwoordelijke persoon is, u vermoedt het al, niet vanzelfsprekend de leerling of student. En dan ligt er een klein probleempje, niet? Dat heeft hiermee te maken dat gemaakte fouten vaak berusten op misvattingen, en dat tenminste sommige misvattingen deel uitmaken van het 'wereldbeeld' waarmee de leerling aan het onderwijs is begonnen. Dat 'wereldbeeld' heeft een zekere interne samenhang, is niet maar een toevallig samenraapsel van denkbeelden, en dat rechtigt de leerling om er, zonder overtuigingskracht van haar leraar, aan vast te houden. Dat is de stelling. Er is een berg literatuur om dit te onderbouwen, voor de jongste kinderen is het werk van Susan Carey (bijvoorbeeld haar 2004) relevant. Wees niet verbaasd in dat werk een stevig fundament uit de cognitieve psychologie zowel als uit de wetenschapsfilosofie aan te treffen. In tussentijd is deze geplaatste noot hopelijk een aansporing tot bescheidenheid bij het beoordelen van leerlingen en studenten.

Toetsen heeft de neiging autoritair te zijn, hoewel dat niet inherent is aan toetsen zelf, maar aan institutionele contexten waarin het is ingebed. Er valt dan wel een boom op te zetten over een minder autoritatief en dus ook meer democratisch onderwijs, zie Mischa de Winter (WRR-rapport), maar ik wil het hier bij het beoordelen zelf houden. Er moet dus in het proces van beoordelen een tegenwicht georganiseerd zijn, zoals goede informele zowel als formele vormen van hoor en wederhoor. Ik reken dat ook maar tot het kwaliteitsthema, hoewel het een beetje oneigenlijk is. Het interessante is nu, dat de argumenten die in hoor- en wederhoor over tafel gaan, de kwaliteit of een bepaald gebrek aan kwaliteit van de toets betreffen. Welke argumenten dan hoe en waarom worden gehonoreerd, en welke niet, is voor heel deze kwaliteitsbewaking van eminent belang.

vragen en opgaven blijven binnen de duidelijk omschreven omvang van de stof

De formulering van Cohen neemt 'de duidelijk omschreven omvang van de stof' tot uitgangspunt. Het probleem daarmee is dat weliswaar die omschrijving heel duidelijk kan zijn, maar daarmee niet onaantastbaar is. Wat dan op de proppen komt is een bredere kwestie van kwaliteit: is die duidelijk omschreven omvang van de stof wel juist, of valt deze misschien aan te vechten? Een voorbeeld van op goede gronden aanvechten van duidelijk omschreven cursusmateriaal is te vinden in het oordeel van Alfred North Whitehead dat een groot deel van de cursusstof van bijvoorbeeld wiskunde bestaat uit inert matter, in gewoon Nederlands is dat ballast. Ik moet nog onderzoeken welke mogelijke gevolgen een en ander heeft als het gaat om het betwisten van de kwaliteit van het ontwerp van afzonderlijke toetsvragen. Het algemene argument is dat een docent, een leerboek, of een opleiding ten onrechte bepaalde inhouden kunnen hebben gekozen, en/of andere inhouden weggelaten. De keuze van inhouden heeft hier natuurlijk alles te maken met een bepaalde onderwijsopvatting waarop 'de duidelijk omschreven stof' stoelt, en, zoals met zoveel dingen in het leven, zo'n opvatting kan aanvechtbaar zijn, is dat in de regel ook, dat hoort ook zo te zijn. Het wordt spannend wanneer de aanvechter aannemelijk kan maken dat er sprake is van didactisch onbehoorlijk handelen, dus van benadeling van studenten, bijvoorbeeld tot uiting komend bij een afsluitende toets. Als het even kan laten we het niet op individuele procedures aankomen, natuurlijk, maar stichten we een onderzoekinstituut dat zich diepgaand met de betreffende kwesties gaat bezig houden; in ons land hebben we zo bijvoorbeeld het Freudenthal Instituut. Maar instituut of niet, het beginsel blijft dat 'de duidelijk omschreven omvang van de stof' jammerlijk tekort kan schieten wanneer deze tegen het licht wordt gehouden van de wet, de missie van de instelling, of het wetenschappelijk gesprek over de tekortkomingen van een bepaalde didactiek. Dus ook op deze wijze zijn de bevoegdheden van docenten beperkt, in dit geval op een heel interessante manier omdat als het ware de strengere wiskunde in een gegeven cursus de vijand van een betere didactiek kan zijn: de valkuil is dat docenten het in de ogen van hun academische vakgenoten dus beter kunnen doen, en tegelijk didactisch kunnen falen. De Amerikaanse New Math is hierop gestruikeld. Hans Freudenthal heeft het beter uitgelegd (en geholpen in Nederland die New Math buiten de deur te houden), en hoewel hij ook dat niet empirisch heeft onderzocht, is het ongetwijfeld een verdedigbare stellingname.

8.2 Punten om op te controleren

juni 2008. Controleren is een complex begrip. Een proefafname is een controle. Intervisie is een controle. Nog weer een andere benadering is de logische analyse van de ontworpen vragen en hun mogelijke antwoorden, waarbij het idee is dat deugdelijke vragen op zijn minst ook logisch consistent moeten zijn. In paragraaf 2.6 is een korte uiteenzetting van het mogelijke belang van een logische benadering gegeven. In een afzonderlijke logica.htm pagina ga ik proberen materiaal te verzamelen en duidelijke voorbeelden uit te werken. Los daarvan zijn een aantal van de in dit hoofdstuk 8 behandelde thema's en punten ook al van logische aard; in onze Westerse cultuur is het nu eenmaal onmogelijk om logica geheel uit de weg te gaan.

8.3 Onafhankelijke beoordeling van kwaliteit

1.4 literatuur met annotaties

Patricia A. Alexander and Judith E. Judy (1988). The interaction of domain-specific and strategic knowledge in academic performance. Review of Educational Research, 58, 375-404.

online: JSTOR only
abstract This paper presents the results of an extensive review of the literature that relates to the interaction of domain-specific and strategic knowledge on academic performance. Our objectives in this review were to: (a) provide a critical analysis of that literature, (b) present hypotheses about the interaction between domain-specific and strategic knowledge as presented in the research, and (c) offer recommendations for future investigations on the interaction of domain-specific and strategic knowledge.
Dit is een boeiende thematiek, omdat strategische kennis—die per definitie domein-overstijgend is—mogelijk een rol kan spelen bij het groeien van intuitieve kennis naar wetenschappelijke kennis in een bepaald domein.

Carl Bereiter (2002a). Education and Mind in the Knowledge Age. Erlbaum. questia

Een sterk statement over de stand van zaken in wat cognitieve wetenschappen en hedendaagse filosofie over de inrichting van de leeromgeving te melden hebben.
My summary and annotations in a special page

Carl Bereiter (2002b). Design research for sustained innovation. Cognitive Studies, Bulletin of the Japanese Cognitive Science Society, 9, 321-327. pdf

"Design research is an emerging effort to bring what Whitehead called 'disciplined progress' into education, but it has not yet taken on a clear form or purpose. Design research is not defined by its methods but by the goals of those who pursue it. Design research is constituted within communities of practice that have certain characteristics of innovativeness, responsiveness to evidence, connectivity to basic science, and dedication to continual improvement."
I am attracted by the title of this article by Carl. It just might be the case that the test item design project needs the kind of conditions Carl sketches in the article.

Henk van Berkel en Anneke Bax (Red.) (2006). Toetsen in het hoger onderwijs. Houten: Bohn Stafleu van Loghum.

o.a. Henk van Berkel en Wynand Wijnen: Het geven van cijfers—Lambert Schuwirth: Toetsen met korte casussen—Erik Driessen en Jan van Tartwijk: Toetsen met portfolio's—George Moerkerke, Fred de Roode en Monique Doorten: Toetsen met vaardigheidstoetsen—Albert Pilot: Toetsen van academische vaardigheden—Henk van Berkel: Het opsporen van plagiaat.
Weinig aandacht voor het ontwerpen van toetsvragen als zodanig.
Mix van een traditionele benadering van het toetsen, en nieuwlichterij over competenties en hun assessment. Zowel beducht om afstand te nemen van de dogmatische trekjes in de toetsliteratuur, als roekeloos in het een platform geven aan managers-wijsheid over competenties.

John H. Bishop (2002). What is the appropriate role for student achievement standards? (pdf of the chapter) In Yolanda K. Kodrzycki Education in the 21st century. Meeting the challenges of a changing world. Conference proceeedings. Federal Reserve Bank of Boston. pdf of the book, appr 320 pp.

Amerikanen zijn jaloers op Europese stelsels waarin het voortgezet onderwijs beter presteert dan het Amerikaanse, niet onwaarschijnlijk omdat er nationale examens zijn. Bishop legt uit.
Reden om deze publicatie te noemen is natuurlijk dat de kwaliteit van de examenvragen in die backwash zeker een rol meespeelt.

Jerrell L. Cassady and Betty E. Gridley (2005). The effects of online formative and summative assessment on test anxiety and performance. The Journal of Technology, Learning, and Assessment, 4, number 1. Available from http://escholarship.bc.edu/jtla/.

Hier genoemd als ingang tot de literatuur over online testing, en omdat het enkele interessante toepassingen van online testing noemt

Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. proefschrift Leiden. Zwolle: Tjeenk Willink.

Een proeve van algemene beginselen van behoorlijk onderwijs, geïnspireerd op de algemene beginselen van behoorlijk bestuur die zo bepalend zijn voor het werk van Colleges van Beroep voor de Examens en hun facultaire voorgangers. Over de kwaliteit van toetsen en toetsvragen, dus ook.

James S. Coleman (1990). Foundations of social theory. London: Belknap. contents

Zie bijv. de site van een Italiaanse groep, T³ Group, die intensief met trust bezig is (in het Engels).
Francis Fukuyama (1999) Social capital and civil society. IMF site
Een recent boek, dat ik nog niet heb gezien, is Francisco Herreros (2004). The problem of forming social capital: Why trust? Palgrave Macmillan. De eerste pagina's op Amazon.com site.

Eduard Jan Dijksterhuis (1950). De mechanisering van het wereldbeeld. Amsterdam: Meulenhoff.

Voor uitvoerig citaat, zie 3.6 Literatuur.
E. J. Dijksterhuis (1951/1969). The mechanization of the world picture. London: Oxford University Press.

A. D. de Groot (1946). Het denken van den schaker. Een experimenteel psychologische studie. Amsterdam: Noord-Hollandsche Uitgevers maatschappij. dbnl

Zelf gebaseerd op Duitse denkpsychologie, heeft dit proefschrift een grote invloed gehad op Amerikaans onderzoek naar probleemoplossen, en daarmee op de hedendaagse cognitieve psychologie en kunstmatige intelligentie. Adriaan de Groot, ook schaakgrootmeester, gebruikte wereldkampioen Max Euwe als proefpersoon voor zijn onderzoek.
Adriaan D. Groot (1946/1978). Thought and choice in chess. Den Haag: Mouton, 1978.

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376.

Toetsen moeten transparant, doorzichtig, zijn. Studenten moeten zich doeltreffend kunnen voorbereiden. In de mate waarin toetsen geheimzinnig zijn, doen zij afbreuk aan de kwaliteit van het onderwijs. Dit is een enorm verschil met psychologische tests, waarop men zich juist niet inhoudelijk moet kunnen voorbereiden, want dat maakt de meting niet valide.

A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Den Haag: Mouton.

Het eerste grondige handboek over toetsen, en anno 2006 nog steeds het handboek waarop latere bescheidener publicaties bouwen. Het geeft een klassieke benadering, die is geïnspireerd op de testpsychologie, en daarmee mijns inziens, en naar valt aan te nemen ook naar die van De Groot (1970) en Van Naerssen (1970), niet adequaat is voor toetsen in het onderwijs. Hoe pikant, en wat een productieve periode was dat.

P. Hartog and E. Rhodes (1936). The marks of examiners. London: Macmillan.

Onthullend onderzoek naar verschillen tussen beoordelaars die dezelfde opstellen beoordelen. Voor een eigentijdse variant zie Laming http://www.psychology.heacademy.ac.ukLaming.pdf [dead link? 1-2009].

Carl G. Hempel (1952/1972). Fundamentals of concept formation in empirical science. London: The University Of Chicago Press

Voor een snelle introductie zie Theories of explanation in The Internet Encyclopedia of Philosophy html.

Deanna Kuhn (1991). The skills of argument. Cambridge University Press.

Dit is een pleidooi, zowel als een onderzoek. Het onderzoek verkent hoe mensen omgaan met een vraag zoals 'Wat veroorzaakt werkloosheid?" Zo'n vraag is door zijn open karakter een directe afrader om in een toets te stellen, toch zijn typische opstelvragen niet veel minder open, en leiden dan ook tot de enorme beoordelingsproblemen zoals door Hartog en Rhodes al in 1936 aan de kaak gesteld. Een uitdaging dus voor de ontwerper van toetsvragen om toch 'meer open' vragen te stellen, en niet in de Hartog-en-Rhodes-val te lopen.

Deanna Kuhn (2005). Education for thinking. Harvard University Press. excerpt

The introductory chapter is available on http://books.google.nl/
Het boek laat dingen te raden over, die in een recent artikel (hier beneden) glashelder zijn neergezet, een concepttekst is op de website van Kuhn als pdf op te halen

Deanna Kuhn and Maria Pease (2008). What needs to develop in the development of inquiry skills? Cognition and instruction, 26, 512-559.

abstract, pdf's van publicaties van Kuhn
Een op zichzelf staand onderwijsonderdeel waarmee in een basisschool is geëxperimenteerd. Het gaat om praktische ervaring met onderzoekvaardigheden, een of twee keer per week, in drie achtereenvolgende leerjaren. Een parel van een onderzoek, glashelder beschreven. Met een aanvullende reactie van Andrea diSessa, editor van het tijdschrift.

Keith Lehrer (1990). Theory of knowledge. Routledge.

There is a second edition.
For an outline of this 2nd edition see G. J. Mattey's home page [The 'final examination questions' on the Lehrer volume worry me somewhat: they ask to describe the thinking of Lehrer on this or that. This strongly suggests that Mattey is of the conviction that studying the book should acquaint one with the thinking of Keith Lehrer, instead of empower one to tackle some interesting questions from the last issue of Scientific American] On his site also some interesting links to other sites on epistemology, among them The Epistemology Research Guide
I will use the Lehrer book to introduce epistemology in the design of achievement test items. The idea is that the knowledge supposedly tested for, is knowledge if and ony if the four conditions mentioned by Lehrer (p. 18) can be met. Probably this connects well with the ideas expressed by Deanna Kuhn in her 2005, that students should be aware of how they know what they claim to know.
Next to Lehrer, I will use Ernest Sosa and Jaegwon Kim (Eds) (2002). Epistemology. An anthology. Blackwell, and probably also Paul K. Moser (Ed.) (2002). The Oxford handbook of epistemology. Oxford University Press. questia
I wonder, is a theory of knowledge necessary to establish the validity of an achievement test? It just might be the case that the answer is 'yes.' I will try to connect Lehrer's message with that of the Borsboom, Mellenbergh and Van Heerden (2003) article.
Lehrer refers on p. 18-19 to some titles that offer an introduction to the literature on epistemology.

Jose P. Mestre (Ed.) (2005). Transfer of learning: from a modern multidisciplinary perspective. San Francisco: Sage. commentaar en samenvatting

Enkele hoofdstukken zijn online beschikbaar. Bijv. Daniel T. Hickey and James W. Pellegrino: Theory, Level, and Function: Three Dimensions for Understanding Transfer and Student Assessment.

Steven J. Osterlind (1997). Constructing test items: multiple-choice, constructed-response, performance, and other formats. Kluwer.

Expensive
Technical, in a traditional way.
Does not address any issues regarding the mapping of content into test items.

C. M. van Putten (2005). Strategiegebruik bij het oplossen van deelsommen. In Jan Janssen, Frank van der Schoot en Bas Hemker: Balans [32] van het reken-wiskundeonderwijs aan het einde van de basisschool. 4. Uitkomsten van de vierde peiling in 2004. (125-131). Cito. pdf

James D. Slotta and Micheline T. H. Chi (2006). Helping students understand challenging topics in science through ontology training. Cognitive Science, 24, 261-289. pdf

from the abstract Chi (2005) proposed that students experience difficulty in learning about physics concepts such as light, heat, or electric current because they attribute to these concepts an inappropriate ontological status of material substances rather than the more verdical status of emergent processes. Conceptual change could thus be facilitated by training students in the appropriate ontology prior to physics instruction

Verschaffel, Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

Zie de wordproblems.htm pagina voor aantekeningen

D. J. Wolfson (2005). Transactie als bestuurlijke venieuwing. Op zoek naar samenhang in beleid en uitvoering. WRR Wetenschappelijke Raad voor het Regeringsbeleid. Amsterdam: Amsterdam University Press. www.wrr.nl/pdfdocumenten/V9.pdf [wrr-website is van slag, 2-2008].

Zie ook Dik Wolfson (6 juni 2005). Meedoen? Overheid moet weten te binden. De Volkskrant, Forum p. 9.

1.4 meer literatuur

Lorin W. Anderson and D. R. Kratwohl (Eds) (2001). A taxonomy for learning, teaching, and assessing. A revision of Bloom's taxonomy of educational objectives. New York: Addison-Wesley.

Somewhere in the nineties of the last century I discussed some issues with Lorin, during an online conference on objectives. I have not yet seen the book, I will do so in the nearby future however.

Isaac I. Bejar, René R. Lawless, Mary E. Morley, Michael E. Wagner, Randy E. Bennett, and Javier Revuelta (2003). A feasibility study of on-the-fly item generation in adaptive testing. The Journal of Technology, Learning, and Assessment, 2, number 3. pdf.

Dit is een wetenschappelijk artikel, dat in deze context interessant is vanwege de techniek van rompvragen, item forms of, zoals deze auteurs het noemen, item modeling. Zie ook Roid and Haladyna (1982).

W. Bender (****). Toetsen in het hoger onderwijs. Van Gorcum.

Voorbeeldbladzijden zie http://books.google.nl/
"... bedoeld als praktisch handboek voor docenten aan universiteiten en hbo-instellingen."
Bescheiden van omvang, behandelt toch ook nog statistische analyse van resultaten op itemniveau, en bepalen van een grens tussen zakken en slagen. Met grote stappen snel thuis, heeft het voordeel snel een overzicht te bieden. Concrete voorbeelden.

John B. Carroll (1987). New perspectives in the analysis of abilities. In Royce R. Ronning, Jane C. Conoley, John A. Glover, and Joseph C. Witt (Eds.) (1987). The influence of cognitive psychology on testing. Buros-Nebraska Symposium on Measurement and Testing. Volume 3 (pp. 267-84).

Patricia W. Cheng (1997). From Covariation to Causation: A Causal Power Theory. Psychological Review, 104, 367-405. pdf

Sabine Dierick, Filip Dochy, Gerard Van de Watering (2001). Assessment in het hoger onderwijs. Over de implicaties van nieuwe toetsvormen voor de edumetrie. Tijdschrift voor Hoger Onderwijs, 18.

Is dit een misvatting, of nieuw inzicht? 'zogenaamde nieuwe toetsvormen of assessmentvormen' Dat 'zogenaamd' klinkt omineus, maar zo bedoelen de auteurs het jammer genoeg niet. Ik vermoed, en het werk van Deanna Kuhn lijkt dat te ondersteunen, dat dat zogenaamde authentieke toetsen een verdomd moeilijke opgave is, waar totnogtoe vrijwel geen bewezen successen in zijn. Er is in dit artikel sprake van 'nieuwe inzichten' die mij bekend voorkomen, en wel uit literatuur die thuishoort in het begin van de 20e eeuw. Ik ben geen voorstander van roepen dat er nieuwe inzichten zijn. De problemen met traditionele manieren van toetsen zijn nauwelijks begrepen, in ieder geval onder de ervaringsdeskundigen niet, en diezelfde mensen laten we nu 'nieuwe toetsvormen' hanteren? Ik zeg niet dat dat wel fout moet gaan, want met traditionele toetsvormen gaat het evenzeer hartstikke fout. Maar de ene slechte gewoonte inruilen voor de andere modegril bouwt geen degelijke, edumetrische voor mijn part, kennis op. Laten we er eens een stevige discussie over voeren! Als ik naar de literatuurlijst bij dit artikel kijk, valt me op dat Lee Cronbach royaal aanwezig is, maar juist niet met zijn werk dat voor beoordelen in het onderwijs althans mij het meest relevant lijkt; en dat er wel heel veel eigen publicaties van Filip worden opgesomd, wat betekent dat, Filip? In ieder geval zal ik met deze problematiek iets moeten, voordat ik de herziene tekst 'Toetsvragen ontwerpen' kan afsluiten.
Overigens moet het gebruik van de term 'competentie' worden verboden.
De auteurs verwijzen naar assessment zoals gebruikt in de bedrijfswereld. Als daarmee assessment centers worden bedoeld, dan heb ik een droevige mededeling: er bestaan op deze aardkloot nauwelijks assessment centers met een aannemelijk gemaakte redelijke validiteit (Motowidlo heeft een prachtige prestatie geleverd door zoiets voor selectie van politie-officieren wel aan te tonen). Daar is ook een heel onbenullige reden voor: om zoiets te maken is al gauw een paar ton (euro) nodig, en dan moet je vervolgens de opgaven nog zorgvuldig geheim houden ook. Dat wil niet zeggen dat assessment center-achtige opgaven in het onderwijs niet buitengewoon nuttig en noodzakelijk kunnen zijn, maar het is evident geen eenvoudig verhaal. Een goed verhaal heb ik geloof ik nog nooit gezien, of het moet het universitaire onderwijs in de middeleeuwen zijn. De reden dat die middeleeuwen een uitschieter zijn is waarschijnlijk de beperkte omvang van de stof (de wezenlijke inhoud, niet de beschikbare teksten), de lange duur van de studie, de disputatie, en het ontbreken van tig afleidingen voor de studenten/meesters. Dat is dus niet experimenteel anno nu te herhalen.

Ginette Delandshere (2002). Assessment as inquiry. Teachers College Record, 104, 1461-1484. pdf

abstract For more than 10 years now, arguments have been constructed regarding the need for new forms of educational assessment, and for a paradigm shift with a focus on supporting learning rather than on sorting and selecting students. The call for change in assessment follows an almost unanimous recognition of the limitations of current measurement theory and practice. The conceptions of learning represented by theories of learning and cognition appear strikingly different from those implied in current educational assessment and measurement practices. Indeed, most educational measurement specialists are still working from century-old understandings and behaviorist perspectives. Although the call for change is clear, the proposals and recommendations being put forward have limitations of their own and are unlikely to yield the kinds of fundamental changes envisioned by researchers. These limitations lie either in the focus of the work, in the lack of a clear articulation of the theories and concepts, in the nature of the assumptions made about learning (many of which remain implicit and unchanged), in the exclusion of certain conceptions of learning, or in some combination of these problems. This article explores the possibility of using inquiry as a way to understand, and hence to assess, learning. After an initial review of the assessment literature in which the need for change has been asserted and analysis of the theoretical and epistemological foundations that seem to undergird these writings, the focus shifts to the meaning of learning, knowing, and teaching implied in this literature and to the limitations of its recommendations. Later sections consider notions of learning that seem to be excluded from current assessment practices and begin to uncover similarities between learning, knowing, and inquiring that could make inquiry an appropriate metaphor for what we currently know as educational assessment. Finally, there is discussion of important issues that would need to be considered in an inquiry framework for assessment.

Marianne Elshout-Mohr en Ron Oostdam (2001). Assessment van competenties in een dynamisch curriculum. Amsterdam: SCO-Kohnstamm Instituut. isbn 9068136569, 147 pp.

Een heel abstract rapport waar ik me niet makkelijk in kan vinden. De competenties ontglippen me telkens, iets dat inherent is aan het begrip zelf (gebruik van de term zou moeten worden verboden). Ik zou er eens met Marianne over moeten praten. Het rapport is misschien te kenschetsen als een verhandeling over beoordelen, maar dan op een meta-niveau, dus heel ver weg van het concrete niveau van het ontwerpen van goede vragen over de stof. Hiermee verbonden publicaties:
Marianne Elshout-Mohr, Ron Oostdam en Marjan Overmaat (2001). Assessment van beroepscompetenties. Beslissingen bij het invoeren van integratieve beoordelingen in de opleiding. Tijdschrift voor Hoger Onderwijs, 19, 205-221.
Marianne Elshout-Mohr, Ron Oostdam, Ron, Marianne Overmaat (2002). Student assessment within the context of constructivist educational settings. Studies in Educational Evaluation, 28, 369-390.

Thomas M. Haladyna (1999 2nd). Developing and validating multiple-choice test items. Erlbaum. [2004 3rd]

"Although the Bloom taxonomy has continued to be favored by many practitioners, scientific evidence supporting its use is lacking (Seddon, 1978)." [p. ix]
"A test is a measuring instrument intended to numerically describe a characteristic under uniform, standardized conditions." [p. 4]
Met deze mainstream opvatting over de toets als meetinstrument, mist Haladyna het inzicht dat toetsen sturingsinstrumenten zijn.
Misschien erger is dat Haladyna meent dat toetsen kennis of intellectuele vermogens meten, wat ze ongetwijfeld ook doen, maar niet in zuivere vorm. The proof of this pudding ligt evenwel in wat er met toetsresultaten wordt gedaan, die daden moeten valide zijn in de toetsingscontext:
op p. 9 maakt Haladyna een punt van het belang van de context voor validiteitsinterpretaties, aan de hand van toetsen die scholen 'afrekenen' op hun resultaten. Hier ineens wel oog voor toetsen als sturingsinstrumenten, en hun inderdaad desastreuze gevolgen.:
"Thus, the value of Messick's idea about context of social values and consequences is vividly illusrated by this collective national craze for raising test scores without considering the actual learning of students who are being manipulated to produce these scores." [p. 10] Zie ook de volgende twee publicaties
S. B. Nolen, T. M. Haladyna and N. S. Haas (1992). Uses and abuses of achievement test scores. Educational Measurement: Issues and Practices, 11, 9-15.
Darrell Sabers, Sonya Powers and reviewer Thomas M. Haladyna (2005). The condition of assessment of student learning in Arizona: 2005. pdf
Thomas Haladyna, Nancy Haas and Jeanette Allison (1998). Continuing Tensions in Standardized Testing. Childhood Education, 74, 262-73. questia of html

Hartmut von Hentig (1980). Die Krise des Abiturs und eine Alternative. Stuttgart, Ernst Klett.

Een mysterieus boek. Een moeilijk toegankelijke, zeker voor een buitenlander, schatkamer van inzichten, meer dan 800 bladzijden waarvan de helft voorbeeldvragen en uitwerkingen. Ongelooflijk, van zo'n werk bestaat geen tweede voorbeeld, waar ook ter wereld.

Willem K. B. Hofstee (1999). Principes van beoordeling: Methodiek en ethiek van selectie, examinering en evaluatie. Lisse: Swets & Zeitlinger.

Besproken door Paul van der Maesen (2001) in De Psycholoog, p. 245-6 pdf

Frank C. Keil (2006). Explanation and understanding. Annual Review of Psycology, 57, 227-254. pdf

from the abstract The study of explanation, while related to intuitive theories, concepts, and mental models, offers important new perspectives on high-level thought. Explanations sort themselves into several distinct types corresponding to patterns of causation, content domains, and explanatory stances, all of which have cognitive consequences. Although explanations are necessarily incomplete—often dramatically so in laypeople—those gaps are difficult to discern. Despite such gaps and the failure to recognize them fully, people do have skeletal explanatory senses, often implicit, of the causal structure of the world.

Deanna Kuhn (2005). Education for thinking. Harvard University Press. excerpt

The introductory chapter is available on http://books.google.nl/
Let op: karikaturen van deze visie op onderwijs gaan door het leven als 'het nieuwe leren,' zie mijn pagina.
Wat van ver komt smaakt heerlijk. Deanna Kuhn is natuurlijk niet de enige die met het onderwijs voor adolescenten op een verdraaid relevante manier in de slag is. Een Nederlandse lijn van onderzoek die verwante trekken heeft is de Community of learners benadering van Jos Beishuizen (inderdaad, uit de VS ingevoerd, in dit geval uit Texas). De VU werkt hierin onder andere samen met het St. Ignatiusgymnasium in Amsterdam. Laat de gymnasia hun sterke schouders onder dit soort projecten zetten. Ik heb me hier nog niet verder in kunnen verdiepen, de info komt uit Didaktief van januari-februari 2005, p. 4-6: Simone Barneveld. Kan ijzer branden? De lol van het leren ontdekken door onderzoek te doen.

Yunnwen Lien and Patricia W. Cheng (2000). Distinguishing Genuine from Spurious Causes: A Coherence Hypothesis. Cognitive Psychology, 40, 87-137. pdf

Laura R. Novick and Patricia W. Cheng (2004). Assessing Interactive Causal Influence. Psychological Review, 111, 455-485. pdf
Patricia W. Cheng and Laura R. Novick (2005). Constraints and Nonconstraints in Causal Learning: Reply to White (2005) and to Luhmann and Ahn (2005). Psychological Review, 112, 694-707. pdf

Jason Millman and Jennifer Greene (1989). The specification and development of tests of achievement and ability. In Linn, p. 335-366.

Robert J. Mislevy and Geneva D. Haertel (2006 draft). Implications of evidence-centered design for educational testing. PADI Technical Report 17. pdf

Robert J. Mislevy, Linda S. Steinberg and Russell G. Almond (2003). On the structure of educational assessments. CSE Technical Report 597 pdf

abstract In educational assessment, we observe what students say, do, or make in a few particular circumstances, and attempt to infer what they know, can do, or have accomplished more generally. A web of inference connects the two. Some connections depend on theories and experience concerning the targeted knowledge in the domain, how it is acquired, and the circumstances under which people bring their knowledge to bear. Other connections may depend on statistical models and probability-based reasoning. Still others concern the elements and processes involved in test construction, administration, scoring, and reporting. This paper describes a framework for assessment that makes explicit the interrelationships among substantive arguments, assessment designs, and operational processes. The work was motivated by the need to develop assessments that incorporate purposes, technologies, and psychological perspectives that are not well served by familiar forms of assessments. However, the framework is equally applicable to analyzing existing assessments or designing new assessments within familiar forms.
Deze ontwikkeling is ook bekend onder de naam 'evidence-based design.' Dat is een prachtig label, als het de inhoud inderdaad dekt, dan is het relevant voor ongeveer alles in dit boek over het ontwerpen van toetsvragen. Waarschijnlijk blijft een en ander toch dicht bij het gebruikelijke denken in de context van constructieve validiteit. Dat geldt mogelijk niet waar het gaat om het automatiseren van het scoren van ingewikkelde antwoorden op open vragen, waarvoor mentale modellen worden geconstrueerd, zie bijv. David M. Williamson, Isaac I. Bejar and Anne S. Hone (1999). 'Mental Model' Comparison of Automated and Human Scoring. Journal of Educational Measurement, 36 abstract

Richard E. Nisbett (Ed) (1993). Rules for reasoning. Erlbaum.

Charles M. Reigeluth (ed.) (1983). Instructional-design theories and models. Overview of their current status. Hillsdale, New Jersey: Lawrence Erlbaum.

Charles M. Reigeluth (ed.) (1987). Instructional theories in action. Lessons illustrating selected theories and models. Hillsdale, New Jersey: Lawrence Erlbaum.

Gale Roid and Tom Haladyna (1980). The emergence of an item-writing technology. Review of Educatonal Research, 50, 293-314.

Barbara J. Shapiro (2000). A culture of fact. England, 1550-1720. Ithaca: Cornell University Press.

Werpt een onverwacht licht op het soort zaken dat in de cognitieve taxonomie van Bloom c.s. in de categorie 'kennis' terechtkomt! Jammer dat Shapiro de gevolgen in het onderwijs niet aanraakt.

Valerie J. Shute (2008). Focus on formative feedback. Review of Educational Research, 78, 153-189. ETS Research Report 2007

p. 154: "The premise underlying most of the research conducted in this area is that good feedback can significantly improve learning processes and outcomes, if delivered correctly. Those last three words—if delivered correctly—comprise the crux of this review. "
p. 176: "Tables 2–5 present suggestions or prescriptions based on the current review of the formative feedback literature. These are intended to provide a point of departure for more comprehensive and systematic prescriptions in the future."
These tables are very insightful, for example: different types of feedback in relation to different learner characteristics: Not 'one size fits all', b.w.

J. van Westrhenen (1977). De toetsing van onderwijsdoelen. Een empirische studie naar de functie van begrippen en begrippenstructuren in het onderwijsleerproces. Groningen: Wolters-Noordhoff.

Van Westrhenen koerst sterk op de cognitieve taxonomie van Bloom, wat jammer is. In de vroege zeventiger jaren was empirisch onderzoek naar de geldige toepasbaarheid van de taxonomie nog niet zo ver gevorderd dat het serieuze twijfel aan de taxonomie opleverde, vermoed ik.
Wat wel degelijk vernieuwend is in dit proefschrift, is de poging om greep te krijgen op de structuur van kennis vanuit de epistemologie. Jammer genoeg heeft dit geen opvolging gekregen, al helemaal niet binnen het Cito.

2 literatuur met annotaties

Willem Bartjens (1604/1779). De vernieuwde cyfferinge van Mr. Willem Bartjens, waar uyt men meest alle de grond-regulen van de reeken-konst leeren kan. By Joannes Kannewet.

Blz. 68-69 laat de regel-van-drieën voor breuken zien, een voorbeeld met uitwerking, en nog een reeks redactiesommen. Dit is typisch voor het boek in zijn geheel: de opgaven gaan over een koopmanspraktijk, de redactiesommen zijn daarom ook altijd van hetzelfde type met een eenduidig te berekenen correct antwoord. Ik ben benieuwd of dit rekenonderwijs inderdaad vrijwel volledig in de vorm van dit soort recht-toe-recht-aan redactiesommen werd gegeven, dat moet eindeloos vermoeiend zijn geweest. Deze gebrekkige didactiek maakt geen onderscheid tussen de rekenvaardigheid op zich, die met getalsmatige opgaven beter te oefenen zou zijn, en het omzetten van redactieopgaven tot de gelijkwaardige rekenopgave.

N. D. Belnap, Jr., and T. B. Steel, Jr. (1976). The logic of questions and answers. London: Yale University Press.

Dit boek behandelt exact wat de titel ervan belooft: een logisch filosofische verdieping voor de kunst van het vragenstellen. Bevat een rijke bibliografie, opgedeeld in 'Logic and philosophy of language', 'Linguistics', 'Automatic question answering', & 'Psychology and pedagogy'.
Zie ook het lemma Epistemic knowledge in de Stanford Encyclopedia of Philosophy html.
Debra Thomas Burhans (2002). A question answering interpretation of resolution refutation. A dissertation submitted to the Faculty of the Graduate School of State University of New York at Buffalo in partial fulfillment of the requirements for the degree of Doctor of Philosophy. Een recente studie in de lijn van Belnap en Steel PostScript

Randy Elliott Bennett and William C. Ward (Eds) (1993). Construction versus choice in cognitive measurement. Issues in constructed response, performance testing, and portfolio assessment. Hillsdale, New Jersey: Lawrence Erlbaum. questia

Er is de laatste jaren toenemende kritiek of de bekrompen manier waarop leerlingen vaak worden getoetst op momenten waarop er voor hen veel op het spel staat, of voor hun school. Het zwarte schaap is al gauw de meerkeuzevraag, en de ideale wereld is bevolkt door portfolio's en authentieke toetsen. De issues worden in dit boek op productieve wijze bekeken, er wordt gepolderd over toetsen. Daarom zal dit boek nog een tijd een standaard blijven.
Het boek is het resultaat van een conferentie gesponsord door het Amerikaanse testbolwerk Educational Testing Service, ETS. Maar net als de in de middeleeuwen de machtige katholieke kerk tot op zekere hoogte het vrije intellectuele dispuut toestond, nodigt ETS de kopstukken uit de Amerikaanse testwereld uit de stand van zaken onbevangen zaken aan de orde te stellen. Toegankelijk, en goed gedocumenteerd. Onder andere de volgende hoofdstukken.
Randy Elliott Bennett: on the meaning of constructed response.
Robert J. Mislevy: A framework for studying differences between multiple-choice and free-response test items.
James Braswell and Jane Kupin: Item formats for assessment in mathematics
Roberta Camp: The place of portfolios in our changing views of writing assessment.
Dennie Palmer Wolf: Assessment as an episode of learning.
Sharon P. Robinson: The politics of multiple-choice versus free-response assessment.

Benjamin S. Bloom, J. Thomas Hastings and George F. Madaus (Eds) (1971). Handbook on formative and summative evaluation of student learning. London: McGraw-Hill.

This fantastic handbook is built on the cognitive taxonomy system, and the learning for mastery idealism. Both, of course, are rather obsolete in 2006, the first for lack of empirical evidence, the second for its rather sectarial character.
The book contains an unbelievably rich assortment of all kinds of test items, in its general chapters, as well in the discipline-specific ones.
As its title says, there is much attention for the kind of item one would use in assessesment for learning, which others prefer to call formative testing.

K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf

Biedt wat de titel belooft, met voorbeelden van toetsvragen die partijdig kunnen zijn, en waarom dat zo is.

Hans F. M. Crombag, Jerry G. Gaff, and Ten M. Chang (1975). Study behavior and academic performance. Tijdschrift voor Onderwijsresearch, 1, 3-14.

p. 3: Few, scattered significant relations were found. Only one scale, 'Reformulation of Subject Matter,' showed a consistently negative relation with performance in all departments, indicating that putting the subject matter into ons own words is a dangerous habit.
Onderzoekers die zo handig zijn ernaar te informeren, vinden dit wel vaker (bv. Bruinsma, 2003, ' Leidt hogere motivatie tot betere prestaties? Motivatie, informatieverwerking en studievoortgang in het hoger onderwijs.' Pedagogische Studiën. ), het is het backwash fenomeen: onhandig of bureaucratisch toetsen demotiveert en zo de kwaliteit van het onderwijs uitholt.
Bruinsma (2003). Leidt hogere motivatie tot betere prestaties? Motivatie, informatieverwerking en studievoortgang in het hoger onderwijs.Pedagogische Studiën, 80, 226-238. "Ten slotte lieten de analyses een negatief verband zien tussen de mate van diepgaande leerstofverwerking en studievoortgang. [artikel nog niet getraceerd] Dit artikel is niet vrij op www beschikbaar, haar 2003 proefschrift wel via html
A. Lizzio, K. Wilson and R. Simons (2002). University students' perceptions of the learning environment and academic outcomes: implications for theory and practice. Studies in Higher Education, 37, 239-453.

Paul Drijvers (2006). Context, abstractie en vaardigheid in schoolalgebra. NAW, 5/7. pdf

p. 198: Op dit moment presteert de vwo-leerling op algebraïsch gebied onder de maat. We treffen in 6-vwo leerlingen aan die pittig argumenteren, hun verstand durven gebruiken, goedewerkstukkenmaken en die in het openbaar met flair verdedigen. Maar wat algebra betreft zijn diezelfde leerlingen vaak hulpeloos. Een kleine hobbel, bijvoorbeeld in de vorm van een formule met een breuk, blijkt niet zelden onoverkomelijk te zijn. Wat te doen? Er gaan stemmen op om de klok een tijd terug te zetten: 'back to the basics', weg met al die zogenaamd realistische contexten, gewoon veel oefenen! Dit artikel gaat over twee 'hete hangijzers' in de discussie over schoolalgebra en aansluitingsproblematiek: de rol van contexten en de algebraïsche vaardigheden.
Gekunstelde contexten deugen natuurlijk niet. Evenmin als veel uit het dagelijks leven gegrepen (maar niet heus) voorbeelden. Goede context moet wel leiden tot abstractie, anders is het zinledig. Drijvers geeft drie goede voorbeelden van aangeboden context (voor een buitenstaander zoals ik geen overtuigende voorbeelden, trouwens, want erg schools, gefocused op de wiskunde ipv op wat leerlingen ermee doen).
p. 201: "In praktijk functioneren contexten niet optimaal. De kunst is om geschikte contexten te vinden die passen bij de leerling, het onderwijsniveau en het doel van het onderwijs. Dat is geen eenvoudige opgave! Voor bètaprofielen liggen toepassingen uit de exacte sfeer voor de hand. Ook is het aan te bevelen om contexten te gebruiken die langer 'leven' dan één, vaak korte, opgave." Dat is, anno 2006, toch wel een ontluisterende constatering! Aan de slag, zou ik zeggen.
Algebraïsche vaardigheid valt uiteen in basisvaardigheden ('algebraïsch rekenen', waar het onnodig aan schort vandaag de dag) en 'algebraïsch redeneren' waar symbol sense voor nodig is, 'inzicht in onderliggende concepten'.
p. 202: "Dematige prestaties van leerlingen en studenten worden veroorzaakt door de onvoldoende beheersing van het subtiele samenspel tussen routine om basisbewerkingen te kunnen uitvoeren en impliciete symbol sense vaardigheden die daarbij een rol spelen." Drijvers presenteert dit nogal stellig. "Het gaat dan om het plannen van het oplossingsproces, het herkennen van de toepasbaarheid van basisoperaties in complexere situaties, en het stapelen van verschillende basisoperaties die in principe beheerst worden. Het ontbreken van deze symbol sense vaardigheden is één van de oorzaken van de hulpeloosheid van de leerlingen." Alleen basisvaardigheden oefenen lost het probleem dus niet op. Drijvers probeert dat nog met een duister citaat van Freudenthal toe te lichten.
Drijvers slaat met dit artikel zeker een aantal spijkers goed op de kop. Wat ik als een mogelijk probleem proef is een verborgen uitgangspunt dat het leren een individueel proces is, geholpen door de docent. Dat zou dan een gemiste kans zijn, dit keer ondanks Freudenthal (die groepswerk hartgrondig aanprijst).

A. D. de Groot (1961). Methodologie. Grondslagen van onderzoek en denken in de gedragswetenschappen. Den Haag: Mouton. dbnl

6. Objectiviteit
7.1 Objectieve vragen en antwoorden
7.1.1 De kunst van het vragen stellen: precodering
7.1.2 De kunst van het antwoorden krijgen: precodering (van belang voor wie met modelantwoorden wil werken)
7.3 Beoordelingsprocedures: Intersubjectiviteit.
8. Criteria voor empirische variabelen en instrumenten (Een typische testbenadering, maar in het onderwijs zijn toetsen geen instrumenten in deze zin, b.w.)

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376.html

Toetsen moeten transparant, doorzichtig, zijn. Studenten moeten zich doeltreffend kunnen voorbereiden. In de mate waarin toetsen geheimzinnig zijn, doen zij afbreuk aan de kwaliteit van het onderwijs. Dit is een enorm verschil met psychologische tests, waarop men zich juist niet inhoudelijk moet kunnen voorbereiden, want dat maakt de meting niet valide omdat dat een ongecontroleerde oorzakelijke variabele zou introduceren.

A. D. de Groot en R. F. van Naerssen (Red.) (1969). Studietoetsen, construeren, afnemen, analyseren. Den Haag, Mouton.

Deze tekst verwoordt, bij monde van De Groot, een uitgesproken standpunt voor het gebruiken van vierkeuzevragen.

Thomas M. Haladyna (1999 2nd). Developing and validating multiple-choice test items. Erlbaum. (2004 3rd)

Toetsvragen ontwerpen, heel volledig, talrijke praktische tips en voorbeelden, heel goed gedocumenteerd, niet specialistisch, heldere uitgangspunten over wat behoorlijk en gewenst is in het onderwijs.

Thomas Haladyna, Steven M. Downing, and Michael C. Rodriguez (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15, 309-334. http://depts.washington.edu/currmang/Toolsforteaching/MCItemWritingGuidelinesJAME.pdf [gebroken link? 1-2009]

Wat is een goede canon van richtlijnen voor het schrijven van toetsvragen? Een voorstel op basis van beschikbaar empirisch onderzoek. De lijst richtlijnen is vrijwel identiek aan die in Haladyna (1999, p. 77). Deels zijn deze richtlijnen evenzeer voor open-eind vragen. In strijd met de richtlijn ondubbelzinnig te zijn, zijn sommige van deze richtlijnen positief—helder formuleren, etc.—andere negatief geformuleerd—vermijd windwo dressing. De negatieve (schendingen van) regels komen in hoofdstuk 8 nadrukkelijk aan de orde: controleer de kwaliteit van de toetsvragen.

Willem K. B. Hofstee (1985). Beoordeling van de kwaliteit van wetenschappelijk onderzoek: fundamentele kwesties. In Becker, H. A., en A. F. J. van Raan: Kwaliteit in de wetenschap. Een meetbaar begrip? (p. 71-86). Leiden: DSWO-Press.

In kort bestek goed neergezet, mooi stuk. Aardig boek ook wel.

Marjolein Kool (1999). Die conste vanden getale. Een studie over Nederlandstalige rekenboeken uit de vijftiende en zestiende eeuw, met een glossarium van rekenkundige termen. Hilversum: Verloren. html audio

Een leerzaam boek, om het zo maar eens te noemen. Maakt gebruik van letterlijke transcripties uit de bronnen.
Direct van belang: paragraaf 5.3 De didactiek.
Bijvoorbeeld zoiets aardigs als de volgorde optellen, aftrekken, vermenigvuldigen en rekenen in de opbouw van het rekenen met hele getallen, maar ook bij het rekenen met breuken waar juist vermenigvuldigen en delen makkelijker zijn dan optellen en aftrekken. In de oeroude rekenboeken van al-Khwarizmi en Sacrobosco in die volgorde voor gehele getallen al vastgelegd, eeuwen later wijkt vrijwel niemand daar meer van af, ook niet voor breuken.
Wat vooral opvalt: heel de rekenkunde is toepassingsgericht, alle opgaven zijn redactiesommen uit de beroepspraktijk, hoewel ook wel opgaven voorkomen met gefingeerde getallen, en fictieve redactiesommen uit de traditie (par. 5.2.3).

Maria Kozhevnikov, Michael A. Motes and Mary Hegarty (2007). Spatial visualization in physics problem solving. Cognitive Science, 31, 549-579.

Studies als deze zijn van groot belang voor inzicht in de bijzondere moeilijkheden die leerlingen kunnen hebben met opgaven met tegelijkertijd talige en visuele gegevens.
Zie ook downloads op Hegarty Spatial Thinking Lab's site

Deanna Kuhn (2005). Education for thinking (2005). Harvard University Press. excerpt.

The introductory chapter is available on http://books.google.nl/">http://books.google.nl/
Let op: karikaturen van deze visie op onderwijs gaan door het leven als 'het nieuwe leren,' zie mijn pagina.

R. F. van Naerssen (1969). Meer gecompliceerde scoringswijzen. In De Groot en Van Naerssen, Studietoetsen, construeren, afnemen, analyseren (p. 259-271). Den Haag, Mouton.

Ernstige omissie in dit hoofdstuk, maar Van Naerssen staat hierin geenszins alleen, is dat het volledig voorbij gaat aan het feit dat studenten keuzevragen ook gewoon fout kunnen maken, niet alleen maar fout raden. Ook in het voorgaande hoofdstuk 17 ‘De interpretatie van indices’ kent Van Naerssen niet de mogeljkheid dat vragen fout gemaakt in plaats van geraden kunnen worden. Het aanstrepen van andere alternatieven dan het juiste, berust altijd op raden. Het is verbazingwekkend, want in paragraaf 18;8, over zekerheidsaanduiding, is er toch gelegenheid geweest om het geval van met zekerheid aangeduide foute antwoorden te behandelen. Nee dus. Let De Groot beter op? De enige andere plaats in het boek waar sprake is van raden, is in zijn hoofdstuk 2. Ook De Groot ziet niet dat keuzevragen ook gewoon fout zijn te maken in plaats van te raden.
Van Naerssen raadt aan om "wanneer toetsen gebruikt worden om beslissingen op te baseren—bij voorbeeld slagen of zakken—de meest eenvoudige methode toe te passen: score is aantal goed." Die eenvoudige scoring dwingt studenten te raden op keuzevragen die ze niet weten. Mijns inziens behoeft de stelling van Van Naerssen nuancering omdat deze methode studenten met een behoorlijke beheersing van de stof aantoonbaar benadeelt, zoals hierboven aangetoond, en bij open gelaten vragen een bonus tenminste gelijk aan de raadkans zouden moeten krijgen (zie ook De Groot p. 17 in hetzelfde boek).
Pas op voor goedbedoelende docenten die zelf in het onderwerp zijn gedoken, en verliefd zijn op complexere methoden. Zoals Martin Bush (1999), Alternative marking schemes for on-line multiple choice tests pdf: "Designers should consider taking the opportunity that automation provides to move away from the traditional marking scheme to a richer, more sophisticated one."

Sharon L. Nichols and David C. Berliner (2005). The Inevitable Corruption of Indicators and Educators Through High-Stakes Testing. Education Policy Studies Laboratory, Arizona State University pdf (180 pp.).

From the executive summary: This research provides lengthy proof of a principle of social science known as Campbell's law: "The more any quantitative social indicator is used for social decisionmaking, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor."

Jody Paul (not dated, 1994?). Improving educational assessment by incorporating confidence measurement, analysis of self-awareness, and performance evaluation. The Computer-Based Alternative Assessment (CBAA) Project. pdf

Ingenieurs hebben de neiging louter op de hoeveelheid informatie te letten, niet op de neveneffecten van de gebruikte methode. Neem er kennis van, maar wees terughoudend in het overnemen van allerlei leuke ideeë. De leerlingen betalen het leergeld.

W. James Popham (2005). America's 'failing' schools. How parents and teachers can cope with No Child Left Behind. Routledge.

Documentatie van bizar misbruik van toetsen, maar dan wel op nationale schaal.
Zie ook Bob Farrace (2003). The nature of the test. W. James Popham on assessment. Principal Leadership 9-1-2003
W. James Popham (2005). 'Failing' schools or insensitive tests? School Administrator 3-1-2005 [html niet langer beschikbaar????]

Henry L. Roediger III and Elizabeth J. Marsh (2005). The positive and negative consequences of multiple-choice testing. Journal of Experimental Psychology, Learning, Memory, and Cognition, 31, 1155-1159. pdf

from p. 1158: "Prior reading of multiple-choice alternatives may have aided later performance via several different mechanisms. Reading the option on the test serves as an additional study opportunity. As such, it may have reminded subjects of previous knowledge that they would not have been able to retrieve otherwise. " (...) "How does a multiple-choice test impair performance on a later test? Not only does reading the multiple-choice question serve as a study trial for the correct answer but it also exposes the subject to one or more incorrect answers, similar to retroactive interference (McGeoch, 1932), a misinformation effect (Loftus & Palmer, 1974), or a fan effect (Lewis & Anderson, 1976). As such, the test may remind subjects of prior wrong beliefs that they otherwise would not retrieve, or it may also teach subjects incorrect answers as they incorrectly use knowledge to eliminate the other answers (including the correct one). Reading the lures also increases the fluency or familiarity of the incorrect answers and may result in the 'mere truth' effect from statement repetition (e.g., Hasher et al., 1977). In short, the same mechanisms that may help a subject to correctly produce an answer later on may also lead to production of the incorrect target lures."

Gale H. Roid and Thomas M. Haladyna (1982). A technology for test-item writing. London: Academic Press.

Dit boek representeert 'the state of art' in de Verenigde Staten wat betreft vuistregels voor het ontwerpen van toetsvragen.
Roid and Haladyna has been reviewed by Jason Millman: Writing test items scientifically. Contemporary Psychology, 1982, 27, 966-7; and Anthony J. Nitko, Journal of Educational Measurement, 1984, 21, 201-204.

Edward L. Thorndike (1924). The psychology of arithmetic. New York: The Macmillan Company.

Voor de impact van Thorndike's werk op het rekenonderwijs, zie matheducation.htm

Robert L. Thorndike (Ed.) (1971). Educational measurement. Second edition. Washington D.C.: American Council on Education.

Dit is hèt handboek over toetsen en beoordelen Linn, 1989, is de opvolger). In het bijzonder: A. G. Wesman: 'Writing the test item', R. L. Thorndike 'Reproducing the test' (over lay-out, druktechnieken e.d.), en W. E. Coffman: 'Essay examinations.'

Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

Zie de wordproblems.htm pagina voor aantekeningen

Frits E. Zegers (1989). Het meten van overeenstemming. Nederlands Tijdschrift voor de Psychologie, 44, 145-156.

Zegers gebruikt als praktisch voorbeeld de beoordeling van een paar opstellen door twee leraren. Al naar gelang de beslissingen op basis van de oordelen/waarderingen, bereken je de overeenstemming op een passende wijze.
Belangrijk is bijvoorbeeld of alleen de rangorde telt, omdat de drie besten een prijs krijgen, tegenover het als voldoende of onvoldoende beoordelen
Zegers bespreekt technieken, en veronderstelt zonder omhaal dat de grens tussen voldoende en onvoldoende een absoluut refrentiepunt is. In feite is dat natuurlijk onjuist, omdat ook de gedachte grens tussen voldoende en onvoldoende prestaties een kwestie van vergelijkend beoordelen is (geschiedenis van cijfergeven), maar het is een goede eerste benadering.

The Journal of Technology, Learning, and Assessment.

"The Journal of Technology, Learning and Assessment (JTLA) is a peer-reviewed, scholarly on-line journal addressing the intersection of computer-based technology, learning, and assessment."
Free access
O.a. gesponsored door de Bill & Melinda Gates Foundation.
Veel onderzoek dat papieren testafname vergelijkt met afname per computer. Ook onderzoek naar 'automatisch scoren' van opstellen.

IMS Question and Test Interoperability Overview. html

"The IMS Question & Test Interoperability (QTI) specification describes a data model for the representation of question (assessmentItem) and test (assessmentTest) data and their corresponding results reports. Therefore, the specification enables the exchange of this item, test, and results data between authoring tools, item banks, test constructional tools, learning systems, and assessment delivery systems."
Ieder instituut dat wat voorstelt in deze wereld, lijkt aan deze standaard mee te werken, o.a. SURF en ETS, zoals ook de meeste e-toetssystemen er wen enigszins compatibel mee zijn.
Sommige lezers doen er verstandig aan zich op de hoogte te stellen van deze internationale uitwisselingsnorm voor toetsvragen, toetsen en resultatenrapportage. Dit soort standaardisering klinkt heel doelmatig, maar het risico is dat minder doeltreffende toetspraktijken ermee gecaoniseerd kunnen raken. Be warned. Laat dit soort systemen u van nut zijn, maar u niet gaan sturen. Ik zal in dit boek niet verwijzen naar QTI, het raakt niet direct het ontwerpen van toetsvragen zelf.

SketchUp, een vrij 3D tekenprogramma van Google

Het professionele zusje is niet gratis
SketchUp is a simple but powerful tool for quickly and easily creating, viewing and modifying your 3D ideas.
Dit handige programma om tekeningen bij toetsvragen te maken, is in april 2006 als beta beschikbaar gekomen voor Windows, en zal er ook voor MacOS X komen

TIMMS 2007 Trends in International Mathematics and Science Study pdf 3Mb, example mathematics items pdf, example science items pdf

Dit zijn fraaie voorbeelden van toetsen die gemengd zijn samengesteld, zowel open als gesloten vragen. Ik heb nog niet de tijd genomen een begeleidende commentaar bij de voorbeeldopgaven te ontwerpen.
PIRLS 2006 Progress in International Reading Study Assessment Framework and Specifications, 2nd Editionpdf 1.8Mb, sample passages, questions, and scoring guides pdf
- Dit zijn fraaie voorbeelden van toetsen voor taal.
- TIMMS is gericht op groep 4 (young children in their fourth year of schooling) niveau.
- Mieke van Diepen, Universiteit van Nijmegen, is lid van de Questionnaire Development Group
- De TIMMS/PIRLS site biedt een uitgebreide serie publicaties aan sinds 1995.

CAA Centre Computer-asisted assessment in higher education site, handleiding ontwerpen keuzetoetsen pdf

Een handleiding met veel en diverse voorbeelden (niet allemaal aanraders). Het stuk is anoniem.

European Union Science Olympiad voorbeeldvragen html

De olympiade-opgaven zelf:
http://www.euso.be/EUSO%202006/TEST1.pdf
http://www.euso.be/EUSO%202006/TEST2%20final%20version%20English.pdf

http://www.euso.be/EUSO%202006/appendix.jpg

meer literatuur hoofdstuk 2 Vraagsoorten

Robyn Arianrhod (2005). Einstein's Heroes: Imagining the World Through the Language of Mathematics. Oxford University Press.

reviewed by Alfred Scharff Goldhaber in American Scientist online March-April 2006.

Francis Y. Edgeworth (1888). The statistics of examinations. Journal of the Royal Statistical Society, 51, 599-635.

Een grondlegger (profile) van de statistiek (history of statisticslegt hier uit dat examens in behoorlijke mate toevallige uitkomsten geven, en hoe daar verstandig mee om te gaan. Hartog en Rhodes (1936) werken dit concreet uit voor het beoordelen van opstellen.

Donald Laming (2003). Marking university examinations: some lessons from psychophysics. Psychology Learning and Teaching, 3, 89-96 pdf

Voor de bèta's: een schitterende illustratie van de onzuiverheid van opstelbeoordelingen. Ofwel: de noodzaak vragen over tekst volstrekt helder te ontwerpen. N.B.: Laming beperkt zich tot het verbeteren van de beoordeling, Toetsvragen ontwerpen gaat juist over het verbeteren van de opdrachten aan studenten.

Frederick M. Lord and Melvin R. Novick (1968). Statistical theories of mental test scores. Addison-Wesley.

Nog steeds het handboek, maar het deugt niet: het is een poging testtheorie axiomatisch af te leiden. Borsboom (2003): "The theory is constructed in such a way that it always works, but at the price of losing the natural interpretation of its central concepts." Dat deze theorie een tautologie is, is gemeengoed onder psychometristen. Dat zoiets niet helemaal onschuldig is, spelt Borsboom in hoofdstuk 2 van zijn proefschrift uit.
De Gruyter and Van der Kamp (2005). Statistical test theory for education and psychology.
Gary W. Phillips (Ed) (1996). Technical issues in large-scale performance assessment. National Center for Education Statistics. pdf
- Dit boek gaat over de belangrijke thema's bij grootschalig toetsen in het onderwijs, waarvoor de fundamenten in Lord en Novick zijn te vinden. Dezelfde thema's zijn natuurlijk in beginsel ook voor de zelfgemaakte toets van de docent van belang, en zeker wanneer die zelfgemaakte toetsen gezamenlijk worden bekeken in hun uitwerking op de onderwijsloopbaan van individuele leerlingen en studenten. Hoewel hier uitdrukkelijk hele toetsen aan de orde zijn, zijn deze kwalitatief volledig bepaald door de kwaliteit van de vragen waaruit ze zijn samengesteld. De gezaghebbende hoofdstukken hieruit, zonder dat ik hiermee uitspreek dat de opvattingen van deze spelers volledig sporen met die in mijn boek (Amerika is en blijft het land van de test-gekte, zie Hanson (1993) Testing testing online):
- Samuel Messick: Validity of performance assessments.
- Robert L. Brennan: Generalizability of performance assessments.
- Edward H. Haertel: Comparability
- Richard M. Jaeger, Ina V. S. Mullis, Mary Lyn Bourque en Sharif Shakrani: Setting performance standards for performance assessments: Some fundamental issues, current practice, and technical dilemmas
- Lloyd Bond: Fairness in large-scale performance assessments
F. Allan Hanson (1993). Testing testing. Social consequences of the examined life. University of California Press.
- Een waarschuwing dat wat voor deze gelegenheid nuttig en handig lijkt om te testen, tot een hel wordt wanneer datzelfde voor alle gelegenheden, drempels en poortjes in de samenleving wordt gedaan.

Gün R. Semin (2000). Language as a cognitive and behavioral structuring resource: question-answer exchanges. In Wolfgang Stroebe and Miles Hewstone: European review of social psychology. Volume 11 ( p. 75-104). Wiley.

Ben Wilbrink (1992). Casus keuzevragen ontwerpen algemene taalwetenschap. pdf

geschiedenis

De geschiedenis van ideeën over en gebruik van toetsvragen is van belang om de eenvoudige reden dat toevallig historisch gegroeide methoden makkelijk worden geheiligd als een soort bewezen canon, terwijl er van enig 'bewijs' in verre verten geen sprake is. Ik zal er ooit afzonderlijk aandacht aan besteden. Hieronder vast, min of meer toevallig op basis van wat in mijn eigen bibliotheek aanwezig is, een voorschot.

beroemde middeleeuwse vragen (ca 1100) van een leerling aan zijn meester

"Dit is die Dietsche Lucidarius, hoe die clerc den meester vraecht ende di meester antwert."

Nolanda Klunder (2005). Lucidarius. De Middelnederlandse Lucidarius-teksten en hun relatie tot de Europese traditie. Prometheus.

Ongemeen intrigerend, hoe diep in onze cultuur geworteld is het idee dat kennis bestaat uit het weten van de antwoorden op vragen. We kennen dat al uit de catechismus, en de Lucidarius is daar in zekere zin een variant op. Er zijn verschillende teksten bekend, daaronder ook een uitgebreidere versie met extra vragen buiten de theologie: de 'artes-Lucidarius.'

Daniel Starch (1916). Educational measurements. New York: Macmillan.

De Groot kende dit boek, mijn exemplaar komt uit zijn aan het RITP geschonken collectie.
Het gaat om citotoets-achtige vragen, dus geen overhoringen van huiswerk.
De testvragen zijn soms nog 'gewone' opgaven waarop de leerlingen open antwoorden geven, maar ook veel 'objectieve' vragen die in hun layout op het eerste gezicht sterk op de klassieke open vragen lijken.
De eerste opmerking van Starch is dat zijn boek voortijdig is, omdat al deze tests nog in een experimenteel stadium verkeren. Dat maakt het boek juist interessant: het laat als het ware zien hoe de 'objectieve' vragen uit het psychologisch laboratorium ontsnappen naar de wereld van de klaslokalen.
"If there are any products or by-products of education which are too subtle to be distinguished or judged as existing in greater or less amounts, or as having higher or lower quality, we may be suspicious of their actual existence. Any quality or ability of human nature that is detectable is also measurable. It remains only to discover more and more accurate means of measurement."
Het citaat geeft goed de opvattingen binnen de psychologie in die dagen weer. In deze naiviteit is de psychometrische benadering van beoordelen in het onderwijs geworteld, inderdaad alsof het alleen om goed 'meten' zou gaan, en alsof degenen die hun capaciteiten laten 'meten' dat louter lijdelijk zouden laten gebeuren.
Het interessante van wat er in het begin van de 20e eeuw in de VS gebeurt is dat ideeën ('meten is weten') en technieken ('objectieve' testvragen) uit het psychologisch laboratorium ontsnappen en het onderwijsveld (dat tot dan eigenlijk alleen vergelijkende beoordelingen en examens kent, zie Wilbrink, 1997 html) als het ware infecteren. De testkoorts die volgt, waarschijnlijk aangejaagd door de sterk groeiende deelname aan steeds hogere vormen van onderwijs, zal tot de dag van vandaag alleen maar toenemen. Recent voorbeeld is de scherpe selectie voor de universiteit van Berkeley, waarvan enkele decennia geleden nog geen sprake was. Waarschijnlijk (dat zoek ik uit) is er begin 20e eeuw sprake van een historisch incident dat bepalend is voor toekomstige toetsgewoonten, ongeveer zoals het QWERTY-toetsenbord op een heel vroeg moment in de automatisering van tekstverwerking de layout van toetsenborden definitief heeft bepaald. Een lock-in heet dit fenomeen, andere voorbeelden daarvan zijn de benzine-auto (electrisch was in een vroeg stadium ook een mogelijke ontwikkeling) en de VHS-tape (kwalitatief veel minder dan het V2000 systeem van Philips).

J. Duursma en L. Lammerse (1928). Natuurkunde I. Arnhem: Ten Brink's Uitgeverij. met antwoordenboekje.

Bevat vooral heel veel vragen, plus nog een extra paragraaf herhalingsvragen. De auteurs maken het makkelijk na te gaan wat leerlingen voor het maken van die opgaven moeten presteren, omdat ze telkens door een paar uitgewerkte voorbeelden worden voorafgegaan.
Het is geen verrassing dat vooral rekenkundige bewerkingen worden gevraagd, en waarschijnlijk rechtlijnige toepassing van wat in de theorie staat, dus geen uitdaging om het eigen inzicht in natuurkundige verschijnselen te vergroten.

Frances M. Austin (1949). The art of questioning in the classroom. London: University of London Press.

Leuk boekje, gaat over vragen van kleine kinderen, meer dan over vragen aan kinderen. Heel andere manieren om tegen vragenstellen aan te kijken.
Leuk of niet, het is natuurlijk een serieuze zaak dat vragenstellen in het leerproces een heldere relatie heeft tot vragen te stellen na afloop van dat leerproces. Zo'n boekje herinnert daar nog eens aan.

J. R. Gerberich (1956). Specimen objective test items. A guide to achievement test construction. Longmans.

Een rijke collectie voorbeelden van 'objectieve' vragen uit gepubliceerde bronnen. Daardoor ook verbijsterend door de veelheid van vormen.
Het zou mij niet verbazen dat dit type boek heeft bijgedragen aan het idee van De Groot en anderen om het op te richten Cito alleen met vierkeuzevragen te laten werken. Een vereenvoudiging was zeker nodig, maar had beter op andere wijze kunnen gebeuren.
Zoals Haladayna (1999) later wel doet: komen tot een shortlist van adequate vraagsoorten, zo mogelijk op grond van empirisch onderzoek.
Het zou de moeite waard zijn eens na te gaan of de vragen in Gerberich voldoen aan de kwaliteitseisen zoals in Haladyna te vinden. Mogelijk is er inderdaad behoorlijke vooruitgang geboekt sinds 1956, zelfs afgemeten aan de beperkte eisen zoals die typisch in de huidige educational measurement literatuur voorkomen. Gerberich gaat niet in op de historische ontwikkeling van objectieve vragen.

John R. Bormuth (1970). On the theory of achievement test items. Chicago: University of Chicago Press.

De overtuiging van Starch, 'meten is weten,' is ook die van Bormuth, hij heeft er iets meer woorden voor nodig (p. 81-82):
"It is difficult to overemphasize the importance to instruction of research which attempts to analyze the cognitive processes underlying responses to item types. [maar zie ook het tweede citaat hierbeneden] It is commonly accepted that, in many subject-matter areas, the learning of the knowledge explicitly taught by the instructional programs is less valued as a learning outcome than learning the complex cognitive processes by which that and other knowledge is discovered, evaluated, organized, and applied. Achievement test items which can test these complex processes are useful not only for evaluating the student's achievement and the effectiveness of his instruction, but also for providing the instructional exercises which force him to practice those processes. But few of these benefits can be reaped until we identify exactly what it is that the different classes of items test."
Wat Bormuth hier aan inzicht toevoegt, is de strakke koppeling van instructie en toetsen. Maar hij overdrijft daarin op mega-schaal, in feite claimt hij hier immers dat onderwijs nooit heeft kunnen deugen omdat we deze ingewikkelde processen niet exact kennen. Het is ook enigszins in tegenspraak met zijn eerdere veroordeling van traditionele methoden voor het ontwerpen van toetsvragen, waarin altijd wordt geprobeerd die cognitieve processen te toetsen (p. 32):
"In the traditional approach the test writer outlines the content of instruction and the cognitive behaviors he thinks the students should use to exhibit their mastery of the content."
Bovenstaand citaat drukt de kritiek van Bormuth op traditionele methoden nog zeer mild uit, op andere plaatsen spreekt hij werkelijk vernietigende oordelen uit. Dat is wonderlijk, omdat in zijn eigen operationele methode de (tekst van de) gegeven instructie allesbepalend is, en zodoende een status van heiligheid krijgt toegedicht. Bormuth schuift de subjectiviteit dus wel een stap terug, maar hij kan de instructie zelf niet operationaliseren zoals hij doet met het ontwerpen van toetsvragen gegeven die instructie. Dit reductie-probleem zal ook wel de doodssteek voor de Bormuth-theorie zijn geweest, dat zou ik eens na moeten gaan.

meer literatuur hoofdstuk 2.6 Validiteit

John R. Anderson (1988). The expert module. In Martha C. Polson and J. Jeffrey Richardson (Eds) (1988). Foundations of intelligent tutoring systems (21-54). Erlbaum. [books.google questia.com]

Robyn Arianrhod (2005). Einstein's Heroes: Imagining the World Through the Language of Mathematics. Oxford University Press.

reviewed by Alfred Scharff Goldhaber in American Scientist online March-April 2006.

Horace Barlow, Colin Blakemore and Miranda Weston-Smith (Eds) (1990). Images and understanding. Thoughts about images. Ideas about understanding. Cambridge University Press.

Janice Glasgow, N. Hari Narayanan, and B. Chandrasekaran (Eds) (1995). Diagrammatic reasoning. Cognitive and computational perspectives. Cambridge, Massachusetts: MIT Press.

Bert Meuffels (2004). Cijfergeven over de grens. Examens, 1, maart, 15-17.

Geeft een tabel die fraai laat zien hoe verschillend de cijfergewoonten internationaal zijn.
Eigenlijk zou ik cijfergeven graag toevoegen aan hoofdstuk 2, maar het probleem is dat dit op zijn minst een halve stap is op weg naar beslissen op basis van toetsresultaten, en dat laatste is echt een onderwerp op zich. Zie daarvoor liever mijn toetsmodel hier [Engels]

Robert Linn, Eva L. Baker and Stephen B. Dunbar (1991). Complex, performance-based assessment: Expectatons and validation criteria. CSE Technical Report 331 pdf, Educational Researcher, 20(8), 15-21.

p. 6: "Although the call for authentic assessment seems new to many, it has been standard advice from some measurement specialists for a long time. Lindquist (1951) [Educational Measurement], for example, argued that "it should always be the fundamental goal of the achievement test constructor to make the elemente of his test series as nearly equivalent to, or as much like, the elements of the criterion series as consequences of efficiency, comparability, economy, and expediency will permit" (p. 152, emphasis in the original). With regard to the construction of tests intended to measure higher-order thinking and critical reasoning skills, Lindquist (1951) went on to note that "the most important consideration is that the test questions require the examinee to do the same things, however complex, that he is required to do in the criterion situations (p. 154, emphasis in the original). Clearly, questions of validity focus their attention on long-range objectives, criterion situations, if you will, and the extent to which they are reflected in the tasks presented to learners on a test."

Stella Baruk (1998). L'âge du capitaine. De l'erreur en mathématiques. [Ik heb dit boek nog niet bemachtigd]

Over de rekenopgave die 'De leeftijd van de kapitein' heet, zie bijv. hier voor een illustratie: "Problème posé par l'écrivain français Gustave Flaubert (1821-1880) dans une lettre à sa sœur Caroline en 1843. Puisque tu fais de la géométrie et de la trigonométrie, je vais te donner un problème : Un navire est en mer, il est parti de Boston chargé de coton, il jauge 200 tonneaux, il fait voile vers Le Havre, le grand mât est cassé, il y a un mousse sur le gaillard d'avant, les passagers sont au nombre de douze, le vent souffle NNE, l'horloge marque trois heures un quart d'après-midi, on est au mois de mai ... On demande l'âge du capitaine." "A ship sails the ocean. It left Boston with a cargo of wool. It grosses 200 tons. It is bound for Le Havre. The mainmast is broken, the cabin boy is on deck, there are 12 passengers aboard, the wind is blowing East-North-East, the clock points to a quarter past three in the afternoon. It is the month of May. How old is the captain ?" Flaubert's opgave is een heftig voorbeeld van window dressing, in hedendaags empirisch onderzoek is de vraag sterk afgeslankt. Ook dan vallen veel leerlingen ervoor.

Randy Elliot Bennett (2004). How the Internet Will Help Large-Scale Assessment Reinvent Itself. In Fran C. Blumberg, Howard T. Everson and Mitchell Rabinowitz: The Design of Instruction and Evaluation: Affordances of Using Media and Technology. Erlbaum. questia

" (...) whereas our tests have incorporated many psychometric advances, they have remained separated from equally important advances in cognitive science, in essence measuring the same things in ever more technically sophisticated ways. Although decades of research have documented the importance of such cognitive constructs as knowledge orga- nization, problem representation, mental models, and automaticity (Glaser, 1991), our tests typically do not account for them explicitly. As a result, our tests probably owe more to the behavioral psychology of the early 20th century than to the cognitive science of today (Shepard, 2000)."

Marco de Boni (2004). Relevance in open domain question answering: Theoretical framework and application. Thesis. University of York, Department of Computer Science. pdf 1.4Mb

Albert Burgos (2004). Guessing and gambling. Economics Bulletin, 4, No. 4 pp. 1-10. http://www.economicsbulletin.com/2004/volume4/EB-04D80001A.pdf

The Burgos case is that of multiple choice testing where the student either may leave unanswered questions she is uncertain about or doesn't know the answer of, or guess the answer. This is a problematic case where the student has partial knowledge and at the same time is risk aversive: the achievement test becomes somewhat a test of personality.. In the Netherlands this kind of situation usually is avoided by forcing students to always answer test items, if need be by guessing. In the US the GRE and the SAT follow different rules, the GRE counts the number correct (students therefore should mark all items), the SAT punishes wrong answers (students may leave questions unmarked). Nevertheless, the article is quite insightful where it comes to problems of guessing on achievement test items, a problem not, of course, unique to the multiple choice format.

abstract: Scoring methods in multiple-choice tests are usually designed as fair bets, and thus random guesswork yields zero expected return. This causes the undesired result of forcing risk averse test-takers to pay a premium in the sense of letting unmarked answers for which they have partial but not full knowledge. In this note I use a calibrated model of prospect theory [Tversky and Kahneman (1992, 1995))] to compute a fair rule which is also strategically neutral, (i.e. under partial knowledge answering is beneficial for the representative calibrated agent, while under total uncertainty it is not). This rule is remarkably close to an old rule presented in 1969 by Traub et al. in which there is no penalty for wrong answers but omitted answers are rewarded by 1/M if M is the number of possible answers.

Michelene T. H. Chi (1997). Quantifying Qualitative Analyses of Verbal Data: a Practical Guide. Journal of the Learning Sciences, 6, 271-316. questia or pdf

" the main goal of the analyses discussed here is to formulate an understanding of the representation of the knowledge used in cognitive performances and how that representation changes with learning. "

M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. Proefschrift R.U. Leiden. Zwolle: Tjeenk Willink.

Bespreekt studierechten en doceerplichten. Zie i.h.b. blz. 95 'transparantie of kenbaarheid', en blz. 97 'kenbaarheid als beginsel van behoorlijk bestuur?' voor de meer juridische aspecten van doorzichtigheid.

Hans F. M. Crombag (1981). Over het inrichten van leersituaties, in: A. I. Vroeijenstein, Kwaliteitsverbetering hoger onderwijs. Voorburg: CBOWO/Stichting Nationaal Congres.

Over het belang van het 'concretiseren' van het onderwijs.

Stillman Drake (1990) Galileo: Pioneer scientist. University of Toronto Press.

Fantastisch. Hoe is het mogelijk. Ik moet dit nog zorgvuldig bestuderen, maar Stillman Drake werpt aan de hand van ongepubliceerd gebleven kladblaadjes van Galilei een helder licht op de experimentele werkwijze van hem. Galileo laat het experiment spreken, heeft daarmee lak aan de queeste van bijna alle filosofen die op zoek moeten naar oorzaken van fenomenen, hij beschrijft zo precies mogelijk wat er onder gecontroleerde omstandigheden gebeurt. In het geval van vallende lichamen is dat heel verstandig, want zwaartekracht als 'oorzaak' van de val van van alles en nog wat, is een ongelooflijk lastig concept. Ook Newton liet dat terzijde: die kracht werkte, maar wat daar het 'mechanisme' van was kon hij niet zeggen. Dat lijkt ook de verkeerde vraag te zijn, maar dat is juist heel wonderlijk. Zie ook de mooie uiteenzetting die Arianrhod (2005) geeft over Maxwell en hoe hij de electromagnetische theorie probeerde te formuleren (ook een kwestie van wonderlijke krachten-op-afstand, waarvoor wij ons geen 'mechanisme' kunnen voorstellen).
Wat moet de ontwerper van toetsvragen hiermee? Wel, die moet niet naief zijn bij vragen over fenomenen die het karakter van 'emergent processes' hebben, zoals Michelene Chi zou zeggen, of op andere manier zich niet in de vorm van analogieën of meetaforen laten 'voorstellen' en 'begrijpen.'

Yeap Ban Har, Ho Siew Yin, Berinderjeet Kaur & Lee Ngan Hoe (2002?). Children making sense during word problem solving. pdf paper.

The pictured non-standard word problem is from this research.

Willem K. B. Hofstee (1983). Beoordelingen van subsidie-aanvragen voor onderwijsresearch: een psychometrische evaluatie. Tijdschrift voor Onderwijsresearch, 8, 273-283.

Beoordeling in een situatie waarin er weinig valide variantie tussen de aanvragen is.
Dat is een situatie die ook in het onderwijs wel voor kan komen, bijvoorbeeld bij zware en ondoorzichtige examens zoals (in het verleden?) die voor register-accountant, waarbij in feite vrijwel alle deelnemers zich rond het zak-slaag-niveau bevinden (daar beneden heeft het geen zin deel te nemen, daarboven was je het voorgaande jaar als geslaagd). bw.

Jabornegg (2004). Der Portfolio-Ansatz in der Schülerbeurteilung der USA und seine Bedeutung für die Schüerbeurteilung in der neuen kaufmännischen Grundbildung (NKG). Dissertation pdf

Kempen, G., & van Wijk, C. (1981). Hoe uit opstellen een objektieve index voor formuleervaardigheid afgeleid kan worden. Taalbeh. 3, 32-44.p class='lit'> Leanne R. Ketterlin-Geller (2005). Knowing what all students know: Procedures for developing universal design for assessment. The Journal of Technology, Learning, and Assessment, 4. pdf

abstract Universal design for assessment (UDA) is intended to increase participation of students with disabilities and English-language learners in general education assessments by addressing student needs through customized testing platforms. Computer-based testing provides an optimal format for creating individually-tailored tests. However, although a theoretical basis for universal design is well established, little practical information is available to assist test developers in creating and implementing universally designed tests. This article discusses the application of universal design to assessment and describes how these principles are applied to a test of 3rd grade mathematics ability. I present the steps involved in conceptualizing, constructing, and implementing a universally designed test in anticipation that test developers, state department assessment coordinators, and other researchers will benefit from this application. (...)

R. Eric Landrum, Jeffrey R. Cashin and Kristina S. Theis (1993). More evidence in favor of three-option multiple-choice tests. Educational and Psychological Measurement, 53, 771-778. pdf

Het is een heel beperkt onderzoek, van het soort waarin dit Journal grossiert, geen meta-analyse. "Results indicate that students performed significantly better on 3-option items than on 4-option items (corrected for chance guessing), and that this improvement may be due to improved validity of the test items."

A. Leen (1961). De ontwikkeling van het rekenonderwijs op de lagere school in de 19e en het begin van de 20ste eeuw. Groningen; Wolters. Proefschrift Vrije Universiteit Amsterdam.

Frederick M. Lord (1964). The effect of random guessing on test validity. Educational and Psychological Measurement, 24, 745-747. [Deze jaargang in Leiden niet aanwezig. Ik zoek nog een kopie]

Dick Meijer, Daniela Fasoglio (2006). Handreiking schoolexamen moderne vreemde talen havo/vwo Duits, Engels, Frans Voortgezet onderwijs. Herziening examenprogramma's havo/vwo . SLO. pdf

o.a. "Hfdst 5. Het Europees Referentiekader en Taalprofielen De examenprogramma's havo en vwo zijn vanaf 2007 gekoppeld aan het Europees Referentiekader (ERK). Hierdoor zijn de globaal geformuleerde eindtermen voorzien van niveauaanduidingen. Hierbij is mede gebruik gemaakt van het document Taalprofielen (Liemberg en Meijer, 2004). In dit hoofdstuk worden eerst beide documenten nader toegelicht. Daarna worden de niveauspecificaties van de tot 2007 geldende examenprogramma's voor de schoolexamens Engels, Frans en Duits gerelateerd aan het ERK. De analyse die tot deze koppeling heeft geleid is te vinden in de bijlage. "

H. De Neve en P. J. Janssen (1992). Succesvol examineren in het hoger onderwijs. Leuven: Acco.

Een overzichtelijk boekje voor docenten. Neemt een principiële inzichten uit 'Toetsvragen schrijven' over: het ontwerpen van toetsvragen is een kunde, geen kunst; het doel van toetsen is primair didactisch van aard, niet om te selecteren, en in die zin moeten itemstatistieken worden gebruikt.

Martin Nuy (1994). Toetsen voor cijfers: proefwerken, schoolonderzoeken, tentamens. Nijkerk: Intro. Mooi cursusboek, kort, helder, overzichtelijk, veel voorbeelden, vooral over het ontwerpen van toetsvragen.

W. James Popham (1981). Modern educational measurement. London: Prentice-Hall, 1981.

Een gunstig, maar toch representatief voorbeeld van de behandeling van het onderwerp toetsvragen ontwerpen in Amerikaanse stijl.

Michael C. Rodriguez (2003). Construct equivalence of multiple-choice and constructed-response items: A random effects synthesis of correlations. Journal of Educational Measurement, 40, 163-184. [moet ik nog bestuderen]

Kathleen Scalise and Bernard Gifford (2006). Computer-Based Assessment in E-Learning: A Framework for Constructing “Intermediate Constraint” Questions and Tasks for Technology Platforms. Journal of Technology, Learning, and Assessment, 4(6). Retrieved [date] from http://www.jtla.org

from the abstract This paper introduces a taxonomy or categorization of 28 innovative item types that may be useful in computer-based assessment. Organized along the degree of constraint on the respondent's options for answering or interacting with the assessment item or task, the proposed taxonomy describes a set of iconic item types termed “intermediate constraint” items. These item types have responses that fall somewhere between fully constrained responses (i.e., the conventional multiple-choice question), which can be far too limiting to tap much of the potential of new information technologies, and fully constructed responses (i.e. the traditional essay)

Tamara van Schilt-Mol (2007). Differential Item Functioning en Itembias in de Cito-Eindtoets Basisonderwijs. Oorzaken van onbedoelde moeilijkheden in toetsopgaven voor leerlingen van Turkse en Marokkaanse afkomst. Dissertation Tilburg University, commercial edition: Uitgeverij Aksant

Lambert Schuwirth (2006). Toetsen met korte casussen. In Henk van Berkel en Anneke Bax: Toetsen in het hoger onderwijs (p. 127-143). Houten: Bohn Stafleu van Loghum.

Lambert W. T. Schuwirth and Cees P. M. van der Vleuten (2003). Written assessment. BMJ 2003;326:643-645 (22 March). html

"Choosing the most appropriate type of written examination for a certain purpose is often difficult. This article discusses some general issues of written assessment then gives an overview of the most commonly used types, together with their major advantages and disadvantages"

Herbert A. Simon (1976). The understanding process: problem isomorphs. Cognitive Psychology, 8, 165-190. Reprinted in Herbert A. Simon: Models of thought. New Haven: Yale University Press.

Guillermo Solano-Flores, Richard J. Shavelson, and Steven A. Schneider (2001). Expanding the Notion of Assessment Shell: From Task Development Tool to Instrument for Guiding the Process of Science Assessment Development. Revista Electrónica de Investigación Educativa, 3. pdf

Abstract We discuss the limitations and possibilities of shells (blueprints with directions for test developers intended to reduce test development costs and time). Although shells cannot be expected to generate statistically exchangeable exercises, they can generate exercises with similar structures and appearances when they are highly specific and test developers are properly trained to use them. Based on our research and experience developing a wide variety of assessments, we discuss the advantages of conceiving shells as: (a) tools for effective development of constructed-response items, (b) formal specifications of the structural properties of items; (c) task-authoring environments that help test developers standardize and simplify user (examinee) interfaces; and (d) conceptual tools that guide the process of assessment development by enabling test developers to work systematically. We also caution against possible misuses of shells.

C. P. Sparks (1980). Open versus secure testing. Personnel Psychology, 33, 1-2.

Inleiding op een themanummer van Personnel Psychology op dit thema. In de Verenigde Staten is namelijk een heftige strijd losgebarsten rond het achteraf vrijgeven van gestandaardiseerde tests die gebruikt worden bij selectieve toelatingen tot instellingen van Hoger Onderwijs. In steeds meer staten wordt vrijgeven van items een wettelijke verplichting.

Janine Swaak and Ton de Jong (1996). Measuring intuitive knowledge in science: The development of the what-if test. Studies in Educational Evaluation, 22, 341-362. pdf

Might be of interest for the paragraph 2.6 on validity.

D. Tempelaar en D. N. M. de Gruijter (2004). Computertoetsing bij de Emerge-instellingen. Eindrapport deelproject OP4.3; versie 7.131204. Emerge. pdf

Online toetsen stellen niet echt andere eisen aan het ontwerp van toetsvragen. Nuttig rapport om een indruk te krijgen van wat er zoal komt kijken bij het opzetten en implementeren van online toetsen.

Denny Borsboom (2003). Conceptual issues in psychological measurement. Dissertation University of Amsterdam.

Based on—but not identical to—a series of underlying papers by Borsboom, Mellenbergh and Van Heerden published in the Psychological Review.

Denny Borsboom (2005). Measuring the mind. Conceptual issues in contemporary psychometrics. Cambridge University Press.

Based on the 2003 dissertation

Denny Borsboom, Jaap van Heerden and Gideon J. Mellenbergh (2003). Validity and truth. In: H. Yanai, A. Okada, K. Shigemasu, Y. Kano and J. J. Meulman: ), New developments in psychometrics. Proceedings of the International Meeting of the Psychometric Society 2001 (pp. 321-328). Tokyo: Springer. pdf

Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden (2002). Functional thought experiments. Synthese, 130, 379-387. pdf

Teun Koetsier (1991). Lakatos' philosophy of mathematics. A historical approach. North-Holland. Studies in the History and Philosophy of Mathematics, volume 3.

Een leerzaam boek, om het zo maar eens te noemen. Maakt gebruik van letterlijke transcripties uit de bronnen.
Direct van belang: paragraaf 5.3 De didactiek.
Bijvoorbeeld zoiets aardigs als de volgorde optellen, aftrekken, vermenigvuldigen en rekenen in de opbouw van het rekenen met hele getallen, maar ook bij het rekenen met breuken waar juist vermenigvuldigen en delen makkelijker zijn dan optellen en aftrekken. In de oeroude rekenboeken van al-Khwarizmi en Sacrobosco in die volgorde voor gehele getallen al vastgelegd, eeuwen later wijkt vrijwel niemand daar meer van af, ook niet voor breuken.
Wat vooral opvalt: heel de rekenkunde is toepassingsgericht, alle opgaven zijn redactiesommen uit de beroepspraktijk, hoewel ook wel opgaven voorkomen met gefingeerde getallen, en fictieve redactiesommen uit de traditie (par. 5.2.3).

Frederick M. Lord and Melvin R. Novick (1968). Statistical theories of mental test scores. Addison-Wesley.

Nog steeds het handboek, maar het deugt niet: het is een poging testtheorie axiomatisch af te leiden. Borsboom (2003): "The theory is constructed in such a way that it always works, but at the price of losing the natural interpretation of its central concepts." Dat deze theorie een tautologie is, is geemngoed onder psychometrie. Dat zoiets niet helemaal onschuldig is, spelt Borsboom in hoofdstuk 2 van zijn proefschrift uit.
De Gruyter and Van der Kamp (2005). Statistical test theory for education and psychology.
Gary W. Phillips (Ed) (1996). Technical issues in large-scale performance assessment. National Center for Education Statistics. pdf
- Dit boek gaat over de belangrijke thema's bij grootschalig toetsen in het onderwijs, waarvoor de fundamenten in Lord en Novick zijn te vinden. Dezelfde thema's zijn natuurlijk in beginsel ook voor de zelfgemaakte toets van de docent van belang, en zeker wanneer die zelfgemaakte toetsen gezamenlijk worden bekeken in hun uitwerking op de onderwijsloopbaan van individuele leerlingen en studenten. Hoewel hier uitdrukkelijk hele toetsen aan de orde zijn, zijn deze kwalitatief volledig bepaald door de kwaliteit van de vragen waaruit ze zijn samengesteld. De gezaghebbende hoofdstukken hieruit, zonder dat ik hiermee uitspreek dat de opvattingen van deze spelers volledig sporen met die in mijn boek (Amerika is en blijft het land van de test-gekte, zie Hanson (1993) Testing testing):
- Samuel Messick: Validity of performance assessments.
- Robert L. Brennan: Generalizability of performance assessments.
- Edward H. Haertel: Comparability
- Richard M. Jaeger, Ina V. S. Mullis, Mary Lyn Bourque en Sharif Shakrani: Setting performance standards for performance assessments: Some fundamental issues, current practice, and technical dilemmas
- Lloyd Bond: Fairness in large-scale performance assessments
F. Allan Hanson (1993). Testing testing. Social consequences of the examined life. University of California Press.
- Een waarschuwing dat wat voor deze gelegenheid nuttig en handig lijkt om te testen, tot een hel wordt wanneer datzelfde voor alle gelegenheden, drempels en poortjes in de samenleving wordt gedaan.

Craig R. M. McKenzie, John T. Wixted, David C. Noelle and Gohar Gyurjyan (2001). Relation between confidence in yes-no and forced-choice tasks. Journal of Experimental Psychology: General, 130, 140-155. pdf

Het is niet de bedoeling van de onderzoekers geweest, maar dit artikel gaat over belangrijke kenmerken van ja-neevragen en/versus keuzevragen. Zeg maar onderzoek naar validiteitsaspecten van deze vraagvormen op zich.

Robert Sternberg (2008). Applying psychological theories to educational practice. American Educational Research Journal, 45, 150-165. abstract

Sternberg is mogelijk de meest publicerende psycholoog, op dit moment. Hij presteert dat ook wel een beetje door te herhalen. Zo maakt hij in zijn (2008) gebruik van eerder werk, gepubliceerd als:
Robert J. Sternberg, Michel Ferrari, Pamela Clinkenbeard and Elena L. Grigorenko (1996). Identification, instruction, and assessment of gifted children: A construct validation of a triarchic model. Gifted Child Quarterly, 40, 129-137. abstract " This article presents a unified model — the triarchic theory of human intelligence — for the identification, instruction, and assessment of the achievement of gifted children. The article opens with a discussion of the need for a unified model of identification, instruction, and assessment. The triarchic model is then offered as one potential model. Next the article discusses how the triarchic model could be implemented in a variety of subject matter areas. Finally, it describes a construct-validation of the model in the context of one subject matter area, college-level psychology taught to high-school students. The results show promise for the model's use in gifted education. Students performed better when their triarchic ability pattern was matched, rather than mismatched, to instruction and assessment."

Robert Sternberg (2003). What is an 'expert student?' Educational Researcher, 32, #8, 5-9.

Other articles in the same journal:
Patricia A. Alexander (2003). The development of expertise: The journey from acclimation to proficiency. 10-14
Philip L. Ackerman (2003). Cognitive ability and non-ability tratit determinants of expertise. 15-20
Susanne P. Lajoie (2003). Trnasitions and trajectories for studies of expertise. 21-25

M. Norton Wise (Ed.) (1995). The values of precision. Princeton University Press. (ao.: Andrea Rusnock: Quantification, Precision, and Accuracy: Determinations of Population in the Ancien Regime - Ken Alder: A Revolution to Measure: The Political Economy of the Metric System in France - Kathryn M. Olesko: The Meaning of Precision: The Exact Sensibility in Early Nineteenth-Century Germany - Simon Schaffer: Accurate measurement is an English science - Andrew Warwick: The Laboratory of Theory or What's Exact about the Exact Sciences?)

Ben Wilbrink (2004). Toetsopvattingen van docenten. Concept html

meer literatuur hoofdstuk 3 Leerstofinventarisatie

M. David Merrill and Richard C. Boutwell: Instructional development: methodology and research, F. N. Kerlinger (Ed) (1973). Review of research in education volume 1. Itasca, Illinois: F.E. Peacock Publishers. (95-129)

Het hier beschreven gedachtengoed is van grote invloed geweest op de opzet van de eerste cursus 'Toetsen' (1979).

Peter Achinstein (1968). Concepts of science. A philosophical analysis. Baltimore: The Johns Hopkins Press.

Definitions, The interpretation of terms, Theories, Observational terms, Theoretical terms, Analogies and models, On a semantical theory of models
Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden (2003). The theoretical status of latent variables. Psychological Review, 110, 203-219. pdf
- This article examines the theoretical status of latent variables as used in modern test theory models. First, it is argued that a consistent interpretation of such models requires a realist ontology for latent variables. Second, the relation between latent variables and their indicators is discussed. It is maintained that this relation can be interpreted as a causal one but that in measurement models for interindividual differences the relation does not apply to the level of the individual person. To substantiate intraindividual causal conclusions, one must explicitly represent individual level processes in the measurement model. Several research strategies that may be useful in this respect are discussed, and a typology of constructs is proposed on the basis of this analysis. The need to link individual processes to latent variable models for interindividual differences is emphasized.
Joost Breuker (1980). In kaart brengen van leerstof. Utrecht: Het Spectrum, Aula 801.
- Behandelt het schematiseren als methode om globale samenhangen in de leerstof in kaart te brengen. Geeft naast een 'minicursus schematiseren' ook enkele theoretische achtergronden bij de schematiseermethode.
- Voor een actuele inleiding, online beschikbaar, zie Novak en Canas (2006) html
Audrey B. Champagne, Richard F. Gunstone and Leopold E. Klopfer (1985). Instructional consequences of students' knowledge about physical phenomena. In Leo H. T. West and A. Leon Lines: Cognitive structure and conceptual change (pp. 61-90). Academic Press.
Eduard Jan Dijksterhuis (1950). De mechanisering van het wereldbeeld. Amsterdam: Meulenhoff.
- In 2006 verzorgt Amsterdam University Press een nieuwe paperback-uitgave
- In 1951 bekroond met de P. C. Hooftprijs, Staatsprijs voor de Letterkunde.
- Het contrast tussen de naieve en de klassieke natuurkunde, die van Aristoteles en die van Newton: als iets beweegt dan is er een kracht die erop inwerkt, versus: als iets beweegt dan is er geen kracht die erop inwerkt—alleen als de beweging verandert komt dat door een kracht die erop inwerkt. Groter contrast is moeilijk denkbaar. Dijksterhuis behandelt het uitvoerig, en dan:
- p. 32: "Wij hebben bij de behandeling van de natuurlijke en gedwongen bewegingen heel lang stilgestaan, maar het onderwerp verdient die uitvoerigheid om zijn eminente betekenis voor het verkrijgen van een juist inzicht in de Aristotelische denkwijze over de natuur en in de moeite die het gekost heeft, haar te boven te komen. Met de fouten en misvattingen die daarbij overwonnen moesten worden, worstelt in wezen nog heden ten dage iedere beginneling in de physica en in het beginonderwijs in dit vak speelt zich elk jaar in verkleinden maatstaf en versneld tempo een stuk van de geschiedenis opnieuw af. De oorzaak ligt voor de hand: Aristoteles heeft niets anders gedaan dan de allergewoonste ervaringen op het stuk van beweging als algemene natuurwetenschappelijke stellingen formuleren, terwijl de klassieke mechanica met haar traagheidswet en haar evenredigheid van kracht en versnelling beweringen uitspreekt, die niet alleen door de alledaagse ervaring nooit bevestigd worden, maar waarvan de directe experimentele verificatie in beginsel uitgesloten is: men kan nu eenmaal een stoffelijk punt niet geheel alleen in een oneindige lege ruimte brengen en er dan een kracht op laten werken die constant is in richting en grootte; men kan aan deze formulering zelfs geen redelijken zin hechten. En van alle proeven waarmee de leerboeken der mechanica de dynamische grondwet plegen te bewijzen, is er nooit een enkele in werkelijkheid uitgevoerd.
  De Aristotelische physica heeft dus op de klassieke voor, dat zij handelt over concrete aanschouwelijke situaties, die we voortdurend om ons heen aantreffen. Maar dat vormt uit natuurwetenschappelijk oogpunt juist haar zwakte, want deze situaties zijn zo gecompliceerd (...), dat ze zelfs met alle hulpmiddelen van de voltooide klassieke mechanica altijd nog maar bij benadering en ten koste van betrekkelijk willekeurige onderstellingen mathematisch te behandelen zijn."
- Alexander Hahn (2002). The pendulum swings again: A mathematical reassessment of Galileo's experiments with inclined planes. Galileo bevindt zich op het breekpunt tussen antieke en klassieke mechanica, hij is het breekpunt, daarom is het voor de ontwerper van toetsvragen, ook buiten de natuurkunde, interessant om te zien hoe het breken in zijn werk gaat. Uit het abstract: "Galileo's analysis of the physics of motion has also received considerable attention. In particular, a great deal has been written during the past thirty years about the structure and objectives of three experiments with inclined planes. Galileo had carried them out in Padua and recorded them in his workingpap ers. The assessments of the three experiments differ widely in points of detail, but all regard them as sophisticated, ingenious, and remarkable. This article presents a new critical study of these experiments. Its conclusion is that one of the experiments is indeed a success, but that the other two fail and are abandoned because Galileo did not have a firm enough grip on the underlying physical principles and mathematical relationships."
- Maarten Van Dyck (attached 7-2006). The paradox of conceptual novelty and Galileo's use of experiments. doc From the abstract: "Central to my analysis is the idea that Galileo's pendulum experiments serve to secure the reference of his theoretical models in actually occurring cases of free fall. In this way Galileo's experiments constitute an essential part of the meaning of the new concepts of classical mechanics."
Ibrahim Abou Halloun and David Hestenes (1985b). Common sense concepts about motion. Am. J. Phys. 53 (11), 1056-1065. pdf.
- abstract An instrument to assess the basic knowledge state of students taking a first course in physics has been designed and validated. Measurements with the instrument show that the student's initial qualitative, common sense beliefs about motion and causes has a large effect on performance in physics, but conventional instruction induces only a small change in those beliefs.
Hasok Chang (2004/2007). Inventing temperature. Measurement and scientific progress. Oxford University Press.
- short abstracts of chapters
- Een onmisbare studie over de strijd om 'temperatuur' te meten, ook bij de meest extreme 'temperaturen'. Of is het misschien een misvatting om te denken dat het bij nul graden kelvin om hetzelfde begrip 'temperatuur' gaat zoals dat aan de orde is bij smeltend ijs en kokend water?
- Als zoiets eenvoudigs als het meten van temperatuur, althans eenvoudig voor gewone mensen in de 21e eeuw, al zo complex blijkt, hoe moet dat dan met de overmoed om studieprestaties te willen 'meten'? Nee, op deze kwestie gaat de auteur niet in, maar iedere lezer zal zelf/vanzelf op de analogie stuiten.
Carl G. Hempel (1952/1972). Fundamentals of concept formation in empirical science, London, The University of Chicago Press, 1972 (1952).
- Er is in wetenschapsfilosofische hoek weinig aandacht voor zaken die slechts zijdelings betrekking hebben op vragen rond opkomst en ondergang van wetenschapsparadigma's. Hempel is een van de uitzonderingen: in dit kleine boekje behandelt hij de wijze waarop de termen in een wetenschappelijke theorie functioneren, hoe zij zich ontwikkelen in hun betekenis, definitieproblemen e.d.
- James H. Fetzer (Ed.) (2001). The philosophy of Carl G. Hempel. Studies in science, explanation, and rationality. Oxford University Press. among others:
  - On the structure of scientific theories
  - Explanation and prediction by covering laws
  - Deductive-nomological versus statistical explanation
  - The meaning of theoretical terms: A critique of the standard empiricist construal
  - Explanation in science and in history
  - Reasons and covering laws in historical explanation
  - Carl G. Hempel (1978). Dispositional explanation. In R. Tuomela. Dispositions p. 137-146. Dordrecht: Reidel.
P. N. Johnson-Laird (1989). Mental models. In Michael I. Posner (Ed.) (1989). Foundations of cognitive science (p. 469-499). Cambridge, Massachusetts: The MIT Press. html
- See also the website on mental models by Ruth Byrne site
A. Kaplan (1964). The conduct of inquiry; methodology for behavioral science. San Francisco: Chandler, 1964.
- Naast het boek van Hempel is dit een uitstekende inleiding, vooral wat betreft het onderscheid tussen waarneembare, abstracte en theoretische begrippen.
Krittaya Leelawong, Joan Davis, Nancy Vye and Gautam Biswas (2002). The effects of feedback in supporting learning by teaching in a teachable agent environment pdf.
- abstract The idea that teaching others is a powerful way to learn is both intuitively compelling, and one that has garnered support in the research literature. The present study investigates aspects of the "learning by teaching" process that contribute to enhanced learning outcomes for students. We developed a computer-based teachable "agent" that students explicitly teach using concept maps. Results indicate that providing students with opportunities to quiz their agent decreases the amount of irrelevant information and increases the proportion of causal information in students'maps, whereas having opportunities to query their agent increases the interconnectedness of concepts in students'maps. The results point to the importance of including various forms of feedback in designing teachable agent environments that promote learning.
- See also Daniel L. Schwartz, John D. Bransford, and David Sears (2005). Efficiency and Innovation in Transfer, in Jose P. Mestre: Transfer of learning: from a modern multidisciplinary perspective (pp 1-51). San Francisco: Sage. pdf.
- Gautam Biswas, Daniel Schwartz, Krittaya Leelawong, Nancy Vye, and TAG-V group (2005). Learning by teaching. A new agent paradigm for educational software. pdf. Also published: Applied Artificial Intelligence, 19, 363-392.
  - abstract This paper discusses Betty's Brain, a teachable agent in the domain of river ecosystems that combines learning by teaching with self-regulation mentoring to promote deep learning and understanding. Two studies demonstrate the effectiveness of this system. The first study focused on components that define student-teacher interactions in the learning by teaching task. The second study examined the value of adding meta-cognitive strategies that governed Betty's behavior and self-regulation hints provided by a mentor agent. The study compared three versions: a system where the student was tutored by a pedagogical agent (ITS), a learning by teaching system (LBT) , where students taught a baseline version of Betty, and received tutoring help from the men-tor, and a learning by teaching system (SRL), where Betty was enhanced to include self-regulation strategies, and the mentor provided help on domain material plus how to become better learners and better teachers. Results indicate that the addition of the self-regulated Betty and the self-regulation mentor better prepared students to learn new concepts later, even when they no longer had access to the SRL environment.
Russell McCormmach (2004). Speculative truth. Henry Cavendish, natural philosophy, and the rise of modern theoretical science. Oxford University Press. questia
- the concepts of heat and of temperature; a newly found, long missing, unpublished manuscript containing his first theory of heat, approximately from 1790
Marcel J. A. Mirande (1981). Studeren door schematiseren. Utrecht: Het Spectrum, Aula 805.
- Presenteert het schematiseren als studietechniek. Gaat evenals het boek van Breuker uit van een gegeven tekst. Een volledige leerstofinventarisatie behelst de leerstof zoals onderwezen en getoetst, en dat kan verder gaan dan wat er letterlijk in te bestuderen teksten staat; maar ook dan is schematiseren bruikbaar om geïnventariseerde termen in hun relevante onderlinge relaties af te afbeelden.
Joseph D. Novak and Alberto J. Canas (2006). The Theory Underlying Concept Maps and How To Construct Them. Technical report IHMC Cmap Tools 2006-01, Florida Institute for Human and Machine Cognition
- available at html pdf 1M or high quality 31 pages pdf 5.4Mb
- Schitterende voorbeelden van schema's van leerstof, kennisgebieden, etcetera.
Stathis Psillos (2000). Rudolf Carnap's 'Theoretical Concepts in Science.' Studies in History and Philosophy of Science, 31, 151-172. pdf
- Contains the hitherto unpublished paper by Carnap read in 1955.
Ludwig Wittgenstein (1953/1976). Filosofische onderzoekingen, Meppel: Boom.
- Lois Shawver geeft de Engelse tekst van #65-69 in de Filosofische onderzoekingen, met commentaar html
- Fabian Neuhaus (2004). Family resemblance. http://musil.uni-muenster.de/workshop2004/submitted_papers/NEUHAUS.pdf [gebroken link? 1-2009], paper wil een strenge weergave bieden van Wittgenstein's idee van familiegelijkenis.
- R. E. Jennings en Dorian X. Nicholson (). An axiomatization of family resemblance. pdf, schitterende presentatie, trouwens, wel voor de specialist in logica.
- G. P. Baker and P. M. S. Hacker (1980). Wittgenstein: Understanding and meaning; an analytical commentary on the Philosophical Investigations, (Volume 1). Oxford: Basil Blackwell.
- Het (late) werk van Wittgenstein is direct relevant voor een aantal van de onderwerpen die in hoofdstuk 3 zijn aangesneden. Dat geldt vooral de vraag hoe begrippen te definiëren, maar ook de vraag waaruit blijkt of de de student de betekenis van een bepaald begrip 'begrijpt.' Niet dat Wittgenstein hierop antwoorden geeft die 'onderwijskundig' zijn: hij bakent de grenzen af waarbinnen de onderwijskundige (en mèt hem de docent) zich zinvol kan bewegen. Het aforistische karakter van zijn Filosofische onderzoekingen maakt het ontoegankelijk, hoe prettig het op zich ook is te lezen. Baker en Hacker doen de eerste grootscheepse poging om het werk van Wittgenstein zijn systematische ordening te geven.
W. L. Yarroch ( 1985). Student understanding of chemical equation balancing. Journal of Research in Science Teaching, 22, 449-459. abstract [I have not seen this article, somebody send me a pdf?] De hier genoemde filosofische literatuur is niet zonder reden vermeld. Hoofdstuk 3 bevat de grondslagen waarop vuistregels in hoofdstuk 4 e.v. rusten. Omdat het in het onderwijs gaat om de betekenis van begrippen en relaties, en hele theorieën, valt er niet aan enige (filosofische) reflectie te ontkomen voor wie zich voor de vraag gesteld ziet hoe het begrijpen van 'de betekenis' van begrippen enz. zinvol te toetsen. Reflectie: dus niet eerst filosoferen en dan eens beginnen toetsvragen te ontwerpen, maar eerst ontwerpen en daarbij af en toe eens afstand nemen met wat filosofische beslommeringen.

4.7 Meer Literatuur

Jacob Feldman (2004). How surprising is a simple pattern? Quantifying ‘Eureka!’ Cognition, 93, 199-124. abstract
Even verder lezend, blijkt dat het hier om heel fundamentele kwesties gaat rond het leren van begrippen of categorieën aan de hand van reeksen voorbeelden.

George Murphy & Brian H. Ross (2005). The two faces of typicality in category-based induction. Cognition, 95, 175-200. pdf Lusted, Lee B. Lusted (1968). — Introduction to medical decision making. — Thomas.
Jens Allwood, Lars-Gunnar Andersson and Östen Dahl (1977). Logic in linguistics. Cambridge University Press.
- An introductory text, exercises to every chapter, answers provided also, eminently suited as illustrative materials to the design of test items
Erik van Schooten (1988). De constructie van een meerkeuzetoets voor het meten van schrijfvaardigheid. SCO rapport 178. ISBN 9068132024, 107 genummerde blz, nog minstens zoveel ongenummerde blz. Met in de bijlagen uitvoerige voorbeelden van keuzevragen.
- E. van Schooten en K. de Glopper (1990). De validiteit van meerkeuze-instrumenten voor het meten van schrijfvaardigheid. Tijdschrift voor Taalbeheersing, 12, 93-110.
- E. van Schooten en K. de Glopper (1991). De constructie en interne validering van een meerkeuzetoets voor het meten van schrijfvaardigheid. Tijdschrift voor Onderwijsresearch, 16, 72-92.
- Het lijkt een contraditio in terminis: schrijfvaardigheid meten met keuzevragen. Ik moet deze publicaties nog opnieuw grondig bekijken, maar waarschijnlijk zit het zo: voor een deel is schrijfvaardigheid te ontleden tot deelvaardigheden die met keuzevragen prima zijn te toetsen; de meet-pretentie berust waarschijnlijk op et drijfzand van constructvalidering, daar moet het nieuwere inzicht van Borsboom e.a. 2004 overheen worden gelegd. Erik heeft gedacht dat zijn schrijfvaardigheid niets heeft te maken met de benadering die ik in 1983 in Toetsvragen schrijven' heb ontwikkeld, zoals hij ook niet op de hoogte lijkt te zijn geweest van het proefschrift van Van Westrhenen. Waren dat gemiste kansen, of heeft het hem gewoon afleidingen bespaard? Hoe zit het, Erik?
E. de Corte (Ed.) (1999). On the road to transfer: New perspectives on an enduring issue in educational research and practice. International Journal of Educational Research, 29, 553-654. Thematic issue.
Stephanie Doyle (2002?) Putting learning to work: The distance learner and transfer of learning. pdf.
- This paper provides an overview of research carried out for a doctoral thesis "Learning to transfer: The distance learner and transfer of learning" (Doyle, 2002). The thesis explored the question of transfer of learning from the perspective of distance students enrolled in a business degree.
A. Kittur, K. J. Holyoak and J. E. Hummel (2006). Using ideal observers in higher-order human category learning. In R. Sun and N. Miyake: Proceedings of the Twenty-eighth Annual Conference of the Cognitive Science Society. Erlbaum. pdf
Kittur, A., Hummel, J. E., & Holyoak, K. J. (2006). Ideals aren’t always typical: Dissociating goodness-of-exemplar from typicality judgments. In R. Sun & N. Miyake (Eds.), Proceedings of the Twenty-eighth Annual Conference of the Cognitive Science Society. Mahwah, NJ: Erlbaum.pdf
Mihnea Moldoveanu and Joseph L. Rotman (2005). Integrative Thinking: The View from Cognitive and Social Psychology, Circa 2005 AD. pdf
- training and the design of interventions meant to produce integrative patterns of thinking and ways of being.
P. W. Tiemann and S. M. Markle (1978). Analyzing instructional content: a guide to instruction and evaluation. Champaign, Illinois: Stipes, 1978.

5. meer literatuur

B. Abramovitz, M. Berezina & A. Berman (2002): Incorrect but instructive International Journal of Mathematical Education in Science and Technology, 33, 465-475. To link to this article: abstract

M. Lampert (1986). Knowing, doing, and teaching multiplication. Cognition and Instruction, 3, 305-399. pdf of report
- Dit rapport (het artikel in Cognition and Instruction is waarschijnlijk identiek van inhoud) is een prachtige illustratie van wat er zoal valt te beleven aan een algoritme dat in de grond van de zaak niet zo geweldig ingewikkeld is: vermenigvuldigen. Bovendien is het een bron die buiten de controverse over Realistisch Rekenen staat. Ook wie helemaal niets heeft met rekenonderwijs, maar wel vragen moet ontwerpen voor stappenschema's of procedures, kan hier inspiratie uit opdoen.
- Wie een artikel uit 1986 iets uit de oertijd vindt, kan zijn/haar hart ophalen door te kijken welke latere auteurs terugverwijzen naar Lampert 1986: geciteerd
Nancy Cartwright (1983). How the laws of physics lie. Oxford: Oxford University Press.
- Three Dogmas of Humean Causation. In M. C. Galavotti, P. Suppes, and D. Constantini (2001). Stochastic causality. CSLI Publications.
- Roger Penrose, with Abner Shimony, Nancy Cartwright and Stephen Hawking (1997). The large, the small and the human mind. Cambridge University Press.
- The reality of causes in a world of instrumental laws. In Richard Boyd, Philip Gasper and J. D. Trout (1991). The philosophy of science. The MIT Press.
- (1989/1994). Nature's capacities and their measurement. Oxford University Press.
- Nancy Cartwright (1999). The dappled world. A study of the boundaries of science. Cambridge University Press.
Norwood Russell Hanson (1965). Newton's First Law: A Philosopher's Door into Natural Philosophy. In R. G. Colodny. Beyond the edge of certainty. Essays in contemporary science and philosophy (pp.6-28). University Presss of America.
- p. 21, closing sentences: "(...) we have done enough here to suggest that every law within physics is a cornucopea of philosophical perplexities and conceptual excitement. Every such law functions in organizing part of a science's subject matter, in patterning the structure of its arguments and its permissible intellectual moves. And if the discipline which embodies it effectively describes nature, such a law may be said to tell the truth. The fundamental laws of statics and kinematics, of optics and dynamics, of celestial perturbations and microphysical interactions, these contain the most profound challenges to human understanding to be confronted in our time. And Newton's first law, sometimes characterized as the simplest of them all, turns out to embody challenges as profound as any."
- Hanson gaat uitvoerig in op dat punt van de spanning tussen een axiomatisch lijkende wet, en de onmogelijkheid om zo'n wet direct empirisch te toetsen. Maar dat is dus wel een heel andere benadering dan de presentatie in de meeste school- en studieteksten die bijna suggereren dat je toch zo in de wereld om je heen kijkend kunt zien dat die wetten die wereld beschrijven! Wat dus niet het geval is.
Stephan Hartmann (2005) The World as a Process: Simulations in the Natural and Social Sciences. pdf
J. E. Mezzick en H. Solomon (1980). Taxonomy and behaviorial science. London, Academic Press.
Marcel J. A. Mirande (1981). Studeren door schematiseren. Utrecht: Het Spectrum, Aula 805.
- M. Macdonald-Ross (1979). Scientific diagrams and the generation of plausible hypotheses: an essay of the history of ideas, Instructional Science, 1979, 8, 233-234.
- Het omgekeerde van het leren van de student. De rol van wetenschappelijke diagrammen in de structuur van de wetenschappelijke communicatie, hun waarneming en interpretatie door de lezer.
Margaret Morrison (2002). Models as representational structures. Paper presented in: Nancy Cartwright's Philosophy of Science. An International Workshop, December 16-17, 2002 pdf
Robert E. Slavin and Cynthia Lake (2008). Effective programs in elementary mathematics: A best-evidence synthesis. Review of Eduational Research, 78, 427-515. pdf [retrieved 11-2008]
- Ingebracht in een blog op de BON-website hier
- Het punt is namelijk dat er evident verband is tussen achterblijvende rekenvaardigheden in Nederland, en de overgang in vrijwel alle rekenmethoden naar Realistisch Rekenen, maar dat dit nog niet betekent dat de Realistisch Rekenen methode op zich de oorzaak is van de dramatisch inzakkende rekenvaardigheden. Dit overzicht van Slavin en Lake laat zien dat het schaarse onderzoek laat zien dat rekenmethoden weinig verschil in prestaties maken, terwijl algemene onderwijsmethoden (klassikaal versus coöperatief, bijvoorbeeld) dat wel doen, en niet zo'n klein beetje ook.
- Door Slavin en Lake gewaarschuwd, ligt het voor de hand de oorzaken—het zijn er ongetwijfeld meerdere—te zoeken bij de tijd besteed aan rekenonderwijs (drastisch verminderd in de afgeopen decennia), de tijd binnen het rekenonderwijs besteed aan basale rekenvaardigheden (ook drastisch verminderd omdat men denkt dat in deze tijd van computers dat allemaal niet meer zo nodig is), de oefentijd voor de basale rekenvaardigheden die vermorst wordt (deze rekenopgaven moeten teveel werk tegelijk doen: inzicht opwekken, handig met getallen leren omgaan; en omdat ook deze oefenopgaven in de filosofie van Realistisch Rekenen contextvragen moeten zijn, gaat heel veel tijd verloren met lezen van tekst).
Roman Frigg and Stephan Hartmann (2006). Models in science. In Stanford Encyclopedia of Philosophy. html
Graeme S. Halford and Janie Busby (2007). Acquisition of structured knowledge without instruction: The relational schema induction program. Journal of Experimental Psychology. Learning, memory and Cognition, 33, 586-603.
- In een laboratoriumsituatie een complexe leertaak bestuderen en daar perfect valide toetsopgaven bij gebruiken. Zie ook par. 2.6 Validiteit.
meer literatuur hoofdstuk 6 Tekst

6.7 literatuur annotaties

Patricia A. Alexander en Judith E. Judy (1988). The interaction of domain-specific and strategic knowledge in academic performance. Review of Educational Research, 58, 375-404.
- Er is geen vrije online versie van dit artikel beschikbaar. Probeer JSTOR (en stuur mij een kopie, svp, dan kan ik mijn papieren kopie dumpen). Er zijn een paar andere mogelijkheden:
- Patricia A. Alexander (2003). Expertise and academic development: A new perspective on a classic theme. [eind 2008 niet meer online beschikbaar?]
- Patricia A. Alexander (2003). Can we get there from here? Educational Researcher, 32 Theme issue: Expertise. pdf The artcles in this issue are available as pdf documents at html
- Patricia A. Alexander (2003). The Development of Expertise: The Journey From Acclimation to Proficiency. Educational Researcher, 32
  - abstract The Model of Domain Learning (MDL) is an alternative perspective on expertise that arose from studies of student learning in academic domains, such as reading, history, physics, and biology. A comparison of the MDL and traditional models of expertise is made. The key components and stages of the MDL are then overviewed. Discussion concludes with a consideration of evidence-based implications of this model for educational practice.
- Patricia A. Alexander (2000). Toward a Model of Academic Development: Schooling and the Acquisition of Knowledge. Educational Researcher, 29, nr 2, pp. 28-34.
- Tamara L. Jetton en Patricia A. Alexander (2000). Learning from text: A multidimensional and developmental perspective. In Kamil, Rosenthal, Pearson and Barr Handbook of Reading Research, Volume III html concluding remarks In this article, we explored the multidimensional nature of learning from text through a discussion of the critical variables of students' knowledge, interest, and use of strategies. We also examined the developmental nature of learning from text as students journey through school from acclimation to competence, and finally to expertise in a subject area. We anticipate that future explorations of learning from text will focus on how individuals learn from text over time, how they learn within nonlinear hypertext environments, and how their beliefs affect this process. We await the future of reading research and instruction to provide us with additional insights into the complex process of learning from text.
- Gilat Brill and Anat Yarden (2003). Learning Biology through Research Papers: A Stimulus for Question-Asking by High-School Students. Cell Biology Education 266–274. html
  - from the abstract Question-asking is a basic skill, required for the development of scientific thinking. However, the way in which science lessons are conducted does not usually stimulate question-asking by students. To make students more familiar with the scientific inquiry process, we developed a curriculum in developmental biology based on research papers suitable for high-school students. (...) We suggest that learning through research papers may be one way to provide a stimulus for question-asking by high-school students and results in higher thinking levels and uniqueness.
Jacqueline P. Leighton, Rebecca J. Gokiert and Ying Cui (2005). Investigating the Statistical and Cognitive Dimensions in Large-Scale Science Assessments: Causal and Categorical Reasoning in Science. Paper presented at the Annual Meeting of the American Educational Research Association (AERA), Montreal, Quebec, Canada (April 2005). pdf
- from the abstract The results of the present study indicate that science assessments involve at least two substantive dimensions to which students react—causal reasoning and categorical reasoning—described in the scientific reasoning literature (Kuhn & Deane, 2004).
George W. McConkie (1977). Learning from text. Review of Research in Education, 5, 3-48. Michael Macdonald-Ross (1977). Graphics in text. Review of Research in Education, 5, 49-85.
George Pólya (1945/1957). How to solve it. Princeton University Press.
- The second edition of 1957 adds a small part offering problems, hints and solutions. A whole mathematics textbook using this approach in a wonderful way is the one by Daepp and Gorkin (2003).
- Of course, this small book was meant for a large audience, and it surely succeeded in reaching it.
- A later and larger work, continuing the line of thinking begun in How to solve it, as Polya himself says in his preface to the seventh printing, is his (1954).
Catherine Snow, Peg Griffin, M. Susan Burns (Eds) (2005). Knowledge to Support the Teaching of Reading: Preparing Teachers for a Changing World. Jossey Bass. isbn 9780787974657 078797465X, 336 pp. hardcover, dustjacket chapter 1 online for free
- Builds on the National Research Council report How people learn
- A companion volume to Darling-Hammond, Bransford, LePage, Hammerness and Duffy (2005) Preparing teachers for a changing world: What teachers should learn and be able to do Jossey-Bass
Corinne Zimmerman (2005). The Development of Scientific Reasoning Skills: What Psychologists Contribute to an Understanding of Elementary Science Learning. Final Draft of a Report to the National Research Council Committee on Science Learning Kindergarten through Eighth Grade. pdf
- Een goede ingang tot deze literatuur, dus ook.
Corinne Zimmerman (2005). The Development of Scientific Reasoning Skills: What Psychologists Contribute to an Understanding of Elementary Science Learning. Final Draft of a Report to the National Research Council Committee on Science Learning Kindergarten through Eighth Grade. pdf
- abstract The goal of this article is to provide an integrative review of research that has been conducted on the development of children's scientific reasoning. Scientific reasoning (SR), broadly defined, includes the thinking skills involved in inquiry, experimentation, evidence evaluation, inference and argumentation that are done in the service of conceptual change or scientific understanding. Therefore, the focus is on the thinking and reasoning skills that support the formation and modification of concepts and theories about the natural and social world. Major empirical findings are discussed using the SDDS model (Klahr, 2000) as an organizing framework. Recent trends in SR research include a focus on definitional, methodological and conceptual issues regarding what is normative and authentic in the context of the science lab and the science classroom, an increased focus on metacognitive and metastrategic skills, explorations of different types of instructional and practice opportunities that are required for the development, consolidation and subsequent transfer of such skills. Rather than focusing on what children can or cannot do, researchers have been in a phase of research characterized by an "under what conditions" approach, in which the boundary conditions of individuals' performance is explored. Such an approach will be fruitful for the dual purposes of understanding cognitive development and the subsequent application of findings to formal and informal educational settings.
- Een goede ingang tot deze literatuur, dus ook.
6.7 meer literatuur

abstract

abstract

Scharrer , L., Bromme, R., Britt, M.A., & Stadtler, M. (2012). Text easiness affects laypeople’s reliance on their own epistemic capabilities when having to decide about scientific claims. Learning and Instruction, 22, 231-243.doc
Zie de website van M. Anne Britt voor publicaties van onderzoek naar tekstbegrip.
- Scharrer, L., Britt, M.A., Stadtler, M., & Bromme, R. (2012). Beyond one’s own understanding: How text comprehensibility affects laypeople’s decision about scientific claims. In N. Miyake, D. Peebles, & R. P. Cooper (Eds.), Proceedings of the 34th Annual Conference of the Cognitive Science Society (pp.965-970). Austin, TX: Cognitive Science Society. pdf
- Braasch, J., Rouet, J.F., Vibert, N., & Britt, M.A. (2012). Readers’ use of source information in text comprehension. Memory and Cognition, 40, 450-65. pdf
- Britt, M.A., & Rouet, J.F. (2012). Learning with multiple documents: Component skills and their acquisition. To appear in M.J. Lawson & J.R. Kirby (Eds), The Quality of Learning: Dispositions, Instruction, and Mental Structures. Cambridge University Press. pdfRouet, J.F., & Britt, M.A. (2011). Relevance processes in multiple document comprehension. To appear in M.T. McCrudden, J. P. Magliano, & G. Schraw (Eds.), Relevance Instructions and Goal-focusing in Text Learning (pp 19 - 52 ). Greenwich, CT: Information Age Publishing. pdf
Frans van Eemeren & Francisca Snoeck Henkemans (2011). Argumentatie. Inleiding in het identificeren van meningsverschillen en het analyseren, beoordelen en houden van betogen. Noordhoff Uitgevers.

Leo Noordman & Wietske Vonk (1998). Discourse comprehension. In Angela D. Friederici: Language Comprehension: A Biological Perspective. Springer.
Kent Bach (2008). On referring and not referring. In Jeannette K. Gundel & Nancy Hedberg: Reference. Inerdisciplinary perspectives (17-58). Oxford University Press. pdf draft 2004
Frank, Stefan L. Frank, Mathieu Koppen, Leo G. M. Noordman & Wietske Vonk (2003). Modeling knowledge-based inferences in story comprehension. Cognitive Science, 27, 875-910. pdf in map toetsvragen [http://csjarchive.cogsci.rpi.edu/2003v27/i06/p0875p0910/00000140.PDF]
- abstract A computational model of inference during story comprehension is presented, in which story situations are represented distributively as points in a high-dimensional “situation-state space.” This state space organizes itself on the basis of a constructed microworld description. From the same description, causal/temporal world knowledge is extracted. The distributed representation of story situations is more flexible than Golden and Rumelhart’s [Discourse Proc 16 (1993) 203] localist representation.
  A story taking place in the microworld corresponds to a trajectory through situation-state space. During the inference process, world knowledge is applied to the story trajectory. This results in an adjusted trajectory, reflecting the inference of propositions that are likely to be the case. Although inferences do not result from a search for coherence, they do cause story coherence to increase. The results of simulations correspond to empirical data concerning inference, reading time, and depth of processing.
  An extension of the model for simulating story retention shows how coherence is preserved during retention without controlling the retention process. Simulation results correspond to empirical data concerning story recall and intrusion.
Leo Noordman & Wietske Vonk (1998). Discourse comprehension. In Angela D. Friederici: Language Comprehension: A Biological Perspective (229-262). Springer. fc tvr
George W. McConkie (1978). Learning from text. In Shulman, Lee S. (Ed.) (1978). Review of research in education volume 5—1977. (3-47) F.E. Peacock Publishers.
Michael Macdonald-Ross (1978). Graphics in texts. In Shulman, Lee S. (Ed.) (1978). Review of research in education volume 5—1977. (49-85) F.E. Peacock Publishers.
Michael Macdonald-Ross (1979). Language in texts. In Shulman, Lee S.: Review of research in education volume 6—1978. (229-275) F.E. Peacock Publishers.
David L. LaBerge, & S. Jay Samuels (Eds) (1977). Basic processes in reading: perception and comprehension. Lawrence Erlbaum.
- Patricia Carpenter & Macel Adam Just: Integrative processes in comprehension 217-241
- Herbert H. Clark: Inferences in comprehension 243-263
- David E. Rumelhart: Understanding and summarizing brief stories 265-303
Arthur C. Graesser and Rolf A. Zwaan (1995). Inference generation and the construction of situation models. In Charles A. Weaver III, Suzanne Mannes, Charles R. Fletcher and Walter Kintsch (Eds) (1995). Discourse Comprehension: Essays in Honor of Walter Kintsch (p. 117). questia.com
- p. 117: "Finally, there is the referential situation model of what the text is about. A situation model is a mental representation of the people, setting, actions, and events that are explicitly mentioned or inferentially suggested by the text ( Albrecht & O'Brien, 1993; Bower, 1989; Glenberg, Meyer, & Lindem, 1987; Johnson-Laird, 1983; Morrow, Bower, & Greenspan, 1987; Singer, 1990). Situation models may vary in abstractness from bare-bone conceptual sketches to lifelike renditions of episodes in the real world. Most inferences generated during text comprehension are part of the constructed situation model."
- p. 118: "We identify classes of inferences that readers generate while they construct the situation models."
- Geeft een inleiding op het onderwerp, en relevante literatuur. Overigens gata het hoofdstuk verder vooral over fundamenteel onderzoek, ver weg van toepassing in onderwijs.
Donald Laming (2003). Marking university examinations: some lessons from psychophysics. Psychology Learning and Teaching, 3(2), 89-96. pdf
- Grappige en leerzame oefening in bescheidenheid voor beoordelaars. Met de suggestie om landelijke examens voor universitaire opleidingen in te stellen, met de erkenning dat dat het einde zou betekenen van de universiteit zoals we die kennen. Laten we dat dan maar niet doen, in weerwil van meer geluiden, ook in Nederland, om deze bureaucratische kant op te gaan. Laten we dan maar liever die beoordelingsfouten op de koop toe nemen, nietwaar? [Zie ook mijn project over de trade-off van eindeloze beoordelingsnauwkeurigheid achteraf, tegen intensief en kwalitatief dus hoogwaardig onderwijs in plaats van al dat beoordelen. ]
- abstract This paper looks at four simple psychophysical experiments and spells out the implications that their results have for the marking of examinations on the basis that: (i) the process of marking examination scripts is dominated by the psychology of the assessor, not by the material that is being marked; (ii) the examiner marking a psychology essay is, psychologically speaking, the same assessor as the participant who participates in a psychophysical experiment; and (iii) the psychology of assessment (in general) can be inferred from a psychophysical experiment to an extent that is impossible with examination scripts. The difference is that psychophysical stimuli admit physical measurement, from which accuracy of assessment can be calculated, while examination scripts do not. The paper finishes with some suggestions how the reliability (not necessarily the validity) of examination marking might be improved.
Don Nix (1985). Notes on the efficacy of questioning. In Arthur C. Graesser and John B. Black (Eds) (1985). The psychology of questions. Hillsdale, New Jersey: Lawrence Erlbaum.
- "This chapter focuses on the use of questioning techniques for the purpose of directly teaching inferential reading comprehension and meta-comprehension skills to children in classroom settings. (...) It is assumed that inferential comprehension is a complex process: the child must activily transform what, on the page, is a string of symbols into an inferentially integrated network of meaning. The nature of classroom questioning is viewed in terms of what impact it can have on a child's ability to perform this complex process." Nix gaat uitvoerig in op het onvermogen van docenten (en leerlingen zelf) om adequate inferentie-vragen te stellen. In plaats daarvan worden details uit tekst teruggevraagd, of worden vragen op een hoog niveau van abstractie gesteld (wat is het 'main idea' van deze passage?) zonder dat 'main ideaness' didactisch valt uit te leggen. Nix gebruikt een relaties-in-een-schema techniek, hij noemt dat LINKS.
Judi Randi, Elena L. Grigorenko, R. J. Sternberg (2005). Revisiting Definitions of Reading Comprehension: Just What Is Reading Comprehension Anyway? In Susan E. Israel, Cathy Collins Block, Kathryn L. Bauserman, Kathryn Kinnucan-Welsch Metacognition in literacy learning : theory, assessment, instruction, and professional development. Erlbaum.
- not online, I will try to find online publications covering the topics in this chapter
- The article introduces the reader to the line of research using triarchic instruction (TSI), here emphasizing reading.
- The authors use what they call a componential approach, the components being: memory, analysis, practice, creation. Memory: "develops students' literal comprehension and encourages students to draw on their prior knowledge". Analytic: "develops students' interpretive skills based on evidence in the text." Creation: "allows for unique interpretations and encourages students to dialog with the author and imagine new ideas." "teachers encourage readers to become authors". Practical: "encourages students to draw on their own experiences to make text-to-self connections and understand that reading has different purposes." "assuring that others accept students' creative interpretations."
- p. 36: "Students may also need the practical intelligence to understand that there is little room for creative interpretation on traditional assessments of reading comprehension."
- Indeed, this approach can be a productive generator of sound design ideas for questions concerning text. And it will make one aware of the restrictions of traditional formats and contents of questions on text.
- Elena L. Grigorenko, Linda Jarvin and Robert J. Sternberg (2002). School-Based Tests of the Triarchic Theory of Intelligence: Three Settings, Three Samples, Three Syllabi. Contemporary Educational Psychology, 27, 167-208.
  - abstract
Helge Bonset en Mariëtte Hoogeveen (2007). Schrijven in het basisonderwijs. Een inventarisatie van empirisch onderzoek in het perspectief van leerplanontwikkeling. SLO. pdf
- Als het goed is, geeft dit werk een overzicht van in ieder geval het belangrijkste Nederlandse onderzoek, in een wetenschappelijk kader dat op de internationale literatuur is gebaseerd. Ik moet het nog doornemen.
H. F. M. Crombag, P. J. van Koppen en W. A. Wagenaar (1992/2005). Dubieuze zaken. De psychologie van het strafrechtelijk bewijs. Olympus.
S. Dikli (2006). An Overview of Automated Scoring of Essays. Journal of Technology, Learning, and Assessment, 5(1). Retrieved [date] from http://www.jtla.org. pdf
- Probably useful as in introduction to the literature. It just misses the important volume by Williamson and others 2006.
Herman Jonker (2007). Concrete elaboration during knowledge acquisition. Proefschrift V.U. pdf
- Naar thematiek is dit proefschrift bij uitstek relevant voor het onderwerp: kennis verwerven op basis van tekst, en over die kennis (toets)vragen ontwerpen. Ik heb de tekst nog niet bestudeerd, het nut voor dit hoofdstuk 6 zal dus nog moeten blijken. In ieder geval is het theoretisch kader van belang. Er is een samenvatting in het Nederlands.
Amos van Gelderen (2008). Nadruk op technisch lezen is verkeerde insteek. Didaktief, 38 #9 38-39.
- "Het hardop lezen van woorden is ook een slechte gewoonte. Het is cognitief erg belastend en staat tekstbegrip in de weg. Tegelijkertijd verklanken en begrijpen wat je leest, is alleen weggelegd voor de goede lezers."
- "Leerlingen die teksten goed begrijpen, zijn dus vaak geen goede technische lezers. Ook omgekeerd geldt: goede technische lezers zijn vaak geen goede begrijpende lezers. (...) Veel oefening in technisch lezen in de laatste jaren van het basisonderwijs is daarom zinloos."
- "Ook in het voortgeet onderwijs is onderzoek ter zake gedaan. In een onderzoek dat ik samen met anderen heb uitgevoerd blijkt dat de vaardigheid in technisch lezen geen noemenswaardig aandeel heeft in het begrijpend lezen, als rekening wordt gehouden met de kennis die leerlingen hebben over strategieën voor lezen en schrijven."
Austin J. Freeley and David L. Steinberg (2000, 10th). Argumentation and debate. Critical thinking for reasoned decision making. Wadsworth.
- Mijn exemplaar is de 10e editie. Ik moet dit nog doornemen. Dit raakt natuurlijk aan de discussie over wat 'kritisch denken' is. En of dat valt te onderwijzen (zie daarvoor liever Sternberg en Grigorenko). Bijna 500 bladzijden dicht bedrukt: inert matter? Zal wel vooral als handboek voor debaters worden gebruikt. Er wordt van alles en nog wat bij gehaald, het boek lijkt wat dat betreft wel op dit 'Toetsvragen ontwerpen.' Een hoofdstuk (8) als 'The structure of reasoning' lijkt me heel nuttig: verschillende vormen van logisch redeneren, en wat er zoal bij argumenteren te pas komt. Ieder hoofdstuk afgesloten met een serie oefeningen: ik ben benieuwd, die oefeningen zijn evenzovele ontworpen toetsvragen, natuurlijk.
Arthur C. Graesser and Eugenie L. Bertus (1998). The Construction of Causal Inferences While Reading Expository Texts on Science and Technology. Scientific Studies of Reading, 2, 247-266. questia
A. C. Graesser, M. Singer and T. Trabasso (1994). Constructing inferences during narrative text comprehension. PsRev, 101, 371-395.
Hobbs (1979). Coherence and coreference. Cogn.Sc., 3, 67-90.
John R. Hayes and Linda S. Flower (1986). Writing research and the writer. American Psychologist, 41, 1106-1113.
George Hillocks, Jr. (1986). Research on written composition. New Directions for Teaching. http://www.ncrll.org/Hillocks.pdf [broken link? 12-2008]
E. D. Hirsch, Jr., and David P. Harrington (1981). Measuring the communicative effectiveness of prose. In Carl H. Frederiksen and Joseph F. Dominic: Writing: The nature, development, and teaching of written communication. Volume 2: Process, development and communication (p. 189-207). Erlbaum.
Richard Nisbett and Lee Ross (1980). Human inferences: Strategies and shortcomings of social judgment. Prentice-Hall.
- De thematiek van dit boek is direct relevant voor het maken van inferenties. Het contrast is tussen naieve inferenties zoals mensen die in het dagelijks leven en dus ook op school maken, en wetenschappelijke inferenties. Die naieve inferenties gaan vaak te ver, of juist niet ver genoeg, vergeleken met de wetenschappelijke als norm. Nisbett en Ross zouden dus handreikingen moeten bieden aan de ontwerper van opdrachten waarin inferenties een rol spelen, en aan beoordelaars van antwoorden op dergelijke opdrachten (wat zijn adequate infeenties?)
- Part I. Intuitive strategies of inference. Part II Inferential tasks: Normative principles and lay practice. Part III: Inferential errors: Their causes, consequences, and cures.
Oostdam, R. J. (1991). Argumentatie in de peiling. Aanbod en prestatiepeiling van argumentatievaardigheden in het voortgezet onderwijs. Proefschrift UvA. Amsterdam: SCO.
Lynne M. Reder (1980). The role of elaboration in the comprehension and retention of prose: A critical review. Review of Educational Research, 50, 5-53. pdf
- Gedateerd, maar het is wel op een interessant moment verschenen.
Silke Schworm and Alexander Renkl (2007). Learning argumentation skills through the use of prompts for self-explaining examples. Journal of Educational Psychology 99, 285-296.
- abstract (ERIC)
Judith M. Smith (1978). A technology of reading and writing. Volume 4. Designing instructional tasks. Academic Press.
Gary Tate and Edward P. J. Corbett (Eds) (1981). The writing teacher's sourcebook. Oxford University Press. 0195028783, 1st ed.
H. Wesdorp (1974). Het meten van de produktief-schriftelijke taalvaardigheid. Directe en indirecte methoden: 'opstelbeoordeling' versus 'schrijfvaardigheidstoetsen' Muusses.
David M. Williamson, Robert J. Mislevy and Isaac J. Bejar (Eds) (2006). Automated scoring of complex tasks in computer-based testing. Erlbaum.

7.4 annotaties literatuur

Bruce G. Buchanan and Richard O. Duda (1982). Principles of rule-based expert systems. Heuristic Programming Projec Report no. HPP-82-14. pdf
- Bruce G. Buchanan (1982). Partial bibliography of work on expet systems. HPP-82-30 pdf
- R. O. DUDA and J. G. GASCHNIG (1981). Knowledge-based expert systems come of age. BYTE, 238-284.
  - De computer geprogrammeerd als expert probleemoplosser: Stand van zaken; vooral medische diagnostiek: de praktische resultaten die Kunstmatige-Intelligentie-onderzoek ook oplevert.
- Brent M. Dingle (2001). What AI may (or may not) be.pdf not available any more (2-2008)
- Fred D. Fagg, III, and Peter D. Bergsman (1997). Computer-implemented decision management system with dynamically generated questions and answer choices. United States Patent 5978784 html
  - abstract A computer-based method for assisting a user in making decisions in the process of completing a task is shown and described. The method of the system includes providing a set of questions for completing the task, asking the user a first question from the set, and providing a choice of answers to the first question. The system also provides advice from its knowledge base for deciding which of the answers to the first question to select. The choice of answer, however, remains under the control of the user, who can exercise judgment based on the user's expertise and the advice provided by the decision management system. The method continues by asking following questions, with the following questions, answers and advice influenced by the user's previous answers. Throughout the decision-making process, the user retains control of the answers if so desired, with the system providing advice from its knowledge base. The system is particularly suited for document assembly in allowing a professional to determine what provisions are suitable for a document to be built from information and judgments provided by the professional and the knowledge base of the system. The system also includes an authoring program for preparing applications that run on the system. Using an intuitive program block approach of the authoring program, an author can construct an application by placing questions, answer choices, advice and textual and logical provisions in named program blocks. The author then assembles and arranges these blocks to build a desired application program.
- Paul T. Baffes, Siddarth Subramanian and Shane V. Nugent (2001). System and method for dynamic knowledge generation and distribution. United States Patent html not available any longer? [2-2008]
- Albertus Laing Jordaan (2004). Design and implementation of a supervisory expert system for hot rolling process optimisation. Dissertation submitted in the fulfilment of the requirements for the degree master of Engineering, in the Faculty of Engineering at the Rand Afrikaans University. pdf no longer available? [http://td.rau.ac.za/theses/available/etd-11302004-101528/ restricted/SUPERVISORYEXPERTSYSTEM20040818Final.pdf 2-2008]
  - Met actuele literatuurlijst over expert systems en fuzzy logics
- D. Sleeman, Haym Hirsh, Ian Ellery and In-Yung Kim (1990). Extending Domain Theories: Two Case Studies in Student Modeling. Machine Learning, 5, 11-37. [Ik heb dit artikel zelf nog niet kunnen zien, lijkt me interessant, zie het abstract]
  - abstract By its very nature, artificial intelligence is concerned with investigating topics that are ill-defined and ill-understood. This paper describes two approaches to expanding a good but incomplete theory of a domain. The first uses the domain theory as far as possible and fills in specific gaps in the reasoning process, generalizing the suggested missing steps and adding them to the domain theory. The second takes existing operators of the domain theory and applies perturbations to form new plausible operators for the theory. The specific domain to which these techniques have been applied is high-school algebra problems. The domain theory is represented as operators corresponding to algebraic manipulations, and the problem of expanding the domain theory becomes one of discovering new algebraic operators. The general framework used is one of generate and test—generating new operators for the domain and using tests to filter out unreasonable ones. The paper compares two algorithms, INFER and MALGEN, examining their performance on actual data collected in two Scottish schools and concluding with a critical discussion of the two methods.
Ann L. Brown (1997). Transforming schools into communities of thinking and learning about serious matters. American Psychologist, 52, 399-413.
- "In this article, a program of research known as Fostering Communities of Learners is described. This program is in place in several schools and classrooms serving innercity students from 6 to 12 years of age. Based on theoretical advances in cognitive and developmental psychology, the program is successful at improving both literacy skills and domain-area subject matter knowledge (e.g., environmental science and biology). Building on young children's emergent strategic and metacognitive knowledge, together with their skeletal biological theories, the program leads children to discover the deep principles of the domain and to develop flexible learning and inquiry strategies of wide applicability."
- Niet gezien, en evenmin online beschikbaar: A. L. Brown and J. C. Campione (1996). Psychological theory and the design of innovative learning environments: on procedures, principles, and systems. In L. Schauble and R. Glaser: Innovations in learning: New environments for education (pp. 289-325). Erlbaum.
Helge Lenné (1969). Analyse der Mathematikdidaktik in Deutschland. Nach dem Nachlass hrsg. von Walter Jung. Stuttgart: Ernst Klett Verlag.
- ao.: I Einfürung in Problematik und gegenwärtige Hauptrichtungen der Mathematikdidaktik - II Analyse der Zielsetzungen in der Mathematikdidaktik - III Grundsätzliches zur Methodologie der Mathematikdidaktik und ihre historischen und sozialen Bedingungen
Alan Newell and Herbert A. Simon (1972). Human problem solving. Englewood Cliffs, New Jersey, Prentice Hall, 1972.
- Een standaardwerk over het oplossen van problemen. Staat met beide voeten in de Kunstmatige-Intelligentietraditie, probeert een beschrijvende (psychologische) theorie van het oplossen van problemen te geven.
George Pólya (1945/1957). How to solve it. Princeton University Press.
- The second edition of 1957 adds a small part offering problems, hints and solutions. A whole mathematics textbook using this approach in a wonderful way is the one by Daepp and Gorkin (2003).
- Of course, this small book was meant for a large audience, and it surely succeeded in reaching it.
- A later and larger work, continuing the line of thinking begun in How to solve it, as Polya himself says in his preface to the seventh printing, is his (1954).
George Pólya (1954/68). Mathematics and plausible reasoning. Volume I: Induction and analogy in mathematics. Volume II: Patterns of plausible inference. Princeton University Press.
- Sure, it is mathematics. But it is also about understanding and solving problems. And about plausible reasoning. Or (p. vii): "Certainly, let us learn proving, but also let us learn guessing.
Herbert A. Simon (1978). Information-processing theory of human problem solving. In W. K. Estes (Ed.) (1978). Handbook of learning and cognitive processes, volume 5, Human information processing (271-295). Hillsdale, New Jersey: Lawrence Erlbaum.
- p. 287: ill-structured problems "A production system (...) containing a rich repertory of recognition processes and associated with a large store of information in longterm memory, would produce precisely the kind of continually changing problem space that has been observed in protocols of subjects solving such problems."
7.4 meer literatuur

Eva Baker, Jan Dickieson, Wallace Wulfeck and Harold F. O'Neil (Eds) (2008). Assessment of problem solving using simulations. Lawrence Erlbaum Associates.
- contents
Hanne ten Berge, Stephan Ramaekers en Albert Pilot (2004). The design of authentic tasks that promote higher-order learning. Paper presented at the EARLI-SIG Higher Education/IKIT-conference, June 18-21, 2004. pdf
- abstract This study focuses on the use of authentic cases to provoke higher-order learning. It is based on a review of recent research literature and focuses in particular on the design features of these cases. First, we looked into the characteristics of real life problems academics are confronted with in their professional practices and the way they solve those problems. In the transformation of these to educational tasks, elements of authenticity get lost. Awareness of the features that are crucial to authenticity of the case seems important if higher-order learning is to be achieved. The literature not only provided indications for the design of authentic cases, we also came across examples of negative effects of authentic cases and improper design. The results of our search show that the impact of authenticity on learning outcomes is promising but it does not present conclusive results. Authenticity appears to be a much too wide ranging formulation to be helpful in the design of case attributes. In the future we will focus more closely on the coherence of the factors that play a part in higher-order learning.
Chi, M. T. H., Bassok, M., Lewis, M., Reimann, P., & Glaser, R. (1989). Self-explanations: How students study and use examples in learning to solve problems. Cognitive Science, 13, 145-182. pdf
Hans F. M. Crombag, J. L. de Wijkerslooth en E. H. van Tuyll van Serooskerken (1972). Over het oplossen van casusposities. Groningen: Tjeenk Willink.
J. Gulmans (1992). Onderwijsvormgeving ten behoeve van de ontwikkeling van kennis en vaardigheden. Deel 2 Toepassingen en voorbeelden uit de medische en paramedische sector. Amsterdam: Swets & Zeitlinger.
- Diagnosticeren als een proces van begripsvorming—Het leren diagnostiseren van diabetes volgens de Component Display Theorie (Merrill) en de Elaboratietheorie (Reigeluth)— Het leren diagnostiseren van shock volgens de Component Display Theorie (Merrill) en het ARCS-model (Keller)—Het leren diagnostiseren van shock volgens het model van Reigeluth and Schwartz—Een schriftelijke simulatie voor de diagnostiek van shockpatiënten volgens de Socratische Dialoog van Collins—Ontwerp en ontwikkeling van een COO-programma 'IJzer en vitamine C' volgens de Component Display Theorie (Merrill)—Naar een ontwerpstrategie voor zelfinstructie in het (para-)medisch onderwijs
Rainer H. Kaenders (2006). Kräne und Lemniskaten. http://www.ils.kun.nl/~R.Kaenders/Artikel GDM 06.pdf [dode link? 1-2009]
A. Hashem, M. T. H. Chi and C. P. Friedman (2003). Medical errors as a result of specialization. Journal of Biomedical Informatics, 36, 61-69. pdf
Peter Lehman (1996). Will that be on the exam? Schema theory and testing in sociology. Teaching Sociology, October. pdf
- Geeft uitvoerig uitgewerkt voorbeeld. Leuk artikel, zeker voor sociologen.
Kees Mettes en Jaap Gerritsma (1986). Probleemoplossen. Utrecht: Het Spectrum. Onderwijskundige informatie voor het Hoger Onderwijs, Aula 819. isbn 9027405591, 151 blz paperback
G. Polya (1957/1971). How to solve it. A new aspect of mathematical method. Princeton, New Jersey, Princeton University Press.
- Een 'klassiek' boek over het aanpakken van problemen, vooral wiskundige problemen.
- Reprinted in 2004 PUP
- Also the author of Mathematics and plausible reading, a.o. about plausible inference.
Polya, George Polya (1962, 1965). Mathematical discovery. On understanding, learning, and teaching problem solving. Volume I, II. Wiley.
Stephan Ramaekers , Peter van Beukelen , Hanno van Keulen , Wim Kremer en Albert Pilot (2005). paper ORD. Authenticiteit van taken bij het leren oplossen van klinische problemen. Welke authentieke elementen beïnvloeden de wijze waarop studenten praktijkproblemen leren oplossen in de klinische lessen Diergeneeskunde? doc
- "Het oplossen van klinische problemen (zoals het stellen van een diagnose, het bepalen van de optimale behandelstrategie of de keuze van interventies en behandelparameters) vormt een van de kernactiviteiten van (dieren)artsen in hun professionele praktijk."
- "Om studenten adequaat daarop voor te bereiden, wordt in de opleiding Diergeneeskunde (Universiteit Utrecht) tegenwoordig gebruik gemaakt van opdrachten (casuïstiek) gebaseerd op situaties en vraagstukken uit de beroepspraktijk."
- "De hoofdvraag van het onderzoek luidt: “hoe kunnen authentieke taken worden afgestemd op de mate van gevorderdheid van studenten diergeneeskunde in het leren oplossen van klinische problemen?” Doel van dit onderzoek is de ontwikkeling van instrumentarium dat docenten in staat stelt leertaken vorm te geven passend bij de mate waarin studenten gevorderd zijn in hun ontwikkeling van het vermogen om problemen op te lossen."
- Interessant theoretisch kader, met literatuur.
- R. Forde (1998). Competing conceptions of diagnostic reasoning—is there a way out? Theor Med Bioeth. 1998 Jan;19(1):59-72.
  - abstract Diagnostic errors are more frequently a result of the clinician's failure to combine medical knowledge adequately than of data inaccuracy. Diagnostic reasoning studies are valuable to understand and improve diagnostic reasoning. However, most diagnostic reasoning studies are characterized by some limitations which make these studies seem more simple than diagnostic reasoning in real life situations actually is. These limitations are connected both to the failure to acknowledge components of knowledge used in clinical practice as well as to acknowledge the physician-patient relationship's influence on clinical knowledge and on the reasoning process itself. In addition the modes of reasoning described in these studies frequently is oversimplified. In this paper three simplistic and competing models of diagnostic reasoning are analyzed and criticized, followed by an evaluation of two alternative models proposing a combined view.
Alexander Renkl and Robert K. Atkinson (2002). Structuring the transition from example study to problem solving in cognitive skill acquisition: A cognitive load perspective. Educational Psychologist, 38, 15-22. pdf
- Kirsten Berthold (2006). Learning from worked-out examples: Multiple representations, an integration help, and self-explanation prompts all foster understanding.. Inaugural-Dissertation. pdf
Ute Schmid (1998). Structural characteristics for the adaptability of problems in analogical problem solving. PostScript [ask me for a pdf transcript, if you cannot open this one]
- About a kind of item forms technique to generate analogical problems. I have yet to study this one.
- See also J. Hummel and K. Holyoak (1997). Distributed representation of structure: A theory of analogical access and mapping. Psychological Review, 104, 427-466.
- See also Alexander A. Petrov and Boicho N. Kokinov (1998). Mapping and access in analogy-making: Independent or interactive? A simulation experiment with AMBR. In K. Holyoak, D. Gentner, and B. Kokinov: Advances in analogy research: Integration of theory and data from the cognitive, computational, and neural sciences (pp. 124-134). Sofia: NBU Press. pdf
Ute Schmid (2005). Computermodelle des Denkens und Problemlösens. In J. Funke: Enzyklopädie der Psychologie. draft pdf
Ute Schmid (2005). A Cognitive Model of Learning by Doing. In: S. Bap, J. Gulden, Th. Noll and T. Wieczorek: Models And Human Reasoning -- Festschrift für Bernd Mahr. Berlin: W&T. pdf
- abstract In this paper an approach to learning cognitive skills from problem solving experience is presented { addressing some phenomena well known from human learning but seldom covered together in machine learning. The core of our approach is the acquisition of recursive program schemes (RPSs) by generalization-to-n over plans, using an inductive program synthesis technique. RPSs represent domain speci c control knowledge, that is problem solving strategies for classes of problems. Because RPSs are abstract schemes, representing the sub-goal structure of a domain, they are suitable for analogical problem solving and learning.
Ut Na Sio and Thomas C. Ormerod (2009). Does incubation enhance problem solving? A meta-analytic review. Psychological Bulletin, 135, 94-120.
Stephan Weller and Ute Schmid (2006). Analogy by abstraction. pdf
- abstract We model human solving of proportional analogies of the form A : B :: C : D (where D is to be computed) by the application of E-Generalization. This method allows for the extraction of the common structure of the terms A,B and C and yields a mapping to compute every possible value for D that makes sense with respect to a given background theory. Thus, a formally sound and powerful approach to model human solving of proportional analogies is achieved.
Lambert Schuwirth en Cees van der Vleuten (1997). Computergestuurde casusgerichte toetsing als toetsmethode voor de meting van hogere cognitieve vaardigheden. Onderzoek van Onderwijs, 60-62.
- CCT is ontwikkeld aan de Universiteit Maastricht, om 'het probleemoplossend vermogen van medische studenten te meten.' Dat is slordig geformuleerd: het gaat gewoon om medische diagnostiek. Een groot aantal casus, direct afkomstig uit de medische praktijk, is in een vorm gebracht waarin ze als probleem aan co-assisten voorgelegd kunnen worden. Dat dit aan de computer gebeurt, maakt het mogelijk de kostbare tijd van artsen geheel in te zetten bij de ontwikkeling van de casus, die is vervolgens bij afname en scoring van deze individueel samengestelde toetsen niet meer nodig. Het is een kostbare onderneming, omdat per casus enkele uren ontwikkeltijd nodig zijn, en er voor het systeem meerdere honderden casus beschikbaar moeten zijn.
- Anno 2006 is het CCT de basis voor toetsing bij meerdere opleidingen binnen de faculteit geneeskunde (pers. meded. Lambert Schuwirth).
L.W.T. Schuwirth, D.E. Blackmore , E. Mom , F. van den Wildenberg , H.E.J.H. Stoffers en C.P.M. van der Vleuten (1999). How to write short cases for assessing problem-solving skills. Medical Teacher, 21, 144-150.
- summary In assessment of problem solving the use of short case-based testing is a promising development. In this approach an examination consists of large numbers of short cases each of which contain a small number of questions.These questions are aimed at essential decisions.Writing such cases, however, is not easy. In this article a description of this type of examination is provided.Also strategies and pitfalls are described in writing these cases. These strategies pertain to the selection of essential decisions, the careful writing of cases and questions and the selection of question formats.
Lambert Schuwirth (2006). Toetsen met korte casussen. In Henk van Berkel en Anneke Bax: Toetsen in het hoger onderwijs (p. 127-144). Houten: Bohn Stafleu van Loghum.
Ruurd Taconis, Monica Ferguson-Hessler & Gerrit Verkerk (1997). Physics problem solving and the transition from general secondary education to higher education. Tijdschrift voor Onderwijsresearch, 123-144. niet-authentiek? abstract
- Bij dit onderzoek valt de vraag te stellen of problem solving skills wel bestaan, los van intelligentieverschillen, en zo ja, of deze domeinspecifiek zijn, of generiek. Een klein onderzoekje op dat laatste vraastuk is gedaan door Veenman & Verhey 2001 Learning and Individual Differences.
- Maar ik moet niet zeuren. Dit artikel bevat een schat aan informatie over vaardigheden in het probleemoplossen (alleen natuurkunde) rond overgangsproblematiek vo-ho: niet alleen eindexamenopgaven, maar ook opgaven uit de propedeuses, en dan vooral de daartussen vastgestelde verschillen.
- SVO-onderzoek. Kennelijk was ik in 1997 te druk met reorganistaieperikelen om iets met dit onderzoek te doen.
- Monica Ferguson-Hessler en Ton de Jong (1987). Kennisverwerving uit natuurkundige teksten. Een onderzoek naar bestuderingsprocessen van beginnende natuurkundestudenten. Groep Onderwijsresearch TU Eindhoven. pdf van rapport
- A. J. M. de Jong (1986). Kennis en het oplossen van vakinhoudelijke problemen (Een voorbeeld uit een natuurkundig domein). proefschrift TU Eindhoven. pdf
Cees Terlouw, Kees T. C. W. Mettes en F. Roemers (1981). Het leren ontwerpen van overheidsbeleid; een gewenst handelingsverloop. Enschede, Universiteit Twente: Onderwijskundig Centrum, rapport nr. 47. 1981.
Alan H. Schoenfeld (1985). Mathematical problem solving. London: Academic Press.
- Anders dan de titel suggereert, claimt Schoenfeld dat zijn boek van belang is voor veel disciplines. Zijn aanpakt berust op cognitive science, eigen expertise (hij is wiskundige), en empirisch onderzoek in high schools en universitaire opleidingen.
D. T. Tuma and F. Reif (Eds). (1980). Problem solving and education: issues in teaching and research. Hillsdale, New Jersey, Erlbaum.
Wim Vaags (1975). Over het oplossen van technische problemen. Proefschrift T. H. Eindhoven.
- Vooral leertheoretische (en didactische) aspecten, evenals:
H. H. F. M. Verstralen (1987). Semantische modellen bij leren en probleemoplossen. Proefschrift UvA.
W. A. Wickelgren (1974). How to solve problems, Elements of a theory of problems and problem solving, San Francisco, Freeman, 1974.
- Benadert de aanpak van problemen vooral vanuit de verworvenheden op dit gebied van Kunstmatige Intelligentie.
p>

8.5 de literatuur met annotaties

Mark A. Bedau and Paul Humphreys (Eds) (2008). Emergence. Contemporary readings in philosophy and science. MIT Press.
- Dedicated website http://mitpress.mit.edu/emergence
- Introductory chapter: pdf
- Reductie of emergentie, dan zijn de twee mogelijkheden voor verklaring van verschijnselen. Reductie is goed bekend (gedragsproblemen verklaren uit tekorten aan chemische stoffen in de hersenen, etecetera), emergente zijn dat veel minder. Denk aan het gedrag van zwermen vogels, of scholen vissen. Maar ook: electrische stroom is geen 'stroom' maar het gevolg van emergente processen. Verklaringen van verschijnselen door emergente processen zijn in de gewone schoolboekjes vooral schitterend door afwezigheid, wat betekent dat scholieren daar bepaald geen dienst mee wordt bewezen. Daarom is dit boek van belang, Kijk vooral ook eens op die website.
Gregory J. Cizek (1999). Cheating on Tests: How to Do It, Detect It, and Prevent It. Erlbaum. questia
- Ik heb dit boek nog niet gezien, maar het belooft heel wat.
- Book review by Luz Bay =http://www.measuredprogress.org/Resources/Publications/BookReviewCheating.html [niet langer beschikbaar? 2-2008]
Karl Duncker (1935/1963). Zur Psychologie des produktiven Denkens. Berlin: Springer.
- Karl Duncker (1945). On problem-solving. Psychological Monographs, 58.
- R. E. Adamson (1952). Functional fixedness as related to problem-solving. Journal of Experimental Psychology, 44, 288-291. Replicatie, zie box 90 in Krech en Critchfield (1958). Elements of psychology (p. 379)
- Wie het boek doorbladert, ziet kleine experimentjes in probleemoplossen. Vergis je niet, dit werk heeft een enorme impact gehad op de cognitieve psychologie, vooral ook de functiegebondenheid of functional fixity of functional fixedness. Een voorbeeld van functional fixity is bijvoorbeeld dat rekenopgaven altijd een oplossing hebben (onderzoeklijn Lieven Verschaffel). Functional fixity is dus een bedreiging voor de validiteit van toetsvragen.
- Wie eenmaal goed is doordrongen van dit fenomeen, kan er bij probleemoplossen gebruik van maken door zich af te vragen of er een verborgen gegeven is, of een andere interpretatie van het gegeven. Is dit een heuristiek in het lijstje van Polya’s (1945) How to solve it? Nee, dus voeg het toe!
- Met de vorige aantekening gaat we dus schuiven: als achterdocht is te trainen, dan zou je ook op achterdocht kunnen toetsen. Zeker, maar het blijft een gebied dat overlapt met stabiele persoonlijke verschillen, en in de mate van overlap mag het niet zo zijn dat telkens maar weer bij toetsen mede die persoonlijke verschillen bepalend zijn voor succes: dat is de open valkuil van het competentiegerichte onderwijs (cgo). Ik zou daar graag de eerste serieuze juridische procedures over willen zien. Houd mij op de hoogte.
Thomas Haladyna, Steven M. Downing, and Michael C. Rodriguez (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15, 309-334. depts.washington.edu/currmang/Toolsforteaching/MCItemWritingGuidelinesJAME.pdf [not available any more? 2-2008]
- earlier publications:
  - Thomas Haladyna, Steven M. Downing (1989a). A taxonomy of multiple-choice item-writing rules. Applied Measurement in Education, 1, 37-50. [geen online versie]
  - Thomas Haladyna, Steven M. Downing, and Michael C. Rodriguez (1989b).The validity of a taxonomy of multiple-choice item-writing rules. Applied Measurement in Education, 1, 51-78 [geen online versie]
Inspectie van het Onderwijs (23 november 1999). Kwart van scholen meldt onregelmatigheden niet. Persbericht html
- Schoolonderzoek
  "Op 19 procent van de scholen worden de opgaven en beoordelingsnormen voor het schoolonderzoek opgesteld door één docent zonder overleg met en controle van collega's. Op 27 procent van de scholen is er voor alle opgaven overleg en controle tussen de docenten onderling. Op 73 procent van de scholen is de situatie wisselend. Dit betekent een lichte verbetering ten opzichte van vorige jaren. Ook krijgen op 32 procent van de scholen docenten scholing in het maken van opgaven. Hierdoor is de kans kleiner dat de norm achteraf gewijzigd moet worden of dat de opgaven afgekeurd en het examenonderdeel opnieuw gemaakt moet worden."
NIP (1986). Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: Nederlands Instituut voor Psychologie. Tweede editie.
- Deze richtlijnen hebben een nogal eenzijdige nadruk op wenselijkheden die aangedragen worden vanuit de psychometrie. Dat brengt met zich mee dat ze weinig of niets toevoegen aan de behandeling die Cohen (1981) over hetzelfde onderwerp geeft. Deze richtlijnen hebben echter wel een zekere bindende werking voor psychologen.
- APA (1966/1974/1985/1999) Standards for educational and psychological tests, Washington, D.C: American Psychological Association.
- Richtlijnen en Standards zijn niet online beschikbaar, wat ze wel horen te zijn. Er is op het internet wel enige informatie, o.a. een stuk van George Madaus, en een samenvatting van de Standards door ERIC. Zie voor een mede op de Standards gebaseerd document: (2002) ETS Standards for quality and fairness. pdf
- George Madaus, Carolyn A. Lynch and Peter S. Lynch (2001). A Brief History of Attempts to Monitor. National Board on Educational Testing and Public Policy: Statements, Volume 2, Number 2. html Testing
- ERIC Development Team (1994). Questions to ask when evaluating tests. ERIC/AE Digest. http://eric.ed.gov/ERICDocs/data/ericdocs2/content_storage_01/0000000b/80/2a/23/c0.pdf [not available any longer? 2-2008]
  - "This Digest identifies the key standards applicable to most test evaluation situations. Sample questions are presented to help in your evaluations."
- Sandra Thompson, Martha Thurlow and David B. Malouf (2002). Creating better tests for everyone through Universally Designed Assessments. pdf
  - "Universally designed assessments are designed and developed to allow participation of the widest possible range of students, in a way that results in valid inferences about performance on grade-level standards for all students who participate in the assessment. This paper explores the development of universal design and considers its application to large-scale assessments."
- Code of Fair Testing Practices in Education. Prepared by the joint Committee on Testing Practices. html
  - Note thtat this is NOT a summary of the Standards, it is a code on a special topic
Kathleen Rhoades and George Madaus (2003). Errors in standardized tests: a systemic problem. Boston College: National Board on Educational Testing and Public Policy. pdf [retrieved June 2008]
- "This monograph is concerned with human errors, which differ from random measurement error in many ways. Human errors do not occur randomly; their presence is not known. These errors are of greater concern than random errors because they are capricious and bring with them unseen consequences. In contrast, measurement error is common to every test, and thus is expected; the amount of error is habitually calculated and disclosed, and therefore can be taken into account when interpreting test scores."
Guillermo Solano-Flores, Luis Angel Contreras-Nino, and Eduardo Backhoff (2005). The Mexican Translation of TIMSS-1995: Lessons on test translation from a post-mortem study. Paper Presented the Annual Meeting of the National Council on Measurement in Education, Montreal, Canada, April 12-14, 2005. pdf
- "We describe an approach to test translation review that addresses a wider variety of translation issues, from production of translated tests, to curriculum representation, to social aspects of language use and language usage. More specifically, we offer a conceptual framework for the coding of translation errors, and provide some empirical evidence on the effect of translation errors on student performance."
Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.
- Zie de wordproblems.htm pagina voor aantekeningen
Cheryl L. Wild and Rohit Ramaswamy (Eds) (2008). Improving testing. Applying process tools and techniques to assure quality. Erlbaum. site
- De overweldigende indruk bij het doornemen van dit boek is dat de toetsindustrie een bedrijfstak is die gaat voor de winst, ook als het formeel om nonprofit instellingen gaat, zodat er bijzondere maatregelen nodig zijn om elementaire kwaliteiten overeind te houden. Er is dan ook een afzonderlijke sectie over Standards, met o.a. een bijdrage van Cito CEO Marten Roorda over de diverse codes en richtlijnen waar bijvoorbeeld het Cito mee heeft te maken (maar weinig of niets over hoe het Cito daar zelf mee omgaat .... )
- o.a. Cheryl L. Wild: The risks and costs of poor quality in testing. En ja hoor: die kosten zijn astronomisch, tot wel 30% van de totale kosten. Wild noemt een aantal illustratieve rampen, zoals 8000 leerlingen die in 2000 te horen kregen dat ze waren gezakt, terwijl ze in werkelijkheid voldoende hadden gescoord, 4000 docenten in opleiding die in 2004 te horen kregen dat ze voor hun afsluitende examen waren gezakt, en pas veel later werden geinformeerd dat ze in werkelijkheid waren geslaagd.
- o.a. Cheryl L. Wild en Joan E. Knapp: Standards in the testing industry. Hoewel de nadruk hier ligt op industriële productie van toetsen, hebben veel van de genoemde richtlijnen direct betrekking op wat individuele docenten doen.
- o.a. David O. Anderson: Six sigma in testing. Dat gaat over het programma van het Amerikaanse Educational Testing Service om doelmatigheid en kwaliteit van te verhogen. Anderson geeft een lijst van belangrijke problemen waarop kwaliteitswinst is te behalen, daar staat het inhoudelijk ontwerpen van toetsvragen niet bij! Dat is precies het grote probleem met deze test-industrie, is het niet? Ze trekken zich geen donder aan van onderwijs.
p>

8.5 meer literatuur

Stichting Studiebegeleiding Leiden http://www.eindexamens.leidenuniv.nl/
- "Je vindt hier alle 2e fase examens compleet met correctievoorschriften en bijlagen."
structurally ambiguous sentences

'I see nobody on the road', said Alice.
'I only wish I had such eyes', the King remarked in a fretful tone. (etc.)
Allwood et al (see below) p. 166, citing Lewis Carroll.
Jens Allwood, Lars-Gunnar Andersson and Östen Dahl (1977). Logic in linguistics. Cambridge University Press.
- p/ 164: "In the beginning, logicians studied sentences in natural languages and their logical relations. It was soon found that these sentences had troublesome properties such as vagueness, ambiguity, structural unperspicuity and contextually dependent meaning. This led in due course to attempts to construct ways of representing meanings that would not have these regrettable drawbacks.
  The 'formal languages' described in the preceding chapters have been constructed with such an aim. However, it is possible to find a certain confusion in works on logic as to the exact relations between logical formulas and the sentences in natural languages that they are supposed to 'formalize' or 'translate'. For the linguist who studies logic in the hope of learning something about the nature of meaning, the question what these relations are is of course of prime importance, although the answer may not be very easy to find." p. 165: " (...) different systems of logic (propositional logic, predicate logic, modal logic etc.) take account of quite different aspects of the structure of sentences. Each system has its own set of 'logical words and particles' or, to use a technical term, logical constants." Meaning: there is not such a thing as 'the logical form of a sentence.' That teaches us humility. Logic can not be the criterion for quality of test items, but it might be useful in a number of important cases, of course. See the last sentence cited from the book (below).
- p. 165: "Furthermore, the traditional account of logical form is misleading, since it centres on the presence or absence of words and morphemes in a sentence and disregards other questions of structure. p. 166: (...) the trouble is that what we want to know about the structure of the sentence is not always there 'on the surface'. This is shown among other things by the existence of structurally ambiguous sentences in natural language.
- the paragraph 10.4 The limitations of classical logic. They are numerous. However—and this is the last sentence of the book— "We obtain new insights into human language by studying the very limitations of the logical model of it."
K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen.. Arnhem: Cito. pdf
- Online beschikbaar, zoals het betaamt. Prima, Cito.
Principles for Fair Student Assessment Practices for Education in Canada. Edmonton, Alberta: Joint Advisory Committee. (Mailing Address: Joint Advisory Committee, Centre for Research in Applied Measurement and Evaluation, 3-104 Education Building North, University of Alberta, Edmonton, Alberta, T6G 2G5). pdf
- "The Principles for Fair Student Assessment Practices for Education in Canada contains a set of principles and related guidelines generally accepted by professional organizations as indicative of fair assessment practice within the Canadian educational context. Assessments depend on professional judgment; the principles and related guidelines presented in this document identify the issues to consider in exercising this professional judgment and in striving for the fair and equitable assessment of all students."
- "The Principles for Fair Student Assessment Practices for Education in Canada is not copyrighted. Reproduction and dissemination are encouraged."
Henk van Berkel (2006). Toetsen van groepsgedrag. In Henk van Berkel en Anneke Bax: Toetsen in het hoger onderwijs (p. 253-262). Houten: Bohn Stafleu van Loghum.
- De auteur bedoelt natuurlijk het beoordelen van individuele studenten die in een groep werken. Dat is een lastige opgave, waar ze in Maastricht iets handigs op hebben bedacht, een 'functioneren in onderwijsgroepen' procedure die de FOG-procedure heet. Docenten kennen kennen goed functionerende studenten punten toe, uit een strikt beperkt budget van punten zodat niet iedereen punten kan krijgen. Die punten hebben examen-waarde in de vorm van een te behalen judicium. Dat is de crux van de methode, en daar zijn goede ervaringen mee opgedaan. Er hoort evenwel een stukje bureaucratie bij, in de vorm van een FOG-beoordelingsformulier, afgedrukt op p. 260-261. Voor niets gaat de zon op. De FOG-procedure is een vriendelijke en terughoudende methode om een goede inzet van studenten te realiseren voor activiteiten waar op zich geen 'harde' vormen van toetsing bij passen, het vermijdt de nadelen van simpele aanwezigheidsregistratie waar verder geen enkele prikkel tot participeren van uitgaat.
Andrew Davis (2009). Examples as method? My attempts to understand assessment and fairness (in the spirit of the later Wittgenstein). Journal of Philosophy in Education, 43, 371-389.
Charles W. Daves (Ed.) (1984). The uses and misuses of tests. Examining current issues in educational and psychological testing. Jossey-Bass.
- John T. Casteen III: The public stake in proper test use.
- Melvin R. Novick: Importance of professional standards for fair and appropriate test use.
- Anne Anastasi et al: Commentaries on the development of technical standards for educational and psychological testing.
- Anthony J. Alvarado: Role of testing in developing and assessing early childhood education programs.
- Diane Ravitch: Value of standardized tests in indicating how well students are learning.
- Fred A. Hargadon: Responding to charges of test misuse in higher education.
- Franklyn G. Jenifer: How test results affect college admissions of minorities.
- Donald N. Bersoff: Legal constraints on test use in the schools
Stephen F. Davis, Patrick F. Drinan & Tricia Bertram Gallant (2009). Cheating in school. What we know and what we can do. Wiley-Blackwell.
- Review: Cheating in school: What we know and what we can do. International Journal for Educational Integrity pdf
Inspectie van het Onderwijs (2003). Zicht op toetsen. Toetsing en examinering in het hoger onderwijs: de stand van zaken. http://www.onderwijsinspectie.nl/Documents/pdf/Zicht_op_toetsen [gebroken link? 2-2008]
International Test Commission (2005). International Guidelines on Computer-Based and Internet Delivered Testing. pdf
Mark M. Leach and Thomas Oakland (2007). Ethics Standards Impacting Test Development and Use: A Review of 31 Ethics Codes Impacting Practices in 35 Countries. International Journal of Testing, 7 #1, 71-88 [IEA available, 12-month embargo]
- from the abstract Testing standards in 31 ethics codes representing 35 countries were compared with those in the American Psychological Association's (APA) 2002 Ethical Principles of Psychologists and Code of Conduct. Codes from approximately one third of the countries surveyed do not address test use. Among countries with ethics codes, one or more test standards are often consistent with those in the 2002 APA Code. Standards that require psychologists to explain results, use tests properly, and limit their use by unqualified persons are most frequently found. In contrast, standards that discuss test construction and restrict the use of obsolete tests are rare.
McMorris et al. (1972). Effects of violating test construction principles. Journal of Educational Measurement, 9, 287-295.
James B. Olsen (2000). Guidelines for Computer-Based Testing. OnTheInternet http://www.isoc.org/oti/articles/0500/olsen.html
- Nee, de Guidelines zelf zijn niet online beschikbaar, wat knap achterlijk is in een geval als dit. En onnodig geheimzinnig.
Fons Vernooij (1993). Het leren oplossen van bedrijfseconomische problemen. Didactisch onderzoek naar kostprijs- en nettowinstvraagstukken in het voortgezet onderwijs. Proefschrift Erasmus Universiteit Rotterdam. Handelseditie: Zutphen, Thieme.
- Een belangrijk thema is dat inconsistenties in de leerstof doorwerken op de pogingen van leerlingen om inconsistente vraagstellingen te beantwoorden (dat alles terwijl de beoordelaars de inconsistenties niet signaleren).
Fons Vernooij (1994). Op zoek naar consistentie in de leerstof. Onderzoek van Onderwijs, 23, 37-39. pdf
- "Hij constateert in zijn proefschrift 'Het leren oplossen van bedrijfseconomische problemen' dat de leerlingen consistentie verwachten in de leerstof. Wanneer die ontbreekt brengen zij in hun gedachten zelf samenhang aan, ook als die samenhang niet bestaat. Daarmee is een belangrijke bron van fouten in het oplossingsproces vastgesteld. De geschetste problematiek is ook voor het hoger onderwijs van belang. Studenten krijgen colleges vanuit afzonderlijke disciplines. Zij vormen zelf de verbindende schakel en brengen ordening aan in de stof. Op gelijke wijze als in het voortgezet onderwijs kan dat fout gaan wanneer meer ordening wordt aangebracht dan de leerstof toestaat."
Fons Vernooij (1996). Impliciet versus expliciet onderwijs in bedrijfseconomische modellen. Tijdschrift voor Onderwijsresearch, 21, 246-261.
Fons Vernooij (1998). Leren leren vereist consistentie in de stof. Pedagogisch Tijdschrift, 23, 39-62. doc
Jan van Bruggen (2002). Computerondersteund beoordelen van essays. Open Universiteit OTEC 2002-1.
- Het is mogelijk, het gebeurt hier en daar op grote schaal (o.a. bij de afname van de GMAT in de VS), maar het is niet iets om lichtvaardig aan te beginnen. Van Bruggen behandelt een aantal problemen die zich voor kunnen doen, en gaat dan nog voorbij aan de rechtvaardigheidsproblemen, zeg maar de kwaliteitsproblemen zoals in dit hoofdstuk 8 aan de orde. Een Nederlands systeem, ontwikkeld door de Mulder, is CODAS.
- De Amerikaanse kant van deze ontwikkeling is overigens wel interessant: belangrijke tests hebben recent juist weer opstelvragen ingevoerd, en daarmee dus tevens een nakijkprobleem gecreëerd. Ik ken geen jurisprudentie over bezwaren die door kandidaten mogelijk zijn aangevoerd tegen deze wijze van beoordelen van hun werk. Je kunt er op wachten: de GMAT wordt gebruikt om selectieve beslissingen te nemen, een puntje verschil is dus al gauw verdraaid belangrijk.
- Voor docenten die eigen toetsvragen ontwerpen: als het zo bar en boos is dat CODAS een oplossing zou kunnen zijn, dan is een overstap van opstellen naar korte vragen waarschijnlijk een veel en veel betere optie. Dat houdt het boompje en het beetje bij het huisje: het moet studenten immers volkomen transparant zijn waarop zij worden getoetst.
Sebastiaan Steenman (2004). Samen met kandidaat werken aan betere examens. Het LAKS en de centraal schriftelijke examinering in het voortgezet onderwijs. Examens, 1, maart, 19-21.
- Bij de examens in 2003 maar dan 60.000 klachten.
- Inhoudelijke fouten geeft het LAKS door aan de CEVO, die eventueel het antwoordmodel aanpast
Banesh Hoffman (1962). The tyranny of testing. Crowell-Collier. questia
Christina Huber, Martina Späni, Claudia Schmellentin und Lucien Criblez (2006). Bildungsstandards in Deutschland, Österreich, England, Australien, Neuseeland und Südostasien Literaturbericht zu Entwicklung, Implementation und Gebrauch von Standards in nationalen Schulsystemen. Fachhochschule Nordwestschweiz Pädagogische Hochschule Institut Forschung und Entwicklung Kasernenstr 5001 Aarau . href="http://www.edk.ch/PDF_Downloads/Harmos/Literaturanalyse_1.pdf [dode link, sept 2008]
Kathleen Rhoades and George Madaus (2003). Errors in standardized tests: a systemic problem. Boston College: National Board on Educational Testing and Public Policy. pdf [retrieved June 2008]
Guillermo Solano-Flores, Luis Angel Contreras-Nino, and Eduardo Backhoff (2005). The Mexican Translation of TIMSS-1995: Lessons on test translation from a post-mortem study. Paper Presented the Annual Meeting of the National Council on Measurement in Education, Montreal, Canada, April 12-14, 2005. pdf
Ben Wilbrink (1992). Keuzevragen ontwerpen. Handreiking voor het doeltreffend en doelmatig maken van een verzameling van keuzevragen. 120k pdf
- Dit stuk is het resultaat van een project voor het tentamen Algemene Taalwetenschap. Het doel was niet alleen het verbeteren van de kwaliteit van de tentamenvragen, maar ook om het mogelijk te maken een zeer groot aantal vragen tegelijk te ontwerpen. Het materiaal, zowel de voorbeelden van goede als die van af te raden tentamenvragen, zijn ontwikkeld samen met docenten, of van hen afkomstig, en zijn gerelateerd aan de tentamenstof zoals gegeven in het boek Algemene Taalwetenschap (Dik en anderen). De teksten uit dit boek zijn opgevat als in oveeenstemming te zijn met wat de auteurs bedoelen dat studenten na bestudering kennen en kunnen. Het hoeft geen betoog dat na de intensieve oefening met het ontwerpen van toetsvragen sommige auteurs graag enige hoofdstukken ook zouden herzien, maar helaas was er net een nieuwe editie uit. Deze ervaring demonstreert nog eens de nauwe band die er bestaat tussen onderwijs en toetsing.
Er is ondertussen een absurd uitgebreide literatuur over die andere vorm van bedrog: leraren, instellingen en hele staten die liegen, bedriegen, frauderen en gegevens verdraaien, zoekmaken, op tal van manieren 'sturen.' Zie op de pagina 'prestatie_indicatoren.htm' voor de werkelijke horrorstories.
The NAEP Glossary of Terms html

De moderniteit slaat toe: toetsen met ICT, op deze site meer links naar toetsomgevingen.

3 juli 2014 \contact ben apenstaartje benwilbrink.nl freelance advies ontwikkeling onderzoek
http://www.benwilbrink.nl/projecten/toetsvragen.a.htm

Toetsvragen ontwerpen. werk-aantekeningen en meer literatuur

Handreiking bij het maken van toetsvragen over de leerstof

Inhoud—Voorwoord—1. Inleiding

Ben Wilbrink

Bij deze digitale versie

Voorwoord

1 Inleiding

1.2 Uitgangspunten

1.3 Inhoudsoverzicht

2. Vraagsoorten, doorzichtigheid, rompvragen en validiteit

2.1 Korte open vragen

2.2 Keuzevragen

2.3 Open vragen

2.6 Validiteit: een goed antwoord bewijst kennis

domeinen van validiteit

het corpus: onze wiskundige etcetera kennis

metadisciplines

Articuleren van het corpus

wat is expertise m.b.t. dat corpus?

de neuropsychologie van kennis

een model van de kennis van de student

een leermodel: hoe kennis groeit, verandert

heuristieken voor leren

een diagnostiek van veranderende kennis

terugkoppeling, toetsen, examineren

Strategieën

technische bedreigingen van validiteit

3. Leerstofinventarisatie

vaagheid van begrippen

3.1 (Indirect) waarneembare zaken (begrippen)

3.2 Abstracte begrippen en constructs

3.3 Theoretische begrippen

3.4 Onderlinge verknooptheid van begrippen

3.5 Varianten van definities

4. Toetsvragen ontwerpen bij afzonderlijke begrippen

4.1 Vertalen

rekenen, ook als inspiratie voor andere vakken

4.2 Definiëren

4.3 Voorbeelden geven

4.4 Voorbeelden herkennen en benoemen

4.5 Herkennen en benoemen bij formeel gedefinieerde termen

4.6 Beschrijvende uitspraken

5. Toetsvragen over relaties tussen begrippen

5.5 Wetmatige relaties, modellen of theorieën

5.3 Classificaties

6. Toetsvragen ontwerpen bij tekst

8. Kwaliteit van toetsvragen

8.1 Regels bij het examineren

8.2 Punten om op te controleren

8.3 Onafhankelijke beoordeling van kwaliteit

1.4 literatuur met annotaties

1.4 meer literatuur

2 literatuur met annotaties

meer literatuur hoofdstuk 2 Vraagsoorten

geschiedenis

meer literatuur hoofdstuk 2.6 Validiteit

meer literatuur hoofdstuk 3 Leerstofinventarisatie

4.7 Meer Literatuur

5. meer literatuur

meer literatuur hoofdstuk 6 Tekst

6.7 literatuur annotaties

6.7 meer literatuur

7.4 annotaties literatuur

7.4 meer literatuur

8.5 de literatuur met annotaties

8.5 meer literatuur

Toetsvragen ontwerpen.
werk-aantekeningen en meer literatuur