Oorspronkelijke uitgave ‘Toetsvragen schrijven’ 1983 Utrecht: Het Spectrum, Aula 809, Onderwijskundige Reeks voor het Hoger Onderwijs ISBN 90-274-6674-0, nu in publiek domein, auteursrechten B. Wilbrink. Onderstaande tekst is een sinds 2006 in bewerking zijnde versie. Voor de oorspronkelijke 1983 tekst zie www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf.



Toetsvragen ontwerpen


Handreiking bij het maken van toetsvragen over de leerstof


8. Kwaliteit van toetsvragen

Ben Wilbrink




Zijn de toetsvragen in concept geschreven, dan is het tijd voor redactioneel polijsten en controle op ondubbelzinnige formulering, dekking van de onderwijsdoelen, mate waarin antwoorden objectief te beoordelen zijn, en dergelijke. Dat hele complex van wenselijkheden samen is ‘kwaliteit,’ het thema van dit hoofdstuk. Wie nog gemotiveerd wil worden voor dit hoofdstuk kan eerst wat grasduinen in de brochure ‘De Examenidioot’ van Theo Thijssen, uit 1929 pdf 24 Mb.

Kwaliteitskaart Figuur 1 Kwaliteitskaart.


Allereerst bevat de term ‘kwaliteit’ een normatieve suggestie: ‘meer’ kwaliteit is ‘beter,’ en wellicht zijn er ondergrenzen voor de verlangde kwaliteit van toetsvragen. Daarbij kan men denken aan zoiets als de efficiency van het onderwijs, waar kwalitatief goede toetsvragen het hunne aan kunnen bijdragen. Maar ook aan de rechten en plichten van docenten en studenten tegenover elkaar, en wat er vanuit dat meer juridische kader valt te zeggen over kwaliteit van toetsvragen. Omdat rechtmatigheid prioriteit heeft boven efficiëntie, mits niet te gek, is eerst in paragraaf 8.1 rechtmatigheid aan de orde. Het gaat om ‘studierechten in het wetenschappelijk onderwijs,’ zoals Job Cohen (1981) ze noemt (meer recent is het proefschrift van Noorlander, 2005, met aandacht gericht op het primiar en voortgezet onderwijs).. De ‘rechten van studenten ten aanzien van het onderwijs dat zij volgen’ bepalen ook de grenzen aan het handelen van de docent, ofwel de verplichtingen die zij heeft tegenover de studenten. Dat leidt tot regels voor de procedure, de inhoud en de vorm van examens, en dus ook van toetsvragen.

In de literatuur is de kwaliteit van toetsen vaak welhaast een doel op zich, zoals in dit boek in de editie 1983 ook is aan te wijzen. Maar dat zou toch niet mogelijk moeten zijn. Immers, validiteit van toetsen is bijna een ultiem criterium voor kwaliteit, en in de uitwerking van dit begrip ‘validiteit’ moet in het ideale geval het doel van het onderwijs, en hoe de toetsing zich daartoe verhoudt, de beste plaats hebben. Hoe ook precies uitgewerkt, in algemene zin is het doel van onderwijs ‘groei’ van de bagage van de student, preciezer: groei door verandering (bijvoorbeeld Susan Carey, 2004). Toetsen dragen zelf niet bij aan die groei, zijn er mogelijk wel een voorwaarde toe — zoals uitgewerkt in tentamenmodellen, motivatietheorieën en wat niet al — en mogen daarom slechts een minimaal beslag op de beschikbare middelen leggen. Sterker nog, de validiteit en kwaliteit van toetsen staat of valt ook met de aanwezigheid van alternatieven die een minder groot beslag leggen op schaarse middelen, of die wèl een eigen bijdrage leveren aan de groei van de bagage van de student. Concreet voorbeeld is de langzamerhand fantastisch overdreven zorg voor ‘eerlijke’ beoordeling van examens — een kostbare en didactisch zinloze achteraf-operatie — waardoor studenten aanwijsbaar minder onderwijswaar voor hun geld en inspanning krijgen. De Groot schreef daar ooit over [Selektie voor en in het hoger onderwijs] dat beoordelen tijdens het onderwijs voldoende moet zijn om tot een goed eindoordeel te komen (H versus P, Handelings- versus Prestatieonderdelen). Ik geef zijn stelling in mijn eigen woorden weer. De Inspectie van het Onderwijs worstelt ook, zonder het zelf te weten, met de genoemde spanning tussen kwaliteit en validteit van toetsen en examens, in zijn onderwijsverslag 2007/2008 dat aan die kwaliteit veel aandacht geeft. Voor het Hoger Onderwijs resulteert dat in de volgende kenschets, waaruit is op te maken dat dit hoofdstuk 8 als geroepen komt.

zorg onderwijsinspectie over kwaliteit


"De inspectie onderzocht een representatieve steekproef van examencommissies in het hoger beroepsonderwijs en het wetenschappelijk onderwijs. Naar eigen zeggen zijn de commissies nog onvoldoende in staat de kwaliteit van de toetsing te borgen. Ze kunnen de gezaghebbende rol die hun wordt toegekend dan ook nog niet waarmaken. De commissies onderzoeken de kwaliteit van toetsen zelden en weten ook niet altijd of docenten genoeg capaciteiten hebben om goede toetsen te maken. Richtlijnen en procedures voor beoordeling en normering van toetsen ontbreken vaak. Als besturen van instellingen zich actief met de kwaliteitsbewaking bemoeien, bijvoorbeeld door een instellingsbrede monitoring, komt dat de kwaliteit van de commissies ten goede.”

Inspectie van het Onderwijs (12 mei 2009). De staat van het onderwijs. Onderwijsverslag 2007/2008. (pdf op website NRC Handelsblad 12 mei 2009)

De paragrafen 8.2 en 8.3 behandelen het controleren van de kwaliteit van de ontworpen toetsvragen, de taakverdeling is dat 8.2 de punten opsomt waarop in het bijzonder is te letten, en 8.3 harde methoden geeft voor hoe dat ‘letten op’ in zijn werk gaat.

Het moment van de toetsafname bepaalt een natuurlijke tweedeling in de kwaliteitscontrole. Controle vooraf moet een redelijke garantie voor de kwaliteit van de toetsvragen opleveren, terwijl controle achteraf nodig is om toch in de toets terechtgekomen ondeugdelijke vragen alsnog te corrigeren of weg te laten. Veel van deze procedures zijn al routine. Toch zijn er vaak verbeteringen op mogelijk, bijvoorbeeld door collega’s onafhankelijk van elkaar de ontwerpvragen te laten beantwoorden, in plaats van ze plenair in de vakgroepvergadering te bespreken, een klassieke aanbeveling zoals ook in De Groot en Van Naerssen (1969) te vinden. De algemene strekking van de aanbevelingen is deze: verzamel liever ‘harde’ empirische gegevens dan af te gaan op opinieërende onderlinge discussie. De Groot was altijd al een voorstander van empirische methodologie (1962), en criticus van onderlinge discussies in docentenvergaderingen (Vijven en zessen, 1966).

Wellicht ten overvloede: dit hoofdstuk gaat over de kleine schaal, docenten die zelf hun toetsen ontwerpen, maar ook de student die op problemen stuit bij een door het Cito ontworpen toets of examen, of docenten die toetsvragen ontwerpen voor door het Cito uit te brengen toetsen of examens. Het Cito zelf heeft bovendien kwaliteitszorgen die de grote schaal van zijn toetsen betreffen, zie daarvoor bijvoorbeeld Wild en Ramaswamy (2008). Een problematiek op zich is hoe studenten met specifieke handicaps tegemoet te treden; ik moet volstaan met een verwijzing naar een (Amerikaans) overzichtsartikel van Klein, Browder en Towles-Reeves, en naar specifieke regelingen die in het leven zijn geroepen voor bijvoorbeeld leerlingen met ernstige vormen van dyslexie.



onderstaande tekst van dit hoofdstuk is nog niet volledig herzien


8.1 Regels bij het examineren


frisse lucht, graag


22 januari 2007, radio 1, 16:55 uur: Een onderzoekje van TNO wijst uit dat kinderen in slecht geventileerde klassen ’s middags slechter presteren op toetsen dan ’s morgens; in goed geventileerde klaslokalen is dat andersom. Het kabinet laat vervolgonderzoek doen in 60 lokalen.

Het probleem van vergiftigde lucht in klaslokalen stond overigens eind 19e eeuw al volop in de belangstelling, zie De Schoolbode. Tijdschrift voor Onderwijs en Opvoeding.

juni 2009: Het kabinet stelt een groot bedrag beschikbaar om scholen versneld van betere ventilatie te voorzien (een stimuleringsmaatregel in het kader van de economische crisis)

Kwaliteit van toetsvragen is niet een absoluut kenmerk, maar context-afhankelijk. Context is bijvoorbeeld de ventilatie in de ruimte waarin men werkt, en dat is een serieus probleem. Veel klachten over eindexamens hebben met fysieke context te maken: licht, lucht en lawaai. Wonderlijk is dat schoolarchitecten kennelijk hun literatuur niet kennen: het belang van frisse lucht was eind 19e eeuw volop in de belangstelling. Dit is exemplarisch voor veel hedendaagse problemen. Zo is er al een vroeg casus van een afgewezen student die in beroep gaat: hij betwist de Parijse universiteit in 1426 het recht om hem zijn graad te weigeren. Hij verliest die zaak: bij wanprestatie heeft de universiteit het recht om af te wijzen (Ball, 1889, p. 152). Dat is het aardige van sommige juridische procedures: ze scheppen helderheid waar die er nog niet was.


Wat kwaliteit van toetsvragen is, volgt onder andere uit de eisen die studenten daar rechtens aan kunnen stellen. De samenleving heeft ook eisen te stellen, maar die is daartoe in beginsel veel beter georganiseerd — de politiek, de inspectie, georganiseerde marktpartijen zoals de werkgevers, wetenschappelijk onderzoek — dan de individuele leerling is. De rechtsregels waar het hier vooral om gaat zijn de in het algemeen rechtsbewustzijn levende algemene beginselen van behoorlijk bestuur. Deze, vooral in de administratieve rechtspraak gearticuleerde rechtsregels zijn voor de onderwijsgevende van niet gering belang: ze geven aan tot hoever haar bevoegdheden tegenover de student reiken. Wilbrink (1977) koppelt deze algemene beginselen van behoorlijk bestuur aan wat een behoorlijk is in onderwijs en beoordeling. Cohen (1981) werkt dit thema uit voor de eisen die aan de verzorging van het onderwijs in al zijn aspecten zijn te stellen. Hij presenteert regels of voorschriften voor procedure, vorm en inhoud van examens. Deze regels zijn gebaseerd op wettelijke regelingen of afgeleid van algemene beginselen van behoorlijk bestuur. Daarnaast laat Cohen aan de hand van beroepszaken (destijds ex art. 40 WUB) zien dat geschillencommissies deze regels in de praktijk al wel hanteren. De concrete betekenis van deze regels is dan ook dat schending ervan zal leiden tot beroepsprocedures (ex art. 40), die de docent dwingen alsnog voor behoorlijke kwaliteit van de toets(vragen) te zorgen. Dat geeft tevens de urgentie van een goede kwaliteitscontrole aan.


er is beroep mogelijk


wat vindt de referent ervan?


Het is 1845, en ene J. J. Waterston dient bij de Royal Society een artikel in over de natuurkunde van media samengesteld uit vrije en perfect elastische moleculen in beweging. Een van de twee referenten vindt het nothing but nonsense, en geheel volgens de regels verdwijnt het artikel in de doofpot van de Society (het mag niet op andere wijze worden gepubliceerd). Publicatie vindt uiteindelijk 40 jaar later plaats, op initiatief van Lord Raleigh. Deze afwijzing heeft de ontwikkeling van de thermodynamica en quantummechanica onnodig met minstens een decennium vertraagd.

Max Jammer (1989, p. 9-10)

Het is misschien goed deze paragraaf te beginnen met een casus waarin er iets verschrikkelijk is misgegaan, zie de box. Niet alleen maakt een referent hier een blunder van het grootst denkbare formaat, maar bovendien sluiten de spelregels iedere vorm van beroep, tot en met publicatie elders, uit. De ontwerper is hier de ontwerper van de spelregels. Of bekijk het ook eens zo: een referent speelt in zekere zin een ontwerpersrol bij het beoordelen van een concept-artikel op relevantie voor het betreffende vakgebied. Die referent moet de immers de validiteitskwestie (2.6 ) stellen voor de inhoud van het concept-artikel, en kan daar misslagen bij maken. Evenzo bij de beoordeling van opstellen in examens. De kwaliteit van die beoordeling is in dit hoofdstuk onderbelicht, en wel ten onrechte, want hier is de vakbekwaamheid van de beoordelaar in het geding. Of scherper geformuleerd: er zijn belangrijke verschillen in vakbekwaamheid tussen beoordelaars, en die verschillen mogen niet worden toegedekt wanneer dat ten nadele van de beoordeelden zou kunnen zijn. Dat is lastig, het is het vergeten paradigma van het onderwijsonderzoek (Shulman, 1986). Die ene referent van Waterston’s artikel was onvoldoende vakbekwaam voor zijn taak.


Voor het hoger onderwijs is beroep op examenbeslissingen in de wet geregeld, in 1983 was dat art. 40 van de WUB.

Voor instellingen buiten het wetenschappelijk onderwijs is beroep op examenbeslissingen mogelijk bij de burgerlijke rechter op grond van artikel 1401 van het Burgerlijk Wetboek. Voor openbare onderwijsinstellingen is geen AROB-beroep mogelijk, omdat de wet AROB (Administratieve Rechtspraak Overheids Beschikkingen) op onderwijswetten nog geen beroep openstelt (zie ook Cohen, 1981, blz. 37).

NB: anno 2009 zijn deze regelingen en trajecten anders, ik moet dit nog actualiseren


inburgeringstoets


“Migranten die in Nederland aankloppen voor een verblijfsvergunning, zijn soms overgeleverd aan onbetrouwbare technologische procedures. (...) Zo is niet bewezen dat de spraaktechniek die wordt gebruikt om inburgeringsexamens af te nemen op Nederlandse ambassades betrouwbaar is. Ook is het botonderzoek, dat dat wordt toegepast om te bepalen of een migrant minderjarig is, in de wetenschap omstreden.” Dijstelbloem: “En migranten zelf hebben geen status en en meestal niet de kennis of de mogelijkheden om de fouten aan de kaak te stellen.”

Anneke Stoffelen (5 februari 2009). ‘Techniek zit migramt soms in de weg’ De Volkskrant, p. 2. [N.a.v. het verschijnen van De migratiemachine]

Huub Dijstelbloem e.a. (2009). De migratiemachine. Rathenau Instituut

Papieren beroepsregelingen waar benadeelden geen gebruik van weten te maken of kunnen maken zijn kwetsend voor het rechtsgevoel van betrokkenen. Hetzelfde geldt voor regelingen waarvan benadeelden geen gebruik willen maken omdat zij vrezen dat er bedoeld of onbedoeld nadelige consequenties uit voorvloeien omdat zij afhankelijk zijn en blijven van de betrokken leerkrachten. Zo bevatten leerlingenstatuten, als ze behoorlijk in elkaar steken, wel regelingen voor beroep, maar valt het leerlingen en hun ouders zwaar om daar daadwerkelijk gebruik van te maken. In die gevallen is het de dure plicht van aangesproken leerkrachten en directeuren om geschillen zorgvuldig af te handelen. In het algemeen is het zo dat individuele deelnemers en ook bepaalde groepen deelnemers aan examens in een zo kwetsbare positie kunnen verkeren, dat zij niet toekomen aan het gebruiken van hun recht op beroep, of dat recht niet kennen. Schrijnende voorbeelden kan iedereen wel bedenken, maar een concreet voorbeeld is de in het buitenland af te nemen inburgeringstoets, waar mogelijk benadeelden dat van zichzelf niet weten en geen schijn van kans hebben een beroepsweg te vinden (zie de box).


gebrekkige kwaliteit als beroepsgrond


Kan de student de kwaliteit van toetsvragen (van een bepaalde toetsvraag) als beroepsgrond aanvoeren? Cohen (1981, blz. 114): “Beroep tegen examenvragen zelf en de beoordeling daarvan in het algemeen staat eveneens open; de examenvragen en de beoordelingsnormen vormen de motiveringsgrondslag van de aangevochten beschikking (d.i.: het gegeven oordeel of cijfer, b.w.).” Hij wijst op een beroepszaak in de Leidse Faculteit der Rechtsgeleerdheid:

toet hoever strekt de kwaliteit?

“... schijnt de commissie impliciet erkend te hebben dat de te toetsen ‘beoordeling van de examenresultaten’ uit art. 40 niet alleen betrekking heeft op de vaststelling van het peil van de antwoorden die een individuele student op een examenvraag heeft gegeven, maar op het gehele beoordelingsproces d.w.z. inclusief de kwaliteit van de examenvragen in het algemeen.”

Feldbrugge (in Trias, 1973, I, nr. 3, blz. 6)

Een modelantwoord en een beoordelingsvoorschrift zijn geen vanzelfsprekende voorwaarden voor kwaliteit. Bij keuzevragen is het modelantwoord het juiste (of beste) alternatief, en is de scoring afhankelijk van de gekozen strategie in verband met raden (zie hoofdstuk 2). Bij opstelvragen in landelijke examens is het gebruikelijk om met modelantwoorden en beoordelingsvoorschriften te werken, om de uitslagen minder afhankelijk te maken van verschillen in beoordelingsgedrag van de nakijkers. Dat is wenselijk op grond van het algemene beginsel van behoorlijk bestuur: ‘gelijke gevallen gelijk behandelen, en verschillende naar de maat van hun verschil verschillend,’ het gelijkheidsbeginsel. Modelantwoord en beoordelingsvoorschrift maken het eenvoudiger om de uitslag te motiveren, wat het motiveringsbeginsel vraagt. Maar let op: een modelantwoord laat zich hier makkelijk misbruiken, door er als stoplap ‘regel is regel’ naar te verwijzen. Sterker nog, doorheen de geschiedenis van het beoordelen is er altijd druk geweest in de richting van vragen over kleinere onderwerpen en met een pseudo-objectief karakter om gezeur achteraf over de uitslag te kunnen smoren. Cohen (1981, blz. 88-89): de examinator moet desgewenst kunnen uitleggen waarom hij juist deze beslissing genomen heeft. “Het bestaan van een beroepsprocedure veronderstelt een motiveringsplicht: als er voor een examenbeslissing geen motivering gegeven hoeft te worden, kan een beroepscommissie de genomen beslissing immers niet beoordelen.” Het motiveringsbeginsel verlangt tevens dat de motivering de beslissing kan dragen. Cohen: “Het examen als zodanig bevat de motivering voor de beslissing; als dat examen verkeerd, want te beperkt van opzet is, betekent dat derhalve dat de motivering voor de beslissing gebrekkig is.”

In het bovenstaande is een belangrijk verschil met de 1983-editie dat het hebben van een modelantwoord bij open vragen niet meer als een vanzelfsprekende kwaliteit is aangemerkt. In de laatste decennia van de vorige eeuw is het streven naar eerlijke beoordeling mogelijk te ver doorgevoerd, ten koste van de tijd van docenten die beter aan het direct geven van onderwijs besteed zou zijn. Een diepere vorm van eerlijkheid is immers dat zo mogelijk iedereen bij de studie goede begeleiding krijgt; als eerlijker beoordelen van open vragen ten koste van die begeleiding gaat, dan is dat middel mogelijk erger dan de kwaal.

Een kleine wijziging ten opzichte van 1983 is dat bij keuzevragen niet meer vanzelfsprekend alleen maar nul of een punt opleveren, maar dat daar natuurlijk varianten op mogelijk zijn, in het bijzonder wanneer studenten niet meer gedwongen worden te raden op niet-geweten vragen. Zie paragraaf 2.2

Cohen zet het belang van dat beoordelingsvoorschrift mogelijk te zwaar aan, enige nuancering is wel op zijn plaats. Zo'n voorschrift moet natuurlijk een lichte toets hebben, als ik dat zo mag zeggen. Liever kort en bondig, dan proberen tevoren alles te bedenken wat studenten goed of verkeerd zouden kunnen doen. Liever een richtlijn die in individuele gevallen losgelaten wordt, dan een regel-is-regel benadering onder de misvatting dat dit gelijke behandeling garandeert en ‘objectief’ zou zijn.


er is inzagerecht


het belang van inzage


Jansen doet examen en krijgt tot haar starre verbazing een ‘3’ als uitslag. Zij mag het gemaakte werk inzien, en constateert dat het niet haar eigen werk is. Zij tekent bezwaar aan. Haar eigen werk blijkt een ‘7’ te hebben gekregen, en zij krijgt die ‘7’ ook toegekend.

De andere kandidaat in deze verwisseling van werk behoudt de ‘7’ omdat deze uitslag al definitief was vastgesteld en de exameninstelling geen titel heeft, zoals bij aantoonbare fraude het geval zou zijn, om daar achteraf aan te tornen. Kempers en Heinemann zijn over het laatste toch niet echt duidelijk, omdat zij een uitzondering zien wanneer aan de beroepsuitoefening (waar het examen toegang toe geeft) ‘substantiële menselijke risico’s’ verbonden zijn; zij geven hiervoor geen jurisprudentie.

Annie Kempers en Maarten Heinemann (2005). Niet geslaagd, toch diploma. Een vergissing altijd in het voordeel van de kandidaat? Examens, 2, februari, 23-24.

wat valt er onder inzage


“Na afloop van het examen dient de student de gelegenheid te worden geboden tot

  1. inzage in de gestelde vragen,
  2. inzage in zijn beoordeelde werk,
  3. inzage in de standaardantwoorden en het beoordelingsvoorschrift,
  4. bespreking met de examinator.”

Cohen p. 126.

De student moet het beoordeelde werk kunnen kunnen inzien, dat is een kwestie van fair play. In het eerdere voorbeeld zou Jansen zonder inzagerecht de verwisseling van haar werk niet hebben kunnen constateren. Het fair play beginsel van behoorlijk bestuur houdt in dat de overheid haar bevoegdheden zo gebruikt dat burgers hun belangen kunnen behartigen. Het belang van de student is te kunnen beschikken over de informatie die voor een eventueel beroep nodig is.

De student moet in beginsel het beoordeelde werk met de beoordelaar te kunnen bespreken (Cohen, hierboven). Deze eis zal vrijwel altijd de anonieme beoordelaar uitsluiten. Komt anoniem beoordelen wel voor? Jazeker. Voor anonieme peer assessment zie Van Boxel, Reumer, Van Os en Boter (2008), die daar geen kritische kanttekening bij plaatsen. Voor anonieme beoordeling van docenten door hun studenten, zie Wilbrink & Hofstee (1984) die uitleggen waarom dat niet deugt (ook als het niet anoniem zou zijn, trouwens).

Een modelantwoord of een beoordelingsvoorschrift : alleen als dat wordt gehanteerd. Cohen laat doorschemeren dat de aanwezigheid van modelantwoorden en scoringsvoorschriften een kwaliteitseis is, maar dat kan niet waar zijn: modelantwoorden glijden te makkelijk af tot een vorm pseudo-objectieve standaardisering. Als er een modelantwoord is, of een impliciet modelantwoord zoals dat bij meerkeuzevragen het geval kan zijn . . . , kan dat best ondeugdelijk zijn (al was het maar door een foutje van de zetter), en moet het ter inzage zijn. Dus ook die meerkeuzevragen moeten volledig ter inzage zijn.

Wie heeft inzage? De student kan iemand anders aanwijzen, bijvoorbeeld een andere docent zoals in een ‘second opinion’ variant. De instelling kan soms verlangen dat de student niet zelf het beoordeelde werk inziet; geheimzinnig doen over gestelde vragen is onverstandig, maar hoeft op zich het fair play niet altijd aan te tasten.

Amerika ging voor met het inzagerecht. De Universiteit van Amsterdam volgde rond 1980, wat tot protesten leidde van docenten die hun tentamenvragen niet meer geheim konden houden. Het probleem was natuurlijk dat die vragen toch al niet geheim meer waren, maar onderwerp van handeltjes. Hoe dat ook zij, de nood van docenten om meer vragen te moeten ontwerpen, is mede de reden geweest om aandacht aan het ontwerpen van toetsvragen te besteden, in tegenstelling tot het moeizame ‘bedenken’ van tentamenvragen, met dit boek als resultaat. Het strijdpunt bestaat overigens nog steeds, omdat ook voor psychologische tests het inzagerecht een issue is, zie Hofstee (2007).

Oops. Foutje bij het automatisch scoren.


“All of us at the College Board deeply regret the recent scoring problem on the SAT. When we found the scanning errors, we disclosed the problem as quickly and responsibly as possible to students, high schools, colleges and the news media.”

“We worked day and night to get this information out, properly and accurately. In fact, it turned out that 4,411 students out of approximately 495,000 (less than 1%) who took the October test had to have higher scores reported to colleges. Nevertheless, one test incorrectly scored is one test too many.”

Gaston Caperton (posted 4/6/2006). ‘We worked day and night.’ USA Today. Gaston Caperton is president of the College Board. http://www.usatoday.com/news/opinion/editorials/2006-04-06-oppose-view-sat_x.htm [opgehaald juni 2008, december niet meer beschikbaar?]

Let bij het casus hierboven ook even op de data: de fout bij het scoren van de in october afgenomen test blijkt pas in april van het jaar daarop. Bij minder geheimzinnig-doenerij hadden de kandidaten de scoringsfout binnen enkele dagen zelf kunnen constateren. Meer informatie hoort overigens niet bij de extra maatregelen die Caperton hier aankondigt om in de toekomst problemen te vermijden.

Oops. Foutjes zijn niet echt zeldzaam


Abstract van Scoring error clouds hiring of teachers.

“This article reports on how an incorrectly graded licensing exam for prospective teachers has stalled hiring in some places, sent school districts rummaging through employment records, and spawned at least one lawsuit so far. Those affected by the mistake range from 35 test-takers in Georgia to roughly 1200 in Ohio. Eighteen states use the Praxis series of exams as part of their teacher-licensing requirements. The mistakes made by the Educational Testing Service that led thousands of teacher-candidates to believe they had failed the Praxis II test also have added to the debate over how much reliance educators and policymakers should place on standardized exams to make high-stakes decisions.”

Linda Jacobson (July 28, 2004). Scoring error clouds hiring of teachers. Education Week, 23, #43, p. 1. Abstract: ERIC.

De blunder in het laatste casus is kostbaar: Educational Testing Service heeft elfmiljoen dollar in een schadeloosstellingsfonds voor de betreffende kandidaten moeten stoppen: zij hadden baankansen verloren door de dwaallichten van ETS.

Education Week, March 22, 2006: ETS to establish fund for damages in teacher-licensing-test mistake.

Oops. Even niet aan gedacht.


In 2008 zijn bij de decentrale toelating tot de studie geneeskunde door de VU en de UvA studenten toegelaten boven het wettelijk toegestane quotum van 50% van de beschikbare plaatsen. Er was verzuimd eerst de direct geplaatste studenten met cijfers van 8 of hoger van dat quotum af te trekken. Een en ander leidde tot kamervragen pdf, waarbij de minister meedeelde dat de ongelukkige studenten toch geplaatst worden. Kennelijk, maar dat staat niet met zoveel woorden in de beantwoording, niet ten koste van het aantal voor gewogen loting beschikbare plaatsen.

Vragen van het lid Jan Jacob van Dijk (CDA) aan de minister van Onderwijs, Cultuur en Wetenschap pdf

Ook in bovenstaand casus een bijzonder kostbare fout, aangenomen dat de numerus fixus zorgvuldig was vastgesteld: er zijn 28 kandidaten boventallig toegelaten. Maal hun opleidingskosten .... . Maar daar gaat het niet om: het punt is dat men onzorgvuldig gedane toezeggingen wel degelijk moet nakomen. De minister heeft hier ingegrepen voordat het College van Beroep voor het Hoger Onderwijs zich over deze zaak zou moeten buigen, en juist vanwege de numerus fixus tot een onbevredigende uitspraak zou moeten komen (zoals in een eerder casus pdf). Dat herinnert er nog eens aan dat geschonden recht niet altijd te repareren is.


vragen en opgaven blijven binnen de duidelijk omschreven omvang van de stof


omvang van de stof

“De omvang van de stof is een te overzien gebied; alles wat daarbuiten valt, vanzelfsprekend niet. Zou het mogelijk zijn buiten de stof te vragen, dan kan het examen niet aan zijn doel beantwoorden. Het examen is immers de afgeleide van het onderwijs; wil men toetsen in hoeverre dat onderwijs voor een student succes gehad heeft, dan moet men daarover, en niet daarbuiten vragen. De neutrale term ‘omvang van de stof‘ heb ik gekozen om duidelijk te maken dat het hierbij niet alleen kan gaan om kenniselementen, maar ook om ‘inzicht’ of ‘vaardigheden.’ Tot de ‘omvang van de stof’ kan alleen de opgegeven literatuur behoren en bijvoorbeeld niet de inhoud van een niet-verplicht college.”

Cohen, blz. 139.


Cohen baseert deze regel op het kenbaarheidsbeginsel, anderen — zoals zijn promotor De Groot (1970 html) — bepleiten doorzichtigheid, terwijl het ook verwant is aan het streven naar openbaarheid. Het is geen algemeen beginsel van behoorlijk bestuur, maar is af te leiden van het fair play en het vertrouwensbeginsel. Het vertrouwensbeginsel: de student moet erop kunnen vertrouwen dat hij tot een voldoende resultaat kan komen wanneer hij afgaat op de informatie van de docent.

Dingen zijn niet altijd zo simpel als men mag verwachten. Wat nu als de stof onjuist is omschreven, bijvoorbeeld in de nationale standaarden? In paragraaf 2.6 is aangetekend dat een kwart van de vragen op Amerikaanse staatstoetsen voor wiskunde berust op misvattingen over wat wiskunde is. Deze vragen vallen vaak wel letterlijk binnen ‘de duidelijk omschreven omvang van de stof,’ maar die omschrijving zelf staat op gespannen voet met het corpus van de wiskunde.

Bewijs de stelling van Pythagoras

Draai het nu eens om. Moet het antwoord van de kandidaat ook binnen de stof blijven? Moet het gevraagde bewijs van de stelling van Pythagoras een wiskundig bewijs zijn? De opgave in de box vraagt een bewijs, niet expliciet een wiskundig bewijs. Veronderstel nu dat een kandidaat een natuurkundig bewijs levert, terwijl de toets nadrukkelijk een wiskundetoets is. Wat doet u? Het bewijs afkeuren? Overleggen met uw collega die natuurkunde doceert? Hij geeft u het boek van Mark Levi (2009), die een reeks van dergelijke natuurkundige bewijzen voor de stelling van Pythagoras levert.

Waarmee gezegd is dat er altijd studenten zijn die iets meer doen dan alleen de opgegeven stof doorwerken. Dan is het toch van de zotte om juist deze studenten te benadelen met toetsvragen die op een geforceerde manier binnen de opgegeven stof blijven, of met verkrampte beoordeling van de gegeven antwoorden. Als dan het modelantwoord niet past op het gegeven antwoord, kan het modelantwoord voor deze kandidaat naar de prullenbak. Helaas, het blijkt met enige regelmaat in onderwijsonderzoek dat juist studenten die dieper op de stof ingaan en deze in eigen woorden verwerken, bij schriftelijke tentamens gemiddeld lagere cijfers halen dan anderen (zie Crombag, Gaff en Chang, 1976, voor propedeuseresulatten in enkele Leidse studierichtingen). Dat kan allen maar zo zijn omdat deze studenten goede redenen hebben om antwoorden te geven die niet overeenkomen met wat de ontwerper tevoren heeft bedacht dat een goed antwoord moet zijn. U moet dus maatregelen nemen om dit te voorkomen, bijvoorbeeld door studenten de gelegenheid te geven hun antwoorden toe te lichten, ook als het om keuzevragen gaat.


Ongemerkt kunnen er in de vraagstelling allerlei elementen sluipen die van de kandidaten een bepaalde behendigheid vragen om ermee om te gaan. Een behendigheid die niet tot de opgegeven stof behoort. Zo kan het taalgebruik van de vragen onnodig moeilijk zijn, of onnodig gebruikmaken van beeldspraak, terwijl de toets over iets anders dan het Nederlands gaat. Dat is helder. Het is al een heel stuk lastiger om in te zien dat inzichtvragen niet af mogen hangen van logische redeneringen, als het te toetsen vak iets anders is dan logica (zie hierbeneden een verdere uitwerking aan de hand van een publicatie van Leighton). En een test op ruimtelijk inzicht is iets anders dan een toets wiskunde, laat de ontwerper daar rekening mee houden (de Nationale Rekentoets bevat vragen die mogelijk in dit opzicht problematisch zijn). Ruimtelijk inzicht is een persoonlijk kenmerk waaraan met training niet echt veel is te veranderen, dus toetsvragen die aanspraak doen op ruimtelijk inzicht zijn verdacht. Evenals alles wat lijkt op vragen zoals die ook in intelligentietests voorkomen. Dit zijn allemaal mogelijkheden waarop vragen buiten de opgegeven stof kunnen gaan, en verdraaid, dat doen ze dus ook vaak. Voorkom dat.


het examen representeert de onderwijsdoelen naar inhoud en niveau


In het stadium van het ontwerpen van toetsvragen moeten alle relevante onderwerpen daarbij aan bod (kunnen) komen. Bij de toets als steekproef uit een verzameling toetsvragen stelt dat eisen aan de samenstelling van die verzameling: met vragen over alle relevante onderwerpen, mogelijk over belangrijker onderwerpen relatief meer vragen, eventueel een stratificatie naar moeilijkheid van de vragen.

misleiding

Nederland wil politieke steun geven aan de Amerikaans-Britse oorlog tegen Irak. Geef een zo goed mogelijke juridische onderbouwing van het Nederlandse standpunt.

Dit voorbeeld moet nog een juridische behandeling krijgen, mogelijk zal dat gebeuren in een parlementaire enquête naar de totstandkoming van het kabinetsbesluit destijds [Ondertussen is dat onderzoek gedaan: zie het rapport van de Commissie-Davids]. Een geheim memorandum van de Dienst Juridische Zaken van het het departement van Buitenlandse zaken beoogt een ‘objectieve volkenrechtelijke inschatting’ van het Nederlandse standpunt te geven. De DJZ had eerder de in de box vermelde opdracht gekregen om een advies met ‘een gewilde uitkomst’ te geven, en had binnen die opdracht niet de ruimte om te wijzen op de volkenrechtelijke tegenargumenten. Zou de opgave een examenopgave zijn geweest, dan zouden volkenrechtelijke tegenargumenten in de beantwoording strafpunten op hebben geleverd, want daar was immers niet om gevraagd. Het probleem met een opdracht zoals in de box is dat de opdracht zelf niet door de kritische beugel kan. Dat zou anders zijn wanneer de opdracht aangevuld werd met de vraag naar de sterkste juridische tegenargumenten. In de vraag zoals gesteld, is het evenwicht zoek. Of, zoals een handgeschreven opmerking op het memo aanduidt: hoor en wederhoor is hier niet toegepast. Het Kabinet heeft waarschijnlijk de volkenrechtelijke tegenargumenten niet ter beschikking gehad.

Joost Oranje (17 januari 2009). Memorandum DJZ/IR/2003/158. Juristen van Buitenlandse Zaken achtten Irak-oorlog van meet af an onwettig. NRC Handelsblad, Zaterdag &tcetera, p. 6-9. html [Een vergelijkbare zaak in Engeland rond het rapport Goldsmith; Balkenende beweerde dat rapport te hebben gebruikt, maar dat was waarschijnlijk alleen een misleidende samenvatting. p.9]


Een examenopgave van dit type, kan onmogelijk de doelen van een opleiding behoorlijk representeren. Zo'n opgave brengt de kandidaten ook in problemen, zoal niet van het geweten, dan toch van wat in vredesnaam hier door de vragensteller als een goed antwoord zal worden gerekend. Uit het leven gegrepen, en bepaald geen uitzonderlijk incident (de voorbereidingen van de Irak-oorlog wemelen van de bewuste misleidingen van dit type).

Het zal mij niet verbazen wanneer misleidend eenzijdige opdrachten met regelmaat in examens blijken te vinden. Dat zal zelden met drama gepaard gaan, en mogelijk vaak de gedaante aannemen van verkeerd begrepen wetenschap: zoals vragen naar voorbeelden die de juistheid van een theorie bewijzen. Voor wie het is vergeten: de juistheid van theoriën is niet te bewijzen, eventueel wel hun onjuistheid. Dit zijn vragen die niet stroken met welke redelijke onderwijsdoelen dan ook.


de moeilijkheid van de vragen stemt overeen met wat de studenten mogen verwachten


Oefenvragen, een proeftoets, oude tentamenvragen, gegeven voorbeelden en andere informatie: de student moet erop mogen vertrouwen dat de aard van de door hem te beantwoorden toetsvragen daarmee in overeenstemming is, tenzij wijzigingen expliciet zijn meegedeeld.

“Daarnaast komt het nogal eens voor dat men de examenopgaven net een slag moeilijker maakt dan de opgaven tijdens het onderwijs. De — impliciete! — motivering hiervoor is, dat datgene, wat tijdens het onderwijs geoefend is, triviaal geworden is: iedereen gaat dat goed doen. Wil men dan toch onderscheid maken tussen studenten en examinatoren willen dat ook wanneer daarvoor geen enkele reden is (...), dan moet men het examen moeilijker maken. Het zal duidelijk zijn dat een dergelijke handelwijze volstrekt onjuist is.”

Cohen, blz. 146

moeilijkheid schatten ....


Doe een experimentje als het volgende zelf ook eens! De moeilijkheid van toetsvragen is verdraaid moeilijk te schatten. Hier de gegevens van vier docenten die onafhankelijk van elkaar tien goede toetsvragen — vragen die het hoogst correleren met het totale toetsresultaat — op moeilijkheid hebben geordend. De werkelijke rangorde is die zoals na de toetsafname bepaald. [De correlaties met de werkelijke rangorde zijn respectievelijk -0,21, 0,21, 0,54 en 0,21.]

_________________________________________________
werkelijke	rangorde zoals gegeven door docent
rangorde	i	ii	iii	iv
-------------------------------------------------
	 1	 6	 5	 1	 1
	 2	 4	 2	 2	 3
	 3	10	10	10	10
	 4	 9	 6	 4	 7
	 5	 2	 1	 3	 9
	 6	 1	 3	 6	 2
	 7	 7	 8	 9	 5
	 8	 8	 9	 5	 4
	 9	 5	 4	 8	 8
	10	 3	 7	 7	 6
_________________________________________________

B. Wilbrink, 14-12-1976, in schrijven aan R. F. van Naerssen.

Toets te moeilijk? Is dat een probleem dan?


“A preliminary report on the problems with a statewide math test needed for graduation from high school in New York State has found that even early trials of the test indicated that the average student would be unable to pass.

But the test, known as Math A, was nonetheless administered in June across the state, causing thousands of students to fail to meet the requirements for a Regents diploma.”

Karen W. Anderson (August 27, 2003). Early trials of Regents Test foresaw failure at a high rate. The New York Times html [opgehaald juni 2008]


“Thousands of students who initially failed the troubled Math A Regents exam in June will receive passing grades under a new scoring chart issued yesterday by the New York State Education Department, a department spokesman said.”

Karen W. Anderson (August 30, 2003). Scores on math regents exam to be raised for thousands. The New York Times html [opgehaald juni 2008]


Het inschatten van de moeilijkheid van toetsvragen is berucht moeilijk. Vergelijk dat eens met het inschatten van de moeilijkheid van bepaalde werkzaamheden in het beroep. Wat denkt u in hoeveel van de gevallen dat verpleegkundigen in een ziekenhuis medicijnen klaarmaken, daarbij een fout wordt gemaakt? Schrijf uw schatting even op, en kijk dan wat een onderzoek in een ziekenhuis opleverde (archief De Volkskrant). Het persbericht meldt dat het Maastrichtse ziekenhuis het aantal fouten met 97% heeft weten te verminderen door het klaarmaken van medicijnen door apothekersassistenten te laten doen en barcode-techniek te hanteren. Het verbaast dan dat velen genoegen nemen met die 97%: ik heb alleen in het artikel van De Volkskrant — Maud Effting, 20 november 2010 ‘Ziekenhuis kan fouten met medicijnen goed voorkomen’ — gevonden wat het percentage fouten was: het bleek dat verpleegkundigen in veertig procent van de gevallen een fout maakten. Wat was uw schatting?


toetsvragen zijn duidelijk en ondubbelzinnig


Bij meerkeuzevragen strekt deze regel zich ook tot de alternatieven uit. Bij open vragen vallen modelantwoord en beoordelingsvoorschrift er eveneens onder. Het is wel zo prettig voor iedereen om onduidelijkheden bij de controle vooraf weg te werken. Maar wat te doen wanneer na afname van de toets onduidelijkheden blijken? Blijken voor een meerkeuzevraag ook afleiders als goed alternatief verdedigbaar, reken ze dan ook goed. Wanneer onduidelijkheden of dubbelzinnigheden de studenten in verwarring kunnen hebben gebracht, zal er meestal weinig anders opzitten dan de vraag niet bij het eindoordeel te betrekken. Bijvoorbeeld wanneer geen van de alternatieven een verdedigbaar juist antwoord oplevert. Cohen maakt een opmerking over meerkeuzevragen met vèrstrekkende betekenis:

“Wanneer bij een meerkeuzevraag de betrokken examinatoren het onderling niet eens zijn over de vraag welk alternatief juist is, zal men vrijwel altijd moeten aannemen dat de vraag niet aan de geformuleerde regel voldoet.”

Cohen, p. 148

Dat betekent dat een dergelijke vraag niet in een toets thuishoort. Maar bedenk ook dat het aannemelijk moet zijn dat examinatoren of andere deskundigen het onafhankelijk van elkaar onderling eens zijn over het juiste of beste alternatief. In 8.2 en 8.3 kom ik hier nog op terug. Bij antwoorden op open vragen verschillen beoordelaars al gauw van elkaar in de beoordeling van de juistheid en in de puntenwaardering. Omdat zich dan de situatie voordoet dat de onderhavige regel geschonden is, terwijl het niet meer mogelijk is de zaak terug te draaien of zo'n vraag helemaal niet mee te rekenen, is er slechts een uitweg: de student het voordeel van de tussen examinatoren bestaande onenigheid geven. Bij verschillende oordelen van meerdere beoordelaars krijgt de student het meest gunstige (voor hem) toegekend. Hoe nu te handelen wanneer achteraf bepaalde vragen buiten het eindoordeel blijven omdat ze ondeugdelijk zijn? De beste weg lijkt deze te zijn: allereerst de beoordeling uitvoeren inclusief de ondeugdelijke vragen en vervolgens zonder deze vragen: de student krijgt het hieruit resulterende hoogste resultaat als formele uitslag. Blijkt de ondeugdelijkheid voordat de formele uitslag is vastgesteld en meegedeeld, dan kan men deze werkwijze volgen. Blijkt de ondeugdelijkheid nadat de formele uitslag is meegedeeld, dan moet men de geschetste werkwijze wel volgen. De formele uitslag is de geldige uitslag, en die mag alleen veranderen ten gunste van de student. Wanneer er een informele uitslag voorafgaat aan de formele, bijvoorbeeld door het bekendmaken van de scoringssleutel bij meerkeuzetoetsen, is het wel zo elegant om dan de werkwijze te volgen als was er al een formele uitslag bekendgemaakt. Al met al blijven dit soort wijzigingen achteraf vervelend, ook al omdat de gelijke behandeling er niet mee gediend is. Cohen (blz. 133) schrijft naar aanleiding van een beroepszaak over het achteraf verwijderen van toetsvragen uit het eindoordeel:

“Laten wij eerst vaststellen dat de problemen pas zijn ontstaan nadat er van de zijde van de examinatoren een fout was gemaakt die niet meer te redresseren viel. Is dat het geval, dan is ongelijkheid niet meer te vermijden, maar het voordeel dat sommigen hierdoor behalen, kan niet tevens aan iedereen gegeven worden. Voldoende is dat degenen die het voordeel niet hebben, geen nadeel ondervinden. De polsstok van de beroepscommissie ex art. 40 WUB is geen andere dan die van andere rechters: het gelijkheidsbeginsel in handen van de rechter is in zoverre een beperkt wapen dat het alleen negatief kan werken door een ongelijke behandeling ongedaan te maken, en niet positief door iedereen alsnog dezelfde behandeling te geven.”

Is het nu ook zo dat bij slechte vragen die pas na vaststelling van de uitslag zijn ontdekt, voor iedereen (die deze vraag niet goed heeft gemaakt) die uitslag opnieuw moet worden vastgesteld? We hebben al gezien dat het de docent, de commissie, de CEVO, vrij staat om dat inderdaad te doen. Uit de jurisprudentie volgt evenwel niet uit een door student A gewonnen beroep dat ook voor student B en C de einduitslag moet worden herzien.

“Alleen een kandidaat die beroep instelt, kan aanspraak maken op de beslissing van het College van Beroep. Indien achteraf in een beroepsprocedure blijkt dat een vraag uit een examen niet valide is geweest en derhalve volgens de beschikking van het College geen onderdeel van de beoordeling had mogen zijn, dan is die beslissing alleen van kracht voor de kandidaat die het beroep instelt en niet voor alle kandidaten die aan het examen hebben deelgenomen.”

Annie Kempers en Maarten Heinemann (2005). Niet geslaagd, toch diploma. Een vergissing altijd in het voordeel van de kandidaat? Examens, 2, februari, 23-24.

Bovenstaande begrijpelijke maar toch als legalistisch ervaren opstelling geeft ongelijke behandeling. Voorkom dat door goede procedures en snel reageren op signalen dat er met bepaalde vragen iets mis kan zijn. Dat is zo geregeld voor de eindexamens VO, waar de CEVO voor verantwoordelijk is, mede dank zij de vrijwilligers van het LAKS.


beoordelen en cijfergeven


Ik moet waarschijnlijk een sectie invoegen over beoordelen en cijfergeven. Ik ben daar niet helemaal zeker van, omdat de problematiek natuurlijk evident met validteit heeft te maken, en daarom ook deels in par. 2.6 valt te behandelen. Ik kom op dit punt naar aanleiding van Crisp (2010). Als dit relevant is, dan is ook het boek van Wim Hofstee Beoordelen relevant.

Victoria Crisp (2010). Towards a model of the judgement processes involved in examination marking. Oxford Review of Education, 36, 1-21.

W.K.B. Hofstee (1999). Principes van Beoordeling. Methodiek en ethiek van selectie, examinering en evaluatie. Swets en Zeitlinger.


gelijke behandeling van gelijke gevallen en behandeling van ongelijke gevallen naar de mate van hun ongelijkheid


Het voorgaande leidt tot de stelregel om onduidelijke en dubbelzinnige vragen zo veel mogelijk door controle vooraf uit de toets te weren. Volsta in ieder geval niet met alleen een controle achteraf (nabespreking, itemanalyse), omdat maatregelen achteraf de uitwerking van het gelijkheidsbeginsel frustreren. Achteraf een ondeugdelijke vraag uit een examen weglaten is goed voor wie de vraag fout had, maar benadeelt de leerlingen die de ondeugdelijkheid begrepen en daardoor de vraag toch goed wisten te beantwoorden. In een concreet geval hoeft er niet meteen sprake te zijn van oneerlijke behandeling, maar het is in ieder geval een ongelijke behandeling. pdf/example.schoenfeld.2007.jpg

Heel erg lastig kan het zijn om ongelijke gevallen te behandelen naar hun ongelijkheid. Er is een zeer uitgebreide literatuur over scheefheid (bias) van toetsen en van toetsvragen, ook wel partijdigheid van toetsvragen genoemd, zie bijvoorbeeld voor een recent (technisch) artikel Gierl, Zheng & Cui (2008) pdf. Over wie gaat dit? Een belangrijke groep leerlingen zijn zij die Nederlands als tweede taal hebben geleerd: zij mogen er aanspraak op maken dat zij door dat feit als zodanig niet in het nadeel zijn op examens, en natuurlijk ook bij die talrijke minder belangrijke beoordelingen over hun onderwijsloopbaan heen. Het Cito heeft een publicatie over de ontwikkeling van onpartijdige toetsen: Bügel en Sanders (1998) pdf. Een (deels) andere groep leerlingen in een bijzondere positie zijn leerlingen die bepaalde achterstanden hebben. Merk op dat het ongelijke van leerlingen een persoonlijk kenmerk moet zijn, zoals Nederlands als twee taal geleerd hebben, niet een groepskenmerk zoals derde generatie allochtoon zijn. In de VS is dat niet anders, zie voor een glasheldere uiteenzetting Novick en Petersen (1976) die zich fel keren tegen methoden die werken met statistieken over hele groepen zoals blanken versus zwarten.

In deze literatuur valt de nadruk op statistische technieken om scheefheid op te sporen tijdens de ontwikkeling van gestandaardiseerde tests en examens. Opvallend in die literatuur is dat er een brede kloof gaapt tussen deze statistische analyses, en concreet begrip van wat dan precies de oorzaak is van de mogelijk ontdekte scheefheid. De ontwerper van toetsvragen heeft weinig aan deze statistische technieken, en doet er goed aan zich er niet door te laten intimideren. Belangrijk is dat mogelijke scheefheid een validiteitsprobleem is (zie paragraaf 2.6, en bijvoorbeeld Shepard (1982) die dit punt uitwerkt). Voor de ontwerper is het bovendien van belang te weten dat scheefheid van toetsvragen kan schuilen in bepaalde typen of aspecten van toetsvragen, dus in groepen toetsvragen, en niet alleen in specifieke problemen in afzonderlijke toetsvragen. Om een gevoel te ontwikkelen voor wat er zoal scheef kan gaan bij het ontwerpen van toetsvragen is het goed om kennis te nemen van Scheuneman (1982), of ander werk in deze lijn, zoals het proefschrift van Kok (1988) over items in de Cito Basistoets. Een mogelijk scheve bibliografie over scheefheid geef ik hier. Voor wie mogelijk benadeeld is door scheefheid van toetsvragen is dit allemaal natuurlijk wel heel vaag, want wanneer scheefheid schuilt in een bepaald format van vragen, is dat voor een student lastig om te signaleren, laat staan te bewijzen. Deze stand van zaken legt extra verantwoordelijkheid op de schouders van ontwerpers: om aannemelijk te maken dat voldoende is gedaan om scheefheid te voorkomen.


Samenvattend


Samenvattend levert dit voor de kwaliteit van toetsvragen (inclusief modelantwoorden en beoordelingsvoorschriften) het volgende kader op voor controle en bewaking ervan:

“Het zijn niet alleen studenten die de stof niet beheersen die zakken voor tentamens, ook studenten die de stof wel beheersen blijken nogal eens te zakken. Dit laatste heeft te maken met de kwaliteit van tentamens (onduidelijke stofomschrijving, te gedetailleerde vraagstelling, onnauwkeurige formuleringen, etcetera). Het is opmerkelijk dat veel studenten deze praktijken over zich heen laten komen. Ze zouden zich veel actiever op kunnen stellen wat betreft de kwaliteit van tentamens en vaker in beroep kunnen gaan. Bij een gewonnen beroep zouden studenten er verstandig aan doen bij de instelling een schadeclaim in te dienen wegens onterecht opgelopen studievertraging, helemaal nu studietijd geld is.”

Janke Cohen-Schotanus (1995, p. 26). Zij geeft concrete voorbeelden uit een medische opleiding (Groningen). Meest extreme voorbeeld: na reparatie van een reeks problemen bij dit tentamen, stijging van slaagpercentage van 3% naar 97%!

Een interessante ontsporing van de bureaucratie is een met goed gevolg afgelegd examen om wonderlijke redenen achteraf ongeldig te verklaren, bijvoorbeeld omdat de betreffende kandidaat te snel heeft gestudeerd. Piet Vroon overkwam zoiets, hem werd in Utrecht het cum laude geweigerd omdat hij te snel zou hebben gestudeerd. Voor de duidelijkheid: de voorwaarde voor het krijgen van het predicaat ‘cum laude’ is dat alle cijfers tenminste ‘acht’ zijn, niets over termijnen. In Italië weten ze ook hoe je studenten gek kunt krijgen, zie deze box.


Giacinto Canzona doet in iets meer dan drie jaar zijn doctoraal rechten aan de Sapienze-universiteit in Rome. Dat examen werd evenwel geannuleerd, hij moet opnieuw examen doen als de reglementaire vier jaar die voor deze studie staan zijn verstreken. “In zijn schaarse vrije tijd leest hij zijn dochtertje voor uit Kafka.”

Jan van der Putten (20 mei 1996). Te briljante student door bureaucratie afgestraft. De Volkskrant.


In beroep heeft hij in 2000 zijn doctoraal alsnog verkregen.

Rosaria Amato (7 ottobre 2005). “La mia laurea lampo fu annullata e adesso rischio anche la carriera” La Repubblica. html.


Een filosofiestudent liep in Italië tegen dezelfde hyperbureaucratie op, toen hij in twee jaar tijd afstudeerde. De Raad van State heeft uitgesproken dat zoiets mogelijk is.

Daniele Semeraro (7 ottobre 2005). “Così mi sono laureato in due anni” e il Consiglio di Stato ha detto sì. La Repubblica. html

 

richtlijnen voor tests en toetsen

“If the rationale for a test use or score interpretation depends on premises about the psychological processes or cognitive operations used by examinees, then theoretical or empirical evidence in support of those premises should be provided. (p. 19)”

AERA, APA & NCME (1999).The Standards for Educational and Psychological Testing. standard 1.8 zie hier.

Naast ‘ongeschreven’ algemene beginselen van behoorlijk bestuur respectievelijk onderwijs, in het algemeen rechtsbewustzijn levend, zijn er ‘geschreven’ beginselen van behoorlijk testen en toetsen, op initiatief van instituten, beroepsverenigingen, etcetera. Dit zijn regels voor een behoorlijke beroepsuitoefening, waar de beroepsbeoefenaar zich aan heeft te houden. Voorbeelden: NIP, ETS, AERA/APA/NCME, en Cremers-van Wees, Knuver, Vos, en Van der Linden (1998). Deze publicaties geven in het algemeen geen praktijkvoorbeelden, maar bijvoorbeeld Bügel en Sanders (1998) pdf doen dat wel in de Cito-publicatie met richtlijnen voor de ontwikkeling van onpartijdige toetsen. Voorbeelden zijn met enige moeite wel te verzamelen, uit jurisprudentie en uitspraken van klachtencommissies. Het tijdschrift Examens heeft een rubriek die jurisprudentie bespreekt. Het punt is evenwel dat het bij deze richtlijnen meestal gaat om kwaliteitskenmerken die liever sterker dan zwakker aanwezig moeten zijn, zodat in absolute zin aanvechtbare praktijken niet echt makkelijk zijn te traceren.

Maar goed, ik moet dit nog eens afzonderlijk zien uit te werken. Ik heb niet de indruk dat klachtencommissies of Colleges van Beroep voor de Examens met dergelijke richtlijnen goed overweg kunnen, en als zaken op basis van algemene beginselen van behoorlijk bestuur zijn af te handelen, heeft dat de voorkeur.

Ben ik nu gek, of is dit logica?

Alle mannen zijn vrouwelijk.
Socrates is een man.
Dus Socrates is vrouwelijk.

U zult zich wel afvragen wat de betekenis is van de richtlijn die in de eerste box in deze paragraaf is geciteerd. De formulering is wat zwaar op de hand, en gericht op gestandaardiseerde toetsen. Leighton (2004) beschrijft een directe toepassing met vergaande consequenties: als toetsvragen gaan over een vakinhoudelijke redenering, dan is de logica niet het criterium voor wat een correcte redenering is, tenzij het betreffende vak logica is. De logica zegt dat de conclusie in bovenstaande box correct is, gegeven de juistheid van de beide premissen. Maar kom met deze onzin niet aan als het een vraag biologie of oude geschiedenis zou zijn, daar doen we niet in willekeurige premissen. U mag er vergif op innemen dat subtiele varianten van dit probleem regelmatig aan de orde zijn bij het beoordelen van examenwerk. Sterker nog, en daar wijst Leighton ook op: testees kunnen goede redenen hebben gehad om bij keuzevragen een niet als juist gesleuteld alternatief aan te kruisen. Volgens de APA-richtlijn moet de ontwerper van keuzevragen daar rekening mee houden, en dat kan bijvoorbeeld door testees gelegenheid te geven de gemaakte keuze toe te lichten.

Jacqueline P. Leighton (2004). The assessment of logical reasoning. In Jacqueline P. Leighton and Robert J. Sternberg: The nature of reasoning (291-312). Cambridge University Press.


De pseudo-logica in toetsvragen is niet altijd eenvoudig te herkennen, maar een gewaarschuwd ontwerper telt voor twee. Het simpele woordje ‘en’ kan tal van betekenissen hebben, ándere dan de ontwerper mogelijk bedoelt (zie Hertwig, Benz & Krauss, 2008).

Ralph Hertwig, Björn Benz & Stefan Krauss (2008). The conjunction fallacy and the many meanings of and. Cognition, 108, 740-753. pdf


En wat te denken van de volgende vraag: Bas is vriend van Pieter, Pieter is vriend van Paul, is Bas dus vriend van Paul? De vraag is van een bekend type, maar meestal gaat het om zoiets als: a is groter dan b, b is groter dan c, is a dus groter dan c? Kinderen die het laatste type vraag goed leren beantwoorden, wat leren die eigenlijk? De meeste relaties in de wereld zijn immers anders van karakter.

Geoffrey P. Goodwin & P. N. Johnson-Laird (2008). Transitive and pseudo-transitive inferences. Cognition, 108, 320-352. pdf.


8.2 Punten om op te controleren



de tekst van deze paragraaf heeft al een opknapbeurt gehad, maar zal inhoudelijk nog verder worden aangepakt.



Verbazend veel — ook zorgvuldig ontworpen — toetsvragen hebben verborgen gebreken. Er is een instrument nodig om er de toetsvragen mee te lijf te gaan (en een methode, zie paragraaf 8.3). Een afstreeplijst kan helpen om geen punten over het hoofd te zien. De positieve ontwerpregels zijn in hoofdstuk 2 vermeld, nu gaat het echt om de afwijkingen. Veel van dit ongerief zal al wel bekend zijn, en de algemene lijnen zijn herkenbaar dezelfde zoals ook door Cohen (1981) zijn aangegeven. Het gaat hier meer om het verwerven van een kritische houding tegenover de zelf ontworpen toetsvragen, dan het letterlijk hanteren van een checklist om verborgen gebreken op te sporen.

Het is een goed idee om Popperiaans te denken: om er achter te komen of een ontworpen toetsvraag deugt, mobiliseer dan hulptroepen met de opdracht om de vraag te kritiseren, als dat maar even mogelijk is. Komt de ontworpen vraag daar goed door, dan bewijst dat niet dat alles OK is, maar is daar wel meer vertrouwen in.

Een instrumentje om collegiale intervisie te ondersteunen is hier beschikbaar. In deze paragraaf ligt de nadruk op het inventariseren en onderbouwen van de soorten gebreken waar ontworpen toetsvragen in ieder geval op zijn te controleren. Paragraaf 8.4 geeft de controlelijsten in verkorte vorm, zonder uitleg en voorbeelden, als geheugensteun. Bij de inhoudelijke herziening is het streven om voor ieder punt tenminste een saillant voorbeeld te geven. De functie van die voorbeelden is om het herkennen van fouten van dat type te vergemakkelijken. Bijvoorbeeld: Ha, dat is een ‘onbeantwoorde brief’ [typerend voorbeeld], waar iemand schrijft: ‘de vergrootte inlotingskans ...’ in plaats van ‘de vergrote ... .’ Ha, dat is window dressing.’ ‘Zeg nooit nooit.’ ‘Zeg niet niet.’


vormgebreken


juli 2009. Beter leesbaar zou het zijn om uit te gaan van vormvereisten, dus van positieve formuleringen. Ik ben hier nog niet helemaal uit. Voor een checklist kan het handiger zijn om te werken met mogelijke probleempunten. Ik ben trouwens in het hierna volgende niet helemaal consistent in het uitgaan van vormgebreken. Mijn excuses voor deze rafelrandjes.


Vormgebreken zijn ontwerpfouten die met de vorm van de vraag hebben te maken, meer dan met de inhoud. De scheidslijn is niet altijd scherp te trekken, bijvoorbeeld waar vorm en inhoud van elkaar afhankelijk zijn of juist minder goed bij elkaar passen.

Bij keuzevragen is ‘de vraag’ de stam van de vraag, en heten de aangeboden opties de alternatieven, de onjuiste of minder juiste alternatieven heten ook zo, en niet ‘afleiders.’


taligheid

doorgeschoten

In een potje oploskoffie zit 200 gram. Met 2 ½ gram oploskoffie kun je een kopje koffie maken. Hoeveel kopjes koffie kun je hoogstens maken met een potje oploskoffie?

Het woordje hoogstens is kennelijk toegevoegd om uit te sluiten dat slimmeriken een aantal lager dan 40 opgeven. Maar toevoegen van ‘hoogstens’ dwingt de leerling zich af te vragen waarom er zo nodig ‘hoogstens’ bij staat: zit er een diepere betekenis achter? Het karakter van de vraag verandert er door. Waarom zou je bijvoorbeeld ‘35’ als goed antwoord willen uitsluiten? De vraag had toch kunnen luiden: ‘kun je er 35 kopjes koffie uit halen — ja/nee’? Is het toch noodzakelijk zo'n precisering toe te voegen, handel dan evenals bij ontkenningen, en benadruk door vet te drukken.

De Nationale Rekentoets voorronde 2006, vraag 1. http://www.volkskrant.nl/rekentoets [pagina blijkt opgeheven, 3-2009]


directheid

Afbeeldingen laten een jongetje zien dat aan het vissen is in een bak water met drie vissen. Ook is te zien dat hij er van die drie twee heeft gevangen, de derde zwemt nog in de bak. Kinderen reageren dan op de zin “Het jongetje heeft een vis niet gevangen.” Die reactie: “Dat klopt niet hoor, protesteren de kinderen onmiddellijk, want hij heeft er twee gevangen.” Het probleem is hier het taalbegrip van jonge kinderen: zij begrijpen de zin als ‘Het jongetje heeft geen vis gevangen.’

“Zo vertelt De Hoop dat taal correct begrijpen direct samenhangt met het zich kunnen verplaatsen in de spreker. Wat bedoelt die, waar is die mee bezig: vanuit die invalshoek snappen luisteraars de boodschap snel en correct. Kinderen kunnen zich nog niet goed verplaatsen in een ander.” ‘Jan zei dat Piet hem waste’ begrijpen zij dan als ‘Jan zei dat Piet zich waste.’

Onderzoek van Irene Kraemer en Helen de Hoop, in Language Acquisition, besproken in de Volkskrant van 16-9-2006 (Mieke Zijlmans, Kennis, p. 5)

Wees gewaarschuwd. Denk niet dat, eenmaal van de basisschool af, dit soort taalproblemen zich niet meer voordoen.


dubbelzinnigheid


formalisme
Tussen het voorgaande en het volgende nummer in, is een vaak voorkomende ontwerpfout die waarin formele modellen op dubbelzinnige wijze vermengd zijn met concrete situaties.

De dubbelzinnigheid dreigt bovendien ten nadele van de student uit te werken omdat docenten geneigd zijn autoritair te beslissen bij verschil van inzicht. Die docenten zijn niet te kwader trouw, maar hebben zich niet gerealiseerd dat het razend moeilijk is om echt consistent te zijn in dit soort autoritaire beslissingen. In het ene geval had de student juist formeel moeten redeneren, bij een andere gelegenheid kan de student van dezelfde docent te horen krijgen dat een formele interpretatie juist niet bedoeld is.

Denk hier niet geringschattend over. Bedenk dat het tot de impliciete spelregels bij keuzevragen hoort dat van de aangeboden alternatieven alleen het beste antwoord punten oplevert, zodat in nogal wat gevallen de student die alternatieven ook tegen elkaar moet afwegen, en moet dat dan zonder of met formele modellen, wat zou de ontwerper bedoeld hebben?

De slordige ontwerper, iemand die als foute antwoorden maar wat opschrijft, zal veel onvrede oogsten.

horizon?

“Je beklimt een berg tot op honderd meter hoogte. Je kunt tot aan de horizon kijken.”

Wetenschapsquiz 2005 http://www.nwo.nl/nwohome.nsf/pages/NWOA_6V7KF [gebroken link? 2-2008]


Er zijn hier twee problemen. Het eerste is dat het raadselachtig is wat hier precies met ‘horizon’ wordt bedoeld, de situatie is immers een berggebied, niet de Brandaris op Ameland. Het tweede probleem zit in het gegeven antwoord op de gestelde vraag “hoe hoog moet je klimmen om vier keer verder te kunnen zien.” dan bij 100 meter hoogte. Het officiële antwoord werkt met een formule, een wiskundig model. Omdat uit de antwoordalternatieven het juiste alternatief bij benadering is aan te wijzen door iemand die begrijpt dat de vraag draait om de kromming van de aardoppervlakte, gebeurt er geen ramp. Maar dan is het geven van een formalisme om het juiste antwoord te beredeneren, niet adequaat voor de vraag zoals ontworpen, waarin een benaderend antwoord volstaat. Slordig denkwerk van de ontwerper.
oneindig fout

Bouw een toren van vierkante stoeptegels die zo ver mogelijk naar een kant overhelt. De tegels mogen alleen op elkaar gelegd worden, niet naast elkaar. Hoe ver helt hij maximaal over?

  1. Precies twee tegels.
  2. Ongeveer anderhalve tegel.
  3. Oneindig ver.

Wetenschapsquiz 2005 www.nwo.nl/quiz


Het goed bedoelde antwoord is c. Het is te vinden door a. en b. als onjuist af te strepen. Het probleem is dat c. ook evident onjuist is, want daar is een oneindig hoge stapel stenen voor nodig, en daar is het Heelal te klein voor. Al veel eerder groeit de stapel buiten de aantrekkingskracht van alleen de Aarde. Er zijn dan drie onjuiste antwoorden, is het de bedoeling het minst onjuiste te kiezen? Welke is dat dan? De ontwerper bedoelt dat alleen de wiskundige formule telt — dat gedoe met die stenen is letterlijk alleen voor de Bühne — maar dat is niet in de stam vermeld. Het probleem was in dit geval bij de ontwerper bekend, maar de redactie liet de vraag in deze vorm uitgaan.

Eric W. Weisstein (2005?). Book Stacking problem mathworld, met literatuurlijst waarin de cantilevered books zijn behandeld, de oudste is 1953, maar het zal in de 18e eeuw ook al wel zijn bestudeerd.


nooit ‘nooit'


toegespitstheid (specificiteit)

goed lezen, geen biologie

Myotone dystrofie, een spierziekte die in vier varianten voorkomt, helder beschreven in een box. Dan een vignet over een vrouw en haar twee jonge kinderen. De vraag is dan:

“Er wordt vastgesteld dat de vrouw myotone dystrofie heeft. Aan welk type myotone dystrofie zal zij naar alle waarschijnlijkheid lijden?
  1. het milde type
  2. het klassieke type *
  3. de kindervorm
  4. het aangeboren type”

eindexamen havo biologie 2009 vraag 25 Cito

opgaven + antwoorden eindexamens 2009


Voor het beantwoorden van deze vraag is geen kennis van biologie nodig. De gegevens zijn dat het milde type na het 50e jaar blijkt, de kindervorm op kinderleeftijd, en het aangeboren type bij de geboorte. Ergo, de vrouw heeft het klassieke type. Deze vraag faalt op de eis van specificiteit. Een slimme basisscholier kan de vraag ook beantwoorden.
Midas Dekkers vindt deze vraag “fundamenteel fout.” “Het is leuk dat ze een concrete casus verzinnen, maar je kunt dat niet achteraf voorspellen. Je kunt niet zomaar uit de nakomelingen de overerving herleiden.” Midas graaft dus wat dieper, en concludeert dat hier veel te makkelijk als diagnose wordt gesteld dat de spierziekte een bepaald type erfelijke spierziekte moet zijn. Hij moet het dus oneens zijn met de qualifier ‘naar alle waarschijnlijkheid’ in de vraag. Midas vindt deze vraag dus wel degelijk specifiek, maar in strijd met het corpus van de genetica. Er zal hier nog wel enige discussie over ontstaan, bijvoorbeeld omdat artsen met feilbare gegevens werken, toch een diagnose moeten stellen, en die ‘meest waarschijnlijke’ diagnose vervolgens als werkhypothese zullen gebruiken totdat anders blijkt. Maar O.K., het is een examen biologie, geen geneeskunde.

Robin Gerrits (27 mei 2009). Gemiste kans in het Darwinjaar. De Volkskrant, p. 2. Gesprek met Midas Dekkers over zijn ervaring bij het afleggen van het eindexamen havo biologie.


het is duidelijk wat de vraag toetst


alle goede antwoorden zijn voorzien


antwoord motiveren?


de juiste vraagsoort


keuzevragen: alternatieven

roekeloze vormgeving van alternatieven

voorbeeld CBR examen

website CBR, proeftoetsje theorie-examen, bekeken februari 2008


 

Het theorie-examen voor het rijbewijs heeft per 1 januari 2008 een nieuwe regeling en vorm gekregen. Iemand bij het Centraal Bureau Rijvaardigheid heeft kennelijk gedacht dat het handig zou zijn de kandidaten zelf te laten kiezen welk type alternatief aan de orde is, uit een tableau met vijf soorten alternatieven en ook nog een tekstje welke vraag het is, zie de box. Dit is toch wel een ernstige ontwerpfout. Het vraagt extra aandacht van kandidaten die toch al veel informatie hebben te verwerken om tot goede antwoorden op de CBR-keuzevragen te komen. Alsof dat allemaal nog niet genoeg is: iedere vraag moeten binnen een klein aantal seconden worden beantwoord (het buisje links loopt snel leeg, nog een extra afleiding), waardoor dit theorie-examen meer een stress-test en intelligentie-toets lijkt te zijn dan een toets op kennis van verkeersregels en -situaties.


keuzevragen: onbedoelde hints


ja-nee   waar-onwaar   juist-onjuist

Kan dit type vraag ooit wèl verantwoord zijn? Merk op dat Millman & Pauk bovenstaand voorbeeld geven als een kennelijk door de ontwerper als ‘onwaar’ bedoelde uitspraak, omdat de testee moet begrijpen dat hier vele uitzonderingen op zijn. Is het dan een vraag uit een toets logica, en niet uit een toets maatschappijleer? Kijk, dat soort verwarring moeten we niet hebben, dan wordt iedereen gek.

Op zijn minst zal het vaak nodig zijn om de testee de gelegenheid te geven het antwoord toe te lichten, al was het maar op in te leveren kladpapier. Beter is: ontwerp vragen waarbij de testee het gegeven antwoord moet motiveren. Nog beter is dan: gegeven wat goede, respectievelijk minder goede, onderbouwingen zijn, daarvan uitgaand een geheel ander vraagontwerp te maken.


de toetsinstructie

Moet de eindexamenkandidaat raden?


Voor de eindexamens VO 2009, bijvoorbeeld biologie pdf, is er een uitgebreide instructie van 5½ pagina over de beoordeling en puntentoekenning, maar daarin geen woord over wat de kandidaat het beste kan doen als hij of zij het antwoord op een keuzevraag niet weet. CEVO en Cito speculeren er kennelijk op dat het iedereen duidelijk is dat open laten van keuzevragen in ieder geval nadelig is. Dit is een kunstfout, een professionele nalatigheid.


Puntenlijst voor inhoudelijke aspecten


het onderwerp van de vraag


de gevraagde vorm van beheersing
(reproductie, nieuw voorbeeld benoemen, nieuwe toepassing, inferentie, vertaling enz.)


abstractieniveau


ontologische consistentie


de vraag is specifiek

door de staatssecretaris de dag na het eindexamen teruggetrokken vraag 21

“tekstfragment Werk gaat voor uitkering
Eigen verantwoordelijkheid staat centraal. Geen rechten zonder plichten. De algemeen geldende verplichting tot re-integratie, waarvan alleen in individuele gevallen kan worden afgeweken, spreekt ons zeer aan. De mens staat centraal, niet de regels. Wat kan deze persoon, zonder afhankelijk te zijn van het sociale vangnet? Het feit dat de hoogte van de uitkering wordt gekoppeld aan het betoonde verantwoordelijkheidsbesef spreekt ons ook aan. Werk gaat voor uitkering. Wij onderschrijven deze uitgangspunten. Het is niet sociaal wanneer mensen worden doodgeknuffeld in een uitkering. Opgesloten zijn in een uitkering kan leiden tot sociale uitsluiting. Wat sociaal lijkt, kan asociaal uitpakken.
(bron: site VVD, februari 2007)”

De teruggetrokken vraag 21 (er zijn meer vragen gesteld over bovenstaand tekstfragment):

  “Uit het taalgebruik van het tekstfragment spreekt een afwijzende en zelfs neerbuigende houding tegenover mensen die gebruik (willen of moeten) maken van een sociale uitkering. Hier volgen vier citaten:
1.   Eigen verantwoordelijkheid staat centraal.
2.   De algemeen geldende verplichting tot re-integratie, waarvan alleen in individuele gevallen mag worden afgeweken, spreekt ons zeer aan.
3   Het is niet sociaal wanneer mensen worden doodgeknuffeld in een uitkering.
4   Opgesloten zijn in een uitkering kan leiden tot sociale uitsluiting.
1p 21    In welk(e) van de gegeven citaten komt die houding in het taalgebruik tot uitdrukking?
A   alleen in 1
B   in 1 en 2
C   in 2 en 3
D   in 2 en 4
E   in 3 en 4
F   in 1, 2, 3 en 4”

tekst eindexamenvraag 21

o.a. Trouw website 19 mei 2009: Van Bijsterveldt schrapt eindexamenvraag Nederlands.


De examenvraag in de box, een niet prettig vormgegeven keuzevraag, is een dag na het examen door staatssecretaris Van Bijsterveldt teruggetrokken — is zoiets ooit eerder gebeurd? — omdat persoonlijke opvattingen van de opstellers van het examen in deze vraag terugkomen. Het valt niet te ontkennen dat het bezwaar van de VVD tegen deze examenvraag, en de reden voor de staatssecretaris om de vraag terug te trekken, terecht zijn. Mijns inziens is geen van de alternatieven A t/m F juist, en zou het werkelijk van de pot gerukt zijn om één van de alternatieven als nog de minst beroerde aan te merken. Die eigen verantwoordelijkheid van de VVD roept vragen op (van kinderen? Patiënten? Bijzondere categorieën gehandicapten? Politici? CEO’s?), maar de overige punten komen in andere partijprogramma’s ook voor. De term ‘doodgeknuffeld’ is niet fijn, maar niet echt letterlijk bedoeld. Wat heeft de ontwerper van deze vraag bezield? De vraag is wel een mooie illustratie van het feit dat eenzelfde tekstfragment zo anders valt te interpreteren al naar gelang wie dat doet. Aangenomen dat de ontwerper neerlandicus is, dat mogen we toch hopen, heeft de ontwerper hier toch wel een eenzijdige interpretatie van de gegeven tekst gekozen als zou deze door iedere redelijke lezer gedeeld worden. Quod non. Hier is het fout gegaan, maar bedenk dat niet iedere interpretatie alleen maar een mening is.

Ik geef geen commentaar op actuele eindexamenvragen. In dit geval maak ik een utizondering, omdat de vraag is teruggetrokken van hetexamen. Overigens maak ik wel graag gebruik van puntige commentaar van anderen op actuele eindexamenvragen.


sleutel of modelantwoorden


karakteristieke fouten


voor meerkeuzevragen bovendien


Algemene punten


dekking


drukwerk

wikipedia/en/d/d6/Genimage.jpgStrikvraag: een verborgen gegeven (functional fixedness)

Bevestig drie kaarsen verticaal tegen een houten scherm, gebruik de dingen op tafel
[Op tafel liggen onder andere lucifers in een doosje, kaarsen in een doosje, punaises in een doosje.]


Voor de oplossing moeten de doosjes met punaises op het bord worden geprikt. Slechts de helft van de studenten kan dit oplossen. Het punt is dat de studenten de doosjes niet als een mogelijk gegeven zien. Leg de doosjes leeg op tafel, en bijna alle proefpersonen lossen het probleem dan wèl op. Het probleem is door Duncker (1935, p. 104) onderzocht die het fenomeen functiegebondenheid, functional fixity, noemde (de illustratie staat in de Wiki op dit onderwerp. De afbeelding heeft een enkel doosje, dat is ook goed, maar niet authentiek; Duncker (1935) heeft drie doosjes, voor iedere kaars een, maar geeft geen afbeelding). Adamson (1952) heeft het onderzoek overgedaan. In examenopgaven mag zo'n constructie natuurlijk niet voorkomen, dan toetst zo'n vraag vooral het vermogen om creatief problemen op te lossen.

Let op. Dit fenomeen sluipt heel makkelijk in opgaven binnen, alleen al een verschillende woordkeus voor de gegevens kan dit soort gevolgen hebben. In Duncker (1935/1945) bijvoorbeeld twee varianten van mogelijke behandeling van een maagkanker met radioactiviteit: als straling, of als deeltjes gegeven, maakt verschil in de kans dat scholieren de oplossing vinden (vanuit verschillende hoeken bestralen, en wel zo dat de kanker in het ‘brandpunt’ is).

Citotoets 2008: misdrukken


Donderdag 14 februari 2008: de ochtendkranten hebben het nieuws dat boekjes van de Citotoets die vandaag door ongeveer 150.000 leerlingen van groep acht gemaakt moet worden, lege bladzijden kunnen hebben of dubbele bladzijden en ontbrekende andere. Het Cito stelt digitale toetsbestanden beschikbaar, zodat scholen zelf extra exemplaren kunnen printen. Een woordvoerder van het Cito deelt om elf uur mee dat circa vijftig scholen met problemen het Cito hebben gebeld.


computerafname

Citotoets 2009: storing


Groep 8 van de Gerardus-Majella-school in Lopik kon de digitale versie van de Citotoets niet maken omdat de server van de school vastliep op een ‘corrupt bestand.’ De papieren toets was wel meegeleverd, de leerlingen konden die toets maken, waarmee ze in de loop van de middag klaar waren (in plaats van eind van de ochtend).

De andere 81 deelnemende scholen liepen ook tegen een probleem aan dat absoluut niet bij afname van zo'n toets mag voorkomen: “Door een serverstoring liepen alle 82 deelnemende scholen in Nederland om tien uur vast, bevestigt een woordvoerster van Cito in Arnhem. ‘Maar om elf uur draaide alles weer.’

Robin Gerrits (5 februari 2009) ‘Corrupt bestand’ leidt tot lange woensdagmiddag. De Volkskrant, p. 3

Citotoets 2012: storing


“De website van toetsinstituut Cito was vanochtend slecht bereikbar. Ruim 1.500 leerlingen zouden de toets digitaal gaan maken, maar een aantal scholen slaagde er niet in op de website in te loggen. De problemen waren aan het begin van de middagn nog niet opgelost. Het Cito weet niet waardoor ze zijn veroorzaakt..’

Mark Hoogstad (7 februari 2009) Falen vor de Citotoets is verboden. De Volkskrant, p. 8



fraude

slim bedrog


Bob van Naerssen had eens bedacht om alle vragen psychometrie voor zijn studenten te stencillen zodat zij zich heel gericht op het uit die verzameling te trekken tentamen konden voorbereiden. Dit experiment mislukte omdat studenten een truc ontdekten om de studie te beperken tot de avond voor het tentamen: alleen de ‘ja’-gesleutelde vragen lezen (het ging om tweekeuzevragen);herkende je dan een vraag dan was het antwoord ‘ja,’ anders ‘nee.’

uit Amsterdamse wandelgangen


massabedrog La Sapienza


“Investigating judges have denounced more than 70 people, mostly former students, but also some lecturers and administrative staff, for suspected involvement in buying and selling exam passes. At least 600 exams are believed to have been bought and sold in the sociology department between 1983 and 1995.”

Paul Bompard (June 5, 1998). Exam fraud rocks Rome’s university of knowledge. Times Higher Education Supplement

détournement de pouvoir


Om fraude bij examens te ontmoedigen maakt de wetgever er een sport van om verdachte deelnemers een ‘1’ voor hun examenwerk te laten geven. Dat levert dan een interessant casus op: de wetgever die dwingt om de bevoegdheid tot beoordelen van examenwerk oneigenlijk te gebruiken. Dit misverstand bij de wetgever is hardnekkig: de ‘fraude-een’ blijkt niet weg te branden uit de departementale regelgeving.


8.3 Onafhankelijke beoordeling van kwaliteit

Hoe zijn de lijsten uit 8.2 te gebruiken voor controle op de kwaliteit van de ontworpen toetsvragen? Het is niet voldoende wanneer de schrijver van de toetsvragen de lijsten naloopt en afgaande op eigen impressies en ervaringen hier en daar een vraag ‘verbetert’ of de prullenbak in kiepert. Dat is te vrijblijvend en geeft geen behoorlijke garanties tegenover andere examinatoren en tegenover de studenten dat de vragen nu wel voldoen aan redelijke kwaliteitseisen. Een goede controleprocedure voldoet aan de eis dat eventuele mankementen in (bijna) alle gevallen boven water komen. De sleutel tot zo'n procedure ligt in de aard van de verborgen mankementen: dat zijn vooral die kenmerken van een toetsvraag waarover examinatoren het onderling oneens zijn. Welnu, dan kan men een procedure gebruiken, waarbij die verschillen van inzicht noodzakelijkerwijs te voorschijn komen. Het principe is: laat twee of meer examinatoren geheel onafhankelijk van elkaar de controle aan de hand van de lijsten uitvoeren. Een van die controlerende examinatoren kan de schrijver van de betreffende toetsvraag zijn; laat deze al bij het schrijven van de vraag een protocol opstellen met alle relevante gegevens over die vraag, conform de controlelijsten. Is dat nou echt nodig, zo'n hoop gedoe over toetsvragen waarvan iedere deskundige toch onmiddellijk kan inzien dat ze ondubbelzinnig geformuleerd en al even ondubbelzinnig te beantwoorden zijn? Ja, dat is nodig, want het blijkt eenvoudig niet zo te zijn dat men hierbij op het eigen stellige, maar ongewapende oordeel af kan gaan. Ik geef ter illustratie een eenvoudige vraag die zou kunnen voorkomen in een toets aan het eind van een cursus inleiding in de statistiek.

Jan Molenaar is de trotse vader van twee kinderen. We komen hem op straat tegen met een jongen die hij voorstelt als zijn zoon. Hoe waarschijnlijk is het dat het andere kind van Molenaar ook een jongen is?
Beantwoord de vraag, en motiveer dat antwoord.

Doe een klein onderzoekje door de vraag ook te laten beantwoorden door uw collega’s die statistiek doceren. Zo'n onderzoekje werd bij wijze van grap gedaan door een van de auteurs Bar-Hillel en Falk (1982), die de vraag voorlegde aan twee hoogleraren wiskunde. Zij produceerden onmiddellijk en met grote vanzelfsprekendheid het antwoord.

De ene hoogleraar antwoordde dat die waarschijnlijkheid een half was, de ander antwoordde even stellig dat het een derde moest zijn. Goed, dit is een anekdote. Maar we zitten ondanks dat nog wel met het probleem wat dan wel het juiste antwoord is. Bar-Hillel en Falk (1982) hebben daar een boeiende en leerzame uiteenzetting over gegeven, aan de hand van nog enkele andere dubbelzinnige opgaven. Het komt erop neer, zoals in de statistiek wel vaker het geval is, dat de opgave in het geheel niet zo eenvoudig is als hij eruitziet en zoals hij door de twee hoogleraren beantwoord werd. De eerste hoogleraar redeneerde dat de waarschijnlijkheid voor de geboorte van een jongen ongeveer gelijk is aan die voor de geboorte van een meisje, beide zijn onafhankelijk van elkaar, dus het antwoord moet een half zijn. De tweede hoogleraar redeneerde dat er drie even waarschijnlijke mogelijkheden zijn: Molenaar heeft ofwel twee jongens, ofwel een jongen als oudste en een meisje als jongste kind, ofwel een meisje als oudste en een jongen als jongste kind, zodat de waarschijnlijkheid dat hij twee jongens heeft een derde moet zijn. Nu is het met wiskundige opgaven als deze noodzakelijkerwijs zo dat er maar een juist antwoord kan zijn, dus een van beiden gaf een onjuist antwoord of beiden gaven een onjuist antwoord. Zorgvuldige analyse, en dat vraagt nogal wat werk zoals tabel 1 in Bar-Hillel en Falk (1982) laat zien, levert als juiste antwoord ‘een half’ op, maar de motivering van dit antwoord is een andere dan onze eerste hoogleraar had gegeven. De les hieruit is: simpel lijkende problemen kunnen in werkelijkheid complex zijn, en een signaal daarvoor kan gevonden worden in verschillende antwoorden van ‘deskundigen,’ zoals die bij een eenvoudig onderzoekje kunnen blijken.

het Monty Hall-probleem


Je neemt deel aan een quiz, en moet raden achterwelk van drie gesloten deuren de prijsauto staat. Je kiest een deur. De quizleider, Monty Hall, opent dan een andere deur waarvan hij weet dat de auto daar niet achter staat. Je krijgt nu de kans om je eerste keuze te veranderen. Is het voordelig om dat te doen?

Beantwoord de vraag, en motiveer dat antwoord.

Ronald Plasterk presenteert op 18 juli 2006 eenzelfde probleem, bekend als het Monty Hall probleem, in de Volkskrant.

Voor een grondige behandeling, tevens demonstratie van de enorme variatiemogelijkheden uitgaande van het Monty Hall-probleem, zie Rosenhouse (2009).

Dit is een werkelijk schitterend probleem, en het juiste antwoord (verander je keuze) kan leiden tot heftige discussies over de juistheid.

Het Monty Hall-probleem is ook zo'n schitterend probleem waarvan tal van deskundigen die dit specifieke probleem niet kennen, met stelligheid zullen beweren en beargumenteren dat veranderen van de keuze geen voordeel oplevert. Jammer, maar dat is het verkeerde antwoord. Er valt een tamelijk complete cursus statistiek omheen te bouwen, zie Rosenhouse (2009).


De controle kent een aantal varianten. Allereerst kan de schrijver zichzelf controleren. Een normale procedure is dat een of meer collega’s, andere examinatoren, de vragen controleren. Dit zijn de controles vooraf en deze zijn aan te vullen met achteraf te verkrijgen gegevens: de toetsresultaten en eventueel het commentaar van de studenten.

De schrijver controleert zichzelf. Het idee hierachter is: de schrijver moet in staat zijn om na een tussentijd van enkele weken de te controleren vraag te beantwoorden op dezelfde wijze als op het protocol aangegeven, uiteraard zonder eerst naar het protocol gekeken te hebben. Wanneer antwoorden en protocol op wezenlijke punten verschillen, dan is de vraag ondeugdelijk. Want ofwel blijkt de vraag nu anders uitgelegd te worden dan bij het schrijven de bedoeling was, ofwel er blijkt nu een ‘goed’ antwoord geproduceerd te kunnen worden dat bij het schrijven van de vraag niet was voorzien. De eerste voorwaarde voor zelfcontrole is dat er zo veel tijd is verlopen tussen het schrijven van de vraag en de controle dat het aannemelijk is dat de schrijver niet uit zijn geheugen hetzelfde antwoord als destijds zal produceren. Andere voorwaarden zijn: er is een volledig protocol beschikbaar, opgemaakt bij het schrijven van de vraag; de vragen worden in toevallige volgorde gecontroleerd; er staan geen onbedoelde aanwijzingen in het te controleren materiaal; meerkeuzevragen worden eerst gecontroleerd zonder de alternatieven, daarna met de alternatieven. De te controleren vragen zijn niet geordend naar onderwerpen uit de literatuur en dragen geen nummer of code die een verwijzing naar de bron in de literatuur kan bevatten. De resultaten van een zelfcontrole zijn bijna even bruikbaar als die van een controle door een collega. Ieder verschil in beantwoording met het oorspronkelijke protocol duidt op een tekortkoming in de vraag of tenminste op een niet eerder onderkende eigenschap, antwoordmogelijkheid, en dergelijke.

De zelfcontrole heeft één overwegend nadeel: de controleur weet dat hij zijn eigen vragen aan het controleren is en kan onbedoeld tot een minder streng oordeel komen dan de objectiviteit verlangt.

Controle door collega’s (andere examinatoren). Het is algemeen gebruikelijk ontworpen toetsvragen te bespreken met collega’s. Het valt nog te bezien of ‘bespreken’ wel een voldoende controle is. Bij een gezamenlijke bespreking is een onafhankelijk oordeel niet verzekerd. Het kan zijn dat bij een te bespreken vraag ook het antwoord al gegeven is, en dan vervalt voor een belangrijk deel de mogelijkheid dat collega’s met andere antwoorden voor de dag komen, daarmee een mogelijke dubbelzinnigheid in de vraagformulering aantonend. Bij een bespreking is het bovendien niet te vermijden dat opinies worden uitgesproken, en door anderen ondersteund worden over de juistheid van een bepaalde vraag. Dat is geen goede basis voor een kwaliteitsoordeel.

Beter is het om empirische gegevens te verzamelen over verschillen van inzicht tussen onafhankelijk van elkaar werkende examinatoren. Vraag een of meer collega’s om de vragen te controleren op dezelfde manier als de schrijver bij de zelfcontrole doet: de lijsten schriftelijk doorwerken zonder ruggespraak met anderen te voeren, en zonder stukken of literatuur te raadplegen waar studenten tijdens het tentamen ook geen toegang toe hebben. Een instrument in de vorm van een thema-lijst is hier beschikbaar. Zo worden empirische gegevens verzameld, die te vergelijken zijn met het protocol dat bij het schrijven van de toetsvraag al is opgemaakt of die voor meerdere beoordelaars onderling vergeleken kunnen worden. Bij deze procedure is er weinig reden meer voor bespreking in de vakgroepvergadering, omdat de gegevens nu sterk voor zichzelf spreken. Immers, waar examinatoren op essentiële punten met elkaar verschillen, andere antwoorden op de vraag geven, een ander alternatief van de meerkeuzevraag als juist aanwijzen, verschillend denken over welk onderwijsdoel de vraag behelst, dan moet de vraag beter geformuleerd of vernietigd worden. Dan valt er niet te onderhandelen. Bijvoorbeeld wat betreft het juiste alternatief bij een meerkeuzevraag: wanneer tenminste één examinator een als afleider bedoeld alternatief als het juiste heeft aangestreept, dan kan geen onderlinge discussie dat feit verhelen dat ten minste één deskundige deze bepaalde afleider als verdedigbaar het juiste antwoord heeft beschouwd.

Alleen wanneer in dit voorbeeld de ‘dissident’ ervan overtuigd kan worden dat hij gewoon een fout heeft gemaakt, een fout die ook een student als fout aangerekend dient te worden, dan blijft de betreffende meerkeuzevraag aanvaardbaar. Maar het mag nimmer zo zijn dat in onderlinge discussie een dissidente collega zegt: ‘ik zie wel in dat het als goed bedoelde alternatief een goed antwoord is en ik ben bereid om me aan te sluiten bij de keuze van dat alternatief als het juiste alternatief.’ Dat levert pseudo-objectiviteit op, in de Amerikaanse literatuur ook wel ‘frozen subjectivity’ genoemd. Het is evident dat bij zo'n handelwijze al die studenten gedupeerd worden die een antwoord geven dat door ten minste één deskundige ook als antwoord gegeven was, maar door een ‘meerderheid’ van deskundigen werd afgewezen. Het zou de student plaatsen in de onmogelijke positie bij de afweging van zijn antwoorden rekening te houden met wat waarschijnlijk een meerderheidsopvatting onder de examinatoren zal zijn. Om nog maar niet te spreken over de twijfelachtige wetenschapsopvatting die spreekt uit het op deze wijze, bij onderling fiat of meerderheidsopvatting, beslissen wat ‘waar’ is. Er is geen andere begaanbare weg dan collega’ s onafhankelijk van elkaar de vragen schriftelijk te laten beoordelen. Desnoods op een sterk gekortwiekte lijst, waarbij in ieder geval gevraagd wordt om beantwoording van de te controleren vragen.
Hoe te handelen met de uitkomsten van deze controle? Richtinggevend is daarvoor de rechtmatigheid van de beoordeling van de student (zie 8.l). Dat betekent voor meerkeuzevragen dat het juiste alternatief niet alleen consistent door andere examinatoren ook als het juiste wordt aangemerkt, maar bovendien dat zij als antwoord op de stam van de vraag, dus zonder te hebben gezien wat de alternatieven zijn, ook als antwoord geven wat in het juiste alternatief geformuleerd is.

Voor aanvulvragen geldt dat niet in zo sterke mate: afwijkende antwoorden van verschillende examinatoren kunnen wijzen op een laakbare dubbelzinnigheid in de formulering van de vraag; maar het kan ook zijn dat alle antwoorden goed zijn, en dat bij de controle een aantal mogelijk goede antwoorden boven water zijn gekomen waar de schrijver van de vraag nog niet aan had gedacht. Hetzelfde doet zich voor bij opstelvragen en het modelantwoord bij de opstelvraag. Wat de beoordeling betreft: wanneer daarover de opvattingen verschillen, worden de verschillen uitgelegd ten gunste van de student. De student krijgt altijd het hoogste oordeel dat door een examinator gegeven wordt. Zijn er erg grote verschillen in opvatting, dan verdient het aanbeveling de betreffende vraag scherper te formuleren of helemaal weg te laten.

Verschillen tussen examinatoren kunnen niet alleen bij controle vooraf blijken, maar ook bij het nakijken van gemaakt werk (wanneer ieder antwoord door ten minste twee examinatoren onafhankelijk van elkaar beoordeeld wordt).

Controle door collega’s kost tijd. De methode die de meeste tijd vraagt is de onderlinge bespreking. De hier voorgestelde procedure van onafhankelijke schriftelijke controle kost minder tijd en levert beter interpreteerbare resultaten op, ook voor verantwoording naar de studenten toe. Het valt op dat er in de literatuur weinig of geen aandacht voor deze methode van collegiale toetsing is, wel voor complex vragenlijstonderzoek zoals door Rovinelli en Hambleton (1977 pdf). Het gekke is dat deze onderzoekers hun dertig vakspecialisten niet laten doen waar zij goed in zijn — de toetsvragen onder toetscondities beantwoorden — maar wat zij maar gebrekkig kunnen — overeenstemming met specifieke onderwijsdoelen beoordelen. Vermijd deze valkuil.

Een instrument dat bij deze collegiale toetsing van toetsvragen is te gebruiken, staat hier op deze website.


Controle door studenten. Studenten worden pas bij de toetsafname met de vragen geconfronteerd. Dat wil nog niet zeggen dat controle door studenten louter controle achteraf zou zijn. Immers, fouten en dubbelzinnigheden in de vragen die tijdens de toetsing worden ontdekt, kunnen op dat moment nog rechtgezet worden. Studenten moeten met zo'n ontdekking (via een surveillant) een verantwoordelijke examinator kunnen bereiken. Het geven van verduidelijking kan op dat moment alle deelnemende studenten nog ten goede komen. Het belang daarvan is dat voorkomen wordt dat anders door voldongen feiten een ongelijke behandeling van studenten ontstaat. Denk niet dat een uitvoerige controle vooraf alle mogelijke fouten in vraagformuleringen eruit haalt. Voor het overige valt commentaar van studenten onder de rubriek ‘controle achteraf.’ Allereerst kan gevraagd worden om commentaar op bepaalde vragen op het antwoordformulier bij te schrijven. Studenten worden daar ook expliciet toe uitgenodigd door de belofte dat deze commentaren bestudeerd zullen worden op eventuele consequenties voor de beoordeling. Wie van deze mogelijkheid wat meer werk wil maken, kan ook de studenten een vragenlijstje geven om ze een idee te geven welk soort commentaar op prijs gesteld zou worden (wanneer bepaalde vragen daar aanleiding toe geven). Bijvoorbeeld:


Direct na de toetsafname krijgen studenten de beschikking over de juiste antwoorden (of de scoringssleutel voor keuzevragen), en uiteraard mogen ze de vragen behouden (zie 2.4). Op dat moment kunnen studenten tekortkomingen in de vragen, de als juist beschouwde antwoorden of in de scoringssleutel ontdekken. Geef dan ook gelegenheid om opmerkingen daarover op het bord van de examinatoren te leggen. Hetzelfde geldt voor de nabespreking van het tentamen (die bij voorkeur zo snel mogelijk te houden is, direct na afloop van de toets is beter dan na enkele weken wanneer al het werk is nagekeken).

Een derde mogelijkheid voor het inwinnen van commentaar van studenten is een intensief doorspreken van de hele toets met een klein groepje studenten (vrijwilligers of een afvaardiging). Bij die bespreking kan dan ook alle materiaal uit de voorbereidingsfase op tafel komen, zoals de protocollen van de vragenschrijvers, modelantwoorden en beoordelingsvoorschriften.
Voor zover commentaar van studenten leidt tot bepaalde maatregelen bij de beoordeling of tot het verwijderen van bepaalde vragen, wordt dat algemeen bekendgemaakt.

Controle achteraf gebeurt door gebruik te maken van de resultaten van de toets, uitgesplitst naar de afzonderlijke vragen, Bij opstelvragen is het van belang de procedure voor het nakijken zo in te richten dat eventuele discrepanties tussen verschillende beoordelaars ook blijken. Bijvoorbeeld: ieder antwoord wordt door ten minste twee examinatoren gescoord en gewaardeerd, waarbij geen aantekeningen op het werk van de student gemaakt mogen worden (om het werk van de tweede beoordelaar niet te beïnvloeden). De controle bestaat er dan uit dat gelet wordt op onverwachte antwoorden die ‘goed’ zijn (die worden alsnog in het modelantwoord en het beoordelingsvoorschrift opgenomen, wanneer meerdere studenten dat antwoord geven). Beoordelaars houden aantekening van alle problemen die ze ervaren in het werken met modelantwoorden en beoordelingsvoorschriften; deze problemen worden besproken en bekeken op mogelijke consequenties voor de beoordeling.

Er is hier overigens wel sprake van een dilemma: beschikbare docententijd kan ofwel aan het geven van onderwijs, ofwel aan het nakijken van examenwerk worden toegedeeld. Meer tijd besteed aan nakijken, is ipso facto minder tijd besteed aan het onderwijs zelf. Wat is dan meer in het nedeel van studenten: minder onderwijs, of minder ‘eerlijk’ nakijken? Met anderewoorden: het examineren en nakijken moet geen bureaucratie worden.

Wanneer alle vragen zijn nagekeken, is ook bekend (of eenvoudig na te gaan) hoe moeilijk de afzonderlijke vragen voor deze groep studenten zijn geweest: hoeveel studenten een bepaalde vraag goed hebben weten te beantwoorden. Vergelijk dit nieuwe gegeven met de schattingen over de moeilijkheid zoals die bij de controle vooraf zijn gemaakt. Wanneer daar nogal forse verschillen tussen liggen, dan is het zaak om te analyseren waarin de onvoorziene moeilijkheid van de betreffende vraag schuilt. Bij het bepalen van het verschil tussen verkregen en voorspelde moeilijkheid kan rekening worden gehouden met over-all-verschil in verkregen en voorspelde moeilijkheid. Anders gezegd: het is niet onwaarschijnlijk dat de moeilijkheid van de vragen in het algemeen onderschat wordt; dan kijkt men alleen wat nauwkeuriger naar die vragen die in vergelijking tot andere vragen wel erg sterk onderschat zijn. Deze nadere analyse zal doorgaans niet leiden tot het achteraf verwijderen van vragen, tenzij blijkt dat de vraag buiten de opgegeven stof is gegaan.

Bij meerkeuzetoetsen gebeurt de analyse van de moeilijkheid van de vragen op dezelfde wijze als hierboven geschetst. De moeilijkheid van een vraag wordt gegeven door de p-waarde op de computeroutput, dat is de proportie studenten die de vraag ofwel goed wisten te beantwoorden, ofwel goed geraden hebben.

Let op: keuzevragen die fout zijn aangestreept, kunnen fout zijn geraden, maar het is ook heel goed mogelijk dat er foute antwoorden zijn gegeven! Dat betekent, en dat gaat in tegen wat doorgaans in de literatuur is te vinden, dat het aantal fout aangestreepte keuzevragen niet bruikbaar is om een indicatie van het aantal geraden vragen uit te rekenen.


De computeroutput van de meerkeuzetoets levert nog een ander gegeven over de afzonderlijke toetsvragen op: de r-bis, ook wel geschreven als r-it of RIT.

De r-bis duidt aan in welke mate studenten die een bepaalde vraag juist beantwoorden ook tot degenen behoren die op de toets in zijn geheel hoog scoren. Het is een lastig of nauwelijks te interpreteren gegeven. Voor de controle achteraf heeft de r-bis dan ook weinig waarde. De enige functie die het kan hebben is als signaal voor een tamelijk grove fout in de vraagformulering of in de scoringssleutel: dan kan er wel eens een sterk negatieve r-bis gevonden worden. Controleer in zo'n geval of de opgegeven scoringssleutel wel juist is, ook in samenhang met een eventueel onjuiste formulering van de toetsvraag. Maar pas op: het kan best zijn dat er niets bijzonders met de vraag of met de scoringssleutel aan de hand is en dan kan de vraag gewoon gehandhaafd blijven. Er is met andere woorden geen rechtvaardiging voor een automatisme dat toetsvragen verwijdert wanneer er een negatieve r-bis geconstateerd wordt. Er zijn computerprogramma’s die zo'n automatische verwijdering als optie kennen; maak nimmer van dergelijke opties gebruik (ook niet wat bepaalde grenzen voor de moeilijkheid of p-waarde van de vragen betreft). Omdat achteraf verwijderen van toetsvragen onbillijkheden met zich mee kan brengen. moet daar voor iedere verwijderde vraag een verantwoording voor gegeven kunnen worden, en het is beslist niet voldoende om te verwijzen naar een computerprogramma-optie die de vragen ‘automatisch’ verwijderde.

Wellicht ten overvloede: r-bis-waarden in de buurt van 0,0 (zowel iets daarboven als iets daaronder) kunnen perfect aanvaardbaar zijn. Wanneer alle studenten de stof op een niet al te zeer uiteenlopend niveau beheersen, mag je zelfs verwachten dat het merendeel van de r-bis-waarden in de buurt van 0,0 terecht zal komen.

Er is een bijzondere reden om in bepaalde gevallen juist argwanend naar vragen met een hoge r-bis te kijken. Anderson (1972):

Studenten die het op de toets in zijn geheel goed doen zullen een hogere verbale intelligentie (‘ability’) hebben dan zij die het slechter doen. Vragen die een hoge r-bis hebben, die dus onderscheiden tussen beide groepen studenten, zullen vaker moeilijk vocabulaire bevatten of denkstappen vragen die niet direct te maken hebben met de eigenlijk te toetsen leerstofbeheersing.

Anderson knoopt daar ook de waarschuwing aan vast geen vragen met lage r-bis-waarden uit de toets te verwijderen: dan houd je vragen met relatief hoge r-bis-waarden over, met de door hem genoemde eigenschappen die strijdig kunnen zijn met de doelen van het onderwijs en de toetsing.


8.4 Controlelijsten in beknopte vorm


vormgebreken

  1. taligheid
  2. directheid
  3. dubbelzinnigheid
  4. nooit ‘nooit'
  5. toegespitst (specifiek)
  6. wat de vraag toetst
  7. goede antwoorden voorzien
  8. antwoord motiveren?

keuzevragen

  1. ingewikkelde tekst
  2. Stam alleen geen goede aanvulvraag
  3. kort antwoord vraag kan ook
  4. alternatieven:
    1. lange tekst
    2. repeterende frase
    3. sluit niet aan op stam
    4. dummy-alternatief
    5. foute alternatieven niet eenduidig fout
  5. hints
    1. afwijkende lengte van alternatief
    2. belangrijke term uit de stam herhaald in jusite alternatief
    3. onbekend jargon in fout alternatief
    4. juiste alternatieven vaak op zelfde positie
    5. fout alternatief is logisch onjuist
    6. fout alternatief geconstrueerd door universele quantor
    7. onbedoeld kenmerk
  6. ja-neevragen: frequentie ja/nee

inhoudelijke aspecten

  1. onderwerp
    1. onduidelijk
    2. niet aangegeven in ontwerp
  2. welke vorm van beheersing
    1. onduidelijk
    2. niet aangegeven in ontwerp
  3. abstractieniveau
    1. letterlijk
    2. hoog
    3. hoog, ongemotiveerd in ontwerp
  4. specifiek voor de stof stof
    1. onderwerp buiten de stof
    2. vorm buiten de stof of onverwacht
    3. moeilijkheid overschrijdt het doel
    4. in redelijkheid niet te verwachten vraag
    5. strikvraag
    6. opinievraag
  5. modelantwoord of sleutel
    1. ontbreekt
    2. onafhankelijke antwoorden ontbreken
    3. keuzevragen: sleutel is er niet
    4. idem: geen onafhankelijke ‘sleutel-antwoorden'
  6. karakteristieke fouten
    1. niet uitgeschreven
    2. althans geen verwachting over prestatie deelgroepen
    3. geen moeilijkheid tevoren ingeschat
  7. keuzevragen
    1. gevraagd onderscheid tussen alternatieven valt buiten de stof
    2. vraag naar de bekende weg

algemene punten

  1. dekking
    1. geen garantie alle onderwerpen mogelijk
    2. idem belangrijke onderwerpen
    3. idem beheerste kernonderwerpen

  2. drukwerk
    1. slordig
    2. onderdelen ontbreken
    3. uitlekken mogelijk
    4. sleutel niet gegarandeerd
    5. instructie is onvolledig

  3. computerafname
    1. bekend format
    2. onverwachte nieuwigheidjes
    3. backup-systemen
    4. papieren backup

  4. fraude
    1. waarborgen
    2. fraudemogelijkheden
    3. afkijk-checks
    4. internet-checks

  5. toets als geheel
    1. is te eenzijdig
    2. is gekunsteld
    3. komt op een onhandig moment
    4. .... etc.


8.5 Literatuur


Een instrument voor collegiale toetsing van toetsvragen toetsvragen.checklist.htm


AERA, APA & NCME (1999). The Standards for Educational and Psychological Testing. zie hier - niet geautoriseerde samenvatting

R. C. Anderson (1972). How to construct achievement tests to assess comprehension. Review of Educational Research, 42, 145-170.

APA. Joint Committee on Testing Practices (2000). Rights & responsibilities of test takers: Guidelines and expectations. Washington, DC. American Psychological Association. html

Bas Andeweg & Wim Blokzijl (2001). Het recht op kopiëren. http://www.tudelft.nl/live/ServeBinary?id=229cbe68-6bad-475a-89e5-95a04a2fd10c&binary=/doc/Het_recht_op_kopieren.pdf W. W. R. Ball (1889). A History of Mathematics at Cambridge. Cambridge University Press. html

M. Bar-Hillel and R. Falk (1982). Some teasers concerning conditional probabilities. Cognition, 11, 109-122.

Mark A. Bedau and Paul Humphreys (Eds) (2008). Emergence. Contemporary readings in philosophy and science. MIT Press. [Dedicated website http://mitpress.mit.edu/emergence. Introductory chapter: pdf

Henk van Berkel (2006). Het opsoren van plagiaat: Twee methoden nader uitgewerkt. In Henk van Berkel en Anneke Bax: Toetsen in het hoger onderwijs (p. 323-340). Houten: Bohn Stafleu van Loghum.

Frank Bovenkerk (2005). Studiefraude: een criminologische beschouwing. Tijdschrift voor Hoger Onderwijs, 23, 78-87.

Patris van Boxel, Christoffel Reumer, Wim van Os & Jaap Boter (2008). De inzet van online peer assessment als formatief en summatief beoordelingsinstrument. Tijdschrift voor Hoger Onderwijs, 26, 229-246.

K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf

Susan Carey (2004). Bootstrapping and the origins of concepts. Daedalus, 59-68. pdf

Gregory J. Cizek (1999). Cheating on Tests: How to Do It, Detect It, and Prevent It. Erlbaum.

M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs Proefschrift Rijksuniversiteit Leiden. Zwolle: Tjeenk Willink.

Janke Cohen-Schotanus (1995). Studieduur en kwaliteit van tentamens. Onderzoek van Onderwijs, 26-28.

H. F. Crombag, J. G. Gaff & T. M. Chang (1976). Study behavior and academic performance. Tijdschrift voor onderwijsresearch, 1, 314.

ERIC Digests Legal issues in testing.

Karl Duncker (1935/1963). Zur Psychologie des produktieven Denkens. Berlin: Springer.

Educational Testing Service (2008). ETS International principles for fairness review assessments. pdf

ETS Standards (Educational Testing Service)

Hans Freudenthal (1973). Mathematics as an educational task. Dordrecht: Reidel.

C. Emmech, S. Koppe and F. Stjernfelt ( 1998 ). Explaining Emergence: Towards an Ontology of Levels Journal for General Philosophy of Science, 28, 83-119. html

Mark J. Gierl, Yinggan Zheng, and Ying Cui (2008). Using the attribute hierarchy methode to identify and interpret cognitive skills that produce group differences. Journal of Educational Measurement, 45, 65-89. pdf in a free sample (#1, 2008), as of april 2009.

Jeffrey Goldstein (1999). Emergence as a Construct: History and Issues. Emergence, 1, 49-72. questia

Adriaan D. de Groot (1962). Methodologie. Den Haag: Mouton, 1962.

Adriaan D. de Groot (1966). Vijven en zessen. Groningen: Wolters.

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. html

Adriaan D. de Groot en Robert F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Den Haag: Mouton.

Thomas Haladyna, Steven M. Downing, and Michael C. Rodriguez (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15, 309-334.

Willem K. B. Hofstee (1999). Ritualisering van het onderwijs? Tijdschrift voor Hoger Onderwijs, 17, 20-29.

Wim K. B. Hofstee (2007). Recht op afschrift van het dossier. De Psycholoog, 618-619. pdf

Inspectie van het Onderwijs (23 november 1999). Kwart van scholen meldt onregelmatigheden niet. Persbericht html

Inspectie van het Onderwijs (12 mei 2009). De staat van het onderwijs. Onderwijsverslag 2007/2008. (pdf op website NRC Handelsblad 12 mei 2009)

Brian A. Jacob and Steven D. Levitt (2004). To catch a cheat. Education Next. html

Jacqueline P. Leighton (2004). The assessment of logical reasoning. In Jacqueline P. Leighton and Robert J. Sternberg: The nature of reasoning (291-312). Cambridge University Press.

Max Jammer (1989). The conceptual development of quantum mechanics. American Insttute of Physics.

Harold L. Kleinert, Diane M. Browder and Elizabeth A. Towles-Reeves (2009). Models of Cognition for Students With Significant Cognitive Disabilities: Implications for Assessment. Review of Educational Research, 79, 301-326.

Frank Kok (1988). Vraagpartijdigheid. Methodologische verkenningen. Proefschrift UvA. SCO-publicatie 88.

Jacqueline P. Leighton (2004). The assessment of logical reasoning. In Jacqueline P. Leighton and Robert J. Sternberg: The nature of reasoning (291-312). Cambridge University Press.

Sarah-Jane Leslie, Sangeet Khemlani & Sam Glucksberg (2011). Do all ducks lay eggs? The generic overgeneralization effect. Journal of Memory and Language 65, 15–31. pdf

Mark Levi (2009). The mathematical mechanic. Using physical reasoning to solve problems. Princeton University Press.

Jason Millman & Walter Pauk (1969). How to take tests. McGraw-Hill Paperbacks.

NIP (1986). Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: Nederlands Instituut van Psychologen. Tweede editie.

C. W. Noorlander (2005). Recht doen aan leerlingen en ouders. De rechtspositie van leerlingen en ouders in het primair en het voortgezet onderwijs. Proefschrift Vrije Universiteit - handelseditie: Wolf Legal Publishers.

Melvin R. Novick & Nancy S. Petersen (1976). Towards equalizing educational and employment opportunity. Journal of Educational Measurement, 13, 77-88.

Jason Rosenhouse (2009). The Monty Hall problem. The remarkable story of math’s most contentious brain teaser. Oxford University Press.

Richard J. Rovinelli and Ronald K. Hambleton (1977). On the use of content specialists in the assessment of criterion-referenced test item validity. Tijdschrift voor Onderwijsresearch, 2, 49-60.

Janice Dowd Scheuneman (1982). A posteriori analysis of biased items. In Ronald A. Berk: Handbook of methods for detecting test bias (pp. 180-198).

Lorrie Shepard (1982). Definitions of bias. In Ronald A. Berk: Handbook of methods for detecting test bias (pp. 9-30). The Johns Hopkins University Press.

L. S. Shulman (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15 #2, 4-14. pdf

James D. Slotta and Micheline T. H. Chi (2006). Helping students understand challenging topics in science through ontology training. Cognitive Science, 24, 261-289. pdf

Theo Thijssen (1929). De examenidioot of De kinderexamens van 1928. Overdruk uit De Bode. orgaan van de Bond van Ned. Onderwijzers. Bondsdrukkerij "De Volharding". scan 24 Mb.

Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. isbn 9036510899.

B. Wilbrink & W. K. B. Hofstee (1984). Docentbeoordeling. Mogelijkheden en randvoorwaarden. Onderzoek van Onderwijs, 13, 52-55. html

Cheryl L. Wild and Rohit Ramaswamy (Eds) (2008). Improving testing. Applying process tools and techniques to assure quality. Erlbaum. site


Nog invoeren: Instelling van een College voor examens, alsmede houdende wijziging van de Wet op het onderwijstoezicht en de Wet op het voortgezet onderwijs (Wet College voor examens); Nota n.a.v. het verslag http://www.ikregeer.nl/document/KST121468



Barry R. Nathan & Wayne F. Cascio (1986). Introduction. Technical & legal standards. In Ronald A. Berk: Performance Assessment. Methods & Applications (1-50). Johns Hopkins University Press. isbn 0801831423 abstract




Qing Yi, Jinming Zhang & Hua-Hua Chang (2008). Severity of Organized Item Theft in Computerized Adaptive Testing: A Simulation Study. Applied Psychological Measurement, 32, 543-558. abstract


Het Cito is al een aantal jaren bezig om examens ook digitaal af te nemen, bijvoorbeeld de reken- en taaltoetsen voor nieuwe studenten voor de Pabo’s, en binnenkort mogelijk ook voor de rekentoetsen die aan de eindexamens in middelbaar en middlebaar beroepsonderwijs worden toegevoegd. Daarbij ontsaan waarschijnlijk ernstige schendingen van inzagerechten van de betrokken studenten en leerlingen, omdat het Cito zal claimen dat zijn kostbare toetsvragen beschermd moeten worden tegen uitlekken. Vandaar dat ik dit artikel hier heb gearresteerd, als ingang op de technocratische literatuur die mogelijke effecten van bekend raken van opgaven inschat. Dat het door leerlingen bekend maken van toetsopgaven een ovetrtreding van wat dan ook zou zijn, wens ik overigens sterk in twijfel te trekken.








Stuur eens enkele toetsvragen voor commentaar!
Deze versie is in ontwikkeling. Maakt u er gebruik van, dan vraag ik als wederdienst om daar eens iets over terug te melden.


23 februari 2014 \ contact ben apenstaartje benwilbrink.nl

Valid HTML 4.01!       http://www.benwilbrink.nl/projecten/toetsvragen.8.htm http://goo.gl/BkuQH