Dit is een geanonimiseerd verslag van een enkele uren durende sessie over toetsen in het eerste en tweede jaar (HBO). De behandelde problemen komen vrijwel overal in het (hoger) onderwijs voor, het is daarom de moeite waard om een geanonimiseerd verslag breder beschikbaar te maken. Mijn dank voor de gelegenheid om deze intensieve discussiesessie met een groep van circa 25 docenten te mogen houden.


Een discussie over toetsen - tips voor toetsen


Ben Wilbrink


[nog in bewerking (ik ga te langzaam, excuus) — aan de tekst wil ik nog een bespreking van specifieke toetsvragen toevoegen, niet door de concrete keuzevragen uit beschikbaar gestelde toetsen te gebruiken, maar algemene vormen hiervan (geanaonimiseerd dus)]


Ik geef hier het besprokene, geordend naar thema, hier en daar aangevuld met extra informatie waar dat zinvol is, en voorzien van verwijzingen naar vindplaatsen. Veel onderwerpen komen aan de orde in hoofdstuk 2 van Toetsvragen ontwerpen hier.





Wat is validiteit?


‘De mate waarin je meet wat je wilt meten’ is een formule uit de boekjes, maar het is abacadabra, niet? Laten we zeggen dat validiteit is: de mate waarin de toets een goede maar wel eigen plek heeft in de cursus, inhoudelijk gezien (cursusdoelen). Losjes geformuleerd, maar dat kan ook moeilijk anders omdat iedere cursus zo zijn eigen karakter en inhouden heeft. Het mag ook wat strenger: wat de cursus en de toets bijdragen aan succes in het vervolgtraject.





Wat is betrouwbaarheid?


Het is een vaktechnisch begrip uit de psychologische testleer (psychometrie). Ik zie het graag ingeruild voor iets dat onmiddellijk te begrijpen is: voorspelbaarheid van de toets vanuit de optiek van de student. Dat vormt dan een mooi koppel met validiteit, opgevat als de mate waarin de toets goed past in het onderwijs.

Kan ik dat iets concreter maken? Jawel: stel je voor dat je de studenten de gelegenheid geeft een week tevoren een proeftoets af te leggen (bijvoorbeeld de toets van het voorgaande jaar). Niet alleen moet de score op die proeftoets een goede voorspelling zijn van de score op de toets, maar het moet de student met een tegenvallende proeftoetsscore ook duidelijk zijn waar zijn tekorten zitten en hoe hij die in de komende week nog kan wegwerken.




cesuurbepaling


Ik heb geprobeerd het gezelschap in verlegenheid te brengen met de herhaalde vraag hoe zij precies kunnen prikken wat het verschil is tussen een prestatie die met een ‘vijf’ wordt beloond, en een die een ‘zes’ waard is. Ik geloof dat dat ook wel is gelukt, met die verlegenheid. Niemand kwam met een goede techniek, toch moet iedereen het probleem telkens weer oplossen.

Er zijn inderdaad geen goede methoden om die cesuur (zak-slaaggrens) te bepalen, anders dan rekening te houden met hoe de studenten in feite studeren. Wat te denken van een cursus met een studielast van 100 uur, waarvan vermoed wordt dat de meeste studenten er maar vijftig uur in hebben gestoken op het moment dat zij de afsluitende toets afleggen? Precies. De Inspectie heeft een onderzoekje gedaan naar gerealiseerde studielast in het HBO, en dat leverde bedroevende resultaten op zie hier. Het probleem zal zich ongetwijfeld op vrijwel iedere hogeschool en universiteit in meerdere of mindere mate voordoen.

Wanneer het zo is dat reguliere studenten veel te weinig tijd investeren, dan horen zij voor de afsluitende toets te zakken als een baksteen. Praktisch gesproken komen we dan in de volgende situatie: wanneer er een stevig vermoeden is dat studenten te weinig tijd investeren, verhoog dan de eisen voor een voldoende resultaat op de toets. Ga van jaar op jaar door met het verhogen van de eisen, totdat een normale situatie is bereikt. Doe dit in overleg met de examencommissie/collega’s, want het moet als het even kan instellingsbreed beleid zijn.

Veiligheidsklep: piepsysteem. Als studenten overbelast worden, zullen ze zeker protesteren.

Flankerend beleid: verzamel gegevens over de feitelijke tijdbesteding van studenten. Dat kan ook op eenvoudige manieren, door bij de toets zelf te vragen hoeveel tijd in de directe voorbereiding op de toets is besteed. Natuurlijk zijn er wel eens studenten die opzettelijk onjuiste gegevens invullen, maar de meeste studenten geven een goede schatting van hun eigen tijd.


Niet besproken: de thematiek van herkansingen, studierendement en examenregeling. Niet alles kan immers in kort bestek behoorlijk aan de orde komen. Maar het mag duidelijk zijn dat ernstige problemen die zichtbaar zijn bij de afzonderlijke toetsen, zoals hoge percentagen onvoldoendes, ook te maken hebben met de mogelijkheden om te herkansen (dat zijn uitnodingen om studeren nog maar even uit te stellen), de mate waarin het moeten doen van herkansingen leidt tot problemen in de reguliere studievoortgang, enzovoort. Op de genoemde thema’s is op deze website het nodige aan publicaties en literatuurverwijzingen te vinden.




gesimuleerde praktijkoefening als eindtoets


Het gaat hier om een korte cursus waar de studenten zich vertrouwd moeten maken met de theorie, waarna zij deze kunnen toepassen in een gesimuleerde praktijdsituatie met de kenmerken van een assessment center.

Nu is het zo gesteld, met assessmentcenter-achtige opgaven en beoordelingen, dat deze een lage validiteit hebben. Áls er al sprake is van enige validiteit. De waarde van een gesimuleerde praktijkoefening moeten we dus ergens anders zoeken dan in zijn inhoudelijke validiteit als toets op kennis en vaardigheden. Als het van belang is dat de studenten een keer zo’n oefening goed hebben doorstaan, dan is het een practicum-achtige situatie: gedaan is gedaan. Dan kan het zijn dat sommige studenten het weliswaar hebben gedaan, maar dat het duidelijk is dat zij er weinig van kunnen hebben opgestoken: laat ze bij voorkeur nog dezelfde dag aan een nieuwe simulatieoefening deelnemen.

In deze vormgeving hebben studenten in feite een slaaggarantie, en weten ze tevoren al dat ze niet verrast zullen worden met de verplichting om later nog eens een herkansing te doen. In termen van betrouwbaarheid: dit levert een toetssituatie op die perfect betrouwbaar is. En dat in tegenstelling tot de situatie waarin activiteiten tijdens de simulatieoefening beoordeeld worden op schaaltjes van onvoldoende tot voldoende, want dan verschillen de scores te sterk van de ene naar de andere beoordelaar: onbetrouwbaarheid troef.

Studenten zijn niet gek, en kunnen proberen deze situatie uit te buiten door in feite onvoldoende voorbereid aan de simulatieoefening deel te nemen. Neem maatregelen wanneer dat nodig blijkt; bijv. presentie eisen bij voorafgaande colleges, of een eenvoudige kennistoets afleggen direct voorafgaand aan de simulatieoefening.




meerkeuzetoetsen: de juist-onjuistvraag


De keuzevragen in de vorm van juist-onjuistvragen trokken nogal wat belangstelling. Ik had een goed voorbeeld moeten geven, zoals de vragen over de baan van de aarde in hoofdstuk 2 van Toetsvragen ontwerpen.


De baan van de aarde om de zon is een cirkel.
                juist / onjuist
Is de baan van de aarde om de zon een cirkel?
                ja / nee
Licht je antwoord toe.
Is de baan van de aarde om de zon een cirkel?
                ja / nee
Leg uit waarom de baan van de aarde om de zon geen cirkel is.
Wat is de vorm van de baan van de aarde om de zon?
  1. een cirkel
  2. een ellips.
Welke beschrijving van de baan van de aarde om de zon is beter?
  1. De baan is een cirkel.
  2. De baan is een ellips.


Het probleem bij de stelling waarvan de leerling moet aangeven dat deze juist of onjuist is: er zijn meestal ook goede argumenten te geven waarom het foute antwoord het goede kan zijn. Het voorbeeld illustreert dat heel goed. De leerling die al eens een boekje over astronomie heeft gelezen, zit meteen met de handen in het haar bij de stelling dat de baan van de aarde om de zon een cirkel is. Ja, hallo, het is geen vierkant, maar dat kan de ontwerper van de vraag toch niet hebben bedoeld?

De tweede formulering is wat vriendelijker: in plaats van een stellige uitspraak die misschien onzinnig is, gewoon een vraag. Is de baan van de zon om de aarde een cirkel? Maar de leerling zit nog steeds met de handen in het haar over wat de vragensteller precies mag hebben bedoeld. De derde variant biedt een begin van een oplossing van het dilemma, door te vragen naar een toelichting op het antwoord. Daarin kan de leerling aangeven op grond waarvan hij meent dat het antwoord ‘nee’ moet zijn — omdat die baan cirkelvormig is, bijvoorbeeld; of omdat de vraagsteller in de war moet zijn omdat de aarde niet om de zon draait, maar om het gemeenschappelijk zwaartepunt van aarde en zon.

Een rechtstreekse vraag naar cirkel- of ellipsvormig zijn van die baan lijkt het probleem al een eind op te lossen, maar strikt genomen zijn natuurlijk beide antwoorden fout, maar je kunt zeggen dat de ene meer fout is dan de andere. Zodat de laatste tweekeuzevraag over blijft: welke beschrijving is beter?


De algemene raad is: zet de juist-onjuistvraag om naar een ja-neevraag, en zet die ja-neevraag om naar een echte tweekeuzevraag (mag ook driekeuze zijn).


Beter: probeer niet om keuzevragen van scratch te ontwerpen, maar ontwerp eerst korte open vragen vragen, en probeer die dan een uitwerking als keuzevraag te geven (als dat echt nodig is).


Nog beter: houd het bij korte open vragen, behandel studenten niet als halve analfabeten door ze keuzevragen voor te leggen (zet een kruisje, in plaats van een antwoord op te schrijven). Ik verbied het niet (ik zou niet durven), maar probeer met mijn toon de muziek te maken.




meerkeuzetoetsen: raden


Ik heb onderschat hoe sterk het probleem van de raadkansen hier speelt. Het zou goed geweest zijn wanneer ik wat doorrekeningen bij de hand had gehad. Aan de andere kant: het is in kort bestek toch niet echt goed uit te leggen. Dat laatste is meteen duidelijk uit onderstaand voorbeeld, in de box. Bestudeert u het eens. De afbeelding is een screenshot van een JAVA-applet waarmee analyses en simulaties kunnen worden gedaan van een breed scala aan toetssituaties, voor twee toetsen tegelijk. Toch is nog maar het prille begin van een veel uitgebreider toetsmodel (zie hier voor het volledige model), waarmee bijvoorbeeld ook hele examens kunnen worden geanalyseerd: hoe het samenspel van de onderscheiden examenonderdelen uitwerkt in termen van studierendement, bijvoorbeeld.


Om wat te experimenteren met de kansen bij toetsen, en meerkeuzetoetsen in het bijzonder: simuleer toetsscores hier (dit bestand bevat Java-applets). Kijk bijvoorbeeld eens naar het verschil in uitkomsten wanneer er een raadkans van 0,33 bij komt, bijvoorbeeld bij overgaan van korte open vragen naar meerkeuzevragen: 1ao


Er zijn twee scoreverdelingen afgebeeld, beide voor stofbeheersing = 0,6, de toets heeft 30 vragen, de aftestgrens is 17 goed


links (blauw): er is geen raadkans

rechts (rood): de raadkans bij niet weten is 0,33


Past de afgebeelde situatie ook bij het al dan niet rekening houden met de raadkansen, bij het bepalen van de cesuur?


Over raadkansen zie hoofdstuk 2 van ‘Toetsvragen ontwerpen’ hier.


Maak scherp onderscheid tussen het raden van de individuele student, en dat van de groep.


Het raden van de individuele student is echt onbekend, en er kan dus niet voor worden ‘gecorrigeerd’, wat u daarover ook in sommige boekjes over toetsen kunt lezen. Dit is een enorm probleem voor iedere serieuze toets. Het is een belangrijke reden om alleen in uiterste noodzaak over te gaan van korte open vragen op meerkeuzevragen: wanneer er heel, heel erg veel deelnemers zijn, de tijd voor het nakijken beperkt is, en het nakijken van open vragen te begrotelijk is. Er is een goede tussenoplossing: geef een bonus wanneer de student een vraag open laat omdat hij/zij het antwoord echt niet weet. Meer daarover hierbeneden.


Wat in het individuele geval onbekend is, hoeft dat voor de groep niet te zijn: het is een kwestie van kansberekening, zeg maar. In de discussie werd een formule ingebracht voor die raadkans. Als ik het goed heb is de redenering als volgt ( op internet ook wel te vinden, bijvoorbeeld hier):


Klopt die redenering? Loop het nog eens na.


Ik wilde er tijdens de discussie niet op ingaan, omdat ik de redenering niet begreep, en het allemaal te onoverzichtelijk is om uit te leggen (en dat blijkt ook wel uit de schriftelijke uitleg die nu volgt). En die redenering begrijp ik nog steeds niet, al zie ik natuurlijk wel de redeneerstappen. Wat meteen niet deugt in deze redenering: dat de student op de grens van voldoende/onvoldoende een kwart van de vragen goed heeft door te raden. Hoe is dat mogelijk? (maak er de verwachte waarde van, maar dat laat het probleem onverlet). Laten we het eens van een andere kant benaderen. Veronderstel dat de studenten de vragen die ze niet weten onbeantwoord laten.


Klopt deze redenering? Hij is in ieder geval al een stuk duidelijker. En komt een punt hoger uit. Is er iets over hoofd gezien?


Ja. Onze voorbeeldstudent maakt geen fouten! Wie studenten een beetje kent, weet dat ze af en toe toch wel een foutje maken. Soms wel meer. Een student die 15 vragen onbeantwoord laat, zal ongetwijfeld een paar van de 35 wel beantwoorde vragen fout hebben. Nee, dat moet ik anders formuleren: de student met 35 vragen goed, zal van de overige vijftien er een aantal fout hebben beantwoord, en de overige onbeantwoord hebben gelaten. Hoeveel? Het zal na afloop van de toets bekend zijn, want dat is het voordeel van de bonusregeling (meer daarover hierbeneden): het is nu bekend welke vragen waarschijnlijk fout zijn gemaakt, in plaats van fout geraden. Het is dus mogelijk om aan de hand van de empirische data (over voorgaande jaren) te bepalen hoeveel vragen gemiddeld genomen fout worden gemaakt door de deelgroep studenten die 70% van de vragen goed heeft beantwoord en waarschijnlijk niet heeft geraden.


Let op. In de literatuur wordt zelden of nooit melding gemaakt van de mogelijkheid dat leerlingen/studenten foute antwoorden kunnen geven; fouten zijn alleen ontstaan door te raden, niet door iets verkeerd te weten. De auteurs die formules voor de ‘correctie’ van raadkansen geven zijn kennelijk zo druk bezig met die wat lastige formules en de uitleg ervan, dat ze er niet aan toekomen om met fout gemaakte in plaats van fout geraden vragen rekening te houden. Wees dus gewaarschuwd met goedbedoelde adviezen uit de boekjes, ook al is dat de klassieker van De Groot en Van Naerssen uit 1969 over studietoetsen zie hier.


Is er nu antwoord op de vraag waar de cesuur moet komen te liggen bij die toets met 50 vragen? Dat zal zonder empirische data toch een beetje nattevingerwerk moeten zijn.


Merk op dat rekening houden met de mogelijkheid van foute antwoorden — dus niet fout geraden maar fout gemaakt — leidt tot een lagere cesuur! Dat ligt niet aan de redenering, maar het is de werkelijkheid zoals die bij een bonusregeling zichtbaar wordt. Dan zijn er immers drie mogelijk antwoorden te tellen: de goede, de foute, en de open gelaten vragen.


Maar wat te doen als er geen bonusregeling is, en de studenten dus gedwongen zijn om ergens een kruisje te zetten als ze een vraag niet kunnen beantwoorden? Nou, dan verandert er dus niets aan de berekening, maar zullen we nooit weten welke vragen echt goed respectievelijk fout zijn gemaakt, en welke geraden. Dan doen we maar alsof. En dan is de redenering over goed en fout nog dezelfde, en voor de acht overgebleven vragen veronderstellen we dat de kans om het goede antwoord te geven 1/3 is. Dus ook nu is de aftestgrens 37 2/3. Waarom raadkans 1/3e terwijl het toch vierkeuzevragen zijn? Een bijna ijzeren wetmatigheid is dat studenten van een van de vier alternatieven wel in de gaten hebben dat je die niet moet kiezen, dan blijven er dus drie over: kans op goed is 1/3e. Dat is overigens een reden om bij een bonusregeling niet 1/3e punt te geven, maar een halve punt: het moet voor de student wel net iets aantrekkelijker zijn om het antwoord open te laten, dan te gokken.


Advies voor wie het allemaal dwarrelt voor de ogen: stap toch van die keuzevragen af, de wereld wordt er een stuk vrolijker van.




meerkeuzetoetsen: geef een bonus voor onbeantwoorde vragen


Keuzetoetsen zijn opgestoten in de vaart van de Eerste Wereldoorlog. De VS moesten in zo kort mogelijke tijd een groot leger op de been brengen, en gebruikten dus psychologische tests om erachter te komen wat de recruten in hun mars hadden. De bekendste is wel de Army Alphy, een intelligentietest. De instructie was: alleen een kruisje zetten bij de antwoorden die je denkt te weten; dus als je een vraag niet kunt beantwoorden: dan onbeantwoord laten. Al snel kwam men erachter dat je de kansen op een hoge score, dus je kans om in dienst te komen, kon vergroten door ook kruisjes in te vullen bij de vragen die je niet kon beantwoorden. Zo is het gekomen, puur onhandigheid van de testpsychologen. Voortaan was de instructie: alles invullen, anders vullen wij een willekeurig antwoord in voor onbeantwoorde vragen. Paniekvoetbal, maar het kwaad was geschied.


In Studietoetsen van A. D. de Groot en Robert van Naerssen uit 1969 is nog op een enkele plaats (zie de box) met zoveel woorden te vinden dat leerlingen die keuzevragen onbeantwoord laten daarvoor toch punten moeten krijgen in overeenstemming met de raadkans. Voor De Groot is dit een kwestie van toetsethiek. Vandaag zeg ik: de student die vragen onbeantwoord laat, en daarvoor geen redelijke puntenvergoeding krijgt, heeft een sterke zaak om tegen de toets en zijn uitslag beroep aan te tekenen, onder verwijzing naar De Groot (1969, blz. 17).

. Helaas is waarderen van onbeantwoorde keuzevragen niet de gangbare toetspraktijk geworden, en is d egemakzuchtige weg gekozen leerlingen en studenten te laten raden wanneer ze een vraag niet weten. Er is nu een toetscultuur ontstaan waar niemand ervan wakker ligt dat we leerlingen voortdurend voorhouden dat het uitstekend is om een gokje te wagen als je een antwoord niet weet. Waanzin, natuurlijk. Toetsenbakkers denken er niet over na dat het om onderwijs gaat, pedagogen zijn geïntimideerd door de wiskunde van de toetsenbakkers. Tel uit onze winst.


Ik vertel dit, omdat er vanuit de huidige toetscultuur weerstand blijkt te bestaan tegen regelingen waarin onbeantwoorde vragen worden gehonoreerd met een extra fractie van een punt. Onzin natuurlijk, die weerstand, want is het soms beter om goed geraden vragen met een vol punt te honoreren?


Hoe groot mag die fractie van punt zijn? Tenminste de raadkans, maar iets meer dan dat. Voor dat ‘iets meer’ is de reden dat studenten meestal wel iets weten, niet niets, bijvoorbeeld voldoende om een van de alternatieven als fout te kunnen afstrepen. Het is niet handig om studenten te verleiden om niet geweten vragen onbeantwoord te laten, en ze zo in feite te beroven van een voordeeltje dat ze anders zouden hebben. Dus: een bonus die groter is dan de blote kans om blind goed te raden, omdat studenten niet blind zijn. Bij drie- en vierkeuzevragen gewoon een half punt bonus, bij tweekeuzevragen 2/3e punt.


N.B. Het is ook mogelijk om in plaats van een bonus voor onbeantwoorde vragen, een strafpuntje af te trekken voor foute antwoorden, bijvoorbeeld bij vierkeuzevragen 1/3e punt bij een fout antwoord (zodat de verwachte waarde van blind raden gelijk is aan nul). Een onbeantwoorde vraag is dan gewoon nul punten waard. Omdat het hier gaat om aftrekken van punten, is deze regeling moeilijker te begrijpen en uit te leggen, probeer het maar eens. De extra bonus zit al in die min 1/3e punt bij vierkeuzevragen: meestal heeft de student immers een betere raadkans dan echt blind; lastig is dan weer dat iedereen moet begrijpen dat de uitbetaling van de bonus juist plaatsvindt door de vraag onbeantwoord te laten. Voortdurend liggen de hersens hierover in de knoop. Deze regeling is enkele decennia gebruikt bij de Maastrichtse voortgangstoets. Het is een sterke afrader, tenzij studenten de regeling door en door goed kennen (maar totdat ze die regeling goed door hebben, is het wel een problematische regeling).


Doen, die bonusregeling. Beter: afstappen van keuzevragen. Het blijft met keuzevragen altijd gedonder, omdat het een gekunstelde vorm van vragen is. Het is zelfs met gewone open vragen al een gekunsteld gedoe om te examineren, omdat onze examensituaties gekunsteld zijn. Het betaalt goed uit om te proberen alles wat gekunsteld is zoveel mogelijk buiten de examendeur te houden.


Onderbelicht gebleven: maak geen vierkeuzevragen meer, maar beperk je tot driekeuzevragen. Daar verlies je niets mee, maar boek je enorme winst: de lees- en werktijd van studenten wordt enorm bekort, het ontwerpen van driekeuzevragen is minder frustrerend dan het het ontwerpen van vierkeuzevragen. Waar je eerste een toets met dertig meerkeuzevragen had, in twee uur tijd door studenten te maken, kun je nu een toets van 35 tot 40 vragen geven, met dus een betere dekking van de stof en een beter voorspelbaar (betrouwbaar) resultaat.


Afzonderlijke toetsvragen bekeken


In deze studiedag zijn afzonderlijke vragen uit twee verschilllende toetsen besproeken. Natuurlijk was er veel te weinig tijd, en zijn maar enkele vragen op de pijnbank gelegd. Evenals hierboven is gedaan, zal ik de voorbeelden in algemene vorm bespreken, niet aan de hand van de letterlijke tekst van vraag 21 uit toets B.



Achtergrond




Om wat te experimenteren met de kansen bij toetsen, en meerkeuzetoetsen in het bijzonder: simuleer toetsscores hier (dit bestand bevat Java-applets). Kijk bijvoorbeeld eens naar het verschil in uitkomsten wanneer er een raadkans van 0,33 bij komt, bijvoorbeeld bij overgaan van korte open vragen naar meerkeuzevragen: 1ao


Er zijn twee scoreverdelingen afgebeeld, beide voor stofbeheersing = 0,6, de toets heeft 30 vragen, de aftestgrens is 17 goed


links (blauw): er is geen raadkans
rechts (rood): de raadkans bij niet weten is 0,33


Past de afgebeelde situatie ook bij het al dan niet rekening houden met de raadkansen, bij het bepalen van de cesuur?



P. Holmes (2002). Multiple evaluation versus multiple choice. Feasibility, reliability and validity in practice. Enschede: Universiteit Twente, 2002, proefschrift, 140 pagina’s ISBN 90 3651757 5. pdf


Wie toch het naadje van de kous wil weten over mogelijkheden om meer informatie te halen uit meerkeuzevragen dan alleen het alternatief dat is aangestreept, kan dit proefschrift eens doorbladeren. Mijn grote bezwaar tegen alles wat van leerlingen of studenten vraagt om aan te geven hoe zeker zij zijn van hun gegeven antwoorden: het maakt de toetsen nog ondoorzichtiger dan ze overigens al zijn door vaak tekortschietende kwaliteit van de meerkeuzevragen.


1 augustus 2013 \contact ben apenstaartje benwilbrink.nl

Valid HTML 4.01!       http://www.benwilbrink.nl/projecten/toetsen_studiedag.htm http://goo.gl/aenKn