Ben Wilbrink (2001). Examens doeltreffend regelen

Examens zijn vaak opgedeeld in een reeks af te leggen tentamens, met herkansingen waar studenten (te) veelvuldig gebruik van maken. De kosten zijn hoog: voor studenten vermijdbare vertragingen en verloren studietijd, voor docenten dubbel werk aan het verzorgen en vooral het nakijken van tentamens.

Er zijn mogelijkheden om examens, die in de loop van de tijd deze traditionele vorm hebben gekregen, doeltreffender te maken. De inzet daarbij is om voor beide direct betrokken partijen, dus zowel de studenten als de docenten, te komen tot winstgevende verbeteringen: win-win situaties.

In dit stuk is het propedeutisch examen aan de orde, maar de behandeling is heeft voor andere examens dezelfde betekenis. In een stapsgewijze opbouw worden telkens verdergaande opties voor verbeteringen aangegeven, met empirisch onderzoek dat aannemelijk maakt dat de ingrepen inderdaad de bedoelde resultaten opleveren. Over sommige ingrepen bestaat overigens een dermate grote wetenschappelijke consensus dat volstaan kan worden met verwijzen naar de theorie.

1. referentiepunten

Sleutelen aan examens kan verraderlijke resultaten opleveren, waar houd je je dan aan vast? Een verbeterd rendement na een jaar is alleen een solide indicator dat er iets is verbeterd wanneer andere omstandigheden tenminste niet slechter zijn geworden. Uiteindelijk moet de norm zijn dat studenten voor wie dit onderwijs is bedoeld, ongeveer in de daarvoor gestelde tijd slagen voor het tentamen, respectievelijk het examen.

Er moet zicht zijn op de samenstelling van de groep studenten: hoeveel no-show studenten en studenten die twee studies tegelijk willen doen, studenten die aarzelen over hun studiekeuze, studenten die het tentamen hebben uitgesteld maar toch deze keer opkomen (verkenners). Voor deze studenten is het onderwijs (even) niet bedoeld; er zullen veel 'onvoldoende' resultaten in deze deelgroepen vallen, als ze al opkomen.

Er moet ook enig inzicht zijn in de tijd die studenten investeren in hun studie, al is het maar globaal. Wanneer de studenten keihard werken, en er slaagt maar 70% voor het tentamen, dan deugt dat tentamen niet of is de lat veel te hoog gelegd. Trekken studenten gezamenlijk de lijn, en slaagt 40%, dan is de lat te laag gelegd. Referentie aan de norm van benodigde tijd is in beginsel alles wat nodig is om grenzen tussen zakken en slagen te kunnen bepalen.

Zonder bovenstaande referentiepunten kunnen de normen voor een examen gaan glijden. De reeks tentamens zijn samen op te vatten als een onderhandelingsspel tussen twee partijen: de gezamenlijke studenten, en de docenten. De studenten tasten af wat het 'niveau' van de studie is, en nemen dat als referentie voor de eigen inspanning. De docenten zien wat studenten er van terecht brengen, en trekken vervolgens pas een lijn tussen wat nog door de beugel kan, en wat niet meer. Voor beide partijen is dat niet echt een bevredigende situatie: de uitweg is om beter naar tijdbesteding en samenstelling van de groep te kijken.

empirische gegevens

Er bestaan ernstige misvattingen over de rendementen van hoger onderwijs. Omdat rendementen meestal op het niveau van de opleiding worden berekend, zijn deze vaak laag, soms zeer laag. Dan roepen bestuurders en politici dat het slecht gaat met het hoger onderwijs. Wie de moeite neemt om individuele studieloopbanen te volgen ontdekt evenwel dat van de vwo-ers die direct instromen in het w.o. uiteindelijk bijna 95% een einddiploma ho behaalt (De Jong, Roeleveld, Oosterbeek, Webbink: Verder studeren). Studenten zijn enorm beweeglijk, hebben even tijd nodig om de juiste studiekeuze te maken. Lage rendementen zijn niet per se 'slecht.'
Studenten maken graag gebruik van de mogelijkheid zich voor twee of zelfs meer studies tegelijk in te schrijven. Het gevolg daarvan is dat docenten sommige studenten nooit zien opdagen, of maar een enkele keer: de no-show of spookstudenten. Dat kan in de propedeuse om aanzienlijke aantallen gaan. Dit zijn dus geen studenten die frauderen, maar die elders wel actief studeren (Wilbrink, 1993).
Studenten die alleen maar tentamen afleggen om te zien wat voor vragen er worden gesteld halen erg lage resultaten, maar zijn daarom nog niet makkelijk te onderscheiden van andere studenten. Wulfert van den Brink heeft dit fenomeen van verkennen onderzocht.
Studenten die nog niet zeker zijn van hun studiekeuze hebben om die reden meer moeite om volledig 'mee te doen.' Ik heb voor een aantal jaargangen rechtenstudenten aan de UvA kunnen berekenen dat degenen die na de eerste twee tentamens de studie staakten, zich voor die tentamens minder goed voorbereidden (in aantal bestede uren) dan de overigen deden. Het besluit om de studie te staken is dan geen gevolg van slechte resultaten, maar juist het omgekeerde is het geval.
Is het gedrag van studenten en docenten tegenover elkaar te modelleren als een onderhandeling, of een 'markt'? Ja, dat is mogelijk gebleken (Wilbrink, 1992). Voor dat onderzoek was een dataset(propedeuse rechten, UvA) beschikbaar met per student naast de behaalde cijfers ook de verwachte cijfers en de tijdbesteding per vak.
Dat studenten bij het eerste tentamen dat zij moeten afleggen nog moeten tasten wat het 'niveau' van de groep medestudenten is, blijkt uit onderzoek naar de voorspelbaarheid van tentamenresultaten. Studenten blijken heel adequate verwachtingen van hun tentamenresultaten te hebben, behalve voor dat eerste tentamen. (Wilbrink, project Schriftelijke Raad Rechten UvA).

2. aantal gelegenheden per jaar en de geldigheid terugbrengen?

Een eenvoudig voorstel mag dienen om een aantal belangrijke samenhangen te verduidelijken. Dat voorstel is om het aantal tentamengelegenheden per jaar te verkleinen, en de geldigheidsduur aan een termijn te binden. Concreet: geen 3 maar 2 tentamengelegenheden per jaar, en als termijn waarbinnen de propedeuse behaald moet zijn: twee jaar.

Dit is typisch een voorstel vanuit de organisatie, en niet van studentenzijde. Het is handig om de rompslomp te verminderen, en het maakt het studenten wat minder aantrekkelijk om het op herkansen aan te laten komen. Dat laatste effect zal ongetwijfeld aanwezig zijn, maar is waarschijnlijk te klein om het aan de hand van empirische data te kunnen aantonen. Als dat zo is, dan is creëert het voorstel geen win-win situatie.

De winst vanuit de organisatie bezien zou ook beperkt zijn. Het scheelt het organiseren van die ene tentamengelegenheid, maar het gebruik van herkansingen zal niet merkbaar verminderen, en daarmee evenmin de tijd die docenten moeten besteden aan het nakijken van tentamens.

Voor het examen zullen zich problemen gaan voordoen met studenten die voor een enkel vak niet zijn geslaagd. Bedenk dat voor ongeveer de helft van de tentamens de student maar drie tentamengelegenheden heeft (ook al moet de opleiding er vier organiseren, volgt u me?). Wil de faculteit die studenten 'dwingend adviseren' de studie te staken? Ook als voor die andere vakken gemiddeld een '7' is behaald? Of een '8' gemiddeld? Dan toch maar die extra herkansing organiseren?

Het voorstel is te snel gedaan; er is verzuimd om helder te maken wat de bedoeling van deze vereenvoudiging van het examen is. Stel dat studenten royaal gebruik maken van de mogelijkheid om via twee of meer keer deelnemen te 'slagen' voor tentamens, wat in veel opleidingen het geval is. Dan ligt het voor de hand dat het doel van een ingreep is om verliestijden van zowel studenten als docenten te verminderen. Van de student die een herkansing nodig heeft moet het werk twee keer worden nagekeken. Voor de student is de situatie nog vervelender, want moeten herkansen loopt vaak samen met andere tentamens, waardoor een negatieve spiraal van ongunstige omstandigheden kan ontstaan (Wilbrink, 1980).

Een royaal gebruik van herkansingen is het symptoom van een examenregeling die niet gezond in elkaar zit. Schrappen van tentamengelegenheden pakt de achterliggende oorzaken niet aan. Beperken van de geldigheidsduur evenmin.

empirische gegevens

De belangrijkste reden waarom het voorstel om het aantal gelegenheden te verminderen te simpel is: het veronderstelt dat studenten iets onmogelijks kunnen, namelijk zich zo voorbereiden op tentamens dat ze vrijwel zeker zullen slagen. Eigen empirisch onderzoek (propedeuse rechten UvA) laat zien dat studenten best behoorlijk kunnen voorspellen, behalve voor het eerste propedeusetentamen, daar pas leren ze de sterkte van de concurrentie kennen. Maar die voorspellingen gaan maar tot zekere hoogte: ieder tentamen is maar een kleine steekproef en kan om die reden voor de student nogal wat makkelijker of moeilijker uitvallen dan verwacht. Niet alleen is ieder tentamen maar een steekproef, bovendien weet de student maar bij grove benadering hoe goed zij de stof beheerst. Er zijn dus twee onzekere omstandigheden die grenzen stellen aan de mate waarin resultaten voorspelbaar zijn, dus ook waarin de student zich werkelijk doeltreffend kan voorbereiden. Het thema komt in dit stuk nog aan de orde.
Twee maal per jaar een gelegenheid om tentamen af te leggen: dat is heel grof. In Leiden is veel onderzoek gedaan naar patronen in de tijdbesteding van studenten, vooral hoe deze afhankelijk zijn van geprogrammeerde activiteiten zoals tentamendata (Peter Vos). Het is bekend dat het moeten herkansen storend werkt op de voorbereiding op andere tentamens. Maar bovendien is het voorbereiden op tentamens nogal afhankelijk van de zelfdiscipline die de in eenzaamheid studerende kandidaat moet opbrengen: zie het proefschrift van Harry Schouwenburg over uitstelgedrag bij studenten, en de factoren die daarop van invloed zijn.
b. onderzoek Vos over effecten van roostervarianten op tijdbesteding.

3. beperking van verliestijden voor studenten èn docenten

Een sollicitatiegesprek gaat niet echt lekker, en de sollicitant vraagt om het een uur later nog eens te mogen herkansen. Zoonlief solliciteert bij IBM, doet een test wat onhandig, en toch is er maar één keer de gelegenheid om er iets goeds van te brouwen. Wel kan er bij een nieuwe vacature ook weer opnieuw worden gesolliciteerd. Er is dus iets vreemds aan de hand met al die herkansingen in het hoger onderwijs. Er is een te sterk geloof in de noodzakelijkheid van kennis van al die vakinhouden, hoewel aansluitingsonderzoek van het onderwijs op de arbeidsmarkt leert dat dat geloof ten onrechte is. Een goede sollicitant die aan een van de wensen of eisen niet voldoet wordt vaak graag aangenomen. Waarom doen we dat in het onderwijs niet? Met andere woorden: er is alle reden om wat creatiever om te gaan met het fenomeen herkansen.

Er is nòg een geloof dat verandering in de weg staat. Dat is het geloof dat de student die een '5' scoort op dit tentamen, ook een '5' gescoord zou hebben als zij de tentamenvragen van het voorgaande jaar gemaakt zou hebben. Dat is niet zo, was het maar waar. Ieder tentamen is niet meer dan een steekproef uit de stof, en een kleine steekproef bovendien. Het is een fictie dat gemotiveerde studenten zich altijd zo kunnen voorbereiden dat ze geen risico lopen op een 'onvoldoende.' Inzicht in de statistische zwakheid van tentamens maakt het mogelijk om te zoeken naar versterking, bijvoorbeeld door tentamens te combineren. Ook hier mogelijkheden te over om creatief te zoeken naar reductie van verliestijden.

Wordt er veel van herkansingen gebruik gemaakt, redeneer dat dan niet weg als gebrek aan motivatie of uitstelgedrag bij deze studenten. Neem aan dat het berekenend gedrag van de studenten is waarmee ze groot gelijk hebben, gezien de examenregeling die ze de baas moeten worden. Met berekenend gedrag van studenten valt uitstekend te 'onderhandelen,' want bij handige ingrepen in de examenregeling zal dat dus ook gewenst gedrag zijn (in paragraaf 4 een boeiend casus ter illustratie). Als zo verliestijden door herkansen minder worden, is er een win-win situatie.

Stel een propedeutisch examen bestaat uit tien tentamens die ieder tenminste voldoende moeten worden gemaakt. Studenten herkansen een vak net zo lang tot er een voldoende wordt gescoord. Ieder tentamen bestaat uit 30 kort-antwoordvragen (vergelijkbaar met, zeg, 6 open vragen, of 40 driekeuzevragen). Neem deze situatie als uitgangspunt om een aantal opties voor verbetering te bekijken.

Leveren dit soort ingrepen win-win situaties op? Ja, in de mate waarin studievertragingen verminderen. Studenten zijn in de lastige positie dat ze dat eerst nog maar af moeten wachten, maar het onderstaande casus Geneeskunde in Groningen maakt aannemelijk dat er belangrijke winst is te behalen. Docenten hebben mogelijk koud-watervrees als het gaat om meer compenseren en om samenvoegen van kleine tentamens tot grotere, maar ook voor hen is de binnen te halen winst aanzienlijk.

Op deze manier versoberen van examenregelingen is alleen verantwoord wanneer tegelijk de kwaliteit van de tentamens wordt verbeterd. De studenten moeten zich immers meer richten op die eerste tentamengelegenheid, ze moeten dan ook in staat worden gesteld om zich daar doeltreffend op voor te bereiden. In paragraaf 5 komt de daarvoor gewenste doorzichtigheid of kenbaarheid kort aan de orde.

empirische gegevens

Over het steekproefkarakter van tests en toetsen is in de literatuur het nodige bekend, kijk naar standaardwerken over toetsen en/of testen, zoals De Groot en Van Naerssen; in het eerder al genoemde schriftelijke raad project kregen propedeusestudenten voorlichting over dat steekproefkarakter. Het binomiale model speelt daar een rol in, zie het gelijknamige proefschrift van Wulfert van den Brink.
De meeste van de genoemde varianten zijn in het wild wel ergens aan te treffen. Examenregelingen (en overgangsregelingen in het vo) zijn immers ongelooflijk gevarieerd. Het is mogelijk om theoretische onderbouwingen te geven, gebseerd op besliskundige theorie, waartoe Van Naerssen (1970) met zijn oratie over het tentamenmodel de aanzet heeft gegeven.
De voorstellen zijn tamelijk eenvoudig en evident, al kunnen er situaties zijn waarin bepaalde voorstellen niet goed passen. Combinaties zijn natuurlijk mogelijk, zie voor een heel fraai voorbeeld onderstaand casus.
Sommige faculteiten hebben de ervaring opgedaan dat het afschaffen van jaarsystemen tot gevolg had dat studenten meer vertraging in de studie opliepen (o.a. Cohen-Schotanus p. 103 e.v.). Zo'n jaarsysteem zet studenten onder druk om tijdig te slagen, omdat er anders een jaar moet worden overgedaan.

4. casus Geneeskunde Groningen: naar maximaal rendement!

Het is niet onwaarschijnlijk dat geschikte combinaties van de eerder opgesomde opties doeltreffender zijn dan de optelsom suggereert. Een goed gedocumenteerd voorbeeld van zo'n combinatie is toegepast in de propedeuse Geneeskunde in Groningen. In de tachtiger jaren moest de faculteit met lede ogen aanzien hoe het rendement steeds verder wegzakte en tot de laagste in het land behoorde (voor geneeskunde). In deze situatie bracht W. K. B. Hofstee (psychologie RUG) uitkomst door een drastische ingreep in het examen te adviseren. Het advies bestond, vrij naar Hofstee, uit de vierslag:

De constructie voor de deeltentamens omzeilde tevens de wet die (te gedetailleerd) voorschrijft hoe het examen eruit moet zien. Naar de mate waarin deze regeling erin zou slagen overmatig herkansen te voorkomen, zou er sprake zijn van een win-win situatie. En inderdaad bleek in de jaren na de invoering van dit voorstel dat het rendement steeg: van het cohort 1992 slaagde 83% binnen een jaar voor de propedeuse. Voor het cohort 1987 had dat rendement een dieptepunt bereikt van ca. 35%.

De combinatie van tentamens om van ongeveer een dozijn afzonderlijke tentamens te komen tot zes tentamens verkleinde het aantal keren dat studenten zouden kunnen zakken. Aannemende dat deze nieuwe tentamens ook qua aantal vragen omvangrijker waren, zouden ze ook de kansen op ten onrechte zakken kleiner maken.

De gecombineerde tentamens boden vervolgens goede gelegenheid om de omvangrijke stof te toetsen via twee of meer deeltentamens die vrijstellend zijn. Van die mogelijkheid hebben studenten gebruik weten te maken. Daar werden ze ook toe aangemoedigd door de handige combinatie van volledige compensatie en slechts een enkele gelegenheid om deel te nemen.

Door deeltoetsen volledig te laten compenseren ontstaat als het ware een enkele heel lange toets waarvan de resultaten minder door pech of geluk worden beïnvloed. Belangrijker dan dat technische aspect is dat na de eerste deeltoets afgelegd te hebben, de student bijzonder gemotiveerd zal zijn om een goed resultaat voor de tweede neer te zetten, anders gaat immers de inspanning die voor de eerste toets is geleverd deels weer verloren. Bij een redelijke score op de eerste toets kan de kans om via de deeltoetsen te slagen telkens groter worden gemaakt door ook voor de volgende deeltoets een goed resultaat neer te zetten. Natuurlijk kan de student ook hier pech hebben, maar al met al is het risico om te zakken veel beter in de hand te houden.

empirische gegevens

Janke Cohen-Schotanus (1994) geeft in haar proefschrift de relevante data. Het vaststellen van de rendementen na een jaar is een kwestie van tellen, en omdat iedereen wordt geteld is er geen sprake van marges in statistische zin in deze uitkomsten. Generaliseren naar nog komende jaren, of naar vergelijkbare situaties in geheel andere opleidingen is natuurlijk wel omgeven met onzekerheden.
Waarom levert het advies van Hofstee een ingreep op die de doeltreffendheid van het examen sterk verhoogt? De hierboven gegeven uitleg lijkt overtuigend, maar het is geen sterke theoretische verklaring, en ook Cohen-Schotanus geeft die niet. Ik heb in 1995 op de Onderwijs Research Dagen in Groningen laten zien hoe dit voorstel vertaald kan worden in een besliskundig model waarin de rationaliteit van het gedrag van de studenten wordt verklaard, en daarmee ook de rationaliteit van deze ingreep in het examen.
Het ligt voor de hand om een zo winstgevende vernieuwing ook in de doctoraalfase in te voeren, en zo gebeurde in Groningen.
Het proefschrift van Janke Cohen-Schotanus brengt gedetailleerd de problemen in beeld die ontstaan door ongelukkige examenregelingen en beroerde kwaliteit van tentamens:

5. kwaliteit en kenbaarheid van tentamens

Het is voor studenten verdraaid lastig om voorafgaand aan het tentamen te voorspellen welk resultaat ze ermee zullen behalen. Meestal is er wel een globale indruk. Zouden ze er geen idee van hebben, dan zou het voor hen immers niet zinvol zijn ook maar een uur in de voorbereiding op zo'n onvoorspelbaar tentamen te steken. Dat studenten zich doorgaans wèl redelijk voorbereiden op tentamens betekent dus dat ze het idee hebben daarmee de kans op een behoorlijke honorering te vergroten.

Bij een examenregeling die het voor de student aantrekkelijker en belangrijker maakt om meteen voor de eerste gelegenheid een goed resultaat te halen, is het kunnen voorspellen dan ook van groot belang. Dat is door Adriaan de Groot uitgewerkt tot de eis van doorzichtigheid van tentamens: studenten moeten zich er doeltreffend op voor kunnen bereiden, mogen door de vragen niet voor verrassingen worden gesteld, en moeten tevoren weten hoe streng er beoordeeld zal worden. Job Cohen heeft in zijn proefschrift de voorkeur gegeven aan de term kenbaarheid.

Een van de redenen voor het belang van kenbaarheid is dat uiteindelijk de studenten zelf het risico moeten kunnen dragen dat ze een score behalen die net niet voldoende is. Een puntje meer of minder is natuurlijk altijd toeval, maar rond de grens voldoende/onvoldoende is dat wel erg vervelend. De regels van het spel zijn dat dat puntje te weinig wel wordt aangerekend, ook al kan nooit beweerd worden dat de student met dat puntje te weinig de stof minder goed kent dan die andere student die net voldoende scoort. Studenten moeten dus in staat worden gesteld om zich zo op het tentamen voor te bereiden dat het risico van dergelijke domme pech klein is. Overigens is dit een reden temeer om regelingen zo te ontwerpen dat het aantal van dergelijke scherpe grenzen klein kan blijven.

Een klassieke manier om de kenbaarheid te verbeteren is door meer vragen in het tentamen op te nemen. Hierboven is al een voorbeeld gegeven van een tweemaal zo lange toets die de kans om te zakken, ceteris paribus, terugbracht van 0,2 naar 0,15. In het algemeen is het zo dat meer compensatie toestaan overeenkomt met langer maken van toetsen, de kenbaarheid dus verbetert.

Allerlei geheimzinnigheid, zoals het geheim houden van tentamenvragen en het hanteren van vaste percentages voor onvoldoendes, doet ernstig afbreuk aan de kenbaarheid, en werkt misstanden in de hand (handeltjes in toch bekend geraakte vragen). De kwaliteit van de tentamenvragen laat nogal eens te wensen over, niet alleen door slordig formuleren, maar ook door gebrekkige afstemming op de opgegeven stof, omdat ze moeilijker zijn dat in het onderwijs behandelde vragen, of omdat het beoordelen van de antwoorden problemen oplevert. Hiermee is niet gezegd dat docenten opzettelijk hun taken zouden verwaarlozen; het is gewoon erg lastig om kwaliteitsgebreken in zelf bedachte tentamenvragen te ontdekken. Vraag daarom anderen om er kritisch naar te kijken, voorafgaand aan het tentamen als het kan. Er is hier nog een wereld te winnen. Het is absoluut gewenst dat er een stelsel van intervisie is, of een routinematige onderwijskundige controle, om de kenbaarheid te verbeteren en te bewaken. Dat is voorwaarde voor een balans tussen de eisen die aan studenten worden gesteld, en hun mogelijkheden om daar dan ook aan te voldoen.

empirische gegevens

De kwaliteit van toetsen vergroten door meer vragen te gebruiken, mits van dezelfde kwaliteit, is een techniek die geen empirische bewijsvoering meer behoeft.
Dat geheimzinnigheid tot misstanden leidt kunnen velen uit eigen ervaringen wel bevestigen, al zijn bepaalde faculteiten (geneeskunde!) daar altijd gevoeliger voor geweest dan andere. Aan de UvA heet het CvB in 1980 een richtlijn uitgevaardigd dat tentamenvragen niet geheim mochten blijven. Dat noodzaakte docenten tot het bedenken van steeds nieuwe vragen, aan welke behoefte ik in 1983 tegemoet ben gekomen met 'Toetsvragen schrijven', dat constructieregels voor vragen bevat.
Wederom Janke Cohen-Schotanus geeft in haar proefschrift voorbeelden van de verbeteringen in kwaliteit van tentamens en vragen als gevolg van het beleid dat tentamens met meer dan 30% gezakten door de onderwijskundige dienst op kwaliteit gecontroleerd moeten worden. Allerlei rampspoed komt voor, met als uitschieter een tentamen waar na ingrijpen het aanvankelijke slaagpercentage van 3% naar 97% ging.

6. Is nakijkwerk bureaucratie ten koste van het onderwijs?

Tot slot een aantal meer fundamentele overwegingen. In het bovenstaande is uiteengezet hoe examenregelingen zijn te stroomlijnen door er zoveel mogelijk de vermijdbare verliestijden uit weg te snijden. Maar het blijft zo dat docenten in opleidingen met een ongunstige student/docent verhouding al gauw een belangrijk deel van hun tijd besteden aan het afnemen en nakijken van tentamens. Niemand dringt dat examenstelsel op, het kan ook anders.

Het dilemma is het volgende. Het is natuurlijk van belang om gemaakt werk zorgvuldig na te kijken, dat zelfs door twee beoordelaars onafhankelijk van elkaar te laten doen, de student de gelegenheid te geven met de docent over de beoordeling in discussie te gaan en eventueel verder in beroep te gaan. Dat kost docenten tijd die voor het geven van onderwijs en voor het begeleiden van studenten niet meer beschikbaar is. De kwaliteit van het onderwijs lijdt onder de objectiviteit of de eerlijkheid van de beoordeling. De wereld op zijn kop. In zekere zin trouwens ook de prijs die wordt betaald voor de weigering om royaal compenseren toe te staan.

Toch kennen we allemaal een goed alternatief: practica. Een goed practicum is intensief onderwijs dat niet ook nog eens met een tentamen wordt afgesloten, dat een zekere slaaggarantie geeft aan de studenten die een behoorlijke inspanning plegen. Een verschuiving van nadruk op tentamens naar nadruk op begeleide activiteiten lost een reeks problemen op: docententijd wordt weer produktief ingezet, herkansingen behoren tot het verleden, studievertraging hoeft niet meer voor te komen.

Een andere invalshoek levert het casus Geneeskunde, daar is immers sprake van vrijstellende deeltoetsen waar goed gebruik van wordt gemaakt. Dat is in de kiem ook het model voor intensiever onderwijs waarin tentamens minder een rol gaan spelen. Denk de vrijstellende deeltentamens vervangen door ieder een aantal 'vrijstellende' opdrachten die gedaan moeten worden, en er ontstaat een practicumsituatie.

Er is begin van de negentiger jaren door Alexander Astin een mega-onderzoek gedaan onder 200 instellingen in de VS voor undergraduate onderwijs, dus bachelor-niveau. Tienduizenden studenten en docenten is het hemd van het lijf gevraagd. In dat land met zijn grote verschillen tussen onderwijsinstellingen bleek vooral van belang te zijn voor het behalen van diploma's en voor het welbevinden van studenten of ze deel uit maakten van een groep lotgenoten, kameraden, studiegenoten, die de normen en waarden ondersteunen die voor de studie van belang zijn. Dat wijst in de richting van het belang van bevorderen van het ontstaan van studiegroepjes, voorkomen dat deze uit elkaar vallen door grote verschillen in studievoortgang, zorgen voor contacten tussen studenten en docenten. Ook dat is een beweging naar meer intensieve vormen van onderwijs waarin studenten samenwerken in plaats van concurreren, en wèg van examenregelingen die een excuus voor anonimiteit van de studie zijn.

empirische gegevens

Er is sprake van een obsessie voor objectiviteit. Dat leidt zelfs tot de misvatting dat keuzevragen objectief zouden zijn. Het was een kleine sensatie toen ik op de Onderwijs Research Dagen in 1977 betoogde dat keuzevragen evenzeer subjectief zijn als open vragen dat zijn: degene die de sleutel voor de correctie vaststelt doet dat immers op basis van persoonlijke overtuiging, vakgenoten kunnen het heel goed oneens zijn. In de Amerikaanse literatuur was dat overigens al bekend, daar werd bij keuzevragen gesproken over 'frozen subjectivity.' Objectiviteit is een lastig begrip, Rescher heeft er een filosofische studie aan gewijd. Het wordt tijd dat er over beoordelen in het onderwijs minder rigide wordt gedacht in termen van rechtvaardigheid en eerlijkheid, en weer meer naar de betekenis die het altijd in de eerste plaats heeft gehad: sturing in de interactie tussen meester en leerling, in het primaire proces van onderrichten en leren dus.
De studie van Astin is een grootschalige herhaling van een twee decennia eerder uitgevoerde studie, waarvan de publicatie 'Four critical years' (1977) recordafzetten beleefde. Het boek van Astin, zijn onderzoek moet ik zeggen, is ook de neerslag van inzichten verworven uit bijna vier decennia grootschalig onderzoek in het Amerikaanse hoger onderwijs, hij moet de beste kenner van dat onderwijs zijn. Natuurlijk is het een onderwijsstelsel in een heel andere (onderwijs-) cultuur, maar de algemene uitkomsten stijgen boven deze culturele bijzonderheden uit.

verwijzingen

Astin, A. (1993). What matters in college? Four critical years revisited. San Francisco: Jossey-Bass.

Brink, W. P. van den (1977). Het verken-effect. Tijdschrift voor Onderwijsresearch, 2, 153-261.

Brink, W. P. van den (1982). Binomiale modellen in de testleer. Proefschrift UvA.

Cohen-Schotanus, J. (1994). Effecten van curriculumveranderingen. Studiewaardering, studiegedrag, kennis, studiedoorstroom in een veranderend medisch curriculum. proefschrift RUG.

Drift, K. D. J. M. v. d., en Vos, P. (1987). Anatomie van een leeromgeving. Een onderwijseconomische analyse van universitair onderwijs. Lisse: Swets & Zeitlinger.

Groot, A. D. de, en Van Naerssen, R. F. (red.) (1975). Studietoetsen: construeren, afnemen, analyseren. Den Haag: Mouton.

Holleman, J. W. (1993). Over studielast en studeerbaarheid. Proefschrift R. U. Utrecht. Ook verschenen als handelsuitgave.

Jong, U. de, Roeleveld, J., Oosterbeek, H., en Webbink, D. Verder studeren. Cohortstudie i.o.v. OCen W uitgevoerd door SCO-Kohnstamm Instituut en SEO (afgesloten). Uitgaven: Den Haag, Sdu.

Naerssen, R. F. van (1970). Een model voor tentamens. Inaugurele rede. Universiteit van Amsterdam. html

NIP (1988). Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: Nederlands Instituut van Psychologen. [geen online versie beschikbaar]

Rescher, N. (1997). Objectivity. The obligations of impersonal reason. Notre Dame: University of Notre Dame Press.

Schouwenburg, H. (1993). Uitstelgedrag bij studenten. proefschrift RUG. [geen online versie beschikbaar]

Voorthuis, M., en B. Wilbrink, (1987). Studielast, rendement en functies propedeuse. Relatie tussen wetgeving, theorie en empirie. Deelrapport 2: Evaluatie-onderzoek Wet Twee-fasenstructuur. Amsterdam: SCO (rapport 112). Hoofdstuk 4: Functies van de propedeuse; in het bijzonder de schriftelijke raad (met als bijlage de Handleiding zelf-evaluatie). html

Wilbrink, B. (1977). Het verborgen vooroordeel tegen andere dan meerkeuze vraagvormen. Congresbundel Onderwijs Research Dagen 1977. html

Wilbrink, B. (1980). Toetsen, herkansen, studievertraging: achterliggende mechanismen. htmlOnderzoek van Onderwijs, 9 nr. 2, 7-11.

Wilbrink, B. (1983). Toetsvragen schrijven. Utrecht: Het Spectrum. hfdst 1 van de versie in herziening

Wilbrink, B. (1992). The first year examination as negotiation; an application of Coleman's social system theory to law education data. paper ECER conference. paper: auteur. html

Wilbrink, B. (1993). No-show studenten. Onderzoek van Onderwijs, 22, 37-40. html

Wilbrink, B. (1995). Studiestrategieën die voor studenten én docenten optimaal zijn: het sturen van investeringen in de studie. ORD Groningen. paper: auteur. html

Anders dan de titel misschien doet vermoeden, is dit een project dat een reeks van instrumenten beschikbaar maakt in uw browser, om mogelijke examenvarianten op hun theoretisch verwachte effecten door te rekenen.

Later toegevoegd om in eventuele volgende versies mee te kunnen nemen:

Naerssen, R. F. van (1976). Computersimulatie bij het onderzoek van tentamenregelingen. Tijdschrift voor Onderwijsresearch, 1, 112-117. abstr Computer simulation used in a system ofexaminations This investigation shows a possible application of simulation in a rather complicated system of tests of six courses: partly conjunctive, partly compensatory, and with a second chance (test) for every course. As suggested by former research about tests of these courses, it is assumed that there is only one factor, capacity, underlying the test scores which are multivariate normally distributed. Simulation was used to calculate how the proportions of successful students and their mean capacity are altered if third and fourth chances are introduced. Higher minimum scores were calculated so that the two additional chances would not lower the mean capacity of the successful group. With a former group of 293 students the parameters of the model were found: means, standard deviations, reliability coefficients of the test scores, correlations with a sum score ('capacity'), and other statistics. Drop-out and increasing Iestwiseness' are also taken into account.

Noord, F. van, J. Cohen-Schotanus, & J. Starren (1984). De effekten van selektie op eindexamencijfers en afschaffing van het jaarklassensysteem op het studierendement in de Fakulteit Geneeskunde te Groningen. U en H, 30, 221-238. p. 221: "Aanbevolen wordt het onderwijs-systeem minder vrijblijvend te maken, bijvoorbeeld door het aantal herkansingen bij tentamens aan een maximum te binden."

De volgende passage is genomen uit een artikel over bama van José van Vonderen. in Illuster/Universiteit Utrecht/juni 2002 p. 11: Onderwijskwalificatie De Universiteit Utrecht heeft de bachelor-masterstructuur aangegrepen voor een instellingsbrede onderwijsvernieuwing. 'in het universitaire onderwijs is meer aandacht voor didactiek gekomen sinds de nota Kwaliteit en Studeerbaarheid van tien jaar geleden', zegt Fried Keesen. 'Bij ons heeft dat ertoe geleid dat docenten verplicht zijn een onderwijskwalificatie te halen. Zonder die kwalificatie kun je geen vaste aanstelling krijgen. Je kunt bij ons ook hoofddocent worden en binnenkort zelfs hoogleraar op basis van onderwijskwaliteiten. Tegenwoordig wordt de didactische kwaliteit en de inzet van docenten als goed beoordeeld in studentenevaluaties. Dat is lange tijd anders geweest, daar hebben we tien jaar over gedaan.' Nu wil de Universiteit Utrecht het grootschalige onderwijs aanpakken. Minder hoorcolleges, meer onderwijs in kleine werkgroepen met actieve werkvormen. De norm wordt maximaal 20 tot 25 studenten per cursus en minimaal acht contacturen per week. Bij cursussen waar men met enkele hoorcolleges placht te volstaan, wordt het onderwijs nu wel veel duurder. 'Dat betekent dat we onrendabele cursussen moeten schrappen. Cursussen die twee of drie studenten trekken, kunnen niet meer worden gehonoreerd. De letterenfaculteit bijvoorbeeld had duizend cursussen. Daar zijn er zeshonderd van overgebleven. Dat is misschien wel een verarming van het aanbod, maar daar staat tegenover dat de onderwijskwaliteit omhoog gaat.' Ook hiervoor zijn universitaire richtlijnen opgesteld. De student is verplicht aanwezig te zijn en actief mee te doen. Het ongelimiteerd herkansen wordt afgeschaft, ze krijgen nog maar eenmaal de gelegenheid een onvoldoende om te zetten in een voldoende. 'Onze slogan is: inschrijven is meedoen, meedoen is slagen', aldus Kummeling. 'De veronderstelling is dat de student het vak haalt, als hij het weloverwogen kiest en zich hard inspant. Wel heeft de student recht op ten minste één tussentijdse toets. Verder verwachten we van docenten dat ze meer dan voorheen feedback geven op studieprestaties, zodat tijdig kan worden bijgestuurd om tot een voldoende eindresultaat te komen.' Eik onderwijsinstituut zorgt voor een systeem van studieloopbaanbegeleiding. Dat begint met een introductieweek voor eerstejaars, gevolgd door intensieve studiebegeleiding tijdens het eerste semester. Dit wordt afgesloten met een 'dringend' advies over de gemaakte studiekeuze. Ook in de rest van hun loopbaan worden studenten intensief begeleid bij hun studie en keuzeprocessen.

Onderwijsraad (7 december 2006). Versteviging van kennis in het onderwijs [ Verkenning ] http://www.onderwijsraad.nl/pdfdocs/versteviging_van_kennis_in_het_onderwijs.pdf [dode link, 3 mei 2009]

Examens doeltreffend regelen