Ben Wilbrink (1979). Universitaire examenregeling: conjunctief of compensatorisch

Abstract

Voor een studie naar de relatieve efficiëntie van conjunctieve (alles voldoende) en compensatorische (gemiddeld voldoende) examenregelingen werden modellen opgesteld voor optimale studiestrategieën onder beide regelingen. Als tweede stap zal een methode voor cesuurbepaling ontwikkeld worden die de bereikte stofbeheersing gegeven de programmatisch beschikbare studietijd maximaliseert.

Theoretische vergelijking van beide regelingen is mogelijk door één van beide variabelen 'gemiddeld bereikte stofbeheersing' of 'gemiddelde tijdbesteding' gelijk te stellen en het niveau van de andere variabele te schatten aangenomen dat studenten onder beide regelingen ongeveer optimale studiestrategieën zouden volgen.

De compensatorische regeling, die geen 'herkansingen' kent, is naar verwachting de efficiëntere.

Universitaire examenregeling: conjunctief of compensatorisch

NB. In 2004 zijn de figuren in dit paper gereconstrueerd met hulp van het computerprogramma voor het algemene toetsmodel, daarmee ook enkele belangrijke verbeteringen ten opzichte van het model in 1979 introducerend. Dat gaat enigszins ten koste van de authenticiteit van de tekst, maar maakt de 1979-analyse vergelijkbaar met de huidige stand van de modelbouw.

6 december 2017. Bij herlezen valt me op dat ik hier toch wel erg makkelijk aan het redeneren ben. Het betoog is niet strak genoeg. Eigenlijk zou het hele betoog door de wringer moeten. Vooral het nodige schrappen.

De congresganger die zijn rookverslaafdheid niet voor een paar dagen op kan schorten, beseft niet wat een plaag het voor anderen kan zijn om uitgerookt te worden. Op dezelfde wijze staan wij allen, gewend als we zijn aan onze europese examenregelingen waarin alle vakken in principe 'voldoende' gemaakt moeten worden, niet open voor de feilen die aan dit soort regeling kleven, feilen die in andere vormen van examenregeling misschien niet voorkomen.

Ik zal deze traditionele vorm van examenregeling contrasteren met de compensatorische regeling waarin het gemiddelde resultaat over alle examenvakken bepalend is. De compensatorische regeling kennen wij niet als examenregeling, maar wel van de manier waarop de leraar uit cijfers voor proefwerken en beurten het eindcijfer vaststelt, en van de wijze waarop het cijfer voor een toets bepaald wordt uithet aantal goed gemaakte vragen. In de Verenigde Staten zijn examenregelingen in principe compensatorisch en zou je moeite hebben om uit te leggen hoe onze op europese leest geschoeide regelingen goed kunnen functioneren. Hier geldt het omgekeerde: de reacties op voorstellen om het eens compensatorisch te proberen plegen zeer fel te zijn: op zijn minst zou het onderwijs dan een janboel worden. Laten we eens kijken hoe dat zit.

Er zijn verschillende redenen om conjunctieve regelingen eens aan een kritisch onderzoek te onderwerpen. In de praktijk blijkt het altijd weer onontkoombaar om compensatorisch water bij de conjunctieve wijn te doen: zuivere toepassing van het conjunctieve beginsel leidt tot veel te kleine aantallen geslaagden. Hetzelfde verschijnsel doet zich voor wanneer onderdelen uit een toelatingsexamen conjunctief gecombineerd worden: Hills (1971) heeft nog weer eens gewezen op de onbedoelde maar rampzalige gevolgen waartoe dat kan leiden als de grensscores voor examenonderdelen afzonderlijk tevoren vastgelegd worden.

Wie zich afvraagt waarom wij eigenlijk conjunctieve regelingen hanteren komt al snel tot de ontdekking dat daar geen inhoudelijke argumenten voor zijn, laat staan een behoorlijke laten we zeggen psychometrische grondslag, maar dat hier sprake is van een louter traditionele regeling. Een stuk folklore zou je kunnen zeggen, maar dan een folklore die door betrokkenen met dodelijke ernst wordt opgenomen.

Onvoldoende gemaakte vakken worden in principe overgedaan. Zo gaat dat in ieder geval in het wetenschappelijk onderwijs, en misschien straks ook wanneer examens op middelbaar niveau per vak gedurende het laatste schooljaar afgedaan kunnen worden. Maar dat veronderstelt impliciet dat het nuttig is bepaalde studenten de stof nog eens te laten bestuderen, sterker nog: dat het voor sommige studenten nuttiger is de stof nog maar eens te bestuderen dan verder te gaan met het normale enderwijsprogramma, dat het voor gndere studenten nuttiger is verder te gaan met het normale onderwijsprogramma dan de stof nog eens te bestuderen. Cronbach en Gleser wezen ondertussen meer dan 20 jaar geleden al op deze impliciete veronderstelling. Het punt is natuurlijk dat er voor deze veronderstelling geen empirische onderbouwing gegeven pleegt te worden. Het is hetzelfde probleem dat zich voordoet bij de vraag naar de zin van het doubleersysteem, waarvoor Jackson (1975) wees op het ontbreken van relevante empirische gegevens om deubleren op te kunnen verantwoorden. Salomon (1972) demonstreerde ook al dat het vergaand simplistisch is als remedie voor achterblijvende studieprestaties extra onderwijsactiviteiten voor te schrijven van hetzelfde soort als waarin de achterstand kon ontstaan.

Ik wil met deze overwegingen laten zien dat er alle reden is om conjunctieve examenregelingen aan een kritisch onderzoek te onderwerpen. Het is niet uitgesloten dat herkansingen die onder dergelijke regelingen plaatsvinden geen positief resultaat opleveren, wat zou betekenen dat onder compensatorische regelingen mogelijk aanzienlijke studieduurverkortingen bereikt kunnen worden.

De vraag is dan: hoe maak je zo'n examenregeling onderzoekbaar?

Je zult daarvoor tenminste iets moeten weten over de rol die toetsing in het enderwijsgebeuren speelt. In het volgende ga ik er van uit dat het examen bestaat uit verschillende vakken die afzonderlijk en als afsluiting van het in dat vak gegeven onderwijs, getoetst worden. Het is vanzelfsprekend dat de eisen om voor toets (of examen in zijn geheel) te slagen van invloed zijn op de aard van de voorbereiding van de student, en vooral op de studietijd die hij zal investeren. Ik stel dan ook voor om de toetsing niet langer te beschouwen als een neutrale meting, zoals in de psychometrie verondersteld wordt, maar integendeel als een sturingsinstrument voor het onderwijs. Als de student zijn gedrag afstemt op de eisen die gesteld worden, is het mogelijk door veranderingen in de eisen het studiegedrag te beinvloeden. Voor de conjunctieve regeling met onbeperkte herkansingsmogelijkheden komen we dan vanzelf terecht bij een tentamenmodel zoals dat door Van Naerssen (1970, 1976) ontwikkeld werd. Met enkele wijzigingen die ik daarin aanbreng ziet de rationele studiestrategie er dan in grote lijnen als volgt uit.

Om te beginnen zal de student zijn beheersing van de leerstof p voorafgaand aan de toetsing moeten schatten. Het is niet handig om een puntschatting te maken, omdat je daarin je onzekerheid niet tot uitdrukking kunt brengen. Het ligt voor de hand om dan een waarschijnlijkheidsverdeling voer de mate van stofbeheersing te specificeren, en dan is het handig om daar een betaverdeling voor te nemen.

Het is mogelijk daarbij te werk te gaan zoals bij het specificeren van a priori verdelingen gebruikelijk is, zie bijvoorbeeld Novick en Jackson (1974), maar wanneer je kunt beschikken over het resultaat op een proeftoets kan dat (mede) als uitgangspunt genomen worden. Voor de technische details verwijs ik naar mijn Examenregeling deel A (1978).

De kansverdeling voor zijn toetsscore is de binomiaalverdeling f (y | P) met als parameter zijn stofbeheersing p. Maar omdat p niet precies bekend is, is deze kansverdeling niet bruikbaar om de slaagkans p te schatten. Voor dat laatste is de onconditionele (of marginale) kansverdeling voor de toetsscore nodig

(1) f(y) = ∫ f(y|p) f (p) dp

Ik noem f(y) de voorspellende kansverdeling voor de toetsscore. Dit lijkt nogal ingewikkeld, maar in de praktijk zou de student met een eenvoudige tabel kunnen werken waaruit hij zijn slaagkans bij gegeven waarschijnlijkheidsverdeling voor zijn stofbeheersing kan aflezen.

Kan de student op deze wijze zijn slaagkans schatten, dan weet hij ook of hij nog meer tijd moet besteden aan de voorbereiding op de toets: hij gaat door met studeren tot zijn geschatte slaagkans de gewenste hoogte heeft.

De kern van het tentamenmodel is het vinden van de gewenste slaagkans, en daarmee het optimale niveau van stofbeheersing waarop in de voorbereiding gemikt moet worden.

Is het aantal herkansingen dat gedaan mag worden onbeperkt, dan staat de student telkens als hij voor een herkansing op komt voor dezelfde situatie als voor de opkomst bij de eerste toetsgelegenheid (aangenomen dat de toetsen parallel zijn).

Dat houdt in dat wat ook het optimale niveau van stofbeheersing voor de eerste toetsgelegenheid mag zijn, voor iedere herkansing is het optimale niveau van stofbeheersing daaraan gelijk. Dat maakt het makkelijker X om het optimale niveau te vinden, omdat je nu weet dat hetzelfde streefniveau ook voor eventuele herkansingen aangehouden moet worden.

Wil de student optimaliseren, dan moet hij nog inschatten wat de 'kosten' van het moeten doen van een herkansing voor hem zijn. Hij zal opnieuw de stof door moeten nemen, opnieuw in spanning zitten, opnieuw een dag kwijt zijn aan het afleggen van de toets en ontspannen. Hij zal misschien in de knoop komen met zijn studieactiviteiten volgens het normale studieprogramma, financiële risico's lopen waar het om zijn toelage gaat, etc. Een eenvoudige benadering is om alle kosten uit te drukken in de proxy variabele 'studietijd', en te schatten dat deze 'studietijd' nodig voor een herkansing gelijk is aan bijvoorbeeld de helft van de 'studietijd' die in voorbereiding van de eerste toets is geinvesteerd. Dit is een ruwe benadering, maar het ziet er naar uit dat het optimale niveau van beheersing niet erg gevoelig is voor kleine variaties in deze kostenfactor. Optimaliseren betekent dan zoeken naar de geringste verwachte kosten, de geringste verwachte benodigde studietijd om te slagen. Als in deze opzet u de voorbereidingstijd voor de eerste toetsgelegenheid is, leidend tot een waarschijnlijkheidsverdeling f(p) voor de ware beheersing, met daarbij de verwachte kans om te slagen s, dan is de verwachte studietijd nodig om te slagen gelijk aan

(2) ½ u + ½ u/s

Voor details verwijs ik naar mijn examenregeling deel A (1978). De student kan met deze formule eenvoudig uitvinden bij welk niveau van stofbeheersing hij de geringste verwachte tijd nodig heeft om te slagen. Voor berekeningen, het opstellen van tabellen, en het illustreren is het prettig te werken met een leercurve die het verband tussen studietijd en stofbeheersing bij de voorbereiding op de eerste toetsgelegenheid weergeeft (tijdas in ongespecificeerde tijdeenheden).

Figuur 1 geeft een voorbeeld van zo'n leercurve, voor het geval perfecte stofbeheersing de asymptoot is, er geen voorkennis is, geen meerkeuzevragen gebruikt worden, en de stof zo eenvoudig is dat er geen 'aanloopperiode' is.

Eenvoudige stof waarbij er geen 'aanloopperiode' is, dat is stof die alleen uit kennis bestaat en waarover alleen die kennis terug wordt gevraagd. Zodra verschillende stukjes kennis gecombineerd moeten worden om een vraag goed te beantwoorden, is er sprake van inzicht, zoals in 1998 door mij uitgewerkt, en dan is er sprake van een ogief-achtige leercurve die vlak begint, dan oploopt, en vervolgens weer afvlakt.

noot 2002. Oorspronkelijke schets vervangen door exacte leercurve voor verwachte beheersing ( = verwacht nut onder lineair nut over hele scorebereik). geconstrueerd met Algemeen Toetsmodel.

Belangrijker nog: de nu geplotte twee curven geven twee verschillende modellen weer: het opbouwmodel (de 'lage' curve), en het vervangingsmodel (de 'hoge' curve). Zie Mazur & Hastie over ongecompliceerde leermodellen (volledige referentie in Wilbrink, 1998).

De plot is gebaseerd op een proeftoetsresultaat van 5 goed uit 25 vragen, op het moment dat er twee leerepisoden zijn gedaan, op dat punt snijden beide curven elkaar dus.

FIGUUR 2. Verband tussen streefniveau (vertaald naar aantal daarvoor benodigde leerepisodes) en verwacht totaal benodigd aantal episodes om te slagen (herkansingsgelegenheden onbeperkt).

[noot 2002. Ik heb ondertussen een andere, eenvoudiger benadering ontwikkeld, waarbij op de horizontale as niet meer de proportionele stofbeheersing, maar het aantal geïnvesteerde of totaal te investeren leerepisoden. Dat geeft een realistischer beeld van de situatie waar de student voor staat.

De 'lage' curve correspondeert aan de leercurve volgens het vervangingsmodel, in Figuur 1. De 'hoge' curve idem aan het opbouwmodel. De afgebeelde situatie is die waar de toets uit 25 vragen bestaat, en de cesuur ligt bij 21 goed.]

In de tekst van het paper is het gebruik van 'streefniveau' gehandhaafd, en 'tijd' in plaats van 'episoden,' de originele toetslengte van 50 is nu 25, de originele cesuur van 31 is nu 21, wat de lijn van het betoog niet aantast. De getallen die in de tekst worden genoemd, stemmen daarom niet meer nauwkeurig overeen met de afgebeelde curven, maar zijn toch ongewijzigd gelaten. Waar sprake is van een streefniveau van .75, is in figuur 1 te vinden na hoeveel episoden dat wordt bereikt, en is in figuur 2 te zien dat voor het vervangingsmodel dat in de buurt van het optimum is.

Figuur 2 geeft voor verschillende streefniveaus in mate van stofbeheersing de verwachte tijd nodig om te slagen, voor een toets van 25 vragen, bij tevoren bekend gemaakte cesuur 21, en bij schatting van f(p) gebaseerd op 25 'waarnemingen' (een proeftoets van 25 vragen bijvoorbeeld).

Er is een wiskundig optimum, dat ligt bij een streefniveau van ongeveer .75, de kans een willekeurige vraag over de stof zoals die in de toets voor kan komen goed te kunnen beantwoorden. (Preciezer: het streefniveau is het gemiddelde van f(p).

Belangrijker is op te merken dat er een breed gebied is van ongeveer optimale studiestrategieën, van .65 tot .85. Een deel van de tragiek van conjunctieve regelingen zit er juist in dat het van groot belang is dat de student zijn streefniveau of studiestrategie zo hoog mogelijk kiest, want het levert de hoogste stofbeheersing op. maar dat er geen middelen zijn om te verhinderen dat hij lage streefniveaus kiest, die hem evenveel studietijd 'kosten' maar een veel lagere stofbeheersing opleveren.

Het verhogen van de cesuur is daar geen oplossing voor, omdat dan een aantal van de studenten die al een hogere strategie zouden volgen, hun strategie niet zullen (kunnen) verhogen en daardoor tot het afleggen van herkansingen gedwongen worden. Bovendien zou dan de toets scherper gaan selecteren onder studenten die wat meer moeite met de studie hebben.

Gaan studenten in werkelijkheid volgens de hier uitgezette strategie te werk? Het is waarschijnlijk dat in grove en intuitieve vorm veel studenten inderdaad dit soort strategie volgen. Onderzoek van studievoortgangsgegevens voor de groep studenten die uiteindelijk de studie ook met een behaald examen afsloot (een kleine groep geniale studenten uitgezonderd) zal mijns inziens ook niet tot verwerping van dit model leiden. Voorwaarde is dan wel dat er onbeperkt herkanst kan worden (waaraan in de propedeuse meestal niet voldaan zal zijn), toetsen niet al te ondoorzichtig zijn, en de plaats van de cesuur ongeveer bekend is aan de studenten. Daarbij moet er rekening mee gehouden worden dat studenten die gezakt zijn hun ware stofbeheersing in de regel zullen onderschatten, met een beterdan~bedoelde stofbeheersing aan een herkansing deel zullen nemen. Door dit effect kan de indruk ontstaan dat het laten herkansen inderdaad effectief is, terwijl er inwerkelijkbeid slechts sprake is van een regressie-effect.

Maar de vraag is niet òf studenten zo studeren. Het punt is dat ze gestimuleerd moeten worden om op deze wijze te studeren, in de eerste plaats in hun eigen belang, in de tweede plaats om het onderwijssysteem via de te hanteren examenregeling beter beheersbaar te maken.

Is het aantal herkansingen beperkt, dan gaat heel dit model voor optimale studiestrategieën niet meer op. Omdat het examen conjunctief is, moet de student nu berekeningen maken welk risico hij kan nemen om voor een afzonderlijk studieonderdeel niet te slagen binnen het aantal gegeven toetsgelegenheden, om het risico voor het examen in zijn geheel aanvaardbaar te houden. Voor de eerste toetsgelegenheid is het mogelijk op die manier een streefniveau te kiezen dat een redelijke studietijd vraagt. Voor een herkansing is meestal de beste strategie zo veel mogelijk studietijd te besteden, om het zak risico zo klein mogelijk te maken, hoewel het meestal niet klein genoeg te krijgen is.

Er blijkt hier sprake te zijn van een heel wezenlijk verschil tussen twee vormen van conjunctieve examenregeling die oppervlakkig gezien slechts op een ondergeschikt punt van elkaar verschillen.

Het is ongewenst het aantal herkansingen per vak te beperken, daardoor worden studenten die van die herkansingen (door pech) gebruik moeten maken voor onmogelijke opgaven gesteld. Het is niet moeilijk je voor te stellen welke negatieve effecten dit heeft op de studiemotivatie, hoe hierdoor studenten in stresssituaties terecht komen, of hoe hierdoor ook hun studie voor andere vakken doorkruist kan worden. Het is niet voldoende door compensatorsiche versieringen aan de examenregeling aan te brengen te proberen deze effecten te vermijden: het is voor de student niet eenvoudig om in zijn studiestrategie rekening te houden met de mogelijkheid om met een enkele onvoldoende (mits) te slagen, hij zit nog midden in de slag en kan niet overzien hoe zijn overige studieresultaten er precies uit gaan zien.

Hoe zit het nu met de studiestrategie onder een compensatorische regeling? Op dezelfde wijze als bij de conjunctieve regeling kan de student voor iedere toets zijn streefniveau zo kiezen dat hij met een bepaalde waarschijnlijkheid tenminste een bepaald resultaat boekt. Voor alle nog af te leggen toetsen gezamenlijk gaat het er om dat hij bij redelijke streefniveaus (die binnen zijn capaciteiten en de beschikbare tijd liggen) een verwacht totaal studieresultaat heeft dat een 'veilig' stuk boven de miniinumeis ligt. Met het vorderen in de studie verminderen de onzekerheden, kent hij zijn eigen capaciteiten beter, en worden scherpere studiestrategieën mogelijk. De student bouwt voortdurend aan zijn examenresultaat, en mag verwachten dat over nog af te leggen toetsen pech en geluk zich ongeveer zullen uitmiddelen. Heb je voor al afgelegde toetsen pech gehad, dan zal dat met harder werken voor de overige vakken gecompenseerd moeten worden omdat eenmaal opgelopen pech zich niet uit zal middelen.

Voor studenten die enige moeite met de studie hebben is het mogelijk een strategie te volgen die op zich een te groot risico om te zakken voor het examen inhoudt, maar aangehouden kan worden zolang het mogelijk is door extra grote inspanningen op later volgende toetsen zo nodig het risico op een aanvaardbaar peil te brengen. Zie voor details van deze wisselstrategie mijn Examenregeling deel A (1978).

Op allerlei speciale gevallen ga ik hier niet in, zoals ik dat ook voor conjunctieve regelingen niet gedaan heb. Wél wil ik er op wijzen dat het juist voor studenten die wat moeite met de studie hebben noodzakelijk is hun studieinspanning gelijkelijk over alle vakken te spreiden, omdat dat bij gelijkblijvende totale tijdbesteding het hoogste verwachte studieresultaat oplevert (dat volgt uit de aard van de leercurve zoals die voor de meeste vakken zal gelden).

Deze analyse van wat rationele studiestrategieën onder beide vormen van examenregeling zijn, levert een bijzonder gunstig beeld van de compensatorische regeling op. Het moet immers mogelijk zijn door het geschikt kiezen van de minimumeis te bewerkstelligen dat studenten gemiddeld een niveau van stofbeheersing nastreven en ook bereiken dat gelijk is aan dat onder een conjunctieve regeling, maar dan zonder hen herkansingen te laten afleggen. En dat laatste is pure winst. Er zijn diverse kleinere voordelen, die ik hier niet zal opsommen, zoals de mogelijkheid die de conjunctieve regeling geeft om op een fors stuk zitvlees de eindstreep te halen wat bij compensatorische regelingen uitgesloten is.

Een speciaal geval vormen examens die over een gering aantal vakken gaan, zoals in de propedeuse in het w. o. typisch het geval is. Daarvoor zij~n mengvormen van conjunctief en compensatorisch misschien beter geschikt dan de laatste in zuivere vorm. Een overzicht van de mogelijkheden heb ik in Examenregeling deel A (1978) gegeven.

De volgende vraag is: gesteld dat studenten deze rationele studiestrategieën vol gen, hoe kun je dan bereiken door het schuiven met de gestelde eisen bijvoorbeeld dat studenten ongeveer de door jou gewenste streefniveaus gaan kiezen?
Na al het voorgaande is de vraag stellen haar beantwoorden.

Je zou voor alle in aanmerking komende eisen (op vak, respectievelijk examenniveau) kunnen bepalen welke strategieën (ongeveer) optimaal zijn, en vervolgens je keuze maken.

Maar toch is dit te simpel gedacht. Laat ik eerst eens naar de cesuurbepaling onder conjunctieve regelingen kijken.

Cesuurbepaling: onbeperkt aantal herkansingen
Het bepalen van de optimale cesuur moet een iteratief proces zijn: gegevens over vorige jaargangen studenten worden gebruikt om tot verbeterde cesuurbepaling te komen. Optimale cesuren zijn niet in één keer te vinden, al was het alleen maar omdat met het aanwijzen van de cesuur bewust het studiegedrag belnvloed wordt en onvoorziene effecten daarvan pas later ingecalculeerd kunnen worden.

Wordt het eerder geschetste tentamenmodel gehanteerd, dan worden herkansingen gezien als inherent aan de gehanteerde examenregeling, zodat bijvoorbeeld in studiecontracten vastgelegd kan worden dat ook bij verantwoorde studiestrategieën herkansingen te verwachten zijn, een berekenbaar risisco vormen. Het zo stellen is toegeven dat deze examenregeling absurde trekjes heeft: studenten die goede studiestrategieën volgen worden gedwongen af en toe te herkansen hoewel hun ware beheersing waarschijnlijk op een 'voldoende' niveau ligt. Maar dit is een absurditeit inherent aan deze examenregeling.

Vervolgens is er alle ruimte voor het voeren van een uitgesproken onderwijsbeleid, dat naar mijn smaak bij voorkeur een wettelijk vastgelegd beleid zou moeten zijn en niet door iedere vakgroep op eigen unieke wijze ingevuld zou moeten worden: Het beleid moet antwoord geven op de vraag of tijd nodig voor het afleggen van herkansingen (tijd als proxy variabele voor alle kosten aan herkansingen verbonden voor de student) voorzover deze voortvloeien uit ongeveer optimale studiestrategieën, toegerekend moet worden aan de programmatisch voor dit vak beschikbaar gestelde tijd, of tot 'uitlooptijd'. Accepteren van dit tentamenmodel betekent dat het af en toe een vak moeten herkansen voor het merendeel van de studenten onontkoombaar is, zodat de tijd die aan deze herkansingen besteed wordt gezien moet worden als normale studietijd, vallend binnen de nominale studietijd beschikbaar voor het doorlopen van het programma. Het beleid moet eveneens antwoord geven op de vraag voor welke deelgroep van studenten het bovenstaande moet gelden. Mijns inziens zou het moeten gelden voor de deelgroep die zonder al te grote tijdsoverschrijding slaagt voor het examen; dit laat nog enige speelruimte voor een precieze operationele definitie. En natuurlijk moet in bet geval grote groepen studenten veel meer uitlooptijd nodig hebben aannemelijk gemaakt kunnen worden dat de oorzaak daarvan buiten de studie ligt.

Is dit beleid geformuleerd, dan is daarmee in feite ook de cesuur vastgelegd, het vergt alleen het nodige onderzoek om de precieze cesuur te bepalen. Dat onderzoek heeft een longitudinaal karakter, wat niet bezwaarlijk hoeft te zijn zolang de aard van het vak niet sprongsgewijs sterk verandert (of de vorm van de toetsing).

Een andere manier om hetzelfde te zeggen: in het beleid wordt de tijdbesteding voor de student vastgelegd. Gegeven deze tijdbesteding is de optimale cesuur ook vastgelegd, omdat uit de beschikbare tijd teruggerekend kan worden naar de verwachte stofbeheersing die dat oplevert; en omdat die stofbeheersing moet overeenkomen met een ongeveer optimale studiestrategie is de plaats van de cesuur (ongeveer) daarmee bepaald. Kleine wijzigingen zijn daarin aan te brengen door de toetslengte te variëren, de moeilijkheid van de vragen te veranderen, of de omvang van de stof te wijzigen. Deze mogelijkheden kunnen uitgebuit worden wanneer de optimale cesuur zoals afgeleid uit de beschikbare tijd in bepaalde opzichten ongewenst is. Een mate van stofbeheersing die naar de mening van de docent duidelijk te laag is, wijst er op dat misschien de omvang van de leerstof te groot is, of dat er geprobeerd moet worden voor het eigen vak meer tijd in het studieprogramma beschikbaar te krijgen.

Ik pleit hier al met al voor een sterk relatieve cesuurbepaling, omdat bepalend voor de cesuur is hetgeen empirisch haalbaar blijkt te zijn, gegeven de bovenomschreven beleidsformulering. De studenten worden echter geconfronteerd met cesuren die voor hen de schijn hebben absoluut vastgesteld te zijn, en dat in zekere zin ook zijn omdat ze ruimschoots van tevoren bekend zijn.

Voor een praktische toepassing zijn geen tijdbestedingsgegevens nodig, behalve in die gevallen waar er reden is om 'afglijden' van de normen te vrezen. In dat geval zou voor de 'normgroep' waarvan hierboven sprake was, nagegaan kunnen worden of deze studenten door de bank genomen een in uren gemeten redelijke studie inspanning leveren. Wat 'redelijk' is valt relatief te bepalen aan vroegere gegevens, of gegevens uit vergelijkbare faculteiten of onderwijsinstellingen. Een probaat middel tegen dergelijk 'afglijden' is de verantwoordelijkheid bij de studenten te leggen, maar dat zou het gebruik van dossier diploma's vragen.

Cesuurbepaling: beperkt aantal herkansingen
Laten we om te beginnen er van uit gaan dat de cesuur voor toets en herkansing(en) dezelfde zal zijn. Een hogere cesuur voor herkansingen is onmenselijk, gezien de stress waaronder dat de student plaatst, terwijl een lagere cesuur wel overwogen zou kunnen worden madr te bedenken is dan dat dat gevolgen heeft voor studiestrategieën die studenten al voor de eerste toetsgelegenheid zullen volgen.

Voor de student is bij de keuze van zijn studiestrategie de daarbij te nemen kans te moeten herkansen een 'berekend risico', maar in tegenstelling tot de situatie bij onbeperkte herkansingen geldt nu voor de docent dat hij het onvoldoende beoordelen van deze studenten moet inwegen via een verliesfunctie; hij stelt ze immers bloot aan een reëel risico voor de herkansing(en) te zakken, en daarmee voor het hele examen. Verder zijn hier hetzelfde soort gegevens en beleidskeuzen relevant als bij onbeperkt herkansen. De docent (vakgroep) zit al bij de cesuurbepaling voor de eerste toets in een lastig parket, omdat ook het terecht onvoldoende beoordelen, omdat een student het er om welke reden dan ook even bij heeft laten zitten, als mogelijk gevolg heeft dat alleen op grond van een ook na de herkansingen staan gebleven onvoldoende bepalend is voor het zakken voor het hele examen.

Nog sterker speelt het laatste punt waar het gaat om de cesuurbepaling voor de laatste herkansing: iedere onvoldoende die hier gegeven wordt betekent in principe dat de betrokken student voor het hele examen zakt, ongeacht zijn andere studieresultaten. Er kunnen compensatorische verzachtingen in de examenregeling aangebracht 7ijn,maar op zijn best verschuiven deze het hier gesignaleerde probleem alleen maar.

Onder een conjunctieve regeling met beperkte herkansing neemt iedere docent (vakgroep) in feite selectieve beslissingen. Dat is een principieel onjuiste situatie. ook 'objectief' gezien is hier iets niet in de haak omdat selectieve beslissingen vallen op basis van zeer beperkte en relatief onbetrouwbare informatie. In theorie zou je met dit soort ongewenste mogelijke gevolgen rekening kunnen houden door een besliskundige analyse op te zetten, inclusief verliesfuncties voor alle mogelijke uitkomsten. Maar dit leidt tot ingewikkeldheden waarbij de problematiek van optimale cesuurbepaling bij criterium gerefereerde toetsing nog kinderspel is. En daarvan heb ik elders laten zien dat een goede oplossing langs besliskundige weg niet eenvoudig te verkrijgen is (Wilbrink, 1979).

Ik kan niet anders dan concluderen dat onder deze vorm van conjunctieve examenregeling de docent (vakgroep) in een onmogelijke positie gemanoeuvreerd is: verantwoorde cesuurbepaling is er niet bij, maar zonder cesuurbepaling zal het niet kunnen. Een geheel andere situatie dan bij onbeperkt herkansen!

Toetsing onder compensatorische examenregeling
Onder compensatorische regelingen worden geen voldoendelonvoldoende beoordelingen gegeven, en zullen meestal geen herkansingen gegeven worden. De docent heeft onder deze regelingen dan ook niet te kampen met het probleem waar de cesuur gelegd moet worden.

Voor de studie als geheel is er natuurlijk de vraag hoe deminimumeis voor het examen, de minimaal te behalen gemiddelde prestatie, bepaaldmoet worden. Dat zal van de aard van de opleiding, en de daarbij gepleegde toelatingsselectie, afhangen. Voor de doctoraal studie in het w.o. zal moeten gelden dat studenten tot deze fase van de studie toegelaten zonder problemen de minimumeis kunnen halen, wanneer zij een behoorlijke studie inspanning leveren. 'Zonder problemen' slaat dan op de studiestrategie die gevolgd wordt: studenten moeten de ruimte hebben een rationele studiestrategie te kunnen volgen, met een beheerst (en aanvaardbaar) risico te zakken voor het examen. Empirische controle op de juistheid van de gestelde minimumeis lijkt geen bijzondere problemen op te leveren.

Studenten worden bij een dergelijke regeling in staat gesteld, misschien zelfs wel uitgenodigd, om een nietmeerdannoodzakelijke studie inspanning te leveren, zoals onder conjunctieve regelingen ze uitgenodigd worden niet al te ver boven het juist 'voldoende' niveau te werken. Wil je studenten die 'beter' kunnen presteren daartoe uitnodigen, dan zou aan betere prestaties ook enig civiel effect verbonden moeten worden, bijvoorbeeld via dossier diplomering.

Voor allerlei kleinere problemen die de afzonderlijke vakken betreffen zijn regelingen op te stellen. Voor ieder vak moet de wegingsfactor bepaald worden waarmee het toetsresultaat meetelt voor het totaalresultaat (of het gemiddelde). Die wegingsfactoren zijn afhankelijk van de relatieve hoeveelheid tijd die voor een vak is uitgetrokken in het studieprogramma, is afhankelijk van het aantal vragen in de toets (wanneer het aantal vragen goed geteld wordt voor het totaalresultaat), is afhankelijk van de moeilijkheid van de toets, en is afhankelijk van de populariteit van het vak bij de studenten. Ik wil alleen het laatste punt even toelichten. Een vak dat door studenten gemeden wordt, niet omdat het te moeilijk zou zijn maar omdat de aard van het vak het enthousiasme van de studenten niet kan wekken, loopt onder een compensatorische regeling het risico dat studenten er minder dan de bedoelde studietijd in steken. Dat is te verhelpen door het resultaat voor dat vak behaald een groter gewicht te geven, waardoor het aantrekkelijk wordt er toch de bedoelde hoeveelheid studietijd in te steken.

Het overleg over toe te kennen wegingsfactoren hoeft niet op groter problemen te stuiten dan het overleg zoals dat onder conjunctieve regelingen plaats vindt over de tijd die binnen het programma aan de diverse vakken toegemeten zal worden. Een aantal 'bijstellingen' van wegingsfactoren kan objectief vastgelegd worden, zodat daar niet over onderhandeld hoeft te worden (bijvoorbeeld: moeilijker worden van de toets teeft een evenredige vergroting van de wegingsfactor tot gevolg). Het aanvullen van de compensatorische regeling met minimumeisen per vak is waarschijnlijk af te raden: wanneer er keuzevrijheid bestaat in het vakkenpakket is het een beetje onzinnig, en zijn de vakken verplicht dan doet de student er goed aan niet te laag te scoren.

Effectvergelijking tussen conjunctieve en compensatorische regelingen

Na al hetgeen gezegd is over studiestrategieën en beleidsmogelijkheden, is de conclusie welhaast onontkoombaar: compensatorische examenregeling is het meest effectief.

Immers: onder compensatorische regelingen komen geen overbodige herkansingen voor, terwijl onder conjunctieve regelingen vrijwel alle herkansingen noodzakelijk zijn om het systeem te handhaven maar geen inhoudelijke betekenis hebben. onder compensatorische regelingen ook geen cesuurproblematiek meer. Onder compensatorische regelingen is de studie beter programmeerbaar, volgen studenten allen in meer gelijk tempo het onderwijs, is de totale studieduur beter beheersbaar dan onder conjunctieve regelingen.

Zolang geen duidelijke nadelen van het cornpensatorisch regelen gesignaleerd worden die uniek zijn voor deze regelingen, bij conjunctieve regelingen niet voorkomen, is met deze argumenten het pleit beslecht.

Op één mogelijk bezwaar tegen compensatorische regelingen wil ik kort ingaan. Het zou dan mogelijk zijn om bepaalde vakken te sloffen, die toch als essentieel voor de studie beschouwd worden (althans door de betrokken docenten). Daar kan het volgende op geantwoord worden: ten eerste kunnen voor de hand liggende maatregelen genomen worden wanneer iets dergelijks in de praktijk zou blijken; ten tweede zou zo'n verschijnsel ook wel eens aan het in dat vak gegeven onderwijs te wijten kunnen zijn, dan moet dat maar aantrekkelijker gemaakt worden; ten derde is het ook onder conjunctieve regelingen mogelijk vakken te verwaarlozen, er met in werkelijkheid 'onvoldoende' stofbeheersing uiteindelijk toch voor te slagen; ten vierde zijn juist de zwakkere studenten onder een compensatorische regeling genoodzaakt hun studie inspanning gelijkelijk over alle vakken te verdelen, zij kunnen het zich eenvoudig niet veroorloven bepaalde vakken te verwaarlozen; ten vijfde getuigt het genoemde bezwaar van enig cijferfetisjismé: de relatie tussen voor een bepaald vak behaalde studieresultaten en hoe in de latere beroepspraktijk informatie over dezelfde onderwerpen verzameld en toegepast wordt is moeilijk aantoonbaar; tenslotte betekent een individueel laag cijfer nog niet dat de stofbeheersing van deze student werkelijk zo laag is: voor lage cijfers is de beste schatting van de ware stofbeheersing altijd hoger (door meetfouten van de toets), en ligt de schatting van de strategie die de student gevolgd heeft nog weer hoger.

Wie geen genoegen wil nemen met dit soort argumentatieve afweging van vcsordelen en nadelen krijgt het wat moeilijker. ook dan staan verschillende wegen open om beide soorten examenregeling ten opzichte van elkaar te evalueren, ook zonder direct tot een experimentele vergelijking over te hoeven gaan. Een mogelijkheid is om empirisch uit te zoeken of studenten ongeveer het soort studiestrategie volgen als door mij geschetst voor conjunctieve regelingen met onbeperkte herkansingen. Eventueel zou je nog uit kunnen zoeken of studenten, als de nodige informatie daarvoor beschikbaar is en voorlichting gegeven wordt, minder intuitief en meer beredeneerd in hun strategiekeuze te werk gaan. Volgen studenten dit soort strategieën, dan is het aannemelijk dat zij onder een compensaterische regeling in staat zijn de daarbij passende rationele studiestrategie te hanteren. En dan is het mogelijk onder de aanname dat de student rationele studiestrategieën volgt voor beide te vergelijken examenregelingen 'door te rekenen' wat de verwachte stofbeheersing en de verwachte tijdbesteding (per vak of voor de hele studie) zal zijn. Ben je in staat dit soort berekening te maken, dan is het mogelijk door wijzigingen in de specificaties van één van beide regelingen ofwel de totale verwachte stofbeheersing, ofwel de totale verwachte tijdbesteding voor beide regelingen aan elkaar gelijk te maken. Welke regeling dan de gunstigste verwachting voor de 'vrije' variabele heeft, verdient dan de voorkeur.

Natuurlijk is het op voorhand duidelijk dat bij gelijkstellen van de totale verwachte stofbeheersing de compensatorische regeling het zal winnen van de conjunctieve, omdat hoe je het ook wendt of keert onder de conjunctieve regeling noodzakelijk tijd verloren gaat aan (onnodig) herkansen, terwijl onder de compensatorische regeling geen tijdverlies voorkomt. Omgekeerd, moet de totale verwachte tijdbesteding gelijk zijn (vier jaar onder beide regelingen), dan zal om dezelfde reden de verwachte stofbeheersing onder de conjunctieve regeling lager uitvallen dan onder de compensatorische.

Dit is de grote lijn. Daarnaast zijn er nog detail kwesties, bijvoorbeeld hoe het nu zit met selectie van de 'ongeschikten' onder beide regelingen, wat de gevolgen zijn van 'zakken' voor het examen onder beide regelingen, etc. In het algemeen kan gesteld worden dat conjunctieve regelingen minder beheersbaar en controleerbaar zijn dan compensatorische (o.a. op dat punt van selectie van 'ongeschikten'), ook slechter onderzoekbaar.

(1) f(y) = ∫ f(y,p) dp = ∫ f(y|p) dp

f(y) is negatief hypergeometrisch verdeeld

f(y|p ) is binomiaal verdeeld

f(y) = voorspellende kansverdeling voor de toetsscore

f(p) = waarschijnlijkheidsverdeling voor ware beheersing (of streefniveau).

(2) E(t) = ½ u + ½ u/s.

½ u = 'tijd' (als proxy variabele voor alle kosten nodig voor een herkansing (op hetzelfde streefniveau)

s = kans om te slagen

E(t) = verwachte waarde voor totale 'tijd' nodig om te slagen.

Literatuur

Cronbach, L.J., Gleser, G.C., Psychological tests and personnel decisions. Urbana: University of Illinois Press (1957) 1965.

Hills, J.R., Use of measurement in selection and placement. In: Thorndike, R.L. (ed) Educational measurement. Washington, D.C.. National Council on Education, 1971.

Jackson, G.B., The research evidence on the effects of grade retention. Review of Educational Research, 1975, 45, 613-636.

Naerssen, R.F. van, Over optimaal studeren en tentamens combineren. Openbare les. Amsterdam: Swets and Zeitlinger, 1970. html

Naerssen, R.F. van, Het derde tentamenmodel met een toepassing. Tijdschrift voor Onderwijsresearch, 1976, 1, 161-171.

Novick, M.R., Jackson, P.H., Statistical models for educational and psychological research. London: McGrawHill, 1974.

Salomon, G., Heuristic models for the generation of aptitude treatment interaction hypotheses. Review of Educational Research, 1972, 42, 327 344.

Wilbrink, B., Examenregeling deel A., Studiestrategieën. Amsterdam: COWO, Oude Turfmarkt 149, 1978. html of in gereviseerde vorm (voorzover gereed) html

Wilbrink, B., Enkele radicale oplossingen voor criterium gerefereerde grensscores. Tijdschrift voor onderwijsresearch, Tijdschrift voor Onderwijsresearch, 1980, 5, 112-125. html

Sinds 2005 is het Algemeen Toetsmodel als instrument voor iedereen beschikbaar op mijn website: Algemeen Toetsmodel. De presentatie is in het Engels, het model heet daar het SPA-model: Strategic Preparation for Achievement testing. In feite is het model opgebouwd uit een grotendeels cumulatieve reeks modulen, ieder moduul is een instrument op zich, dat in de vorm van een Java applet op de website beschikbaar is voor eigen analyses, simulatie, onderzoek, or whatever. Reken tot het 'whatever' ook: commentaar, suggesties en kritiek aan mijn (email) adres.

Recent zijn universiteiten druk in de weer om hun numerieke rendementen omhoog te brengen, daar verplicht door een convenant met OCW. Een aantal universiteiten zetten in op meer compensatie (minder vrliestijden), zodat de thematiek nu weer helemaal actueel is. Vandaar een meer actuele webpagina: 14compensatie_en_rendement.htm met bijeengebrachte literatuur, en annotaties erbij.

Ivo Arnold (2011). Compensatorische toetsing en kwaliteit. Tijdschrift voor Hoger Onderwijs, 29, 31-40.

Inge Rekveld (1994). Een examenregeling zonder compensatie in het Nederlandse hoger onderwijs? Een vergelijking tussen compensatie en conjunctie. [Heymans Bulletins, HB-94-1150-SW, met bijlagen, o.a. opmerkingen van expert-panelleden Hofstee, de Gruijter, Cohen-Schotnus en Wilbrink] Tijdschrift voor het Hoger Onderwijs, 12, 210-219.

Wilbrink, B. (1995). Studiestrategieën: het sturen van investeringen in de studie. ORD. html

Robert K. Linn (2008). Methodological issues in achieving school accountability. Journal of Curriculum Studies, 40, 699-711.

Ben Wilbrink (1980). Beleid bij tentamens en examens. voordracht Nationaal Congres T.U. Eindhoven in A. I. Vroeijenstijn (Red.): Kwaliteitsverbetering hoger onderwijs. Vierde nationaal congres onderzoek van het wetenschappelijk onderwijs. Voorburg: Stichting Nationaal Congres, 380-409.html

Ben Wilbrink (1980). Toetsen, herkansen, studievertraging:Achterliggende mechanismen. Onderzoek van Onderwijs, 9, 7-11. html

Onderwijs Research Dagen 1979, in K. D. Thio & P. Weeda (Red.), Examenproblematiek, p. 29-43. ORD bundel. Den Haag: SVO.

Universitaire examenregeling: conjunctief of compensatorisch

Ben Wilbrink

Universitaire examenregeling: conjunctief of compensatorisch

Literatuur