Tweet





compensatorische examenregelingen en studierendementen in het hoger onderwijs


juli 2016


Dit is een onderneming n.a.v. de druk op universiteiten en hogescholen om hun studierendementen te verhogen. Verschillende instellingen hebben hun propedeutisch examen meer compensatorisch gemaakt. Daar is onrust en onzekerheid over.


Het gaat evenwel om een oude discussie, en om ingrepen die in de testpsychologie juist vanzelfsprekend zijn. Kort gezegd: voor ieder vak een zogenaamd voldoende cijfer eisen komt neer op verspilling, mogelijk enorme verspilling.

Wat voor testpsychologen vanzelfsprekend is, blijkt dat voor bestuurders en andere direct betrokkenen niet te zijn. Vandaar een probleem om de informatie over te brengen. Ik heb daar in een ver verleden meermalen publicaties aan gewijd, nieuw is het allemaal dus niet.

Testpsychologen zijn dan weer een ander volkje dan methodologen in psychologisch onderzoek. Recent hebben een aantal methodologen zich in de problematiek verdiept: Smits, Kelderman en Hoekman zie hier. Methodologen aan een universiteit zijn ook docenten, en dat kan best wringen. Er moet dus een antwoord komen op een artikel dat mijns inziens meer verwarring schept over compenseren dan het er duidelijkheid over verschaft. Nu is het ook verdraaid lastige thematiek, reden waarom we onze rendementsproblemen in het onderwijsveld voortdurend maar niet doeltreffend weten aan te pakken. Een korte reactie schrijven op een artikel dat heel veel overhoop haalt is eigenlijk onbegonnen werk. Afijn, toch maar proberen.




Eerste beginselen eerst


22 maart 2017


25 maart 2017 eerste beginselen 2e versie

Een paar eerste beginselen op basis waarvan een goede examenregeling in elkaar is te zetten. Begin dus bij fundamenten.


Als verschrikkelijk oude rot op deze thematiek ben ik gelukkig in staat een of twee lagen dieper te kijken dan al diegenen die voor het eerst in hun bestaan op dit ondermaanse zich tot compensatie in examenregelingen moeten gaan verhouden. Het idee is om niet met de simpele vraag wel of niet compenseren te beginnen, maar met beginselen op basis waarvan een examenregeling gebouwd zou moeten worden. Een forse omtrekkende beweging dus, maar zie hoe boeiend deze beweging kan zijn!

Ik denk dat ik een insteek zoals deze hier voor het eerst gebruik, maar mijn geheugen kan mij verschrikkelijk bedriegen. Zo bleek dat ik in 2001 al eens een goed overzicht over compensatie op papier heb gezet, kennelijk met de bedoeling deze te publiceren maar dat blijkt er toch niet van gekomen.


Ben Wilbrink (2001). Examens doeltreffend regelen. html


Onderwijs kent geen absolute normen voor toetsen/examens. Waar gaan we houvast zoeken: time-on-task van studenten op orde.


Voor velen is dit misschien een verrassende stelling. Bedenk dat tot eind 19e eeuw het beoordelen in het onderwijs ging in de vorm van rangordenen van leerlingen/studenten naar het totaal van de fouten die ze hadden gemaakt. In die 19e eeuw, de eeuw van nauwkeurig meten en bijhouden van statistieken, is dat rangordenen vervangen door de in zekere zin gestandaardiseerde vorm van cijfergeven (Wilbrink, 1997). De oppervlakkige indruk van objectiviteit die onze cijfers geven, berust dus nergens op: het is pseudo-objectiviteit. Eigenlijk wist iedereen dat al wel, maar we doen ons best in het dagelijks leven te blijven geloven in het sprookje van cijfergeven als iets objectiefs, als iets eerlijks.

Oké, we hebben in feite dus geen absolute normen voor de prestaties van studenten. Maar dat is wel een probleem, want die prestaties zullen wel beslissend zijn voor de vraag of examenregeling A beter is dan regeling B. Een tussenvraag is dan: hoe komen studieprestaties tot stand, hebben we daar een eenvoudig model voor? Ja, een eenvoudig model dat zich goed leent om het denken over studieprestaties scherp te houden is te vinden in Tromp & Wilbrink (1977). Niet dat die auteurs de geniale uitvinders zijn, het gaat om een model dat goed weergeeft dat studieprestaties het gevolg zijn van persoonlijke capaciteiten, motivatie, en bestede tijd. Althans, voorzover het gaat om wat studenten er zelf aan doen.

Het gaat nu even om die tijdbesteding, dat is onze reddende engel. Het moet immers zo zijn dat studenten die de nominale tijd investeren, dan ook horen te slagen. Time on task. Absoluut een cruciaal gegeven in de vormgeving en dus ook de evaluatie van onderwijs.

Twee dingen pro memorie: de task doet er enorm toe, evenals de kwaliteit van inspanning. Multitasken tijdens de studie is dodelijk. Studiemethoden verschillen sterk in doeltreffendheid: herlezen en onderstrepen van de leerstof is tijdverlies, actieve methoden werken beter en kunnen misschien onderdeel zijn van de examenregeling. Tijd besteden aan flauwekulopdrachten is verspilling.


Denk vanuit het standpunt van de student: studenten moeten het doen, creëer randvoorwaarden die time on task optimaliseren.


Gek genoeg zien we maar zelden dat beleidsmakers, onderzoekers, maar ook leraren, zich ervan bewust zijn dat niet zij zelf, maar leerlingen en studenten de hoofdactoren in het onderwijs zijn. Al die maatregelen waarbij er geen seconde is nagedacht over gedragsconsequenties voor diezelfde studenten dreigen dus alleen daarom al plat te vallen. Het is de enorme verdienste geweest van Robert van Naerssen (1970) om niet alleen de besliskundige benadering van examens te promoten, maar dus ook de plaats van de student als primaire beslisser daarin. Op het tweede plan komt dan de docent, of de commissie die het OER opstelt. In het volgende kom ik daar nog meermalen op terug; die relatie tussen primaire en secundaire beslissers is razend interessant. Van Naerssen nam deel in de Afdeling Examentechnieken van A. D. de Groot, en ook De Groot (1970) legde het primaat bij de student: toetsen moeten door studenten doeltreffend zijn voor te bereiden. In die voorbereiding moet de time on task dus optimaal zijn. Daar kom ik ook nog op terug. Langs verschillende wegen komen Van Naerssen en De Groot op hetzelfde punt uit: het gaat erom hoe de student in het spel zit, en dat is voorafgaand aan de toets of het examen zelf. Ik benadruk dat maar, omdat toetsdeskundigen er in veel discussies stilzwijgend van uitgaan dat het er niet toe doet hoe studenten zich op de toets hebben kunnen voorbereiden. Maar een toets is geen psychologische test; de core business van de toets zit hem juist daarin dat studenten zich er gericht op voorbereiden. Bij de psychologische test is dat precies andersom (Wilbrink 1986). Wist u dat er Nederlandse richtlijnen zijn voor toetsgebruik? In de editie 1988 (de laatste) van de N.I.P. Richtlijnen is dat cruciale onderscheid tussen toetsen en testen nadrukkelijk aan de orde in het hoofdstuk over toetsen.

Ook langs juridische weg is het evident dat de positie van de student het uitgangspunt moet zijn, en niet bijvoorbeeld het comfort van de organisatie of de docent. Job Cohen (1981) heeft dat in zijn proefschrift Studierechten uitgewerkt, dat nog steeds het enige handboek voor dit onderwerp is. Het boek is zeldzaam, maar Job was er blij mee dat ik het hele boek gescand beschikbaar heb gemaakt zie beneden. Dat studenten zich doeltreffend moeten kunnen voorbereiden op toetsen heet bij Cohen het kenbaarheidsbeginsel. Het is geen algemeen beginsel van behoorlijk bestuur, maar is af te leiden van het fair play en het vertrouwensbeginsel. Het vertrouwensbeginsel: de student moet erop kunnen vertrouwen dat hij tot een voldoende resultaat kan komen wanneer hij afgaat op de informatie van de docent.

Ik noem de rekentoets ook hierom als voorbeeld: eerste beginselen zijn niet een academisch abstract speeltje. Dat half miljard is opgetekend uit de mond van de staatssecretaris, ongeveer twee keer de omvang van het Fyra-drama. En het is niet zo dat actoren niet waren gewaarschuwd: op alle keuzemomenten lagen er contra-expertises voor (jazeker, had ik ook een hand in). Die actoren moeten dan wel in staat zijn die boodschappen te begrijpen, en het lef hebben ernaar te handelen. Zal het ook zo gaan bij discussies over voorstellen voor meer compensatoire examenregelingen? U bent er zelf bij.

Doeltreffend kunnen voorbereiden is dus wezenlijk voor iedere toets en ieder examen. Het kan dus niet zo zijn, en dat is echt het laatste wat ik er nu over opschrijf, dat de vragen van afgenomen toetsen geheim worden gehouden.

M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs Proefschrift Rijksuniversiteit Leiden. Zwolle: Tjeenk Willink. deel 1 (t/m blz 100), deel 2 blz 102-149, deel 3 blz 150-197 en deel 4 bijlage, samenvatting, literatuur, index

NIP (1988). Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: Nederlands Instituut van Psychologen. Tweede editie. [Hoofdstuk] 8. Toetsgebruik in het onderwijs. http://www.ben-wilbrink.nl/Richtlijnen_Toetsgebruik_in_het_onderwijs.pdf


Waarborg dat studenten zich doeltreffend kunnen voorbereiden op toetsen


Studenten die onzeker zijn over de studiekeuze die ze hebben gemaakt, zijn niet geneigd om volle bak te gaan in de voorbereiding op de eerste toetsen of tentamens. Als ze dan toch de studie staken, is dat niet een gevolg van slechte toetsresultaten, maar zijn beide het gevolg van een onzekere studiekeuze.

Op dezelfde manier zullen studenten die niet goed weten wat er in het examen van ze wordt verwacht eerder minder dan meer tijd steken in de voorbereiding erop. Daar vliegt de time on task het raam uit. De vraag is nu op welke manieren die doeltreffende voorbereiding valt te verbeteren, en hoe diverse examenvarianten hier presteren.


[dit is een tamelijk uitgebreide thematiek, die ik toch maar kort wil behandelen. Ik zit er nog op te broeden. Punten bv: grote toetsen opsplitsen in een aantal kleinere; langere toetsen zijn beter voorspelbaar dan kortere [steekproef!], dat is interessant want een volledig compensatoir examen is een heel lange toets, terwijl een streng conjunctief examen bestaat uit reeks relatief veel kortere toetsen; enzovoort]


[De Groot 1970] [stel hoge eisen aan toetskwaliteit]


. Gooi geen informatie weg (die ‘onvoldoende’ gemaakte toets). Stapel geen verlies op verlies (ga uit van zero herkansingen).


. Beoordeel practica eenvoudig als ‘voldaan’ [De Groot: Handelingsonderdelen], plak er niet een ‘afsluitende toets’ aan vast.


. Voeg kleine vakken samen tot 1 groot vak. Toets grote vakken eerst in de vorm van vrijstellende deeltoetsen (compensatorisch)


. Hoe combineer je dan cijfers voor die grote vakken: compensatorisch. En wees daar niet kinderachtig in (kernvakken vo, brrr).


. Zoek in de literatuur voorbeelden van een dergelijke aanpak voor de examenregeling. O.a. proefschrift Janke Schotanus.



Janke Schotanus gaf enkele jaren terug een key note op de ORD in Leiden: bekijk de video daarvan nog eens


Janke Cohen-Schotanus (19 juni 2015). Maatregelen ter verbetering van het rendement in het Hoger Onderwijs: waar is de evidentie? Keynote OnderwijsResearchDagen 2015 Leiden. keynote en powerpoint


. Meerdere instellingen hebben nu ervaring opgedaan met meer compensatoire examenregelingen; leg ze langs de beginselenlat ;-)


. Wees op je hoede met adviezen van methodologen die vooral over terecht en onterecht goede of foute beslissingen oreren.


. Streng maar rechtvaardig: zoek de balans tussen waardering van prestaties en de time on task die daarin is geïnvesteerd.


. Het is mogelijk om de werking van een examenregeling te simuleren. Dus ook om verschillende varianten te vergelijken.


. Los daarvan of iemand zo’n programma schrijft: het is van belang te beseffen dat de werking van een examenregeling exact is te maken.


. Iedere examenregeling is compensatorisch (bv vragen binnen toetsen), weet wat je doet bij stellen van absolute aftestgrenzen.


. Toetsen zijn geen meetinstrumenten maar steekproeven. Neem toetsscores nooit absoluut (wiskundig model bv binomiaalverdeling)


. Als toetsen steekproeven zijn, hoe kun je studenten daar dan op afrekenen? Het is een spel, hè? Zorg voor eerlijke spelregels


. Het is overigens al heel lang bekend dat compensatorische examenregelingen zo’n honderdmiljoen aan besparingen opleveren ;-)


. Maar zoals wel vaker in het onderwijsveld valt te constateren: beleidsmakers blijven domme dingen doen.


. Oké, dit was allemaal telegramstijl, met slechts hier en daar een bron. Ik zou een goed stuk moeten schrijven ;-)








Ophouden met denken in categorieën voldoende/onvoldoende, terecht/onterecht geslaagd/afgewezen.

Ik maak een omweg, door eerst een soort blog (voor Examens) te schrijven over de ongelukkige gewoonte in het onderwijsveld om te categoriseren naar voldoende en onvoldoende, geslaagd en niet geslaagd, waardoor het vaak niet lukt om behoorlijke wiskundige modellen op te stellen.


Vooral piekeren en palaveren over beoordeling van afzonderlijke vakken is een ernstige vorm van kokervisie (maar er is een uitzondering op, zie beneden). Mijn zorg is dus ook: kunnen we het grotere verband zien waarbinnen examens en hun regelingen een eigen plaats hebben? Dan gaat het dus om voorspellen op langere termijn, niet alleen of uiteindelijk een ho-studie succesvol wordt afgesloten, maar ook wat over de verdere levensperiode de bijdrage aan de samenleving en het eigen welbevinden is (theorie van het menselijk kapitaal). Het maakt het er even niet eenvoudiger op. Zoals de lezer van deze webpagina al snel merkt: alles houdt met alles verband, en het kunnen zien van verbanden is nu juist een van de moeilijkste verworvenheden die experts onderscheiden van nieuwelingen op terrein X of Y. Dat ik veel naar eigen onderzoek verwijs heeft een eenvoudige verklaring: mijn belangstelling voor compensatorische examenregelingen vloeit voort uit een bredere belangstelling naar selectie en toetsen, ik heb in eigen onderzoek al vele dwarsverbanden gelegd.


Even snel de belangrijkste punten op een rij

  1. Bij personeelsselectie is de doelvariabele de bijdrage aan het realiseren van de doelen van de organisatie, in het bedrijfsleven: de winst (is kort door de bocht, maar het punt is duidelijk). Daar is een uitstekend besliskundig model voor, dat laat ook mooie simulaties toe (Wilbrink, 1990).

    Wat is het grotere verband waarbinnen de propedeutische studie is geplaatst? Helpt het genoemde selectiemodel om ook hier een geschikte modelbenadering te vinden?

    Bij personeelsselectie is er meestal een sterke randvoorwaarde (constraint): een x-aantal plaatsen beschikbaar.

    Als het aantal plaatsen geen randvoorwaarde is, bij numerus-fixusopleidingen althans geen randvoorwaarde die direct richting kan geven aan het beoordelingsproces, welke randvoorden zouden dan kunnen helpen?

  2. Al eind 19e eeuw maakte Edgeworth [zie hierbeneden] een eind aan het denken in termen van terecht/onterecht aangenomen/afgewezen. Een selectieprocedure (daar ging het over: voor de Engelse ambtelijke diensten) is een door-en-door stochastisch gebeuren. Dat is ongemakkelijk voor iedereen, voor de kandidaten in het bijzonder. In een wereld van onzekerheden zullen we nooit weten of een specifieke selectieprocedure resulteert in de best denkbare uitkomst. Voor de kandidaten is het van belang dat zij hun kansen kunnen vergroten door zich extra voor te bereiden; of ook: te weten dat kandidaten met sterkere capaciteiten betere kansen maken, wat niet unfair lijkt. En dat afkomst althans in de selectieprocedure zelf geen rol speelt.
  3. het inhoudelijke verschil tussen juist wel en net niet voldoende is nihil en kan nooit het verschil in behandeling van de betreffende leerlingen/studenten/kandidaten rechtvaardigen. Wat kan dat dan wel? Zie daarvoor aan het eind van de 19e eeuw: Edgeworth.
  4. Juist daarom is het beginsel van De Groot 1970 zo belangrijk: er moet doeltreffende voorbereiding mogelijk zijn
  5. Dan nog: het is niet vanzelfsprekend voor ieder selectieprobleem zo’n wedloop te organiseren, soms is het beter een eenvoudig alternatief te kiezen zoals loten.
  6. Toch zien we om de haverklap dat er voor selectie, toetsen en examens in het onderwijs modelletjes worden opgesteld waarin er gehakt wordt op de beslissingscategorieën: als we voldoendes en onvoldoendes uitdelen, en toetsen zijn steekproeven, dan zijn er ook onterechte voldoendes en onvoldoendes. Dat klinkt niet onredelijk, maar het is wel onredelijk.
  7. Modelleren in dit soort situaties moet besliskundig, maar dan wel op een verstandige manier. Want wat zien we typisch gebeuren: ook besliskundige benaderingen hanteren vaak die valse categorisering, in plaats van de evident benodigde kansverdeling over een of meer continue doelvariabelen.
  8. Is dit niet een kwestie van ruw versus verfijnd modelleren? Nee, de onterechte categorisering gaat vaak gepaard met andere misverstanden, zodat dergelijke modellen niet slechts ruwe modellen zijn, maar misleidende modellen.
  9. Is het mogelijk om een getal te koppelen aan de vraag hoeveel erger het is een kandidaat ten onrechte toe te laten, dan ten onrechte af te wijzen? Ik moet laten zien dat dit niet consistent kan, dat het dus niet kan.
  10. Nog onverlet dat strategisch gedrag hier buiten beschouwing blijft, maar in onderwijs is er altijd sprake van strategisch gedrag (Van Naerssen 1970 modelleerde dat juist). Niet alleen van leerlingen en studenten, trouwens (Coleman gaf een onderhandelingsmodel voor betrokken partijen, zie Wilbrink 1992).






Eerst maar even een kladje met de punten die voor bespreking in aanmerking komen.


1. Het gaat om de wijze van combineren van resultaten op examenonderdelen tot de uitslag van het examen. En dus niet allereerst om de afzonderlijke examenonderdelen (toetsen). Van Naerssen gaf dat in de titel van zijn inaugurele rede in 1970 al helder aan.



2. Iedere examenregeling is compensatorisch, laten we daar geen misverstand over laten bestaan. Er zijn verschillen in de mate en aard van compensatie. Een zogenaamd volledig conjunctieve examenregeling — ieder examenonderdeel moet ‘voldoende’ zijn — is een examenregeling waarin het uitsluitend binnen de examenonderdelen is toegestaan volledig te compenseren. Je mag bijvoorbeeld vier keer patiënten laten overlijden in plaats van genezen, als je maar vaak genoeg er wèl in slaagt de juiste actie te kiezen.


3. De verleiding is groot om bij discussie over compensatorische regelingen meteen maar te beginnen met een en ander door te rekenen of misschien zelfs wel te simuleren. Het risico is dan groot dat er aannamen worden gedaan (en/of aannamen verborgen blijven) die de hele oefening tamelijk zinledig kunnen maken. Een veronderstelling die zelden echt serieus wordt genomen: al naar gelang de examenregeling, zullen studenten zich anders voorbereiden op de afzonderlijke toetsen. Lees de inaugurele rede van Van Naerssen om daar een beetje gevoel voor te krijgen. Dat betekent dat het niet echt zinvol is om berekeningen over slaagpercentages te gaan maken voor een examenregeling die geheel anders is, uitgaande van de resultaten die zijn behaald onder de vigerende examenregeling. Dat wordt helemaal te gek wanneer de rekenaars uitgaan van als voldoende, respectievelijk onvoldoende beoordeelde resultaten op de onderscheiden examenonderdelen.


4. Ingewikkelde redeneringen opzetten voor varianten van combinaties van examenonderdelen heeft niet zo gek veel zin, wanneer niet eerst helderheid is verschaft over het meest eenvoudige examen: het examen met een enkele toets. De vraag is: hoe is het mogelijk om voor dit eenvoudige examen te bepalen waar de grens tussen zakken en slagen moet komen? De vraag zo stellen is bijna hetzelfde als stellen dat het antwoord moet berusten op een besliskundige analyse. So far so good. Maar dan. Want wie kennis neemt van de literatuur over cesuurbepaling loopt het risico te verzanden in allerlei hocus-pocus-methoden. Met een klein beetje geluk vind je de klasse van compromismethoden van Hofstee. Maar we gaan natuurlijk niet voor het compromis, maar voor een principieel juiste methode. Laat ik die nu al eens geschetst hebben: Wilbrink (1980b).

Ik moet er meteen bij zeggen dat ik naar dit oude werk verwijs met een bijbedoeling: in mijn 1980b maak ik duidelijk dat zogenaamd besliskundige analyses die werken met aantal terecht/onterecht afgewezen/doorgelaten intern tegenstrijdig zijn. Voorbeeld van een proefschrift dat op deze onjuiste methodologie berust is dat van Van de Gaag [ik zoek de gegevens nog wel op], met Don Mellenbergh als promotor. Het spannende is dat al eind negentiende eeuw door Edgeworth erop is gewezen hoe met de waarschijnlijkheden bij vergelijkende selectie moet worden omgegaan. Het is nooit te laat om de klassieken er nog eens bij te nemen. Ook het Cito analyseert graag in abstracto over wat er kan gebeuren bij wijzingen in examenregelingen, en gebruikt dan de onjuiste methodiek van die terecht/onterecht afgewezen/doorgelaten kandidaten. Het gaat dus ergens over.

Literatuur



Robert V. Lindsey, Jeff D. Shroyer, Harold Pashler & Michael C. Mozer (accepted for publication 2013). Improving students' long-term knowledge retention through personalized review. Psychological Science Hal Pashler website


Goes further than the title suggests: might present a model for adaptive/formative testing too. Might be a nice technique to study effects of changes in rules for combination of grades into end-of-course grades [Dutch: examenreglingen die meer of minder compensatorisch zijn met al dan niet vrijstellende deeltoetsen]



Ivo Arnold (2011). Compensatorische toetsing en kwaliteit. Tijdschrift voor Hoger Onderwijs, 29, 31-40. [niet vrij online] abstract


Aan de hand van empirische data uit de eigen opleiding laat Arnold zien dat het oude adagium uit onderwijsonderzoek nog altijd opgaat: studenten zijn meestal prima in staat om eventuele tekorten in beheersing van de stof zelf weg te werken, zodra dat nodig is. Het is koudwatervrees om vast te houden aan voor ieder vak een ‘voldoende’ als een soort waarborg dat het dan met de verdere studie wel snor zit (en anders niet). Dan heb ik het nog niet eens gehad over de toevalligheden in toetsuitslagen, toevalligheden die veel ernstiger zijn dan docenten doorgaans vermoeden.

Uit de discussie de volgende conclusie:

“De in dit artikel besproken resultaten suggeren de volgende optimale inbedding van compensatorische toetsing in de examenregeling. De examenregeling biedt studenten de mogelijkheid om vijven die in een reguliere tentamenronde worden gehaald te compenseren. Als zij hier niet in slagen, en een resultaat lager dan een vijf halen, dan dienen ze het desbetreffende vak alsnog met een zes of hoger af te sluiten in de herkansingsronde (of in het volgende collegejaar). Met andere woorden, resultaten behaald na de eerste reguliere poging vallen niet onder de compensatieregeling.”



F. M. Lord (1962). Cutting scores and errors of measurement. Psychometrika, 27, 19-30. preview & Research Bulletin.


Lord doet hier een theoretische oefening om effecten te laten zien van conjunctie versus compensatie. Dat zou je ook met een simulatieprogramma kunnen onderzoeken, zoals van Wilbrink (1990).

Een latere analyse is Huynh Huynh (1982).



Ben Wilbrink (1990). Complexe selectieprocedures simuleren op de computer.Amsterdam: SCO. (rapport 246) pdf   bijlagen [bijlagen 304k pdf]


Als dit programma complexe selectieprocedures kan simuleren, dan is het ook bruikbaar om varianten van examenregelingen te simuleren. De broncode is beschikbaar in de bijlagen. Het programma is gecompileerd voor Apple systeem 9 (ook onder Classic), en draait helaas dus niet meer onder de nieuwere systemen waar de Classic-emulatie uit is geschrapt. Ik heb geloof ik zelf geen oefeningen gedaan met verschillende examenregelingen, dus dat is nog een mooi project voor een handige student psychologie met psychometrie als specialisme.



Ben Wilbrink (1980a). Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor Onderwijsresearch, 5, 49-62. html


Dit artikel is een aanloop naar het vervolgartikel. Het schetst wat de besliskundige benadering inhoudt. Ik moet het nog eens opnieuw bestuderen. Let op figuur 4a: hier is de oorsprong te zien van het denken in terecht en onterecht afgewezen of toegelaten kandidaten. Die redenering deugt niet vanzelfsprekend in gevallen waarin het niet echt gaat om een categoriaal verschil dat moet worden voorspeld, zoals geslacht man/vrouw, sluit de opleiding af met een diploma ja/nee. Ook veel psychologen die denken dat een formele analyse van een selectiesituatie toch niet zo moeilijk kan zijn, weten deze valkuil niet te ontwijken. In mijn eigen geschriften uit de zeventiger jaren heb ik de fout ook regelmatig gemaakt, als ik het goed heb.



Kim Dirkx (2014). Putting the Testing-effect to the Test. Why and When is Testing Effective for Learning in Secondary School? Proefschrift Open Universiteit persbericht


Het belang van dit onderzoek voor de thematiek van compensatoire examenregelingen is een beetje zijdelings, maar het is er wel: tussentijds toetsen levert op zich al leerwinst op, wat wijst in de richting van mogelijke winst in termen van doelmatigheid. Dat zoeken we nog wel verder uit. Promotie in april. Ik zie op internet geen online-versie van het proefschrift. Via Google Scholar "Kim Dirkx" evenmin. Nog maar even geduld dan.



Francis Y. Edgeworth (1888). The statistics of examinations. Journal of the Royal Statistical Society, 51, 599-635. [JSTOR has the pdf]


An authorized summary of this and a second article is published in the little book by P. J. Hartog (1918). Examinations and their relation to culture and efficiency. London: Constable. pdf scan of book

Een grondlegger (profile) van de statistiek (history of statistics) legt hier uit dat examens in behoorlijke mate toevallige uitkomsten geven, en hoe daar verstandig mee om te gaan.



Ben Wilbrink (1979). Universitaire examenregeling: conjunctief of compensatorisch. Onderwijs Research Dagen 1979, in K. D. Thio & P. Weeda (Red.), Examenproblematiek, p. 29-43. ORD bundel. Den Haag: SVO. webpagina




Inge Rekveld (1994). Een examenregeling zonder compensatie in het Nederlandse hoger onderwijs? Een vergelijking tussen compensatie en conjunctie. [Heymans Bulletins, HB-94-1150-SW, met bijlagen, o.a. opmerkingen van expert-panelleden Hofstee, de Gruijter, Cohen-Schotanus en Wilbrink] Tijdschrift voor het Hoger Onderwijs, 12, 210-219. [niet online beschikbaar]




Ben Wilbrink (1980). Beleid bij tentamens en examens. voordracht Nationaal Congres T.U. Eindhoven in A. I. Vroeijenstijn (Red.): Kwaliteitsverbetering hoger onderwijs. Vierde nationaal congres onderzoek van het wetenschappelijk onderwijs. Voorburg: Stichting Nationaal Congres, 380-409. webpagina




Ben Wilbrink (1992). The first year examination as negotiation; An application of Coleman's (1990) social system theory to law education data. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. 1149-1152). Enschede: University of Twente. webpagina


Dit is een werkelijk spectaculair paper, dat het wegens druk, druk, druk, niet heeft gehaald tot een publicatie in een internationaal toptijdschrift. Op een interessante dataset verzameld in de propedeuse rechten aan de UvA in een reeks van jaren, is de sociale systeemtheorie van James Coleman toegepast. Dat leverde een MMMT-matrix op met dermate hoge coëfficiënten dat daar het eerder gebruikte ‘spectaculair’ door wordt gerechtvaardigd. Dat betekent in concreto dat dit casus het mogelijk maakt een aantal speculaties over wat er gebeurt in de loop van een typisch propedeusejaar aan een Nederlandse universiteit, de grond in te boren. Nou ja, ze te ontkrachten. Het idee dat er sprake is van een impliciete collectieve onderhandeling tussen studenten enerzijds, en docenten anderzijds, is een levensgrote waarschuwing om bij ingrepen in de examenregeling niet uit te gaan van logisch lijkende redeneringen, maar gebruik te maken van wat uit de gedragswetenschappen bekend is dat er kan gaan gebeuren.


Numerieke rendementen


We zouden het bijna vergeten, maar de huidige belangstelling voor compensatorische regelingen komt voort uit de bij convenant afgedwongen noodzaak voor de onderwijsinstellingen om hun numerieke rendementen te ‘verbeteren’. De aanhalingstekens geven aan dat het nog maar de vraag is of verhoging van numeriek rendement altijd wel een verbetering is. Het streven om numerieke rendementen in de greep te krijgen is al oud. Laten we eens zien.

Houd in de gaten dat numeriek rendement nogal verschillende betekenissen kan hebben, bijvoorbeeld al naar gelang de nadruk ligt op het behalen van het betreffende examen (of juist niet), of de tijd die voor dat behalen nodig is.

Numeriek rendement is een statistische grootheid, die niet alleen afhangt van de kwaliteit van het databestand dat aan de berekening ten grondslag ligt, maar die bovendien kan verduisteren dat studenten die voor deze opleiding onderwijskunde lijken te falen, zich ook kunnen hebben ingeschreven (gelijktijdig, of volgtijdelijk) voor een opleiding wiskunde waar ze schitterende resultaten boeken. Een aantal commissies en onderzoekers hebben zich in de loop van de tijd over deze thematieken gebogen, waarvan ik de mij goed bekende hier noem.






Commissie Studieduur van de Academische Raad (1964).



Willem Begeer (1968). Numeriek rendement. Het selectieproces in het wetenschappelijk onderwijs. (handelsuitgave van dissertatie bij J. Tinbergen) Wolters Noordhoff.


Merkwaardige studie, tikje losgezongen van wat in de selectiepsychologie gangbaar is. Tijdsbeeld. Raakt aan onderwerpen die van belang zijn bij de thematiek van compensatorische examenregelingen. Ontkomt niet aan de noodlottige constructie van ‘terecht voldoende’ gegeven enzovoort. Jammer dat Jan Tinbergen kennelijk niet op de hoogte was van de artikelen van Edgeworth over selectie via examens.



Wilbrink, B. Uitval en vertraging in het W.O.: een overschat probleem. Onderzoek van onderwijs, 1980, 9 nr. 4, 14-18. webpagina


Dit was een oefening in analyse van CBS-statistieken over numeriek rendement. Dan blijkt de werkelijkheid toch niet helemaal te sporen met de beeldvorming over enorme aantallen studenten die afhaken en misschien wel in de maatschappelijke goot belanden. Natuurlijk niet.



Willem K. B. Hofstee (1985). Notities over onderwijsrendement en -kwaliteit. Universiteit & Hogeschool, 32/3, 145-153.



Marjon Voorthuis & Ben Wilbrink (1987). Studielast, rendement en functies propedeuse. Relaties tussen wetgeving, theorie en empirie. Deelrapport 2: Evaluatie-onderzoek Wet Twee-fasenstructuur. Amsterdam: SCO-rapport 112. ISBN 90-6813-135-4. html


In opdracht van OCW. Hierin een hoofdstuk waarin de numerieke rendementen zoals afzonderlijke opleidingen die opgaven, kritisch tegen het licht zijn gehouden. Het probleem was niet alleen dat iedere opleiding weer net iets anders omging met wat precies de betekenis van numeriek rendement is, maar ook dat er sprake moest zijn van creatief boekhouden.



Ben Wilbrink, Uulkje de Jong en Marjon Voorthuis (1993). No-show en low-show in het wetenschappelijk onderwijs. Hoe beurs-, tempo- en keuzeproblemen leiden tot schijnbare afwezigheid. Amsterdam: SCO-Kohnstamm Instituut. (rapport 339) html of pdf [de pdf-versie is met uitvoerig notenapparaat]


Zoals een kritische analyse van studierendementen zoals door het CBS opgegeven al in 1980 uitwees, komen er in studentenadministraties allerlei vreemde vogels voor die daar eigenlijk niet (meer) in thuishoren. Een bijzonder fenomeen is dat studenten zich wel hebben opgegeven voor een bepaalde opleiding, bijvoorbeeld psychologie aan de Universiteit van Amsterdam, maar daar in feite aan geen enkel tentamen deelnemen, of misschien wel een enkele keer deelnemen en dan een laag cijfer boeken. Uulkje de Jong noemde dat fenomeen de ‘no-show-studenten’. Het CvB van de UvA wilde toch wel eens weten hoe dat dan precies zat met die no-show. Ook landelijk ontstond er enige ophef over, nadat minister-president Kok het fenomeen — volkomen ten onrechte, hij had daar gewoon de feiten niet voor laten controleren — studenten beschuldigde van massale fraude met studiefinanciering.

No-show is natuurlijk niet een fenomeen van de vroege negentiger jaren. Hoewel de studentenadministraties nu waarschijnlijk wat strakker zijn dan enkele decennia geleden, is het toch heel waarschijnlijk dat er in de administraties van afzonderlijke opleidingen nog steeds studenten voorkomen die in feite niet serieus met de betreffende studie bezig zijn, maar dus wel meegaan in de bepaling van het numeriek rendement van de opleiding.

Wat bleek bij zorgvuldig onderzoek van enkele opleidingsadministraties en achter no-show-studenten aan bellen: vrijwel heel de no-show heeft tamelijk gewone verklaringen, waarvan de meest eenvoudige was dat deze studenten zich voor twee opleidingen hadden ingeschreven en er al gauw achter kwamen dat die ambitie moeilijk was te handhaven.



Riekele J. Bijleveld (1993). Numeriek rendement en studiestaking. Utrecht: Lemma. Proefschrift.


Probleem met die proefschrift is dat het oppervlakkig blijft. Dat wreekt zich in de aanbevelingen die worden gedaan om numerieke rendementen te ‘verbeteren’: dat zijn precies het soort maatregelen dat bestuurders altijd al hebben bedacht en genomen — zonder resultaat. Er is dus meer aan de hand met die rendementen dan op het eerste gezicht blijkt.



Mark Adriaans, Gerard Baars, Henk van der Molen & Guus Smeets (2013). Betere studieresultaten dankzij 'Nominaal is normaal'. Thema, nr 1, 30-34.


Dit artikel geeft de resultaten van de nieuwe examenregeling (per september 2011) voor de opleiding psychologie aan de EUR. De auteurs zijn er buitengewoon tevreden over: "Er blijken nu meer studenten in één jaar alle studiepunten uit het eerste jaar te behalen dan voorheen in twee jaar." De geschetste examenregeling lijkt me prima: cluster van 8 toetsen, en 5 practica. Strikt beperkt aantal herkansingen van twee, voor deze 13 onderdelen samen. De te toetsen vakken/blokken zijn na elkaar geprogrammeerd, niet naast elkaar, zodat er een stevig tempo van toetsen is, van meet af aan. Daar komt bij: een BSA-regeling die voorschrijft dat alle 60 studiepunten van het eerste jaar ook in dat jaar behaald moeten zijn (hier is ondertussen door de rechter een streep door gehaald: een dergelijk BSA is geen advies meer, maar gewoon selectie). De eisen zijn verder: gemiddeld tenminste 6,0 voor ieder cluster. Dus volledige compensatie binnen ieder cluster, zij het dat cijfers < 4,5 moeten worden herkanst. Oké, slaagt er nog wel iemand, dan? Ja, de resultaten blijken heel goed te zijn. Het is geen gecontroleerd experiment, maar aangenomen dat docenten niet anders oordelen dan de jaren ervoor, presteert deze nieuwe examenregeling bijzonder goed.
Een enkele opmerking, niet als kritiek bedoeld.

  1. De allereerste toets is voor studenten waarschijnlijk wat lastig in te schatten: sommige studenten zullen gedacht hebben goed voorbereid te zijn, en toch slecht blijken te scoren; dit moet wel een punt van aandacht zijn.
  2. Interessanter is de vraag of die maximaal twee herkansingen in de zomer niet kwijt zijn te spelen: al die extra toetsen ontwerpen en afnemen is een relatief kostbare zaak, en de vraag is wat de oefening eigenlijk toevoegt aan wat studenten al weten en kunnen — het blijft herkauwen van oude stof, herkauwen dat andere studenten niet doen. Met andere woorden: is het mogelijk een alternatief te bieden, bijvoorbeeld een of twee extra vakken die eind van het zomerreces worden getoetst? De winst is dubbelop: studenten leren er echt iets bij, en voor docenten is de toetsinspanning voor twee toetsen aanzienlijk minder dan die voor in totaal vijftien.
  3. Wat ik niet begrijp: waarom zouden practica (het tweede cluster) met een toets moeten worden afgerond? Ik verwijs hiervoor nog maar eens naar A.D. de Groot (1972: Selektie voor en in het hoger onderwijs) over P- en H-onderdelen: die handelingsonderdelen ga je natuurlijk niet ook nog eens met een toets afsluiten, het gaat erom dat de handelingen adequaat zijn verricht, dat er is geleerd van onvermijdelijke fouten.
  4. Een laatste puntje: de BSA regeling is wel erg streng, ik begrijp de aangevoerde reden ervoor (namelijk: een BSA van 40 geeft het verkeerde signaal af dat 40 ook wel goed is in plaats van de volle mep), maar het resultaat is dat de examenregeling nu zowel een bepaald niveau eist (een Nederlandse onderwijsopvatting), als een bepaalde tijd waarbinnen dat behaald moet zijn (een Angelsaksisch model). Houd in de gaten dat de nieuwe examenregeling dus een dubbel hakmes is, en op die manier ontmoedigend is voor studenten die het juist van een grote inzet moeten hebben omdat hun persoonlijke talenten overigens wat aan de magere kant zijn.
  5. Wat ik een beetje mis in dit artikel: het besef dat toetsen eigenlijk geen meetinstrumenten zijn, maar slechts steekproeven, en dus slechts uitkomsten geven die aanwijzingen geven, niet meer dan dat. Het probleem is dat ook docenten psychologie zich hiervan waarschijnlijk niet goed bewust zijn, en om die reden moeite zullen blijven houden met dat compenseren van cijfers. Discussie over compenseren zal telkens weer de kop opsteken, en dat vraagt iedere keer weer om heldere antwoorden op ingebrachte bezwaren. Afijn, op deze webpagina staan een paar heldere antwoorden, hoop ik maar.



Frans van Vught (vz.) (2 september 2014). Interventies uitval en rendement. Achtergronddocument. Reviewcommissie Hoger Onderwijs en Onderzoek. pdf


Ik ken deze commissie niet (zijn voorzitter wel), en ben dus wel benieuwd wat hier gebeurt. Frans stelt me niet meteen gerust, want ik lees toch in de eerste zin van zijn inleiding een kokervisie op alleen wat er in de eigen opleiding of instelling gebeurt. Immers, het is niet gezegd dat een strengere selectie aan de poort het rendement op landelijke schaal bezien verbetert: afgewezen kandidaten gaan immers een andere opleiding of dezelfde opleiding elders doen. Of selectie aan de poort gebeurt of in het eerste jaar van de opleiding door zelf-selectie: het is geen plaatsing in de meest belovende opleiding. ‘Meest belovend’ in de zin van toegevoegde waarde voor de kandidaat zelf zowel als voor de samenleving. Kortom, ik ga dit achtergronddocument met stevige achterdocht bestuderen.

Het is erg vervelend dat er geen auteurs van dit achtergronddocument zijn vermeld. Ik neem aan dat het niet het werk is van een of meer commissieleden. Maar wie heeft dit document dan opgesteld? Wie is intellectueel verantwoordelijk hiervoor? Of moeten we het alleen maar zien als de opbrengst van een zoekactie door een documentalist? Het geheel ziet er zeker uit als theorievrij googel-werk. Afijn, laat de tekst voor zich spreken. Iedere publicatie is gekenmerkt als ofwel experimenteel onderzoek, quasi-experimenteel of beschrijvend. Dat suggereert dat het een werkstuk van een onderzoeker is.



Comment on David Didau blog

I do not know if the following is useful, it is rather technical, and it certainly is not the received view in the world of assessment. Anyhow.


On ‘False positives and negatives’: in the psychometric literature this kind of talk is the usual way of treating the ‘unreliability of decisions’. More often than not, it is not the correct analysis of pass-fail decisions. The curious fact is that Edgeworth already in 1888 gave a fine treatment of the fairness of selection decisions (civil service exams), especially around the cut-off point.

Francis Y. Edgeworth (1888). The statistics of examinations. Journal of the Royal Statistical Society, 51, 599-635. here

An authorized summary of this and a second article is published in the little book by P. J. Hartog (1918). Examinations and their relation to culture and efficiency. London: Constable. pdf

Talk of ‘false positives and negatives’ assumes a threshold utility function on the variable (mastery, IQ, whatever) tested for. That is an extremely crude model of the value mastery has (for the institution?), not fair at all, in my opinion. However, it is not at all clear what a reasonable utility function on mastery could be, in particular situations. It is possible to try out a few functions, and do some robustness analyses. There is a catch: it is important to distinguish between stakeholders. The party that is being served by psychometricians is the institution (teacher, school, boss, firm). In educational assessment, however, the primary stakeholder is the (individual) pupil. The pupil should be in a position to be able to adequately predict the result on the coming assessment, for example by getting an opportunity to sit a try-out or preliminary assessment. The utility structure of the assessment is radically different for ‘school’ and pupil (institutional versus individual decision-making, a distinction made by Cronbach & Gleser, see below). In my feeling talk about reliability and validity of assessment should recognize the difference. The Standards do so in a general way by emphasizing the uses to which test scores are to be put. Ultimately, adequate models have to be developed; an example is the work by Robert van Naerssen (his work on selection was mentioned in the 2nd edition of Cronbach & Gleser 1965 Psychological tests and personnel decisions.), extended by myself here Even a simple model is complex, illustrating how talking in a loose way about reliability and validity of assessment will not bring us very far in specific circumstances—especially so where politicians have to be convinced.



Niels Smits, Henk Kelderman & Jan Hoeksma (2015). Een vergelijking van compensatoir en conjunctief toetsen in het hoger onderwijs. Pedagogische Studien, 92, 275-285. preview


Ik heb van deze bijdrage waarschijnlijk een eerdere versie al eens gezien, en was daar nogal van geschrokken. Eens zien hoe het er nu dan uitziet; de laatste zin van het artikel beveelt Wilbrink (1995) aan als uitgangspunt voor verdiepend verder onderzoek. Kijk, dat vind ik dan toch wel mooi. Daar gaan we dan.

Ik zal een reactie voor Pedagogische Studiën schrijven. Het komt goed uit dat de auteurs in het slot van hun artikel aangeven in mijn lijn van analyse verder te willen. Dat wordt dus een win-win situatie voor de verdere discussie. Ik zal hierbeneden aantekeningen maken direct op de tekst van het artikel. Voor een reactie in Pedagogische Studiën werk ik dat netjes om naar een in algemenere termen gesteld betoog.




20 november 2015. Het is me niet gelukt om snel een stuk in elkaar te zetten: ik moet opnieuw in de literatuur duiken. Een paar maanden later lees ik Smits c.s. paragraaf 4 nog eens door, en dan denk ik mijn reactie op deze paragraaf toe te sptsen. Twee redenen daarvoor:

  1. Smits c.s. hangen hier de discussie over compensatorische examenregelingen eigenlijk helemaal op aan de thematiek van onterecht zakken en onterecht slagen op toetsen. Dat komt dus goed uit: ik zal laten zien dat deze paragraaf 4 vooral onzin is, en daarmee het pleidooi van Smits c.s. tegen conpensatorische regelingen onderuit halen.
  2. Deze paragraaf 4 wemelt inderdaad van de misvattingen. Dat zijn vooral ook misvattingen die gebaseerd zij op de gangbare literatuur, zodat hier het verwijt aan Smits c.s. is dat zij kritiekloos onzin overnemen. Het is wel gewichtige onzin, als we een lijstje maken van wie allemaal hetzelfde beweerd hebben: Mellenbergh, Van den Brink, Van der Linden, en ga zo maar door. Dat wordt interessant. Ik gebruik de term ‘onzin’ bewust: het gaat hier niet om modellen die gewoon te simpel zijn om goed op de werkelijkheid te passen, maar om modellen die gewoon fout zijn en de gebruiker dus misleiden. Afijn, daarnaast staan er in deze paragraaf nog tal van termen en uitspraken die in een wetenschappelijk gefundeerd betoog allermins thuishoren. Ik zal er zo gauw mogelijk een lijstje van maken, want dat is eigenlijk al de helft van de uiteenzetting ;-) Eerst even een kleinzoon ophalen.





Aan steeds meer universiteiten en hogescholen in Nederland wordt overgegaan op, of nagedacht over het implementeren van, compensatoir toetsen ( .. ).

p. 275

Deze formulering miskent dat bij afzonderlijke toetsen de beoordeling eveneens compensatoir is: voor een ‘voldoende’ cijfer is het immers toegestaan een behoorlijk aantal fouten te maken, het maakt niet uit in welke opgaven dat is. Stel je voor dat je pas een ‘voldoende’ aftekening voor je toetst kunt krijgen bij een foutloos gemaakte herkansing! Het is van belang om met deze kritiek te beginnen, immers: wat is een examen anders dan een wat fors uitgevallen toets met een behoorlijk aantal verschillende onderdelen? Dat we ondertussen in het Nederlandse hoger onderwijs gewend zijn om examenonderdelen gespreid over de opleidingsduur af te nemen, doet daar niets wezenlijks aan af. Een examen is dus een lange toets, met het voordeel dat een lange toets heeft boven korte toetsen: het resultaat is beter voorspelbaar voor de studenten. Dat voorspelbaarheid iets anders is dan het psychometrische concept van betrouwbaarheid van examens, daar kom ik in het volgende nog uitvoerig op terug.

Hetzelfde punt is ook anders te formuleren: het gaat niet om een tegenstelling conjunctief-compensatoir, maar om de mate/kwaliteit van compensatie die de specifieke examenregeling biedt. De term ‘conjunctief’ is overbodig. Ik zal deze term dan ook zo weinig mogelijk gebruiken.

Tegelijkertijd zijn sinds enige jaren op het Nederlandse voortgezet onderwijs de eisen aangescherpt.

p. 275

Dat klopt (het gaat om de eindexamenregelingen): de kernvakkenregel staat nog maar weinig compensatie toe voor Nederlands, Engels en wiskunde op het centraal schriftelijk examen, en ook is er geen compensatie meer mogelijk tussen schoolonderzoek en centraal schriftelijk. Bij deze ministeriële regelgeving (De basis op orde, de lat omhoog) hebben stukken van de Onderwijsraad, Dronkers, en het Cito een rol gespeeld. De publicaties van het Cito (Van Rijn en anderen) zijn direct van belang voor de discussie over compensatoir toetsen, en ook door Smits c.s. gebruikt. Ik zal nog uitgebreid op die stukken ingaan.

De auteurs gaan uitleggen wat compensatoir toetsen inhoudt.

De nadruk ligt op een wetenschappelijke beschouwing van de argumenten die worden gegeven voor de keuze voor compensatoir toetsen.

p. 275

Oké, dat is een mooi doel. Ik doe mee.

De definitie van compensatoir toetsen van Rekveld & Starren, 1994, is niet gelukkig. Ik weet nog niet of het een parafrase is, maar goed, hier is wat Smits c.s. ervan maken:

Compensatoir toetsen houdt in dat men voor een studiejaar of cluster van vakken slaagt indien men gemiddeld over het jaar of het cluster een voldoende heeft.

p. 275

We beschouwen de kwestie wetenschappelijk, dus laten we eerst deze ‘definitie’ bevrijden van taalgebruik met surplus-betekenissen. Wie zegt dat het over voldoendes en slagen gaat? Laten we het neutraal houden, en spreken over een beslissing, die overigens ook best gelijk kan zijn aan een al dan niet gewogen score. En waarom zou het een gemiddelde moeten zijn? Waar het om gaat is dat een combinatie van scores de grondslag vormt voor een beslissing. Maar dat is niet uniek voor compensatoir toetsen! Immers, ook in een concreet casus dat iedere toets afzonderlijk ‘voldoende’ moet zijn gemaakt is er sprake van een combinatie van scores. Ik gaf eerder al aan dat er geen noodzaak is voor gebruik van de term ‘conjunctief’.

De overkoepelende vraag is dus: wat is in een gegeven situatie een optimale combinatie van scores? Ofwel: wat is een optimale beslissing? En voor wie dan, voor welke actor(en) of belanghebbende(n). Herken dit als een besliskundige formulering van het combineerprobleem. Ik heb wel een neutraal voorbeeld: Een instelling hanteert verschillende instrumenten en methoden voor de selectie van nieuw personeel. De actor is de instelling. De vraag is: wat is, gegeven de kenmerken en onderlinge verbanden van de instrumenten, de combinatie van scores die een optimaal resultaat van de selectieprocedure oplevert? Voor een antwoord daarop, zie Wilbrink, 1990. En nee, niemand heeft mij de afgelopen jaren gevraagd om deze eenvoudige techniek eens uit te werken voor meer of minder compensatoir maken van examenregelingen.

Dat denken in termen van voldoendes en onvoldoendes zet ons voortdurend op het verkeerde been. Een voorbeeld is wat er gebeurt in het voortgezet onderwijs: sinds de invoering van de kernvakkenregel vertonen de gemiddelde cijfers voor wiskunde B vwo een stijgende lijn. Alleen cijferfetisjisten denken dat hier sprake moet zijn van een reële stijging van het prestatieniveau. Er zijn in het onderwijs altijd compenserende mechanismen (ja, zo heet dat!) die in werking treden zodra beleidsmakers weer eens iets nieuws hebben bedacht en ingevoerd, en ja, dat is op zijn minst al sinds de negentiende eeuw bekend bij onderwijsonderzoekers. Ik kom op dit fenomeen later nog terug, want het is allemaal leuk en aardig om over examenregelingen te keuvelen, maar uiteindelijk is er een benchmark nodig waar niet zo makkelijk mee valt te sjoemelen: tijdbesteding van de studenten. Als eerste begin dan, nietwaar?

De gebruikelijke manier van toetsen in het hoger onderwijs zou zijn dat examenonderdelen ‘voldoende’ moeten zijn om voor het examen te slagen (Smits c.s. p. 276). Dat is kort door de bocht: er zijn ongetwijfeld veel examenregelingen waarin vormen van compenserende combinaties voorkomen. Een bekend casus is door Janke Cohen-Schotanus in haar proefschrift (1994) beschreven (zie ook Wilbrink 1995; op de ORD 2015 heeft zij in een keynote daar een mooie en bijzonder leerzame update van gegeven; de video-opname is online beschikbaar. Onderzoek van Wilbrink 1992a in de propedeuse rechten aan de UvA is een ander casus dat publiekelijk beschikbaar is. En pro memorie dan: binnen ieder examenonderdeel is meestal volledige compensatie toegestaan: maximaal x gemiste punten, als daar maar tenminste N-x behaalde punten tegenover staan (N is het maximum aantal te behalen punten, zoals bijv gebruikelijk in schriftelijke eindexamens van het CvTE).

Dan lijken Smits c.s. aan te sluiten bij wat zij als een gewoonte zien: dat de grens voor voldoende beheersing van de stof vaak bij 55% zou liggen (p. 276); daar komt zelfs een verwijzing naar publicaties van De Gruijter en Mellenbergh bij, maar die zullen daar niet van wakker liggen. Smits c.s. nuanceren het later (ik kom daar nog op terug), en dat is maar goed ook, want dit is natuurlijk ergerlijke flauwekul. Bedenk zelf een paar redenen waarom dat zo moet zijn.

En daarmee ben ik aan het eind van sectie 2.


3. Is compensatoir toetsen betrouwbaar?


We doen het al sinds mensenheugenis, dus het zal wel. Toch? Afijn, hier komt het veel misbruikte begrip betrouwbaarheid aan de orde. Het wordt een interessante sectie.

Zodra het over toetsen gaat, begint iedereen ook over betrouwbaarheid, en dat is bij verandering van examenregelingen niet anders. Smits c.s. willen er daarom duidelijkheid over verschaffen.

Bij studietoetsen gaat het dus niet om de betrouwbaarheid in klassieke zin, maar om de mate waarin meetfouten de precisie van zak-slaagbeslissingen aantasten. In het onderstaande zal blijken dat beide toetsregimes last hebben van onbetrouwbaarheid, maar dat ze verschillen in wat voor soort beslisfouten de overhand heeft.

p. 277

Maar hier wordt toch de ene verwarrende term door de andere vervangen—betrouwbaarheid door meetfouten, precisie, en beslisfouten—dat schiet niet op. Er zijn ernstige bezwaren aan te voeren tegen dit taalgebruik, dat overigens vrij algemeen wordt gebezigd in psychometrische kringen (ook in mijn eigen werk in de zeventiger jaren wel). Ik zal proberen die bezwaren glashelder uit te werken, gebaseerd op vooral Wilbrink 1980b (ja, ik ben gemeen: twee artikelen in 1980 bevatten alle informatie om miskleunen in latere jaren te voorkomen; maar iedereen heeft het druk met schrijven, aan lezen komen we niet meer toe ;-).

Laat ik eerst die malle meetfouten uit hun lijden verlossen. De suggestie die ervan uitgaat is dat een toets net zoiets is als een meetlat om lengte te bepalen: het aflezen van de lengte is niet oneindig nauwkeurig, en dat levert (meestal heel kleine) afwijkingen op. Een toets is evenwel niet een soort meetlat, maar iets volstrekt anders: een steekproef uit wat er over de stof kan worden gevraagd. Daarbij kunnen zich ook meetfouten voordoen, bijvoorbeeld omdat beoordelaars dezelfde antwoorden toch verschillend kunnen beoordelen, maar belangrijker is nu dat de ene steekproef een ander resultaat op zal leveren dan de andere (ook al zijn de verschillende steekproeven tau-equivalent, zoals Lord & Novick dat noemen). Een eenvoudig model daarvoor is: gegeven de ware beheersing van de kandidaat (neem dat nu maar even aan, for the sake of argument) is de score op een studietoets van n vragen binomiaal verdeeld. Smits c.s. weten dat ook, verwijzen naar het proefschrift van Wulfert van den Brink over binomiaalmodellen, maar maken er niet meteen mooi gebruik van. Dat binomiaalmodel is natuurlijk veel te eenvoudig, want niemand kent welke ware beheersing dan ook, maar het is een mooi begin. Zie ook Wilbrink SPA-project, dat op zijn beurt weer teruggaat op het tentamenmodel van Van Naerssen 1970. Begint u een beetje te zien hoe alles hier met alles verband houdt, en dat verhelderen van dat kader beslist noodzakelijk is? Wat zeggen Smits c.s. nu:

Het zij overigens opgemerkt dat meetfouten alleen een effect op de nauwkeurigheid van zak-slaagbeslissingen hebben in de buurt van de cesuurscore (zie ook, van Rijn, Béguin & Verstralen, 2012, p. 130).

p. 277


Dit is een halve waarheid. Laten we eens de tentamenmodel-benadering volgen, en uitgaan van de strategische positie waarin de kandidaten zich bevinden voorafgaand aan de toets. Om zich te verzekeren van een voldoende resultaat op de toets, hoe goed voorbereid moeten zij dan zijn? En is het wel mogelijk om 100% zeker te zijn van een voldoende resultaat? Voor het beantwoorden van deze vragen is een complexer model nodig, dat wiskundig reduceert tot het in de literatuur goed bekende betabinomiaalmodel (Wilbrink_SPA-predictor dat ik voor de duidelijkheid meteen maar een voorspellende toetsscoreverdeling noem. Dan blijkt dat ‘in de buurt van de cesuurscore’ met enige korrels zout is te nemen.

( . . . ) students with scores equal to the cut score will always have a 50% chance of misclassification.

Van Rijn c.s. p. 130

Is het bovenstaande citaat alleen maar slordigheid? Maar als het alleen maar slordigheid is, hoe slordig is de analyse van Van Rijn c.s. dan? Voordat er misverstanden rijzen: kandidaten met een score gelijk aan de cesuur kunnen niet fout worden geklassificeerd. Per definitie niet. Hier had voor Van Rijn c.s. en hun meelezers toch een batterij rode stoplichten moeten gaan branden. Heel dat begrip misklassificeren deugt niet in deze context. In de volgende sectie gaan Smits c.s. er op door. Ik sla de onduidelijke tekst over enkele simulatiestudies (p. 277-8) dan maar over.


4. Is een fout-negatief erger dan een fout-positief?


De titel is absoluut de verkeerde vraag, maar om dat helder te krijgen moet ik even stevig mijn best doen. Dit is besliskundig terrein, ook al benoemen Smits c.s. het hier niet zo. Deze sectie staat bol van slap geouwehoer over fout-negatief en fout-positief, daar is nou echt helemaal niets ‘wetenschappelijk’ aan terwijl de auteurs dat wel hebben beloofd. Kunnen we uit dit drijfzand geraken? Zeker wel.

Handig is om te beginnen met kandidaten die net onder danwel net boven de cesuur scoren: daar vallen dan verschillende beslissingen over terwijl niemand kan volhouden dat ze echt verschillende prestaties hebben geleverd. Adriaan de Groot (1972 Selektie voor en in het hoger onderwijs, als ik het goed heb, dat kijk ik nog na) vond dit dus helemaal niet zo fraai, maar slaagde er niet in om een rechtvaardiging te geven. Terwijl die rechtvaardiging echt iedere statisticus en zeker iedere psychometricus bekend hoort te zijn, want hij is op zijn minst al eind negentiende eeuw gegeven door Edgeworth. Ik geef de redenering kort weer. Die begint met de constatering dat iedere toets slechts een steekproef is, en die kan voor de kandidaat meer of minder gunstig uitvallen. Kwestie van toeval, dus. Een loterij eigenlijk (loting die is gewogen met de mate van stofbeheersing van de kandidaat, dat dan weer wel). Iedereen weet dat eigenlijk ook wel, ik vertel niets nieuws. Is het dan oneerlijk wanneer de ene kandidaat net slaagt, en een ander met slechts een enkel puntje minder zakt? Nee, want dit is een achteraf-redenering. De situatie moet in zijn strategische aspecten worden bekeken, zoals Smits c.s. uiteindelijk ook doen onder verwijzing naar het tentamenmodel van Van Naerssen 1970. De situatie vooraf is evident: een betere voorbereiding op de toets geeft een hogere kans om te slagen. Eerlijk genoeg? Nee, want zoals De Groot 1970 uitlegt is een extra voorwaarde dat de toets doeltreffend moet zijn voor te bereiden. Voor een psychologische test kan dat laatste dan weer niet, dan daar is dan de redenering dat wie betere capaciteiten heeft dan ook betere kansen heeft (om te worden aangenomen/toegelaten). Over dat belangrijke verschil tussen toetsen en testen, en welke consequenties dat heeft voor de methodologie van een en ander, zie ook Wilbrink 1986. Terug dan naar die fout-positieven/negatieven: in de buurt van de cesuur heeft het geen zin om in die termen te spreken over de genomen beslissingen. Oké, maar dan moet er dus een alternatieve methodiek of een alternatief model komen, laten we eens zien of dat inderdaad beschikbaar is.

De eerste stap op weg naar een alternatief model is: te laten zien hoe het model van fout-positief/negatief intern tegenstrijdig is. Het bewijs daarvoor is hopelijk tevens een constructief bewijs voor een beter model.

Ik wil hier dan een helder onderscheid maken tussen het perspectief van de studenten en dat van de instelling; Smits c.s. maken het onderscheid ook, maar op een te vluchtige wijze. Ik neem eerst de individuele beslisser: de student die zich gaat voorbereiden op de toets. Het mooie van deze sitatie is dat er voor de student een objectieve nutsfunctie over toetsscores is te construeren, gegeven de precieze regeling die voor de examens geldt (zie ook de figuur verder hierbeneden). Een en ander is zorgvuldig uitgewerkt te vinden in mijn The Ruling: How the result will count (his master's voice). Module four of the SPA model: Utility functions (first generation). webpagina. Lezen die tekst, want ik ga hem hier echt niet nog eens overschrijven. De oplettende lezer zal opmerken dat aan de wens van Smits c.s. (laatste zin van het artikel) al ruimschoots is voldaan ;-)

Wait a minute. Lees The Ruling toch nog maar niet: al die bomen vergroten de kans het bos niet meer te zien. Dat is in de kern ook het probleem met examenregelingen: dat is een zo complex onderwerp dat maar weinigen in staat zijn er echt iets zinnigs over te zeggen. Tot die weinigen behoren Willem Hofstee en de door hem op het goede spoor gezette Janke Cohen-Schotanus (echt even de moeite nemen haar keynote ORD 2015 te zien en horen!). Ik zal dus proberen nu in een paar zinnen/alinea’s duidelijk te maken wat het probleem is met de benaderring van Smits c.s. over de boeg van fout-negatieve/positieve gevallen. Nog even geduld, ik moet de theorie ook weer even boven water halen ;-)

Wat het erg lastig maakt, ook voor een oude rot (mijn eerste publikatie is 1977, en jawel: met enkele misvattingen die ik hier nu juist aan de orde stel): er spelen meerdere fundamentele misverstanden tegelijk. Ik zal dan toch proberen ze stuk voor stuk te behandelen, in hopelijk een handige volgorde:

  1. Is er een ware cesuur? Blunder in de literatuur (Van der Linden & Mellenberg; Van der Linden 1980): Voor besliskundige analyses bij criterium-gerefereerd toetsen moet de cesuur op de ware beheersing al bekend zijn, zodat deze analyses eigenlijk slechts een veredeld soort betrouwbaarheidsanalyses zijn. (deze blunder maakte in feite een einde aan een vruchtbare onderzoeklijn) (de blunder berust op een wiskundige fout) (besliskundige benadering is juist gewenst om die optimale cesuur op de ware beheersing te vinden, gegeven de condities van de examenregeling)
  2. Beslissingen zijn niet ofwel juist, ofwel onjuist (het model is niet het klassificeren in onderscheiden categorieën [mannetjes of vrouwtjes is daar een voorbeeld van]);
  3. In de literatuur vinden we de misvatting dat nutsfuncties horen bij ieder van twee beslissingsopties (voldoende of onvoldoende bijvoorbeeld); (dit punt, evenals het vorige, betreft een lock in op basis van publicaties in 1972 en 1973 van ACT) (voorbeeld van een lock in: het QWERTY-toetsenbord) Een voorbeeld van hoe het dan wel moet: de figuur toont een mogelijke nutsfunctie voor de student voor een tentamen in een compensatorische examenregeling; de zak-slaaggrens is reference genoemd, om surplus-betekenis van dat zakken en slagen buiten de deur te houden (True utility: What the result is worth (the student's calculation)

    Ruling468261.gif


  4. In de literatuur worden nutsfuncties (over doelvariabelen) en functies van verwacht nut (gegeven een mogelijke beslissing) verward, door elkaar gehaald, niet goed onderscheiden;
  5. In de literatuur (zoals werk van Wim van der Linden) worden besliskundige analyses vaak gedaan over alle deelnemers aan toets/examen/selectie (maar voor het vinden van optimale beslissingen is alleen analyse op deelnemers met gegeven score=X nodig) (in de besliskundige literatuur: het onderscheid tussen respectievelijk normal form en extensive form analyse) (of zoals Van Naerssen het droog formuleerde: de zak-slaaggrens is de score waarbij het mij om het even is de studenten een voldoende, danwel een onvoldoende te geven — hoeveel studenten welke andere scores hebben doet er niet toe).
  6. In de literatuur is de beslisser meestal de institutie (de docent), maar voor de docent draait er vrijwel niets om of zij het een danwel het ander beslist, of het moet de woede van studenten zijn ;-) (voor studenten daarentegen is de situatie een totaal andere: tenatemenmodel Van Naerssen etcetera) (upshot: de institutie die optimale resultaten wil, moet ervoor zorgen dat studenten optimale strategieën kunnen volgen die voor de institutie optimale resultaten opleveren. Ofwel, in besliskundig jargon: primaire beslissers zijn de studenten, de docenten zijn secundaire beslissers, zij moeten beslissen over wat voor die primaire beslissers de opties zijn. Zo kan hij wel weer even. Deze punten (ik heb er nog enkele vergeten), werk ik nu kort uit, onder verwijzing naar de relevante bronnen.
  7. Voor het vinden van een optimale examenregeling kan het best handig zijn om eerst eens een analyse voor het afzonderlijke examenonderdeel te maken, maar uiteindelijk moet het op het niveau van het hele examen worden gebracht inclusief de variant waar ieder onderdeel afzonderlijk voldoende moet zijn afgesloten (Smits c.s. doen zoiets in wel erg rudimentaire vorm in de volgende sectie).


25 augustus 2015. Ik heb de uitwerking van een en ander een tijdje laten liggen, omdat het toch veel en veel lastiger bleek dan ik in mijn eerste optimisme dacht. Ik schets opnieuw een grote lijn, hopelijk is dat het bos, en niet een opeenstapeling van gekapt hout.

Het probleem (combineren van toetsresulaten tot examenuitslag) laat zich mogelijk het best behandelen in de vorm van een stapelende opbouw van argumenten. Ik wil dan inderdaad beginnen met het eenvoudige model van een enkele toets waarop studenten slagen of zakken, en eindigen met een methodiek voor het vinden van redelijk optimale combinaties van toetsresultaten tot examenuitslagen. Daar zitten een behoorlijk aantal stappen tussen, en ieder van die stappen is bovendien allesbehalve vanzelfsprekend (want in tegenspraak met wat in de testliteratuur als de geaccepteerde visie geldt). Smits c.s. zitten stevig in de hoek van de received view, dan moet het lukken om het contrast goed uit te werken.

Laat ik beginnen met het drempelnutmodel zoals dat typisch in de literatuur, en bij Smits c.s. is te vinden. Dat model kent een aantal problemen die zich prima laten oplossen, ook onder de veronderstelling dat de belanghebbende bij het optimaliseren niet de student, maar de docent is. Niet de studenten, maar de instelling. Dat Smits c.s. werken met een nutsfunctie over ware beheersing van de stof is niet echt handig, maar voor een modelmatige uitwerking geen beletsel. Wat echt wel een probleem is: modelleren in termen van terechte/onterechte beslissingen. Ik zal aan de hand van een alternatief model laten zien dat het zonder deze onhandigheden kan. (Want onhandigheden zijn het: de terechte vraag is immers hoe valt te rechtvaardigen dat de ene student slaagt, de andere zakt, terwijl ze vrijwel dezelfde totaalscore hebben. En zoiets valt niet uit te leggen, zoals A. D. de Groot (1972) zich realiseerde, zonder het probleem op te kunnen lossen.)

De onmacht van het drempelnutmodel bij Smits c.s. zit hem hierin dat het criterium voor optimaliteit gezocht wordt in een kluwen van subjectieve inschattingen rond de betreffende toets zelf (waar ligt de cesuur in de ‘ware beheersing’, hoe ‘erg’ is een onterechte voldoende t.o.v. een onterechte onvoldoende, het moeten herkansen buiten het model zelf laten).

De koninklijke weg is om beheersing van de stof tot doelvariabele te nemen, en over die beheersing een (overal stijgende) nutsfunctie f(u) aan te nemen (en eventueel concreet te bepalen).

Neem ten behoeve van het model aan dat gezakte studenten later voor een nieuwe afname op moeten komen, en dat dat de enige herkansing is. Merk nu al vast op dat de consequenties van zakken voor beide toetsen afhangen van de aard van de examenregeling: die consequenties zijn contingent. Ik kom er later op terug, uiteraard.

Zoals in andere situaties van testgebruik is het ook hier wenselijk om een onderzoek naar validiteit te doen. Dat wordt lastig, want cruciaal is dat de student die bij de eerste gelegenheid zakt, dat ook meegedeeld krijgt. Het liefst zouden we immers voor een validiteitsonderzoek de situatie hebben dat na de eerste afname alle studenten te horen krijgen dat ze deel moeten nemen aan de tweede toetsgelegenheid. Een rare situatie? Het komt wel eens voor dat voor groepen examinandi een onderdeel ongeldig wordt verklaard, en dat iedereen het—jammer maar helaas— over moet doen. Als deze examinandi hun resultaat op de eerste toets kennen, hebben ze dus de gelegenheid zich te verbeteren door een extra studie-inspanning. Afijn, ons denkbeeldige valideringsonderzoek levert dus twee sets van toetsscores op. De vraag is nu: hoe volgt daaruit op welk punt de zak-slaaggrens op de beide toetsen (of op zijn minst op de eerste toets) optimaal is? Wat optimaal is, hangt af van het verwachte nut, en dat krijgen we in handen op basis van de nutsfunctie over ware beheersing en een geschikt statistisch model. Dat statistisch model kan eenvoudig beperkt zijn tot de verzamelde empirische data: een plot van de score op de eerste versus die op de tweede toets, voor alle deelnemers. Ruwe data zijn vaak wel erg ruw, misschien is het inzichtelijker wanneer de ruwe data worden vereffend (verschillende vereffeningstechnieken zijn daarvoor beschikbaar [Kolen], of statistische modellen [betabinomiaalmodel bijvoorbeeld]).

Wat het valideringsonderzoek concreet oplevert is voor iedere score X op de eerste toets een verdeling van scores op de tweede toets. Stel dat de toetsen 50 items hebben, kijk dan voor de studenten die 40 goed scoren op de eerste toets, naar de scores die zij op de tweede toets boeken. Zouden we onze nutsfunctie niet over de ware beheersing, maar over de behaalde scores hebben genomen, dan zou het verwachte nut bij herkansen van deze groep met X1=40 gelijk zijn aan de som over alle scores op de tweede toets van frequentie keer nut van de betreffende score. Idem voor de studenten die op de eerste toets X1=41 scoren; voor deze groep is het verwachte nut waarschijnlijk iets groter. Doe deze oefening voor alle scores op de eerste toets, en plot de resultaten.


verwacht_nut.png


Het resultaat is een geleidelijk sterker stijgende en dan afnemend stijgende functie. (Voor de hoogst scorenden op toets 1 geldt waarschijnlijk dat zij gemiddeld slechter scoren op toets 2 [regressie naar het midden], een kniesoor die daar op let ;-) (Strict genomen gaat het bij toetsscores zelf niet om verwacht nut, maar is het gerealiseerd nut; de verwachting zit hem als het ware hierin: dat andere groepen studenten het ongeveer gelijk zullen doen) (Aha, het laatste alleen wanneer overige omstandigheden gelijk blijven, dus de examenregeling niet verandert).

Waar komt nu de optimale cesuur te liggen? Dat is nog steeds knap lastig, maar er is een satisficing (Herbert A. Simon) oplossing mogelijk: leg de zak-slaaggrens bij score X=c waar het verwachte nut minder sterk stijgt dan bij de score X=c-1.

Als dit experiment uitkomt bij een cesuur zoals die toch al werd gehanteerd, dan weten we nu dat dat een redelijk optimale cesuur is. Is het echt een andere cesuur, dan krijgen we een beleidswijziging, gaan studenten zich anders gedragen, en moeten we het valideringsexperiment onder de gewijzigde omstandigheden overdoen. Enzovoort. Maar goed, maak er niet al te veel drukte over, kies een redelijke oplossing.

Wat hebben we nu bereikt? Een oplossing, binnen de gedane aannames, waaraan geen speculaties over een ‘ware’ cesuur ten grondslag liggen, noch over terechte/onterechte beslissingen en hoe erg die in onderlinge verhouding zijn. Het gedachtenexperiment is gedaan met waargenomen scores, maar het is niet echt lastig om het model uit te breiden naar ware beheersing en nut over ware beheersing. Met dat laatste winnen we overigens niets, want ware beheersing is een platonisch concept: het model wordt er vooral onbegrijpelijker mee. Dat wordt des te duidelijker wanneer de student zelf in beeld komt als de primaire beslisser, de strateeg over de eigen investering in de voorbereiding op de toets (tentamenmodel van Van Naerssen, 1970): de beloning voor de student is immers niet allereerst zijn ware beheersing van de stof, maar het cijfer dat hij of zij scoort, slagen of zakken, en de nutsfunctie over die doelvariabele (SPA-model module True utility: What the result is worth (the student's calculation)).

Ik denk dat de eerste bouwsteen hiermee is gelegd. Wie het model te eenvoudig vindt: groot gelijk, we gaan het ingewikkelder maken. Bovenstaand gedachtenexperimentje heeft natuurlijk een aantal problematische aspecten die in de weg staan om het te vertalen naar beleidsopties. Het is ook te formalistisch, in de zin dat de inhoud van het betreffende vak en het domein van de toetsvragen geheel buiten beschouwing is gelaten. Maar het is evident het geval dat vakken onderling (sterk) verschillen in de aard van de stof, de wijze waarop deze geleerd en beheerst moet worden, etcetra. Maar dat zijn voor beslsikundige cesuurbepaling geen onbelangrijke zaken! Voor het rekenonderwijs, bijvoorbeeld, zou het onderwijsdoel tenminste een geautomatiseerde beheersing van de elementaire bewerkingen op gehele, gebroken en decimale getallen moeten zijn. Rekening houdend met onvermijdelijke vergissinkjes zou op een dergelijk onderdeel een beheersing van rond de 90% een redelijk niveau van gevraagde beheersing zijn, de nutsfunctie over beheersing zou op zichzelf dan een ogief zijn die erg veel wegheeft van de afbeelding hierboven. Voor wat ingewikkelder rekenopgaven volstaat een eenvoudig model (zoals Wilbrink 1998) om een redelijk niveau van beheersing te bepalen. Etcetera. Allerlei kwesties rond examineren hebben juist te maken met merkwaardigheden die tot de traditie zijn gaan behoren, en die we beter vandaag dan morgen uit onze examens kunnen slopen. Een belangrijk probleem in die categorie is het speeltje van psychometrici: dat tentamenvragen vooral niet makkelijk moeten zijn; wat is dat voor onzin, hoe kun je zoiets in ernst voorstellen zonder de te toetsen stof te kennen? Afijn, lees eens de klassieker van De Groot en Van Naerssen uit 1969 over studietoetsen, en zie hoe zij op dat moment niet in staat zijn wetenschap en ideologie gescheiden te houden.


Ik ga even door op dat rekentoetsje dat is gericht op toetsen van mate waarin het basale rekenen is geautomatiseerd en dus heel snel gaat. Met als nutsfunctie over de schaal van beheersing zo’n ogief die zijn steilste helling heeft ergens tussen .8 en .9. Laten we zeggen dat er voor dit toetsje één herkansing is. Voor die herkansing is de nutsfunctie? Precies, het gaat om dezelfde rekenvaardigheid, de nutsfunctie is dus dezelfde. Laten we in ons gedachtenexperiment aannemen dat alle leerlingen ook de herkansing doen, bijvoorbeeld onder de conditie dat het hoogste behaalde resultaat zal gelden. Het experiment levert twee sets van rekenscores op. Aha, dan kunnen we dus voor iedere score op de eerste afname voor de betreffende deelnemers het verwachte, sorry: behaalde nut op de herkansing bepalen: de som over alle mogelijke scores op de herkansing van frequentie keer nut. En een plotje maken. Statistisch gezien is voor alle deelnemers de verwachting dat zij zich met die herkansing zullen verbeteren, maar niet alle verbeteringen zijn groot genoeg om die herkansing de moeite waarde te maken. Waar trekken we dan de grens? Moeten we niet tevens weten hoe groot die verbeteringen zijn t.o.v. de eerste afname? Maak dan voor de eerste afname eveneens een plot van frequentie keer nut voor alle scores. Afijn, dit is allemaal behandeld in Wilbrink 1980b, met correctie op de destijds gemaakte fouten wat betreft in rekening te brengen kosten (aantekening 7 augustus 2015 op die webpagina). Geruststellend: ik heb hier zojuist herontdekt wat op 7 augustus al noteerde.


80gif/80bGrens2.gif


gif/toetsen_HN.png



Thea van Lankveld & Silvester Draaijer (2010). Compensatorisch toetsen. (intern document).


Genoemd in Smits, Kelderman & Hoeksma.



Task Force Studiesucces (2009). Studiesucces: Rapport van de task force studiesucces. RU Leiden pdf ophalen


Genoemd in Smits, Kelderman & Hoeksma.



Werkgroep Studiesucces (2009). Studiesucces aan de Universiteit van Amsterdam. Universitaire Commissie Onderwijs. pdf


Genoemd in Smits, Kelderman & Hoeksma.



H. Adriaens (2010). Het ontstaan en de implementatie van het leerkrediet in het Vlaamse hoger onderwijs. Masterthese, U van Antwerpen.


Genoemd in Smits, Kelderman & Hoeksma. Vindbaar in Google, maar alleen via de cache binnen te halen.



Dato N. M. de Gruijter (2008). Al dan geen compensatie in de propedeuse. pdf


Genoemd in Smits, Kelderman & Hoeksma.



Rutger Bregman (12 juli 2013). Plofstudenten. De Volkskrant. webpagina


Genoemd in Smits, Kelderman & Hoeksma. Ik mag Rutger wel, maar dan weer niet hoe hij in dit stukje te keer gaat. Grappig blijft het. Jammer is dat hij compensatie zelf belachelijk maakt, in plaats van zich te concentreren op wat er zoal scheef kan gaan lopen (en dat kan, natuurlijk).



Ivo J. M. Arnold & W. A. van den Brink (). Onrust over diploma halen met onvoldoendes onterecht. De Volkskrant webpagina


Genoemd in Smits, Kelderman & Hoeksma.



Maartje Bakker (30 januari 2012). Vijven, en toch een UvA-diploma. De Volkskrant webpagina


Genoemd in Smits, Kelderman & Hoeksma.



Eline Peters & Joost Verhoeks (7 februari 2012). Met compensatie onvoldoende begint verschraling hoger onderwijs. De Volkskrant


Genoemd in Smits, Kelderman & Hoeksma.



Ben Wilbrink (1977). Cesuurbepaling. Uitgave in de serie docentenkursussen van het Centrum voor Onderzoek van het Wetenschappelijk Onderwijs van de Universiteit van Amsterdam. Kursus 6. webpagina




Ben Wilbrink (1978). Studiestrategieën en examenregeling.. Uitgave in de serie docentenkursussen van het Centrum voor Onderzoek van het Wetenschappelijk Onderwijs van de Universiteit van Amsterdam. Kursus 9. webpagina




Ben Wilbrink (1979). Universitaire examenregeling: conjunctief of compensatorisch. Onderwijs Research Dagen 1979, in K. D. Thio & P. Weeda (Red.), Examenproblematiek, p. 29-43. ORD bundel. Den Haag: SVO.


Genoemd in Smits, Kelderman & Hoeksma, als bron voor de definitie van conjunctief toetsen! In feite is het de presentate van een wiskundig model voor het combineren van examenonderdelen, geïnspireerd op het tentamenmodel van Van Naerssen_1970. Sindsdien is daar overigens nog wel het een en ander aan verscherpt.



Ben Wilbrink (1995). Studiestrategieën die voor studenten en docenten optimaal zijn: het sturen van investeringen in de studie. Korte versie in Bert Creemers e.a. (Red.), Onderwijsonderzoek in Nederland en Vlaanderen 1995. Proceedings van de Onderwijs Research Dagen 1995 te Groningen (218-220). Groningen: GION. html



Genoemd in Smits, Kelderman & Hoeksma. Zij verwijzen naar de in 1995 gepubliceerde samenvatting; op mijn website staat eveneens de tekst van het paper zelf, in de loop van de jaren aangevuld met nieuw verschenen relevante literatuur. Mijn oorspronkelijke analyse in 1995 bevatte de nodige missers, die ondertussen zijn hersteld (ik heb een en ander in de tekst zelf aangegeven, zodat duidelijk is wat de oorspronkelijke misvattingen waren, en hoe die zijn gecorrigeerd). Een uitvoeriger behandeling van de betreffende theorie is in het Engels gegeven in het spa_project.htm, in het bijzonder in de delen 4, 9 en 10 daarvan (het werk aan dat project is in 2005 onderbroken, en moet ooit verder worden voortgezet).



Robert F. van Naerssen (1970). Over optimaal studeren en tentamens combineren. webpagina


Genoemd in Smits, Kelderman & Hoeksma. Mogelijk is dit de eerste publicatie over het combineren van examenonderdelen binnen eenzelfde examenregeling.



P. W. van Rijn, Anton Béguin & Huub H. F. M. Verstralen (2012). Educational measurement issues and implications of high stakes decision making in final examinations in secondary education in the Netherlands. Assessment in Education: Principles, Policy & Practice, 19, 117-136. abstract researchgate.net. [I have requested the test again (foutje)]


Genoemd in Smits, Kelderman & Hoeksma.Dit artikel verwijst niet naar eerdere kritiek op Van Rijn, Béguin & Verstralen, 2009; het Cito luistert slecht of helemaal niet naar kritische geluiden, en prefereert om eerder Nederlands werk (niet door het Cito) niet te kennen (hoewel Huub Verstralen er perfect van op de hoogte is).] [Misschien moet ik dan ook op dit artikel maar eens een reactie schrijven. Maar eerst Smits c.s. annoteren]



W. P. van den Brink & G.J. Mellenbergh (Red.) (2006 3e). Testleer en testconstructie. Boom. hr>

Smits c.s. verwijzen naar de editie van 1998, blz. 401 (zakken/slagen voor een toets betreft een beheersingssituatie) (ik zie zo gauw niet waar in hoofdstuk 12 2006 dat dan precies is, nog steeds blz. 401? Maar daar staat geen uitwerking.). En 19-20 (criterium-gerefererd toetsen).

Als we de hierbeneden geciteerde beschrijving volgen, dan hebben Smits c.s. geen zaak, want iedere vorm van combinatie met andere toetsen is hier buiten haken geplaatst, ook de conjunctieve combinatie is hier niet aan de orde. In splendig isolation wordt hier maar waar wat aangerotzooid, dus. Maar dat kan niet waar zijn. En dat is het natuurlijk ook niet, omdat er consequenties zijn in het vervolg van de opleiding. Dan is het toch wel droevig dat Van den Brink en Mellenbergh hun te smalle beschrijving laten bungelen, door er geen verdere modelmatige uitwerking aan te geven.



Ben Wilbrink (1980b). Enkele radicale oplossingen voor kriterium-gerefereerde grensskores. Tijdschrift voor Onderwijsresearch, 5, 112-125. webpagina


Uit dit artikel is van belang dat er een principieel volledige methode wordt gegeven voor het bepalen van zak-slaaggrenzen bij bijvoorbeeld examenonderdelen, gesteld dat de examenregeling dergelijke grenzen voorschrijft dan. Daarbij is ook van belang dat de hier geschetste besliskundige methode niet opgevat kan worden als een verfijning van de vaak gehanteerde ‘drempelverlies-methode’ (bijvoorbeeld in het proefschrift van Van der Gaag, en publicaties van de groep van Wim van der Linden in Twente): die laatste methode is gewoon fout, en levert misleidende resultaten (zoals twee proefpersonen van Van der Gaag al vermoedden . . . ).



Ben Wilbrink (1992a). Modeling the connection between individual behaviour and macro-level outputs. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. pp. 701-704.). Enschede: University of Twente.


Het lijkt er sterk op dat ik in dit paper de compensatiemogelijkheden juist buiten beschouwing heb gelaten. Er zijn twee clusters van vakken waarbinnen een bescheiden vorm van compensatie is toegestaan (tegenover een vijf moet dan minstens een zeven staan). Afijn, ik heb dit paper nog wel nodig bij mijn aantekeningen bij Smits c.s.



N. van der Gaag (1990). Empirische utiliteiten voor psychometrische beslissingen. Proefschrift Universiteit van Amsterdam.


Er is geen versie online beschikbaar van dit proefschrift. Het is wel een document van enig belang, omdat een aantal misvattingen die in 1980 al bekend waren, er toch in terugkomen, inclusief de misvatting dat voor optimale cesuurbepaling de cesuur op de onderliggende ware scores gegeven zou moeten zijn. En zo kunnen de misvattingen voortleven, ook in op Van de Gaag volgende publicaties uit Twente (zoals die van Hans Vos). Zie voor annotaties toetsen.htm#Gaag_1990



Janke Cohen-Schotanus (1994). Effecten van curriculumveranderingen. Studiewaardering, studeergedrag, kennis, studiedoorstroom in een veranderend medisch curriculum. Proefschrift, Rijksuniversiteit Groningen. samenvatting




Janke Cohen-Schotanus (19 juni 2015). Maatregelen ter verbetering van het rendement in het Hoger Onderwijs: waar is de evidentie? Keynote OnderwijsResearchDagen 2015 Leiden. keynote en powerpoint




Edward G. Rozycki (2008). Classification Error in Evaluation Practice: the impact of the "false positive" on educational practice and policy. Educational Horizons webpage







Werts, Rock, Linn, & Jöreskog, A general method of estimating the reliability of a composite. EPM 1978, 38, 933-938. abstract




Pieter J. D. Drenth (1975/1980). Inleiding in de testtheorie. Deventer: Van Loghum Slaterus. isbn 9060014685


Hierin Hoofdstuk 7 De bijdrage van de test in het beslissingsproces. Drenth spreekt over treffers en missers in het selectieproces. Dat zullen Taylor & Russell ook wel zo hebben gedaan.



Linden, W. J. van der, & Vos, H. J. (1996). A compensatory approach to optimal selection with mastery scores. Psychometrika, 61, 155-172. pdf


p. 155:



Huynh Huynh (1982). A Bayesian procedure for mastery decisions based on multivariate normal test data. Psychometrika, 47: 309. abstract




Cronbach & Gleser (1965: 50)



Dato N.M. de Gruijter & Ronald K. Hambleton (1984). On Problems Encountered Using Decision Theory to Set Cutoff Scores Applied Psychological Measurement, 8, 1-8. [hardcopy] abstract


Exercises in reliability, again? It seems so.



Bastiaan J. Vrijhof, Gideon J. Mellenbergh & Wulfert P. van den Brink (1983). Assessing and Studying Utility Functions in Psychometric Decision Theory. Applied Psychological Measurement, 7, 341-357. abstract




Saskia Wools, Theo J.H.M. Eggen & Anton A. Béguin (2015). Constructing validity arguments for test combinations. Studies in Educational Evaluation, 48, 10-18. paywalled [on research.net]




Henry L. Roediger, III, and Jeffrey D. Karpicke (2006). Test-Enhanced Learning. Taking Memory Tests Improves Long-Term Retention. Psychological Scienve, 17, 249-255. [testing-effect, mock exams proeftoets] pdf




Nicole Goossens (2015). Distributed Practice and Retrieval Practice in Primary School Vocabulary Learning. Dissertation Erasmus University Rotterdam. pdf download




Ad de Jongh Bespreekt Smits, Kelderman & Hoeksma EXAMENS - november 2015 - NR 4 blz. 41











4 oktober 2017 \ contact ben apenstaartje benwilbrink.nl

Valid HTML 4.01!   http://www.benwilbrink.nl/projecten/14compensatie_en_rendement.htm#AMBS