Mevrouw, Mijne Heren Curatoren, Mijne Heren Leden van het Presidium, Dames en Heren Hoogleraren, Dames en Heren Collegae en andere Medewerkers van deze Universiteit, Dames en Heren Studenten en voorts gij allen, die door Uw aanwezigheid van Uw belangstelling blijk geeft,
Zeer gewaardeerde toehoorders,
Na het afleggen van alle tentamens is het academische examen tegenwoordig veelal niet meer dan een formaliteit. Op het tentamen ligt de nadruk en het tentamen betekent steeds meer: een studietoets, een verzameling geprecodeerde vragen waarvan de juiste antwoorden moeten worden aangestreept, waarna optelling van de correcte aanstrepingen een uitslag levert, die men merkwaardigerwijze haast overal onvertaald "score" noemt. De technische ontwikkeling van mondeling examen tot schriftelijke studietoets heeft echter tientallen jaren geduurd.
Zoals in vele leerboeken1 over tests of studietoetsen staat, werden de eerste schriftelijke examens al zo'n 4000 jaar geleden in China afgenomen, maar werden er pas in het midden van de vorige eeuw systematisch argumenten naar voren gebracht tegen het mondelinge en vóór het schriftelijke examen. De twee belangrijkste argumenten ten gunste van schriftelijk werk zijn: ten eerste, men beschikt over een bewijsstuk betreffende de geleverde prestatie, waarover eventueel met anderen gediscussieerd kan worden; en ten tweede, de beoordeling kan zonder overhaasting geschieden en met gebruikmaking van bepaalde, de objectiviteit verhogende technieken. Een van die methoden is de vraagsgewijze volgorde van beoordeling, in plaats van de persoonsgewijze volgorde, die immers aanleiding geeft tot een ongewenst halo-effect. Andere technieken zijn bijvoorbeeld het tevoren schriftelijk vastleggen van de juiste antwoorden op de gestelde vragen en het eerst laten uittypen van de door de leerlingen geschreven antwoorden om ongewenste beïnvloeding uit te schakelen. In 1864 nam iemand de eerste min of meer objectief scorebare of laten we het noemen
1
"telbare" toets af. De grote stoot voorwaarts werd echter pas gegeven door de intelligentietests, vooral de schriftelijke, die gebruikt werden voor het plaatsen van recruten, in de eerste wereldoorlog. De principes die men dáár toepaste bleken ook bruikbaar voor het meten van studieresultaten. Uit de massale intelligentietests ontwikkelde men de, eveneens voor grote groepen bestemde, gestandaardiseerde en objectief telbare studietoetsen. Weer een paar jaar later propageerde iemand het zelf maken van studietoetsen door docenten en het eerste boek hierover ontstond in het midden der twintiger jaren. Daarna nam het gebruik van studietoetsen vooral in Amerika een enorme vlucht. Het voordeel van dit soort tentamens ligt niet alleen in de objectiviteit van de scoring maar vooral ook in het grotere aantal vragen dat in de beschikbare tijd gesteld kan worden, waardoor men een betere steekproef krijgt van de te toetsen kennis of vaardigheid. De tentamentechniek ontwikkelde zich sinds de twintiger jaren in twee richtingen, die we de metrische zullen noemen en de linguïstische.
Met dit laatste bedoel ik wat vaak genoemd wordt de kunst van het vragenstellen of iternschrijven. In de Verenigde Staten hadden weldra tientallen personen een volledige dagtaak aan het construeren van items. Men werd steeds vaardiger in deze kunst en telkens werden er nieuwe itemsoorten uitgevonden. GERBERICH2 systematiseerde al die soorten tot 227 subvariëteiten, die hij weer onderbracht in 13 variëteiten en vier hoofdgroepen. BLOOM3 en anderen brachten een hiërarchisch systeem aan, gebaseerd op de vermoedelijke psychologische factoren die de items zouden meten. Al met al bleef het iternschrijven een kunst, die in de praktijk was gegroeid. En nog steeds wordt een verzameling regels en raadgevingen op de itemschrijver losgelaten. Deze vult ze aan met eigen ervaring. Hij laat zijn intuïtie werken en schept zijn geestesprodukten als een kunstenaar de zijne. Dat is trouwens een heel normale beginfase van een techniek. Ook aquaducten, luchtbogen en hele kathedralen werden gebouwd lang voor de ontwikkeling van de statica. Maar dat betekent anderzijds dat het itemschrijven niet in deze fase zal kunnen blijven. De kunst moet een techniek worden, die gebaseerd is op een wetenschappelijke theorie.
De grondslagen voor een veelbelovende theorie betreffende studietoetsitems zijn pas kort geleden gelegd, en wel door BORMUTH4. Hij stelt dat geen wetenschappelijk onderzoek met studietoetsitems mogelijk is wanneer deze niet operationeel ge-
2
definieerd zijn. Zolang de itemschrijver of een vergadering deskundigen uitmaakt welk item geproduceerd wordt, of geaccepteerd, is generaliseren onmogelijk, en heeft elk onderzoek met items weinig waarde. De afhankelijkheid van introspectie en idiosyncrasieën van itemschrijvers is ook het zwakke punt van systemen als dat van BLOOM. Hiertegenover exploreert BORMUTH de mogelijkheid van het op operationele wijze afleiden van items uit segmenten van het onderwijs. Dit betekent natuurlijk dat de items onlosmakelijk verbonden zijn aan het gegeven onderwijs zodat de methode niet toepasbaar is op bijvoorbeeld de massale landelijk gestandaardiseerde studietoetsen, waar men items eerder zou moeten construeren uitgaande van onderwijsdoelstellingen. De operaties of transformaties die nodig zijn om van een stukje onderwijs tot een verzameling items te komen wil BORMUTH afleiden met begrippen en methoden uit de linguïstiek, die hierdoor onverwacht een belangrijke hulpwetenschap schijnt te worden van de moderne examenkunde of docimologie.
De andere ontwikkelingsrichting die ik noemde is de metrische. Deze is vooral van belang gebleken bij de gestandaardiseerde tóetsen. In de psychometrica worden bijvoorbeeld methoden ontwikkeld om normen te handhaven van de ene toetsafname tot de andere, om paralleltoetsen te construeren, en om items statistisch te evalueren. Vele bevindingen van de in de sfeer van de cognitieve vaardigheden ontwikkelde testleer, langzamerhand een uitgebreide wetenschap op zichzelf, bleken zonder meer toepasbaar op de studietoetsen. Dit leidde wel eens tot de misvatting dat de studietoetskunde, of nog erger de hele docimologie, kon worden opgevat als een onderdeel van de testleer. Het verschil zit in de reeds eerder genoemde onafscheidelijkheid van studietoetsen en onderwijs. Zodra de consequenties van dit belangrijke verschil duidelijker worden zal wel een mathematisch studietoetsmodel tot ontwikkeling komen, dat dan niet meer onder de psychometrica geklasseerd moet worden doch onder de didakometrie.
Tot deze zeer korte samenvatting van de geschiedenis van de examenkunde wil ik mij beperken om nu dieper te kunnen ingaan op één didakometrisch aspect, namelijk het probleem van het combineren van de uitslagen van verschillende tentamens, die overigens niet per sé studietoetsen hoeven te zijn. Dit doe ik niet omdat dit nu op zichzelf zulk een belangrijk aspect zou zijn van de examenkunde
3
- het genereren van vragen heeft misschien meer importantie - maar omdat op dit tamelijk onontgonnen gebied het ontwikkelen van een mathematisch model gedemonstreerd kan worden, wat methodologisch interessant kan zijn. En het gebied is daarom nog onontgonnen omdat het een typisch Nederlandse situatie betreft, namelijk die van een universitaire studie, waarin de student betrekkelijk vrij is in de keuze van de volgorde van studieonderdelen, en bovendien elk tentamen vele malen mag overdoen. Zelfs aan de Nederlandse universiteit is dit nog een simplificatie, maar het is nu eenmaal niet zinvol een model op te stellen zonder van bepaalde min of meer toevallige afwijkingen te abstraheren. De aannamen of zogenaamde assumpties, die een model kenmerken, betekenen immers altijd een vereenvoudiging van de werkelijkheid, die men opzettelijk aanbrengt met het doel vat te kunnen krijgen op datgene wat men onderzoekt.
Er bestaat over het combineren van tests tot het verkrijgen van een zo hoog mogelijke validiteit of utiliteit een uitgebreide literatuur. Deze beperkt zich echter tot de gebruikelijke modellen van de testleer en tot de multivariate statistische technieken. We zullen zien dat nieuwe aannamen nodig zijn om deze problematiek op te lossen, assumpties die buiten de testleer vallen.
Meer concreet betreft het vragen als: In welke gevallen moet ik de uitslagen van verschillende toetsen compensatorisch combineren, bijvoorbeeld door optellen van de scores zodat een totale score verkregen wordt, zodat de scores elkaar compenseren? En in welke gevallen kan ik beter conjunctief te werk gaan, zodat de leerling voor elk tentamen afzonderlijk geslaagd moet zijn? Of disjunctief, waarbij slechts één tentamen gehaald hoeft te worden? Van belang hierbij is van welk criterium men gebruik maakt. Gaat het alleen om de betrouwbaarheid van de beslissing of om het peil van de geslaagden, dan kan men terecht bij de testleer, eventueel uitgebreid met wat besliskundige begrippen5. Maar gaat het om de tijd, die de student nodig heeft om voor het geheel te slagen, dan zal men de theorie verder moeten uitbreiden.
Dit is ook nodig wanneer we problemen willen oplossen als: Hoe groot moeten de tijdsafstanden zijn tussen de tentamens? Wat is eigenlijk het nut van een zogenaamde herkansing? Als we de compensatorische methode gebruiken, wat zijn dan de gevolgen van de vrijheid om te mogen kiezen welk tentamen men overdoet, als men gezakt is voor het geheel? Of is het soms efficiënter het
4
geheel te laten overdoen? Of dit wel maar dan met een lagere aftestgrens? Wat zijn precies de consequenties van een wel vaker gebruikte methode waarbij de student voor elk tentamen een minimum score moest halen, maar bovendien een minimum score voor het geheel? Gewoonlijk werden deze problemen intuïtief aangepakt. Men aanvaardt - veelal in een docentenvergadering of een studieraad - een of ander compromis, waarvan men nauwelijks weet welke voor- en nadelen het heeft tegenover andere combinatiemethoden, waarvan de consequenties al even duister zijn.
Met empirisch onderzoek alléén komt men er niet, althans niet met wat wel eens "hagelschotempiricisme"6 wordt genoemd: men correleert bijvoorbeeld alle relevante variabelen met elkaar en kijkt maar wat er uit komt. Deze aanpak is meestal bijzonder teleurstellend. Ook is er veelal weinig overeenstemming tussen verschillende onderzoekingen omdat de omstandigheden moeilijk in de hand zijn te houden. Goed empirisch onderzoek betekent het toetsen van hypothesen, die afgeleid zijn uit een theorie. Wat we voor ons probleem in de eerste plaats nodig hebben is daarom een mathematisch model, als eerste stap tot een theorie.
De situatie wordt gekenmerkt door de aanwezigheid van twee personen, of zo men wil, twee groepen, die als het ware elkaars tegenspelers zijn. Aan de ene zijde is er de docent of, moderner, de "staf". Aan de andere kant staat de student, als enkeling of groep. Een speltheoretische benadering van het probleem dringt zich daarom op. Bij sommige spelen tussen personen A en B bijvoorbeeld, tracht A zijn winst te maximaliseren. Maar B weet hoe A zijn winst zal willen maximaliseren en met deze kennis maximaliseert hij de zijne. Weliswaar is het nog niet geheel duidelijk wat de staf moet maximaliseren; zoiets als zoveel mogelijk relevante vaardigheden overbrengen aan zoveel mogelijk studenten in zo min mogelijk tijd en met zo laag mogelijke kosten, een verwarrende hoeveelheid doeleinden. Maar het is wel te vermoeden wat die student zal willen minimaliseren, die voor de opgave wordt geplaatst zich door een reeks tentamens heen te werken. Hij minimaliseert zijn totale studeertijd. Dit althans is als zijn optimale strategie te beschouwen. Dat hij hiernaast nog vele andere doeleinden nastreeft tijdens zijn studie doet voor het onderhavige probleem niets ter zake.
Dit betekent dat we een verband moeten aannemen tussen
5
enerzijds studeertijd en anderzijds de geleerde vaardigheid. Deze laatste kunnen we weer met enig recht gelijk stellen aan de zogenaamde ware score op de als tentamen gebruikte studietoets.
In de psychologische functieleer zijn verschillende modellen ontwikkeld, die een dergelijk verband aangeven. Het empirisch onderzoek hierover is aanzienlijk. Een aantrekkelijke theorie is die van het alles-of-niets-leren, waarvan vele varianten bestaan, die weer in één model kunnen worden samengevoegd7. Een eenvoudige variant8 is ontworpen voor het memoriseren van een rijtje woorden, maar is misschien ook bruikbaar voor het leren van een boek, syllabus of collegediktaat. De gedachtengang is deze, dat de student de lijst of syllabus een aantal malen, n keer, doorneemt. De leerstof kunnen we ons indenken als bestaande uit leereenheden of leeritems. Elk leeritem heeft bij elke bestudering van de stof een zelfde kans (c) om in het geheugen opgenomen te worden. Zit het er eenmaal in, dan blijft het er in, laten we zeggen tot na het tentamen. Hieruit berekent men gemakkelijk de kans dat een item na zegge n bestuderingen in het geheugen is opgenomen en dit is dan ook het gemiddelde aantal leeritems dat de student na n bestuderingen kent, dat wil zeggen, zijn relatieve ware score. Want we eisen dat de toets is gebaseerd op een representatieve steekproef van de verzameling leeritems. Kennisniveau en ware score zijn dus identiek. En als de n bestuderingen nu ook nog even lang duren dan hebben we het verband tussen studeertijd n en ware score t9.
Men ziet het, een keten van vereenvoudigende assumpties is nodig om tot een resultaat te komen. Andere assumpties geven een andere leerkromme en men kan zich afvragen of het zin heeft om zich op zulk glad ijs voort te bewegen. Ik geloof dat dit een overweging is van grote importantie, om welke reden ik hier wat langer bij stil wil staan.
Er is een tijd geweest dat omvangrijke rationalistische filosofieën als paddestoelen uit de grond rezen. Geen van deze systemen is tegen de kritiek van het empirisme bestand gebleken. Men kan ze opvatten als bizarre en lang-vergeten bouwsels, die bij de minste en geringste tocht als een kaartenhuis in elkaar zijn gestort. Achteraf vraagt men zich af, of het wel de moeite waard is om deze bedenksels te bestuderen10. Iets dergelijks moet ook diegenen voor de geest zweven die zich -, met DE GROOT - bezorgd maken
6
over het nodeloos ontwikkelen van mathematische modellen. terwijl het feitenmateriaal beperkt en fragmentarisch is en de generaliseerbaarheid minimaal11.
Ik zou echter willen benadrukken dat het hier niet gaat om wéér een model voor het verklaren van verschijnselen, maar om de noodzaak om bepaalde verschijnselen te voorspellen met het doel daaruit beslissingsregels af te leiden. Dat kan nu eenmaal niet zonder model. Voorlopig is elk aannemelijk model goed, en wel zolang nog niet is aangetoond dat het in strijd is met andere bekende verschijnselen. We zoeken dus een eenvoudig model en mocht het nodig zijn om dit voor een ander te ruilen, dan is zeker niet alles verloren. Integendeel, het pad is reeds gekapt en de aanpassing zal gemakkelijk zijn. Wellicht is ook hier het begin het moeilijkste. Zodra echter één schaap over de dam is dan volgen de andere.
We keren weer even terug naar de juist geaccepteerde leercurve, die de relatieve ware score geeft als functie van de studeertijd en die, dat blijkt bij uitwerking, de holle zijde naar de tijdas keert en een asymptoot heeft bij de maximale relatieve ware score t = 1. Dat klopt wel met onze intuïtie, want hoe lang we het dikke leerboek voor het tentamen ook bestuderen, we zullen het nooit helemáá1 kennen. Dat zal de docent ook niet eisen. Hij eist bijvoorbeeld dat een bepaalde proportie a van de items gekend wordt. Deze a is dus op de relatieve ware-score-schaal, die van 0 tot 1 loopt, het punt dat geslaagden van gezakten scheidt, en wordt de aftestgrens genoemd. Er zijn wel belangrijke argumenten naar voren te brengen ten gunste van een aftestgrens van 0,5 maar in principe kan a natuurlijk ook extreme waarden aannemen.
Hoe de docent aan die proportie a komt is weer een verhaal apart. Maar ik zal daarover kort zijn. Er is in de laatste tijd reeds het een en ander over geschreven en gezegd, ook in Nederland12. Het is misschien voldoende als ik er op wijs dat sommigen op zoek zijn naar een waterdichte methode voor het stellen van zogenaamde absolute normen. Bij relatieve normen vergelijkt men de prestaties van de leerling met die van zijn klasgenoten. Dat kan wel eens misleidend zijn. In een voortreffelijke groep lijkt een in werkelijkheid uitmuntende student slechts middelmatig. Bij absolute normen denkt men daarentegen óf aan landelijk opgestelde normen, die bepaald worden met grote en representatieve steekproeven, óf aan
7
normen die uit de leerstof of onderwijsdoeleinden zijn af te leiden. Men neemt bijvoorbeeld aan dat zij op een of andere wijze in het hoofd van de docent zitten en de kunst is nu om deze normen met een bepaalde techniek over te brengen op de cijferschaal van het tentamen. Dat lukt overigens maar gedeeltelijk. De moeilijkheid is vooral dat deze normen onbetrouwbaar blijken: zij wisselen van week tot week en van docent tot docent. Het is echter mogelijk dat de eerder genoemde methode van de operationeel afgeleide items voert tot voor iedereen aanvaardbare normen, waarvan bovendien kan worden aangenomen dat zij van tentamen tot tentamen constant blijven.
Laten we dus aannemen, dat de aftestgrens a vast ligt. Daarnaast beschikken we over het verband tussen ware score en studeertijd, dankzij de leercurve. Wat, vragen we ons nu af, is de optimale strategie van de student, en wel in de typische situatie - waartoe we ons zullen beperken - aan een Nederlandse universiteit, waarin het hem veroorloofd is om elk tentamen zo vaak over te doen als het hem gelieft? Dat wil zeggen: hoe hoog moet hij zijn kennis opvoeren, wat is zijn optimale ware score? Het probleem zou eenvoudig zijn wanneer het tentamen volkomen betrouwbaar zou zijn. Immers in dat geval zou hij een kans één hebben om te slagen als zijn ware score t groter was dan de aftestgrens a en een kans nul als zijn score kleiner was en de beste strategie zou zijn om maar net boven die aftestgrens te mikken bij de voorbereiding op het tentamen. Immers, op deze wijze slaagt hij met de minste moeite, de kortste studeertijd. De zogenaamde "minimumstudent", die met de laagste cijfers door zijn tentamen rolt, volgt de beste strategie - in dit geval.
Maar helaas, en dat niet alleen voor de minimum-student, hebben tests, studietoetsen, tentamens, een zekere mate van onbetrouwbaarheid. De uitslag vertoont een meetfout. Deze is hier per definitie het verschil tussen geobserveerde en ware score.
Laten we, zoals gebruikelijk is, aannemen dat voor een gegeven ware score de geobserveerde scores normaal verdeeld zijn om die ware score heen13. Uit aftestgrens, ware score en standaardafwijking van de fouten kunnen we de slaagkans p bepalen, bijvoorbeeld met behulp van de normaaltabel14. Maar wat doen we nu met die slaagkans, die, zoals ieder kind ook zou verwachten, een monotoon stijgende functie blijkt te zijn van de studeertijd? (Of in de taal van dat kind: hoe minder je werkt, hoe vaker je blijft
8
zitten.) Wel, met die slaagkans kunnen we de verwachting berekenen van de totale studeertijd, en deze verwachting kunnen we minimaliseren; dat wil zeggen, de student moet zoveel studeren, zo'n hoge ware score bereiken, dat de verwachting van zijn totale studeertijd voor het tentamen minimaal is. Studeert hij te weinig dan zakt hij te vaak, waardoor zijn totale studeertijd nodeloos toeneemt. Kiest hij zijn ware score daarentegen te hoog, hetgeen niet alleen de ijverigen doen maar ook de voorzichtigen, dan verliest hij nodeloos tijd voor dat ene tentamen.
Laten we nu eens kijken hoe de kennis, dus de ware score, in de tijd variëert, bij een student, die de optimale strategie volgt. Die kennis begint bij het punt nul, dat wil zeggen, de tentamenvragen moeten zo geconstrueerd worden dat iemand, die niet studeert, gemiddeld een, eventueel voor raden gecorrigeerde, score nul krijgt. Dit is, tussen haakjes, de bekende specificiteitseis, die aan studietoetsen gesteld wordt: De toets moet meten wat onderwezen werd en niets meer15. Tijdens de voorbereiding tot het tentamen stijgt de kennis volgens de eerder genoemde leercurve tot haar optimale waarde. Op dit moment doet de student tentamen en slaagt, met een kans p, in welk geval de totale studeertijd direct bekend is. Of hij zakt, met een kans q = 1-p; dan treedt eerst een vergeetperiode op, waarin de kennis daalt tot een bepaalde fractie van de eerst bereikte optimale kennis. Die fractie kunnen we als parameter in onze formules opnemen, onder de naam onthoudfractie m.
Tijdens de vergeetperiode tussen herkansingen kan de student nuttige of aangename dingen doen, zoals zich voorbereiden op een ander tentamen, plezier maken, zichzelf ontplooien of protesteren. Die tijd is dus niet verloren en hoeft dan ook niet geminimaliseerd te worden. Het wordt pas pijnlijk voor hem zodra hij ten tweede male moet blokken. Deze leerperiode is echter korter dan de eerste, want hij heeft nog wat onthouden. De vorm van de leercurve is dezelfde als eerst, en ook de hoogte van de kennis waarnaar hij moet streven. De situatie is vlak voor dit tweede tentamen precies gelijk aan die vlak voor het eerste. Wat toen optimaal was is het ook nu. Weer kan de student slagen of zakken met dezelfde kansen als eerst. Men vermoedt het al: er ontstaat van de zakkans q een oneindige meetkundige reeks waarvan de som evenredig is aan de verwachting van de totale studeertijd16.
In de formule voor die verwachte totale studeertijd zit natuurlijk
9
in de eerste plaats het door de student te kiezen kennisniveau, dat geoptimaliseerd moet worden. Maar voorts zijn er nog de drie genoemde parameters, de aftestgrens, de onthoudfractie en het aantal items van de toets, dat immers bepalend was voor de spreiding der meetfouten. Laat ons nu eerst even zien hoe die verwachte totale studeertijd blijkt af te hangen van het gekozen kennisniveau.
De totale verwachte studeertijd is nul als het kennisniveau nul is en stijgt aanvankelijk met het gekozen kennisniveau. Hetgeen heel begrijpelijk is: wie niet studeert verliest geen tijd, maar omdat de toets niet onfeilbaar is heeft hij toch nog een heel klein kansje om er door te komen. En wie weinig studeert kan nog beter helemaal niet studeren. Wie wel eens de ruwe-score-verdeling van een meerkeuze-toets gezien heeft, met ettelijke gevallen van zogenaamde kansscores, die men bij blind invullen kan verwachten, zou inderdaad kunnen denken dat er studenten zijn die bewust deze rationele strategie volgen. Maar als we dan de bijbehorende slaagkansen en studeertijden berekenen, dan blijkt het toch maar een academische mogelijkheid. Als bijvoorbeeld de aftestgrens op de helft van het aantal items gesteld wordt dan is de slaagkans van iemand die maar een kennisniveau van 0,1 heeft volgens het gebruikte model bij een 100-item-toets ongeveer een milliardste, en zelfs bij een onwaarschijnlijk korte toets van 16 items toch slechts een duizendste.
Naarmate de student zijn kennisniveau of ware score verder opvoert neemt de verwachte totale studeertijd aanvankelijk zeer snel toe tot een maximum, dat echter reeds bereikt wordt bij een kleine fractie van de vereiste kennis. Daarna wordt het beter voorbereiden op het tentamen gelukkig steeds voordeliger, tot een minimum studeertijd bereikt wordt bij het voor ons interessante optimale kennisniveau. Méér studeren wordt daarna weer onverstandig en in het hier gebruikte model zou álles weten een oneindig lange voorbereiding kosten.
Tot zover heb ik getracht U te schetsen hoe men een formule kan opstellen, die de verwachting van de totale studeertijd geeft als functie van het door de student gekozen kennisniveau, met als bijkomende parameters het aantal items van de toets, de onthoudfractie bij elke herhaling van het tentamen en de aftestgrens. Met deze formule kan nu het optimale kennisniveau op de gebruikelijke manier door differentiëren bepaald worden17. Daarna berekent men de bijbehorende minimale verwachte studeertijd. Deze kan
10
men in verband met de typische vorm van de leercurve het beste uitdrukken in zogenaamde halveerperioden18. De halveerperiode is onze eenheid van tijd, en U vermoedt het al op het woord afgaande: een halveerperiode is de studeertijd, die nodig is om de helft van de nog niet onthouden leerstof in het hoofd te krijgen. Dus de eerste 50 % kost één periode, de volgende 25 % weer één, enzovoort.
Laten we nu de aftestgrens constant houden op de helft van het aantal vragen, en kijken hoe de minimale verwachte totale studeertijd volgens de berekeningen afhangt van het aantal items en van de onthoudfractie. Met het gekozen kennisniveau, dus met de strategie van de student hebben we niet meer te maken; die is weggewerkt doordat we veronderstellen dat hij de optimale strategie volgt.
Wel, we zien dan dat die totale studeertijd weinig afhangt van het aantal items, zolang dit ten minste groter is dan het gebruikelijke minimum van 30. Dus wat de verwachte studeertijd betreft is er nauwelijks reden om de betrouwbaarheid te verhogen door de toetslengte te verdubbelen van 50 tot 100 items. Als bijvoorbeeld bij elk volgend tentamen nog 50 % onthouden is, dan zou de verwachte tijd door de testverlenging slechts dalen van 1,35 eenheden naar 1,27 eenheden. Beneden de 20 items maakt het echter wel wat uit, vooral als de onthoudfractie klein is. En merkwaardig genoeg, als deze erg groot is, 90 % dan is een korte toets juist voordelig voor de lijntrekker, maar dat komt natuurlijk vanwege de dan relatief grote invloed van het "geluk". Een onthoudfractie van 90 % betekent dat de herkansingen erg dicht op elkaar liggen of dat het geheugen van de student uitzonderlijk goed is, en in zulke gevallen schrijft de optimale strategie voor om wat meer te gokken en wat minder te studeren, tenminste bij een korte toets, dus met een grote standaardmeetfout.
Tot nu toe hebben we ons alleen bezig gehouden met de optimale strategie van de student. Maar het is na het voorafgaande duidelijk dat deze van invloed is op de optimale strategie van de docent, dat wil hier zeggen op de hoogte van de aftestgrens. Als de docent bijvoorbeeld als eis stelt: 50 % van de stof beheersen, of wel: de (relatieve) ware score moet 0,5 zijn, dan moet hij de aftestgrens zodanig plaatsen dat een persoon die de optimale strategie volgt juist zo lang studeert tot hij die ware score van 0,5 bereikt heeft. Dit betekent dat de aftestgrens soms lager en soms hoger moet zijn
11
dan 50 %. De berekeningen wijzen uit dat de docent de grens meestal lager moet stellen omdat de student bij de optimale strategie blijkbaar toch hoger moet mikken in verband met de kans op zakken. Alleen bij een combinatie van weinig items en een hoge onthoudfractie moet de aftestgrens hoger gesteld worden. De aftestgrens moet precies een half zijn bij de combinatie van bijvoorbeeld 10 items en een onthoudfractie van 2/3 of van 50 items en een onthoudfractie van 0,9.
Achteraf kan men sommige, zij het kwalitatieve, resultaten, die ik U verder zal besparen, natuurlijk ook beredeneren, zonder ingewikkeld rekenwerk. Dat is dan juist heel prettig voor een mathematisch model. Maar de verschillen met een verbaal model liggen in de grotere genuanceerdheid, en vooral in de grotere duidelijkheid en verifieerbaarheid. Men kan voorts aan de hand van een mathematisch model gemakkelijk beslissingsregeIs opstellen, waar men het over eens kan worden. Zo kan men aan grafieken zien dat men het aantal items van een bepaald tentamen gerust van 90 tot 50 terug kan brengen, zonder dat dit gemiddeld meer studeertijd zou kosten, mits men tegelijk het aantal tentamengelegenheden per jaar zodanig laat toenemen, dat de onthoudfractie stijgt van bijvoorbeeld 0,5 tot 0,719.
We komen nu toe aan het in het begin genoemde probleem van de compensatorische dan wel conjunctieve combinatie van tentamens. Nogmaals: bij de compensatorische methode telt men de tentamenuitslagen al of niet gewogen bij elkaar op, terwijl de student bij de conjunctieve methode voor alle tentamens apart geslaagd moet zijn. Het blijkt dat de compensatorische methode testtheoretisch de voorkeur verdient omdat o.a. de beslissing betrouwbaarder is, de meetfout kleiner20. Een argument dat men hiertegen wel eens te berde hoort brengen, is dat de student bij zakken in een conjunctieve situatie alleen het betreffende tentamen moet overdoen, doch bij de compensatorische methode álle tentamens, ook die waarvoor hij eigenlijk een voldoende prestatie heeft geleverd. De compensatorische methode zou dus de student meer tijd kosten. Dit argument kan niet met de testleer worden beantwoord. Men zal een leermodel moeten hanteren, bijvoorbeeld het zojuist besprokene. We beperken ons nu tot de volgende situatie. We hebben een aantal even zware en even lange tentamens in een semester, gemakshalve zes, één per maand. De aftestgrenzen
12
zijn gelijk. Bij de compensatorische methode is deze nu ook gelijk aan de totale aftestgrens; wordt die niet gehaald, dan moet de student het volgende semester alle tentamens overdoen, net zolang tot de totale aftestgrens gehaald wordt. Bij de alternatieve, conjunctieve methode, die bij Nederlandse universiteiten verreweg het vaakst toegepast wordt, hoeft hij alleen over te doen wat onvoldoende was. Welk van beide methoden heeft nu volgens het model de hoogste verwachting van de totale studeertijd? Wel, het is niet moeilijk in te zien dat deze verwachting bij de conjunctieve methode gelijk is aan zesmaal die van één toets. De verwachting bij een compensatorische methode is daarentegen zesmaal die van een toets, die dezelfde relatieve standaardmeetfout zou hebben als nu de som van de zes toetsen heeft. Men neemt namelijk bij de compensatorische methode de beslissing als het ware met één toets die zes maal zoveel items heeft. Wil men bij de conjunctieve methode dezelfde verwachting van de studeertijd verkrijgen als bij de compensatorische methode, dan kost dat in ons voorbeeld zes maal zoveel items, en bij hetzelfde aantal items kost de conjunctieve methode dus gewoonlijk wegens de grotere pechkans méér tijd, tegen de verwachting in van diegenen die het zojuist genoemde argument hanteren. Optellen van de scores lijkt dus in alle opzichten de beste methode.
Maar in feite is hiermee het pleit tussen compensatorische en conjunctieve methode nog niet beslist. Noch het betrouwbaarheidsaspect noch de studeertijd is altijd voldoende om tot een juiste keuze te geraken. Ik doel hier niet op het afgesleten argument dat veelal én de ene eigenschap én de andere nodig is voor een bepaalde functie, of omgezet voor de onderwijssituatie, dat voor een bepaald diploma men nu eenmaal én van het ene vak én van het andere vak voldoende moet weten. Dit argument is al goeddeels ontzenuwd door LORD20, die aantoonde dat de compensatiemethode bijna altijd tot een hogere utiliteit van de geaccepteerde groep leidt. Bovendien kan men gemakkelijk aantonen, dat als, wat men algemeen accepteert, de leercurve de holle zijde naar de tijdas keert, het voor de student het efficiëntste is om zijn tijd gelijkelijk over de totale leerstof te verdelen, in plaats van sommige delen of vakken te verwaarlozen ten gunste van andere. Als deze strategie aan studenten wordt uitgelegd dan zal over het algemeen de compensatorische methode de voorkeur verdienen, en véél meer in het universitaire onderwijs gebruikt moeten worden dan nu het
13
geval is. Maar de uitzondering waar ik op doelde is de situatie waarbij de kennis die bij eerdere cursussen geleerd werd noodzakelijk een bepaald peil moet hebben bereikt opdat de student de latere cursus met vrucht zal kunnen volgen. In deze situatie zal men soms conjunctief moeten toetsen, om de studenten te dwingen om eerst iets te leren beheersen alvorens verder te gaan, een principe dat met veel succes gebruikt wordt bij geprogrammeerde instructies.
Andere toepassingsmogelijkheden zullen we uit tijdgebrek moeten laten rusten doch nu een enkel woord over de parameters voor min of meer blijvende individuele verschillen. Sommigen Uwer zullen deze met enige verbazing gemist hebben in het model. Gaat het, zult U zich hebben afgevraagd, dan niet over tests en meten tests dan geen individuele verschillen? Hoe is het mogelijk dat we deze tot nog toe hebben kunnen missen in een examenkundig model?
Wel, eerst moet worden opgemerkt dat het bij studietoetsen, of in het algemeen examens, niet, of althans niet op de eerste plaats gaat om individuele verschillen. Het gaat vooral om het bereiken van een onderwijsnorm. De docent of staf plaatst als het ware een horde, waar de student overheen moet. En nu is het merkwaardige van hordelopen dat er helemaal niet gevraagd wordt om zo hoog mogelijk over die horde heen te springen. Integendeel, bij de instructie leert de athleet precies hoe hij er zo laag mogelijk overheen kan scheren. Het gaat om de snelheid waarmee hij over een aantal achter elkaar geplaatste horden heen springt, niet om de hoogte. Bij tentamens, althans bij de gebruikelijke conjunctief gecombineerde tentamens, is het eigenlijk net zo. Als er bepaalde zogenaamde minimumeisen gesteld zijn, dan moet het ook voldoende zijn als deze normen gehaald worden, en dan is het kennelijk niet de bedoeling om méér tijd aan het tentamen te besteden. Die tijd kan nuttiger besteed worden. Er zijn nog genoeg andere horden om overheen te springen.
Dan echter kunnen we toevoegen dat het voor bepaalde problemen natuurlijk wél van belang kan zijn om een nieuwe individuele parameter in te voeren. We hebben al de ware score, en de hier omheen dansende geobserveerde score. Maar dit zijn eigenlijk indices, die aangeven in hoeverre de student een juiste strategie gevolgd heeft. De ware score is geen maat voor de capaciteiten of
14
de ijver van de student. In principe kan immers een briljante student - wellicht in snel tempo - de eindstreep halen rakelings schietend over alle horden. En zo hoort het eigenlijk, als men de conjunctieve methode accepteert. Omgekeerd kan een trage doch ijverige of bange figuur hoge cijfers halen ten koste van veel tijd die hij misschien nuttiger op andere wijze had kunnen gebruiken, bijvoorbeeld als afgestudeerde. Maar in de praktijk zal er toch wel een positieve correlatie bestaan tussen capaciteiten en scores, omdat zelfs aan een Nederlandse universiteit het studieprogramma niet helemaal vrij is doch enigszins aan tijden en organisatieschemata gebonden21.
Wil men echte capaciteitenparameters in het model inbouwen, dan kan dat bijvoorbeeld geschieden door de studeertijd voor een bepaald kennisniveau evenredig te stellen aan het quotiënt van een individuele snelheidsparameter en een moeilijkheid- of omvangs-parameter van het tentamen22. De cognitieve en motivationele capaciteiten uiten zich in dit model dus in de eerste plaats in snelheid, dat wil zeggen in het weinig tijd nodig hebben voor de voorbereiding op de tentamens. Dit betekent echter niet dat de begaafde student per sé sneller afstudeert. Hij kan zijn tijd nog aan vele andere dingen besteden, waaronder het bestuderen van die gebieden van zijn wetenschap, die niet getentamineerd worden.
Hoe het zij, zo simpel als het boven beschreven is, kan het model natuurlijk niet blijven. Het lot van modellen in het algemeen is, dat zij, door empirisch onderzoek daartoe gedwongen, steeds meer worden opgedirkt, tot zij ineens verdrongen worden door jongere en elegantere rivalen.
Dames en Heren,
We hebben gezien dat in sommige gevallen de conjunctieve methode de voorkeur verdient. Dat wil zeggen dat voor elk vak een bepaald kennisniveau vereist wordt. Kan de docent na intensief onderwijs dit niveau nu niet zo plaatsen dat practisch iedereen slaagt? Hij zal dan zijn norm bijvoorbeeld iets lager moeten stellen, zegt men. Maar daardoor verschuift ook de optimale strategie, omdat hierbij wordt rekening gehouden met een kans op zakken. Er ontstaat een spiraal, analoog aan die van lonen en prijzen. Het slaagpercentage kan daarom alleen dichtbij de 100 blijven liggen als
15
de docent voortdurend zijn normen verlaagt. Daar echter noch onder docenten noch onder studenten enig animo te vinden is voor een dergelijke inflatie, zullen we in ons conjunctieve systeem het zakken voor lief moeten nemen. Tenslotte is de sanctie ook bijzonder gering, en niet alleen vergeleken met de straf in oude verhalen, waar degeen die niet slaagt bij de proef, die hij moet afleggen, om de hand van de prinses te verkrijgen, zonder meer het hoofd wordt afgehakt. Doch óók vergeleken met de sanctie van het schoolsysteem met zijn zitten-blijven, waarbij het slachtoffer een vol jaar kwijt is, dat hij niet kan opvullen met het maken van werkstukken, het volgen van practica of de voorbereiding op andere tentamens.
Mevrouw, Mijne Heren Curatoren,
Mijne Heren Leden van het Presidium,
Gaarne betuig ik mijn erkentelijkheid voor het in mij gestelde vertrouwen door mij tot lector te willen benoemen. Ik hoop dat ik dit vertrouwen waardig zal zijn door het bijdragen van het spreekwoordelijke steentje - hoe klein ook - voor het mozaïek van mijn wetenschapsgebied, en door het overdragen en vooral meten van nuttige kennis.
Dames en Heren Leden en Medewerkers van de Faculteit der Sociale Wetenschappen,
Vele psychologen vragen zich af of zij wel thuis horen in een faculteit der sociale wetenschappen. Maar het zal U duidelijk zijn, dat niet alleen de psychologen die de gedragsleer bestuderen zich nauw verbonden voelen met een andere subfaculteit van de Faculteit der Sociale Wetenschappen, maar ook zij die zich bezighouden met de theorie van studietoetsen en examens. De tot nog toe helaas slechts sporadische contacten met agogen hoop ik in de toekomst belangrijk uit te breiden. De onderwijskunde, waartoe de docimologie gerekend kan worden, is immers evenzeer een grensgebied tussen twee universitair-erkende wetenschappen, als de sociale psychologie dat is.
16
Dames en Heren Studenten,
Ik ben mij ervan bewust dat ik velen Uwer met deze Openbare Les stenen voor brood heb gegeven. In plaats van in concreto te vertellen hoe U als student optimaal kunt studeren, heb ik misschien volgens sommigen Uwer hoofdzakelijk trachten te beschrijven hoe de docent U optimaal kan manipuleren door gebruik te maken van een mathematisch model, waarin U bovendien mogelijk past als op een Procrustesbed. Ik hoop echter dat ik juist ook U van dienst ben geweest, al was het alleen reeds door te wijzen op de mogelijkheid van snel afstuderen, wanneer U eenmaal de weerstand overwonnen hebt tegen eventueel herhaaldelijk zakken voor een tentamen.
Dames en Heren Docenten en Medewerkers van het Psychologisch Laboratorium,
Met U heb ik in de bijna acht jaar dat ik aan deze universiteit verbonden ben, uiteraard het meeste contact gehad, zij het in groepen van steeds andere samenstelling: in de kleine staf, in de uitgebreide staf, in commissies en vergaderingen, het meest echter binnen de Afdeling Methodenleer. Deze contacten heb ik altijd bijzonder prettig gevonden en er zijn geen redenen om hierin wijzigingen te verwachten. Het zou te veel geduld vergen van de overige toehoorders, indien ik U allen persoonlijk zou toespreken, doch gaarne wil ik een uitzondering maken voor twee van U.
Hooggeleerde De Groot,
Hooggeleerde Wiegersma,
Het staat zwart op wit dat ik mijn onderwijs moet inrichten in overleg met U beiden. Het is echter niet alleen om deze reden dat ik mij tot U richt, doch vooral om U te danken omdat ik van U door observatie heb kunnen leren wat de wetenschappelijke houding inhoudt; namelijk onder meer een typische doch noodzakelijke synthese van "progressief" en "conservatief". De wetenschappelijke houding betekent, zo heb ik het bij U beiden kunnen beluisteren, vooral progressief-zijn op eigen onderzoeksgebied,
17
waarop immers voortdurend nieuwe ideeën moeten worden geproduceerd en getoetst. Op andere gebieden zal men echter ook af en toe conservatief moeten zijn in die zin, dat zo nodig éérst toetsing volgens strenge regels geëist wordt, en dat niet doelloos gehold wordt achter elk bord dat door geëngageerden omhoog wordt gehouden. De ervaring leert immers, dat slechts bij een gering gedeelte van alle vernieuwingen, die in naam der sociale wetenschappen gepropageerd werden, na toetsing en evaluatie de gebruikelijke significantiedrempel overschreden is; een gedeelte, dat nog kleiner wordt wanneer men alleen replicatieonderzoek accepteert.
Ik betreur het ten zeerste Adriaan - zo zal ik je nu, aan het einde gekomen, maar minder plechtig noemen - dat je het Psychologisch Laboratorium spoedig zult verlaten. Gelukkig kunnen wij ons echter troosten met de gedachte dat je zeker dóór zult gaan met het inspireren van anderen en het uitoefenen van een gunstige invloed op het Hoger Onderwijs.
Ik heb gezegd.
18
1. Bijvoorbeeld in: "Measurement and evaluation in the modern school", van J. R. GERBERICH, H. A. GREENE en A. N. JORGERSEN, New York 1962.
2. J. R. GERBERICH. Specimen objective test items: A guide to
achievement test construction. New York 1956.
3. B. S. BLOOM, ed. Taxonomy of educational objectives: Handbook 1, cognitive domain. New York 1956.
4. J. R. BORMUTH. On the theory of achievement test items. Chicago 1970. Het denkbeeld van de operationeel te definiëren items vindt men echter ook reeds in het hoofdstuk van J. TIMMER en G. J. MELLENBERGH in: A. D. DE GROOT, R. F. VAN NAERSSEN, e.a. Studietoetsen construeren, afnemen, analyseren, Mouton 1969.
5. Zie bijv. L. J. CRONBACH en G. C. GLESER, Psychological tests and personnel decisions, 2nd ed. Urbana 1965.
6. De term "shotgun empiricism" wordt gebruikt door J. NUNNALLY, Psychometric Theory, New York, 1967.
7. P. G. POLSON. Statistical methods for a general theory of all-or-none learning. Psychometrika 1970, 35, 51-73.
8. Aan J. G. GREENO, Elementary theoretical psychology, Addison-Wesley 1968, ontleen ik dat het idee afkomstig is van I. ROCK (Amer. J. Psychol. 1957, 70, 186-193) en uitgewerkt door W. K. ESTES (Psychol. Rev. 1960, 67, 207-223) en G. H. BOWER (Psychometrika 1961, 26, 255-280).
9. t = 1 - (1 - c)n dus n = ln (1 - t) / ln (1 - c)
10. Een duidelijke kritiek op elementair niveau wordt gegeven door H. REICHENBACH, in: The rise of scientific philosophy, Berkeley 1951.
19
11. De laatste termen zijn letterlijk overgenomen uit: A. D. DE GROOT, Het eigen vooroordeel en de strijd daartegen. Lezing T.H. Eindhoven, april 1970.
12. Zie bijv. DE GROOT, VAN NAERSSEN e.a. op. cit., hoofdstuk 19. Eveneens: E. WARRIES, Het relatief meten van leerprestaties in het onderwijs, Ned. T. Psychol. 1970, 25, 429-439.
13. We zullen stellen dat, gegeven een bepaalde ware score t, de variantie van de normaalverdeelde fouten gelijk is aan die van de binomiale verdeling, hetgeen een voor de berekeningen handig compromis is tussen klassiek en binomiaal foutenmodel. Dus, voor gegeven t, is de foutenvariantie: se2 = t (1 - t)/k, waarin k het aantal items is. Delen door k, en niet vermenigvuldigen met k, omdat we met "relatieve" scores werken (ware scores van 0 tot 1). Zie F. M. LORD en M. R. NOVICK, Statistical theories of mental lest scores, Addison-Wesley, 1968. Aan de figuren op p. 510 ziet men dat, mits het aantal items niet te klein is, de curven bij benadering kunnen worden weergegeven door normaalkrommen, zij het met dezelfde standaarddeviatie als die van de binomiale verdeling.
14. p = 1/√(2π)
∫-∞z
exp (- ½ z2) dx, waarin z = (t - a)/se
Maar wéér kunnen we een handige vereenvoudiging aanbrengen, en wel door de cumulatieve normaalkromme of normaalogief te vervangen door de logistische kromme, die hier weinig van afwijkt, maar die gemakkelijker te berekenen is. Zie bijvoorbeeld BIRNBAUM, in LORD en NOVICK, op. cit.,
p. 399 e.v., en W. S. TORGERSON, Theory and methods of
scaling, New York 1958, p. 201 e.v. In het logistische model
wordt p= 1/(1 + e-Dz), waarbij de overeenstemming met een model met normale verdeling het grootst is als D = 1,7.
15. Zie bijv. R. L. EBEL, Measuring educational achievement,
Prentice-Hall 1965, p. 297 e.v.
16. Stel het kennisniveau daalt steeds van de optimale waarde t
tot mt, en de studeertijd van nul tot mt heet n1, en die van
20
mt tot t heet n2, dan is de verwachting van de totale studeertijd
n1 + n2 + n2q + n2q2 + . . . = n1 + n2/p. We noemen deze verwachting E (n). Nu is n1 = ln (1 - mt) / ln (1 - c) en dus (zie noot 9) n2 = [ln (1 - t) - ln (1 - mt)]/ln (1-c). Hieruit vindt men ten slotte (zie noten 13 en 14) -ln (1-c) x
E (n) = -ln (1 - t) - exp [(a - t) D √(k/(t(1-t)))] ln((1-t)/(1-mt))
17. Nulstellen van het differentiaalquotiënt van E (n) naar t levert de vergelijking op
(1 - m)/(1-mt) + ln((1-t)/(1-mt)) y( a/2t) - a + ½) + e(t-a)y = 0,
waarin y = D √ k/(t (1-t))
Gegeven a, m en k, kan men t hiermee iteratief benaderen
18. Dit betekent, dat in de formules c = ½ wordt gesubstitueerd.
19. Voor de uitkomsten der berekeningen zie ook het binnenkort verschijnende artikel in het Ned. T. Psychol.: R. F. VAN NAERSSEN 1971. Een model voor tentamens.
20. Zie bijv. F. M. LORD, Cutting scores and errors of measurement, Psychometrika 1962, XXVII, 19-30, en Cutting scores and errors of measurement - a second case, Educ. Psychol. Meas. 1963, 23, 63-69. Voorts R. F. VAN NAERSSEN, Van score tot beslissing: slagen of zakken. Tweede Nat. Congres, Onderzoek van Wet. Onderw. 1968, Utrecht.
21. H. J. M. HERMANS (Kenmerken van het onderwijsprogramma en hun invloed op de functie van capaciteiten en motivatie als determinanten van studiesucces. Tweede Nationaal Congres Onderzoek van wetenschappelijk onderwijs, 1968, Utrecht) toont hoe studieprestaties bij een vrije studie correleren met motivatie en bij een strakke studie met capaciteiten.
22. Dit ligt natuurlijk erg voor de hand. HERMANS, l.c., vermeldt dat ook de Academische Raad een dergelijk verband voorstelde. Verg. voorts de niveauparameters van persoon en item in de theorie van RASCH.
21
R. F. van Naerssen (1962). Selectie van chauffeurs: onderzoekingen ten behoeve van de selectie van chauffeurs bij de Koninklijke landmacht. Groningen: Wolters. Proefschrift Universiteit van Amsterdam.
R. F. VAN NAERSSEN (1965). Application of the decision-theoretical approach to the selection of drivers. In Lee J. Cronbach and Goldine C. Gleser, Psychological tests and personnel decisions. Urbana: University of Illinois Press, second edition of their 1957. (273-290).
R. F. VAN NAERSSEN (1968). Van score tot beslissing: slagen of zakken. In congresboek Tweede Nationaal Congres Onderzoek van Wetenschappelijk Onderwijs. Utrecht.
Naerssen, R. F. van (1965). Enkele eenvoudige besliskundige toepassingen bij test en selectie. Nederlands Tijdschrift voor de Psychologie, 20, 365-380.
R. F. van Naerssen (1967). Compensatorische versus conjunctieve selectie: een betrouwbaarheidsvergelijking. Memorandum AET-213.
In een vorig Memorandum (AET-212) heb ik aangetoond, dat, wil men niet een ware slachting aanbrengen onder de eerstejaars, men per vak slechts een gering percentage kan afwijzen. Dat wil zeggen dat ook vele personen, die volgens de docent beslist onvoldoende gehaald hebben, er door gesleept moeten worden. Dit wordt veelal over het hoofd gezien door die docentenvoorstanders van conjunctieve selectie, die als argument naar voren brengen, dat het beslist noodzakelijk is dat de studenten in hun vak een voldoende halen en dat het daarom óngewenst is dat de selectie compensatorisch geschiedt.
R. F. van Naerssen (1971). Een model voor tentamens. Nederlands Tijdschrift voor de Psychologie, 26, 121-132. [hardcopy]
A model for preliminary examinations
A mathematical model is developed for the following situation at Dutch universities: the student must pass a number of preliminary examinations, but is relatively free in the order of succession, and if he fails, may repeat the test any number of times. Other assumptions are: The tests of the same course are equally spaced in time. Learning takes place according to the all-or-none model (formula 1). Errors, given true score t, are normally distributed with variance of the binomial distribution (3). The probability of success is approximated with the logistic curve (6). If the student fails, his knowledge drops from t to mt and he has to prepare a second time, raising his knowldge to t again. Thus, the expectation of the total preparation time for the course can be formulated (12). It is assumed that the student minimalizes this expectation. The optimal true score can be approximated with (13). The diagrams show the optimal true score as a function of m (1), and of the number of items k (2); likewise, the expected preparation time as a function of m (3) en k (4). The model explains the low correlation between cognitive factors and scores on preliminary examinations. If all studnets follow the optimal strategy, a negative correlation wuld exist between memory and score. A high percentage of failures will not always mean bad instruction, high standards or dull students; it can be the consequence of a calculated risk. An outline is given how knowledge of the model may influence the behavior of the teacher and of the student.
R. F. van Naerssen (1971). Een model voor tentamens (vervolg). Nederlands Tijdschrift voor de Psychologie, 26, 551-559. [hardcopy]
Summary. Formula 4 shows the true score t as a function of the study time it, the "study velocity" (an individual parameter) v and the "breadth" (magnitude) b of the examination. The "thoroughness" g of the knowledge is given by (5). The "memory fraction" m after some weeks of forgetting can be given as a simple function of the number of weeks w, the individual parameter "forgetfuliness" f and the content parameter "robustness" d (formula 7). A monotone function of in is called "wastage" s (8). The model may be used for the solution of complex problems such as: which system of examinations is probably most efficient for the study time of the students? A compensatory, a conjunctive or a disjunctive model, or perhaps a combination of the three models? In this paper only a relatively simple problem is solved as an illustration: If, between successive courses, a second chance (2nd examination X2) is given, what then is the influence of manipulating the fraction h (= time between X2 and Xl, divided by time between X1 and next XI) on the expectation of the study time E(u), on success probability p, on true scores t, etc., assuming that the student follows the optimal strategy? The table gives some optimal values, for two values of the test length k and three values of the wastage s. It turns out, among other things, that it does not matter very much at which point of time the "second chance" is placed, but "soon after the first examination" is more efficient than equal spacing of XI and X2 - according to the model.
R. F. van Naerssen (1974). A mathematical model for the optimal use of criterion referenced tests. Nederlands Tijdschrift voor de Psychologie, 29, 431 -446. pdf
A mathematical model is developed with which the total effort of the student can be minimized (thus the learning process optimized) for the following situation. The student must pass an examination or mastery test, but is allowed to do this again and again, with a fixed time between tests. He can estimate his true score by means of a preliminary examination; thus he is able to study until an optimal level is reached; that means, the expectation of his total effort is minimal, if the probability of failure is taken into account. It is assumed that true score is a normal-ogive - or logistic - function of ability. Forgetting is seen as a uniform velocity towards the left on the ability dimension. If 'engagement' is constant there is a uniform movement to the right. The velocity depends very simply on three personal parameters: 'engagement', 'capacity to learn the subject' and 'memory', and on three subject matter parameters: 'length', 'difficulty' and 'isolatedness'. It is shown how the parameters can be estimated empirically. A formula is developed with which the expectation of total effort is expressed as a function of these six parameters, true score, and probability of success. This probability is expressed as a function of true score, number of items, and cutting score. With this formula the optimal true score can be iteratively estimated. It is necessary to know this best tactic of the student before the learning and evaluation process can be made optimal.
R. F. van Naerssen (1975?). Rapport aan de Examencommissie Candidaats-I betreffende de invloed van herkansingen op het niveau van voor de propedeuse geslaagde studenten. Subfaculteit Psychologie UVA. Een bewerking hiervan is gepubliceerd in Tijdschrift voor onderrwijsresearch, 1, 112-117 'Computersimulatie bij het onderzoek van tentamenregelingen.
12. Discussie Het blijkt dus niet alleen bij de aanpak van de vaardigheidsniveauhandhaving, maar ook bij die van de capaciteitsniveauhandhaving, dat invoering van extra herkansingen gepaard moet gaan met verhoging van de minimum-voldoendescores; niet alleen van die van de nieuwe herkansingen, maar vooral ook van de reeds bestaande tentamengelegenheden. Het is duidelijk dat een algemene regel, waarbij alle studenten nog een tweede en derde herkansing krijgen voor "niveauhandhaving" volkomen verwerpelijk moet zijn. Niet alleen wordt het peil van de groep geslaagden daardoor aanmerkelijk verlaagd, maar de zekerheid alleen al dat er drie herkansingen zullen komen, zal de studiemotivatie nodeloos verlagen en de studie verlengen. De optimale strategie schrijft in dat geval ook een lager kennisviveau voor. Dit hoeft echter niet te betekenen dat de gehele propedeuseregeling ongevijzigd dient te blijven. Het is mogelijk incidentele "onrechtvaardigheden" recht te trekken zonder dat dit tot merkbare verlaging van het gemiddelde niveau zal leiden. Ik denk hierbij aan de studenten die slechts op één van de zes vakken gezakt zijn doordat zij op dat vak de mvs niet gehaald hebben, maar voor de vijf andere vakken gemiddeld 70% van de items goed hebben. Hoewel er voor elk vak al een herkansing is, is het denkbaar dat men beide keren pech heeft gehad. Voor twee of meer vakken na een herkansing nog niet slagen is echter uiterst onwaarschijnlijk voor iemand die serieus studeert. Vandaar dat ik een uitzondering hoogstens zou willen voorstellen bij studenten die bij één vak gefaald hebben (en dan nog alleen als de gemiddelde score van de overige vg- K- ken 70% is). Dat het daarbij slechts om een zeer kleine groep gaat, zodat liet capaciteitsiilveau niet merkbaar zal dalen, kan blijken uit het in de opgenomen memo 111. De daarin vermelde aantallen zijn bepaald onthullend en tonen dat er geen sprake is van noemenswaardige "onrechtvaardigheid" bij de propedeuse. Integerideel, dit onderzoekje toont duidelijk dat practisch alle studenten die voor de propedeuse gezakt zijn, zwak zijn over bijna de gehele linie, en dus terecht, "een jaar hebben gekregen". 13. Samenvatting Naar aanleiding van een voorstel van de Vakgroep Prekandidaatsopleiding om nog twee herkansingen toe te voegen aan de propedeuseregeling, werden twee didakometrische onderzoekingen verricht. Het eerste was gericht op vaardigheidsniveauhandhaving. Met behulp van mijn eerder gepubliceerde logistische tentamenmodel werd nagegeaan wat de invloed is van invoering van meer herkansingen op het voor de student optimale vaardigheidsniveau. Dit blijkt te dalen. Nagegaan werd hoe deze daling kon worden opgeheven door verhoging van de minimilm-voldoende-score (mvS). Daardoor echter wordt de verwachting van de moeite verhoogd, maar dat effect blijkt te kunnen worden opgeheven door testverlenging. Het tweede onderzoek was gericht op capaciteitsniveauhandhaving. Hierbij werd de propedeuse gesimuleerd met behulp van een "Monte-Carlo-modelf?. De parameters werden verkregen uit de data van de prepedeuse van de "jaarklas" 1973. Na verwijdering van de gevallen van vrijstellingen en van de "papieren studenten" bleef hiervoor een groep van 293 personen over. De intercorrelaties suggereren een sterke algemene factor; deze werd als "capaciteit" in het model gebruikt. Het empirisch onderzoek toonde o.a. dat "twijfelgevallen" zeldzaam zijn. Door meer herkansingen daalt. de gemiddelde capaciteit van de geslaagden en dit effect blijkt niet te kunnen worden opgeheven door testverlenging, noch door verhoging van de mvs bij alleen de laatste twee herkansingen. Verhoging van de mvs bij alle drie de herkansingen tot 70% zou leiden tot een situatie waarbij de gemiddelde van de geslaagden weinig zou dalen. Als belangrijkste resultaat van dit onderzoek wordt het feit gezien, dat er een model en een programma geconstrueerd is, dat steeds gebruikt kan wDrd-n wanneer voorspellingen gewenst zijn over de gevolgen van geplande wijzigingen van de propedeuseregeling. Daardoor kunnen willekeurige ad hoc wijzingen worden vermeden.
R. F. van Naerssen (1975). Het derde tentamenmodel. Memo didakometrika 113 . Is later in verbeterde vorm gepubliceerd in hetTijdschrift voor Onderwijsresearch, 1, 161-172.
R. F. van Naerssen (1975). Toepassing van het derde tentamenmodel. Memo didakometrika 116 (vervolg van memo 113). fc Is later gepubliceerd in hetTijdschrift voor Onderwijsresearch, 1, 161-172, evenwel zonder de discussie:
Discussie en samenvatting Het "tentamenmodel" is er in zijn ontwikkeling (zie literatuuropgave) nooit op gericht geweest een verklaring te geven van bepaalde onderwijsverschijnselen, maar een beschrijving en is van.het begin af aan bedoeld als een middel om de beslissingen over tentamensystemen uit de intuitieve sfeer te halen waarin deze tot nu toe liggen. Het gaat er om dat het gebruikte model en ook de parameterwaarden aanvaardbaar zijn voor de belanghebbenden (zie voor het aanvaardbaarheidsbegrip: de Groot, 1970). Uit bovenstaand onderzoek blijkt dat het met de aanvaardbaarheid' van parameterwaarden wel mee zal vallen. Wat het model zelf betreft lijkt de laatste wijziging (memo 113) een grote stap in de richting van aanvaardbaarheid. Het model is nu zeer eenvoudig en in overeenstemming met de kennis over leeren vergeetcurven, terwijl de parameterwaarden gemakkelijk bepaald kunnen worden en begripsmatig ook aanvaardbaar lijken. De "kennis" ligt nu immers tussen de grenzen 0 en 1 en is een lineaire functie van het aantal goed beantwoorde items. Afgezien van het vergeetverschijnsel neemt de kennis evenredig toe met de stuIdeertijd, met het "engagement" bij de studie en met de "capaciteit" van de persoon en omgekeerd evenredig met de "lengte" en de "moeilijkheid" van de stof. Voortdurend - ook tijdens het leren - wordt een deel van de stof echter weer vergeten; het kennisverlies per tijdseenheid is evenredig met de kennis die men op het moment heeft en met de "gelsoleerdheid" van de stof en omgekeerd evenredig met het "geheugen". Daardoor wordt de leercurve hol en de vergeetcurve (bij engagement nul) bol. Het belangrijkste aspect van het model is echter het begrip optimaal kennisniveau. Voor elke situatie - combinatie van parameterwaarden - is er een optimaal niveau van de kennis bij het afleggen van het tentamen, waaxbij de verwachting van de totale moeite die de student zich moet getroosten, minimaal is. De moeite is het product van studeertijd en engagement (als de laatste constant is). Door zich te beperken tot de "optimale strategie" hoeft men geen rekening te houden met de oneindige verscheidenheid van mogelijke strategieën en wordt het probleem oplosbaar. Het model werd toegepast bij een zeer concreet probleem: hoe kan men er voor zorgen dat "het niveau", dat geldentificeerd werd met het optimale kennisniveau, niet daalt bij invoering van meer herkansingen, en hoe eventueel dat de verwachting van de moeite daarbij niet stijgt. Berekend werd bij realistische parameters hoe de minimumvoldoende-score moet stijgen en tot hoelang de toets verlengd moet worden. De berekeningen dienen natuurlijk slechts als illustratie, om te tonen hoe eenvoudig het is het model bij relevante beleidsbeslissingen te gebruiken, waardoor deze dan rationele beslissingen ook voor alle partijen aanvaardbaar kunnen worden.
R. F. van Naerssen (1976). Computersimulatie bij het onderzoek van tentamenregelingen. Tijdschrift voor Onderwijsresearch, 1, 112-117
abstract Computer simulation used in a system of examinations This investigation shows a possible application of simulation in a rather complicated system of tests of six courses: partly conjunctive, partly compensatory, and with a second chance (test) for every course. As suggested by former research about tests of these courses, it is assumed that there is only one factor, capacity, underlying the test scores which are multivariate normally distributed. Simulation was used to calculate how the proportions of successful students and their mean capacity are altered if third and fourth chances are introduced. Higher minimum scores were calculated so that the two additional chances would not lower the mean capacity of the successful group. With a former group of 293 students the parameters of the model were found: means, standard deviations, reliability coefficients of the test scores, correlations with a sum score ('capacity'), and other statistics. Drop-out and increasing Iestwiseness' are also taken into account.
R. F. van Naerssen (1976). Het derde tentamenmodel met een toepassing. Tijdschrift voor Onderwijsresearch, 1, 161-171.
Het derde tentamenmodel is een synthese van het eerste en het tweede model. De parameters in het model: extensie, geïsoleerdheid, capaciteit, geheugen, aantal items, aftestgrens, onderlinge afstand herkansingen, moeite (functie van tijd en engagement), tijd, engagement, nagestreefd kennisniveau. Verondersteld: conjunctieve toetsing, student minimaliseert tijdbesteding, student weet ware score uit proeftentamens (zie ook 1974 appendix).
R. F. van Naerssen (1976). Over het nut van een tentamenmodel. Tijdschrift voor Onderwijsresearch, 1, 278-280.
Er is mij meermalen gevraagd waarom ik mij zoveel moeite heb getroost om zogenaamde tentamenmodellen te ontwikkelen waarmee ik nog maar weinig (hoger) onderwijs-problemen heb kunnen aanraken, laat staan oplossen*. Het antwoord kan kort zijn: die moeite spruit ten eerste voort uit het inzicht dat de problemen waar het hier om gaat belangrijk zijn maar tot nog toe slechts intuitief worden aangepakt, om niet te zeggen irrationeel; ten tweede uit het gevoel dat het soms erg inefficient kan toegaan bij het hoger onderwijs maar dat verbeteringen mogelijk zijn; ten derde uit de overtuiging dat een systeembenadering uitkomst kan brengen en ten vierde uit het inzicht dat een volledige oplossing heel ver weg ligt en slechts stap voor stap bereikt kan worden. Ik hoop dat mijn berekeningen anderen er toe zullen brengen ook in deze richting verder te zoeken want er moet veel werk verricht worden; op dit gébied bestaat er nog practisch niets. Wel is de systeembenadering bij het onderwijs theoretisch al ver gevorderd, maar de toepassing ligt dan meer op economischorganisatorisch of micro-didaktisch terrein. Ons interesseert echter in het bijzonder het probleem hoe een bepaalde verzameling van doelen (eindtermen) optimaal kan worden bereikt, en wel niet (alleen) door variëren van het gegeven onderwijs, maar vooral door een optimale plaatsing van de metingen (tentamens) in de tijd en het variëren van die tentamens zelf. In deze Notitie valt de nadruk op het onderkennen van enkele belangrijke gebreken van het huidige tentamensysteem op de universiteit. Systeemtheoretisch zou men moeten beginnen met een volledige inventarisering van de eindtermen in observeerbaar gedrag. Dit komt neer op de constructie van vragen- of item-verzamelingen, waarvan een bepaald percentage goed moet kunnen worden beantwoord. Ik wil het hier niet hebben over het euvel dat veel van de huidige eindtermen vaag zijn of zelfs niet te achterhalen, of onbetrouwbaar gemeten worden met mondelinge tentamens, of met moeilijk te scoren en daardoor uit tijdgebrek soms minder goed gescoorde essayvragen. Neen, zelfs als de eindtermen vast liggen in de vorm van itemverzamelingen, dan nog is er een opvallend gebrek aan rationaliteit. Een van de belangrijkste ommissies is misschien wel dat men zich niet realiseert of wil realiseren wanneer de eindtermen bereikt moeten zijn. In het normale geval heeft de student de kennis later nodig bij de uitoefening van zijn beroep. Dan is de kennis echter niet meer door de universiteit te meten en het ligt dus voor de hand het intermediaire doel te accepteren van een tweede meting op het laatste moment van de studie, bij het doktoraalexamen. Er zijn andere mogelijkheden denkbaar, die echter wel op één rij geplaatst kunnen worden. Aan de ene kant bevinden zich de vakken die na de studie nodig zijn in het beroep, aan de andere kant zijn er vakken die alléén van nut zijn als ondergrond voor het bestuderen van de eerste groep vakken. Die vakken die alleen als ondergrond nuttig zijn kan men vóór in de studie plaatsen: en dat wordt natuurlijk ook overal gedaan. Maar men kan zich wel afvragen in hoeverre deze - laten we het noemen propedeutische - vakken toch óók niet nodig zijn bij de beroepsuitoefening. In de mate waarin dat het geval is worden deze propedeutische vakken gewoonlijk in het huidige systeem verwaarloosd, want gevreesd moet worden dat vele studenten er bij het afstuderen weinig of niets meer van weten. Nogmaals, áls die vakken alleen maar dienen om aan andere vakken te kunnen beginnen, dan is daar geen bezwaar tegen. Maar als bijvoorbeeld een psychologiestudent bij zijn afstuderen practisch niets meer van statistiek of testleer afweet, dan is er kennelijk iets mis in het systeem. Het euvel is al heel oud en wellicht ontstaan bij de invoering van vrijstellende tentamens, die een aanmerkelijke verkorting van de studieduur mogelijk schenen te maken. Ongetwijfeld realiseerde men zich toen ook wet de gevaren van deze tentamens: de student weet weinig meer van de stof tegen de tijd dat hij afstudeert. Maar men had geen keus: alles alléén meten bij het eindexamen kost te veel tijd voor de student. De fout ligt in de rigiditeit van het oude systeem. Het is daar allemaal een kwestie van alles of niets, een gedachte die men terugvindt in het modewoord 'mastery'. Beheersing is een nuttig begrip bij basis-vakken, maar als men overal een rigide grens trekt tussen beheersing of niet dan wordt het onderwijs nodeloos inefficient. Juist bij de vakken die men later nodig heeft in het beroep moet de vaardigheid gezien worden als een continue variabele, waarbij ook flexibele aftestgrenzen gehanteerd moeten worden. De oplossing die sommige docenten reeds jaar en dag toepassen, maar dan intuitief en uit de vrije hand, is in principe waarschijnlijk juist: Men moet dezelfde stof twee maal (of nog vaker) examineren: éénmaal als (eventueel propedeutisch) tentamen met een hoge aftestgrens - mastery - en later nògmaals bij het eindexamen, maar dan met een meestal veel lagere grens. Alleen bij de weinige echte propedeutische vakken is dat niet nodig. Hoewel deze oplossing waarbij getracht wordt door herhaald tentamineren meer blijvende kennis bij te brengen, voor de hand ligt en door velen wel beaamd zal worden, is het moeilijk om het geheel te realiseren. De gebruikelijke 'oplossingen' uit de losse hand kunnen natuurlijk niet optimaal zijn. Een èchte oplossing veronderstelt in de eerste plaats dat de prestaties gekwantificeerd worden, maar dat is niet voldoende. Men moet vooral weten wat men precies wil, welke som van vaardigheden precies vereist wordt, en wat Dien precies wil optimaliseren. Bij vele systeembenaderingen minimaliseert men bijvoorbeeld de kosten in geld uitgedrukt. Maar hier zou een vruchtbaarder aanpak zijn om, gegeven de eisen, de tijd van de student te minimaliseren. Dat kan dan gebeuren door een uitgekiend systeem van tentamens en examens te ontwerpen waarbij de vakken in de beste volgorde liggen, met de optimale perioden tussen de tentamens en een optimale aftestgrens bij elk tentamen. Voorts moet er voor gezorgd worden dat het totaal van technisch mogelijk te construeren items optimaal over alle tentamens verdeeld wordt. En er moet bijvoorbeeld ook worden nagegaan of en boe tentamens gecombineerd kunnen worden, conjunctief of compensatorisch, en in hoeverre tentamens beter in delen gesplitst kunnen worden. Wat dit laatste betreft is duidelijk dat hoe meer een tentamen gesplitst wordt in delen die afzonderlijk worden afgelegd, hoe minder moeite het voor de student kost, maar ook, hoe minder hij nog van de totale stof weet aan het einde van zijn studie. Er moet een optimale oplossing zijn bij gegeven eisen op het doktoraalexamen. Het spreekt vanzelf dat een dergelijke systeembenadering niet denkbaar is zonder een model omtrent leren en vergeten van tentarnenvaardigheden; het spreekt eveneens vanzelf dat dergelijke modellen empirische steun behoeven. Men zal echter èrgens moeten beginnen, met een min of meer plausibel model en bij de eenvoudigste problemen. Doet men dat, dan merkt men al spoedig dat de problemen mathematisch en programma-technisch niet eenvoudig zijn, maar anderzijds toch wel oplosbaar. De gecompliceerdheid betekent echter dat men slechts langzaam opschiet, tenzij eindelijk vele deskundigen zich over deze problematiek buigen. Tenslotte de vraag of de ontwikkeling van een uitgebreid en empirisch getoetst examenmodel veel zal kunnen veranderen aan het (hoger>onderwijs. Daar ben ik wel van overtuigd. Heeft men eenmaal de eindtermen en het optimalisatieprincipe dan wordt immers onvermijdelijk het hele onderwijsproces in het probleem betrokken. Het zou bijvoorbeeld kunnen blijken dat rnen het vastgestelde percentage bij het afstuderen te kennen items met een andere onderwijsmethode veel sneller kan bereiken; bijvoorbeeld met korte syllabi in plaats van uitvoerig uitleggende en uitwerkende boeken, of juist omgekeerd. Men heeft dan in het tentamenmodel de 'geïsoleerdheid' en de moeilijkheid van de stof gevariëerd. Het zou ook kunnen blijken, dat, wil men bij het afstuderen in een bepaalde tijd een bepaalde kennis als eis stellen, men grote hoeveelheden stof beter kan laten vervallen en dat men beter minder stof intensief kan laten bestuderen. In andere gevallen zou het omgekeerde kunnen blijken. Eén hypothese luidt dat de omvang van de stof in de sociale wetenschappen drastisch moet worden verminderd om de kennis bij het afstuderen juist te kunnen verhogen; die kennis is nu immers grotendeels schijn omdat de student het meeste weer vergeten is daar hij er op rekent die kennis alleen nodig te hebben bij het vrijstellend tentamen. Maar misschien is het tegenovergestelde juist en is het heel heilzaam om, zoals nu de gewoonte is, de student duizenden bladzijden weinig samenhangende stof te laten consumeren en daarvan weinig te vragen. Dat moet juist blijken uit empirisch onderzoek, maar dan steeds uitgaande van een dynamische onderwijstheorie, d.wz. dat rekening gehouden wordt met leer- en vergeet-curven. Het 'tentamenmodel' zou hiertoe wellicht een eerste bijdrage kunnen leveren.
R. F. van Naerssen (1977). Moeite en Tijd bij Conjunctieve en Compensatorische Combinatie van Twee Toetsen.Tijdschrift voor Onderwijsresearch.
abstract Effort ond study time in conjunctive vs compensatory combination of two achievement tests. The purpose of this investigation is to show how an examination model which seeks to minirnize student study time (van Naerssen 1976b), in conjunction with a Monte Carlo method, heips to solve hitherto unsolvable problems. The expected effort (study time) when tests are combined in a compensatory manner is central to the study, The situation of a student who has to reach a minimum score (ms) for the combination of two tests is simulated. At every test administration he may choose either of the tests -- one strategy is to choose tbc test with the lower score - until he reaches the ms. The student always aims at tbc optimal ability level with tbc lowest expected total effort. Scores are generated with the binomial distribution of errors and random numbers. The program calculates total effort and number of trials before the student succeeds, as well as the mcans and standard deviations of groups of 100 persons. The compensatory metbod is compared with one test of the total subject matter, of the same and of double length, and with tbc conjunctive combination of tbc two tests. The compensatory method seems to require the least effort, even when the ms is ralsed one point to equalize the mean scores of the methods.
Robert F. van Naerssen (1978). A systems approach to examinations. Annals of Systems Research, 6, 63-72. scan
Summary. For a systems theoretical approach to examination in higher education, a simple mathematical model is proposed in which 'knowledge' relates linearly to the proportion of items answered correctly. The increase of knowledge, if forgetting is ignored, is proportional to 'capacity' and 'engagement' and inversely proportional to the 'extent' of the subject matter. Continual forgetting is proportional to the already obtained knowledge and to the 'isolatedness' of the subject matter, and inversely proportional to 'memory.' When a student fails an examination he loses time. It is assumed that the student follows a strategy in which he minimizes the expectation of his total effort. In this case it is possible in principle to organize the educational system so that, given the requirements of minimum sufficient scores and given the subject matter, the velocity of the stream of students is at a maximum. The use of the model is illustrated with two examples. First, calculation of the necessary increase of the cutoff score and the lengthening of the test if the number of examinations per year has to be enlarged and the optimal knowledge level is not allowed to become lower nor the expected study time to increase. Second, comparison of the expected study time in case of (1) undivided subject matter, (2) conjunctive combination of two parts of the subject matter, and (3) compensatory combination of the same two parts. The calculation of the compensatory combination had to be done with a Monte-Carlo method.
R. F. van Naerssen (1979). Voorbeelden van psychometrisch onderzoek met gesimuleerde toetsuitslagen. In G. J. Mellenbergh, R. F. van Naerssen en H. Wesdorp (Red.) (1979). Rede als richtsnoer. Den Haag: Mouton. (p. 197-208) html