Amsterdam: Swets & Zeitlinger.
Publicatie op internet met toestemming van Van Naerssen 17 mei 2005

 

Over optimaal studeren
en tentamens combineren

     

OPENBARE LES
GEGEVEN BIJ DE AANVAARDING VAN HET AMBT VAN LECtor
IN DE PSYCHOMETRISCHE TEST- EN SELECTIETHEORIE
AAN DE UNIVERSITEIT VAN AMSTERDAM
OP DINSDAG 17 NOVEMBER 1970

 

DOOR
 

DR R. F. VAN NAERSSEN

 

 

 

 

logo  

 

SWETS & ZEITLINGER AMSTERDAM 1970

 

 

 

 

 

 

 

 

 

 


Mevrouw, Mijne Heren Curatoren, Mijne Heren Leden van het Presidium, Dames en Heren Hoogleraren, Dames en Heren Collegae en andere Medewerkers van deze Universiteit, Dames en Heren Studenten en voorts gij allen, die door Uw aanwezigheid van Uw belangstelling blijk geeft,
 


 
Zeer gewaardeerde toehoorders,


Na het afleggen van alle tentamens is het academische examen tegenwoordig veelal niet meer dan een formaliteit. Op het tentamen ligt de nadruk en het tentamen betekent steeds meer: een studietoets, een verzameling geprecodeerde vragen waarvan de juiste antwoorden moeten worden aangestreept, waarna optelling van de correcte aanstrepingen een uitslag levert, die men merkwaardigerwijze haast overal onvertaald "score" noemt. De technische ontwikkeling van mondeling examen tot schriftelijke studietoets heeft echter tientallen jaren geduurd.


Zoals in vele leerboeken1 over tests of studietoetsen staat, werden de eerste schriftelijke examens al zo'n 4000 jaar geleden in China afgenomen, maar werden er pas in het midden van de vorige eeuw systematisch argumenten naar voren gebracht tegen het mondelinge en vóór het schriftelijke examen. De twee belangrijkste argumenten ten gunste van schriftelijk werk zijn: ten eerste, men beschikt over een bewijsstuk betreffende de geleverde prestatie, waarover eventueel met anderen gediscussieerd kan worden; en ten tweede, de beoordeling kan zonder overhaasting geschieden en met gebruikmaking van bepaalde, de objectiviteit verhogende technieken. Een van die methoden is de vraagsgewijze volgorde van beoordeling, in plaats van de persoonsgewijze volgorde, die immers aanleiding geeft tot een ongewenst halo-effect. Andere technieken zijn bijvoorbeeld het tevoren schriftelijk vastleggen van de juiste antwoorden op de gestelde vragen en het eerst laten uittypen van de door de leerlingen geschreven antwoorden om ongewenste beïnvloeding uit te schakelen. In 1864 nam iemand de eerste min of meer objectief scorebare of laten we het noemen


1
 


 
"telbare" toets af. De grote stoot voorwaarts werd echter pas gegeven door de intelligentietests, vooral de schriftelijke, die gebruikt werden voor het plaatsen van recruten, in de eerste wereldoorlog. De principes die men dáár toepaste bleken ook bruikbaar voor het meten van studieresultaten. Uit de massale intelligentietests ontwikkelde men de, eveneens voor grote groepen bestemde, gestandaardiseerde en objectief telbare studietoetsen. Weer een paar jaar later propageerde iemand het zelf maken van studietoetsen door docenten en het eerste boek hierover ontstond in het midden der twintiger jaren. Daarna nam het gebruik van studietoetsen vooral in Amerika een enorme vlucht. Het voordeel van dit soort tentamens ligt niet alleen in de objectiviteit van de scoring maar vooral ook in het grotere aantal vragen dat in de beschikbare tijd gesteld kan worden, waardoor men een betere steekproef krijgt van de te toetsen kennis of vaardigheid. De tentamentechniek ontwikkelde zich sinds de twintiger jaren in twee richtingen, die we de metrische zullen noemen en de linguïstische.


Met dit laatste bedoel ik wat vaak genoemd wordt de kunst van het vragenstellen of iternschrijven. In de Verenigde Staten hadden weldra tientallen personen een volledige dagtaak aan het construeren van items. Men werd steeds vaardiger in deze kunst en telkens werden er nieuwe itemsoorten uitgevonden. GERBERICH2 systematiseerde al die soorten tot 227 subvariëteiten, die hij weer onderbracht in 13 variëteiten en vier hoofdgroepen. BLOOM3 en anderen brachten een hiërarchisch systeem aan, gebaseerd op de vermoedelijke psychologische factoren die de items zouden meten. Al met al bleef het iternschrijven een kunst, die in de praktijk was gegroeid. En nog steeds wordt een verzameling regels en raadgevingen op de itemschrijver losgelaten. Deze vult ze aan met eigen ervaring. Hij laat zijn intuïtie werken en schept zijn geestesprodukten als een kunstenaar de zijne. Dat is trouwens een heel normale beginfase van een techniek. Ook aquaducten, luchtbogen en hele kathedralen werden gebouwd lang voor de ontwikkeling van de statica. Maar dat betekent anderzijds dat het itemschrijven niet in deze fase zal kunnen blijven. De kunst moet een techniek worden, die gebaseerd is op een wetenschappelijke theorie.


De grondslagen voor een veelbelovende theorie betreffende studietoetsitems zijn pas kort geleden gelegd, en wel door BORMUTH4. Hij stelt dat geen wetenschappelijk onderzoek met studietoetsitems mogelijk is wanneer deze niet operationeel ge-


2
 


 
definieerd zijn. Zolang de itemschrijver of een vergadering deskundigen uitmaakt welk item geproduceerd wordt, of geaccepteerd, is generaliseren onmogelijk, en heeft elk onderzoek met items weinig waarde. De afhankelijkheid van introspectie en idiosyncrasieën van itemschrijvers is ook het zwakke punt van systemen als dat van BLOOM. Hiertegenover exploreert BORMUTH de mogelijkheid van het op operationele wijze afleiden van items uit segmenten van het onderwijs. Dit betekent natuurlijk dat de items onlosmakelijk verbonden zijn aan het gegeven onderwijs zodat de methode niet toepasbaar is op bijvoorbeeld de massale landelijk gestandaardiseerde studietoetsen, waar men items eerder zou moeten construeren uitgaande van onderwijsdoelstellingen. De operaties of transformaties die nodig zijn om van een stukje onderwijs tot een verzameling items te komen wil BORMUTH afleiden met begrippen en methoden uit de linguïstiek, die hierdoor onverwacht een belangrijke hulpwetenschap schijnt te worden van de moderne examenkunde of docimologie.


De andere ontwikkelingsrichting die ik noemde is de metrische. Deze is vooral van belang gebleken bij de gestandaardiseerde tóetsen. In de psychometrica worden bijvoorbeeld methoden ontwikkeld om normen te handhaven van de ene toetsafname tot de andere, om paralleltoetsen te construeren, en om items statistisch te evalueren. Vele bevindingen van de in de sfeer van de cognitieve vaardigheden ontwikkelde testleer, langzamerhand een uitgebreide wetenschap op zichzelf, bleken zonder meer toepasbaar op de studietoetsen. Dit leidde wel eens tot de misvatting dat de studietoetskunde, of nog erger de hele docimologie, kon worden opgevat als een onderdeel van de testleer. Het verschil zit in de reeds eerder genoemde onafscheidelijkheid van studietoetsen en onderwijs. Zodra de consequenties van dit belangrijke verschil duidelijker worden zal wel een mathematisch studietoetsmodel tot ontwikkeling komen, dat dan niet meer onder de psychometrica geklasseerd moet worden doch onder de didakometrie.


Tot deze zeer korte samenvatting van de geschiedenis van de examenkunde wil ik mij beperken om nu dieper te kunnen ingaan op één didakometrisch aspect, namelijk het probleem van het combineren van de uitslagen van verschillende tentamens, die overigens niet per sé studietoetsen hoeven te zijn. Dit doe ik niet omdat dit nu op zichzelf zulk een belangrijk aspect zou zijn van de examenkunde


3
 


 
- het genereren van vragen heeft misschien meer importantie - maar omdat op dit tamelijk onontgonnen gebied het ontwikkelen van een mathematisch model gedemonstreerd kan worden, wat methodologisch interessant kan zijn. En het gebied is daarom nog onontgonnen omdat het een typisch Nederlandse situatie betreft, namelijk die van een universitaire studie, waarin de student betrekkelijk vrij is in de keuze van de volgorde van studieonderdelen, en bovendien elk tentamen vele malen mag overdoen. Zelfs aan de Nederlandse universiteit is dit nog een simplificatie, maar het is nu eenmaal niet zinvol een model op te stellen zonder van bepaalde min of meer toevallige afwijkingen te abstraheren. De aannamen of zogenaamde assumpties, die een model kenmerken, betekenen immers altijd een vereenvoudiging van de werkelijkheid, die men opzettelijk aanbrengt met het doel vat te kunnen krijgen op datgene wat men onderzoekt.


Er bestaat over het combineren van tests tot het verkrijgen van een zo hoog mogelijke validiteit of utiliteit een uitgebreide literatuur. Deze beperkt zich echter tot de gebruikelijke modellen van de testleer en tot de multivariate statistische technieken. We zullen zien dat nieuwe aannamen nodig zijn om deze problematiek op te lossen, assumpties die buiten de testleer vallen.


Meer concreet betreft het vragen als: In welke gevallen moet ik de uitslagen van verschillende toetsen compensatorisch combineren, bijvoorbeeld door optellen van de scores zodat een totale score verkregen wordt, zodat de scores elkaar compenseren? En in welke gevallen kan ik beter conjunctief te werk gaan, zodat de leerling voor elk tentamen afzonderlijk geslaagd moet zijn? Of disjunctief, waarbij slechts één tentamen gehaald hoeft te worden? Van belang hierbij is van welk criterium men gebruik maakt. Gaat het alleen om de betrouwbaarheid van de beslissing of om het peil van de geslaagden, dan kan men terecht bij de testleer, eventueel uitgebreid met wat besliskundige begrippen5. Maar gaat het om de tijd, die de student nodig heeft om voor het geheel te slagen, dan zal men de theorie verder moeten uitbreiden.


Dit is ook nodig wanneer we problemen willen oplossen als: Hoe groot moeten de tijdsafstanden zijn tussen de tentamens? Wat is eigenlijk het nut van een zogenaamde herkansing? Als we de compensatorische methode gebruiken, wat zijn dan de gevolgen van de vrijheid om te mogen kiezen welk tentamen men overdoet, als men gezakt is voor het geheel? Of is het soms efficiënter het


4
 


 
geheel te laten overdoen? Of dit wel maar dan met een lagere aftestgrens? Wat zijn precies de consequenties van een wel vaker gebruikte methode waarbij de student voor elk tentamen een minimum score moest halen, maar bovendien een minimum score voor het geheel? Gewoonlijk werden deze problemen intuïtief aangepakt. Men aanvaardt - veelal in een docentenvergadering of een studieraad - een of ander compromis, waarvan men nauwelijks weet welke voor- en nadelen het heeft tegenover andere combinatiemethoden, waarvan de consequenties al even duister zijn.


Met empirisch onderzoek alléén komt men er niet, althans niet met wat wel eens "hagelschotempiricisme"6 wordt genoemd: men correleert bijvoorbeeld alle relevante variabelen met elkaar en kijkt maar wat er uit komt. Deze aanpak is meestal bijzonder teleurstellend. Ook is er veelal weinig overeenstemming tussen verschillende onderzoekingen omdat de omstandigheden moeilijk in de hand zijn te houden. Goed empirisch onderzoek betekent het toetsen van hypothesen, die afgeleid zijn uit een theorie. Wat we voor ons probleem in de eerste plaats nodig hebben is daarom een mathematisch model, als eerste stap tot een theorie.


De situatie wordt gekenmerkt door de aanwezigheid van twee personen, of zo men wil, twee groepen, die als het ware elkaars tegenspelers zijn. Aan de ene zijde is er de docent of, moderner, de "staf". Aan de andere kant staat de student, als enkeling of groep. Een speltheoretische benadering van het probleem dringt zich daarom op. Bij sommige spelen tussen personen A en B bijvoorbeeld, tracht A zijn winst te maximaliseren. Maar B weet hoe A zijn winst zal willen maximaliseren en met deze kennis maximaliseert hij de zijne. Weliswaar is het nog niet geheel duidelijk wat de staf moet maximaliseren; zoiets als zoveel mogelijk relevante vaardigheden overbrengen aan zoveel mogelijk studenten in zo min mogelijk tijd en met zo laag mogelijke kosten, een verwarrende hoeveelheid doeleinden. Maar het is wel te vermoeden wat die student zal willen minimaliseren, die voor de opgave wordt geplaatst zich door een reeks tentamens heen te werken. Hij minimaliseert zijn totale studeertijd. Dit althans is als zijn optimale strategie te beschouwen. Dat hij hiernaast nog vele andere doeleinden nastreeft tijdens zijn studie doet voor het onderhavige probleem niets ter zake.


Dit betekent dat we een verband moeten aannemen tussen


5
 


 
enerzijds studeertijd en anderzijds de geleerde vaardigheid. Deze laatste kunnen we weer met enig recht gelijk stellen aan de zogenaamde ware score op de als tentamen gebruikte studietoets.


In de psychologische functieleer zijn verschillende modellen ontwikkeld, die een dergelijk verband aangeven. Het empirisch onderzoek hierover is aanzienlijk. Een aantrekkelijke theorie is die van het alles-of-niets-leren, waarvan vele varianten bestaan, die weer in één model kunnen worden samengevoegd7. Een eenvoudige variant8 is ontworpen voor het memoriseren van een rijtje woorden, maar is misschien ook bruikbaar voor het leren van een boek, syllabus of collegediktaat. De gedachtengang is deze, dat de student de lijst of syllabus een aantal malen, n keer, doorneemt. De leerstof kunnen we ons indenken als bestaande uit leereenheden of leeritems. Elk leeritem heeft bij elke bestudering van de stof een zelfde kans (c) om in het geheugen opgenomen te worden. Zit het er eenmaal in, dan blijft het er in, laten we zeggen tot na het tentamen. Hieruit berekent men gemakkelijk de kans dat een item na zegge n bestuderingen in het geheugen is opgenomen en dit is dan ook het gemiddelde aantal leeritems dat de student na n bestuderingen kent, dat wil zeggen, zijn relatieve ware score. Want we eisen dat de toets is gebaseerd op een representatieve steekproef van de verzameling leeritems. Kennisniveau en ware score zijn dus identiek. En als de n bestuderingen nu ook nog even lang duren dan hebben we het verband tussen studeertijd n en ware score t9.


Men ziet het, een keten van vereenvoudigende assumpties is nodig om tot een resultaat te komen. Andere assumpties geven een andere leerkromme en men kan zich afvragen of het zin heeft om zich op zulk glad ijs voort te bewegen. Ik geloof dat dit een overweging is van grote importantie, om welke reden ik hier wat langer bij stil wil staan.


Er is een tijd geweest dat omvangrijke rationalistische filosofieën als paddestoelen uit de grond rezen. Geen van deze systemen is tegen de kritiek van het empirisme bestand gebleken. Men kan ze opvatten als bizarre en lang-vergeten bouwsels, die bij de minste en geringste tocht als een kaartenhuis in elkaar zijn gestort. Achteraf vraagt men zich af, of het wel de moeite waard is om deze bedenksels te bestuderen10. Iets dergelijks moet ook diegenen voor de geest zweven die zich -, met DE GROOT - bezorgd maken


6
 


 
over het nodeloos ontwikkelen van mathematische modellen. terwijl het feitenmateriaal beperkt en fragmentarisch is en de generaliseerbaarheid minimaal11.


Ik zou echter willen benadrukken dat het hier niet gaat om wéér een model voor het verklaren van verschijnselen, maar om de noodzaak om bepaalde verschijnselen te voorspellen met het doel daaruit beslissingsregels af te leiden. Dat kan nu eenmaal niet zonder model. Voorlopig is elk aannemelijk model goed, en wel zolang nog niet is aangetoond dat het in strijd is met andere bekende verschijnselen. We zoeken dus een eenvoudig model en mocht het nodig zijn om dit voor een ander te ruilen, dan is zeker niet alles verloren. Integendeel, het pad is reeds gekapt en de aanpassing zal gemakkelijk zijn. Wellicht is ook hier het begin het moeilijkste. Zodra echter één schaap over de dam is dan volgen de andere.


We keren weer even terug naar de juist geaccepteerde leercurve, die de relatieve ware score geeft als functie van de studeertijd en die, dat blijkt bij uitwerking, de holle zijde naar de tijdas keert en een asymptoot heeft bij de maximale relatieve ware score t = 1. Dat klopt wel met onze intuïtie, want hoe lang we het dikke leerboek voor het tentamen ook bestuderen, we zullen het nooit helemáá1 kennen. Dat zal de docent ook niet eisen. Hij eist bijvoorbeeld dat een bepaalde proportie a van de items gekend wordt. Deze a is dus op de relatieve ware-score-schaal, die van 0 tot 1 loopt, het punt dat geslaagden van gezakten scheidt, en wordt de aftestgrens genoemd. Er zijn wel belangrijke argumenten naar voren te brengen ten gunste van een aftestgrens van 0,5 maar in principe kan a natuurlijk ook extreme waarden aannemen.


Hoe de docent aan die proportie a komt is weer een verhaal apart. Maar ik zal daarover kort zijn. Er is in de laatste tijd reeds het een en ander over geschreven en gezegd, ook in Nederland12. Het is misschien voldoende als ik er op wijs dat sommigen op zoek zijn naar een waterdichte methode voor het stellen van zogenaamde absolute normen. Bij relatieve normen vergelijkt men de prestaties van de leerling met die van zijn klasgenoten. Dat kan wel eens misleidend zijn. In een voortreffelijke groep lijkt een in werkelijkheid uitmuntende student slechts middelmatig. Bij absolute normen denkt men daarentegen óf aan landelijk opgestelde normen, die bepaald worden met grote en representatieve steekproeven, óf aan


7
 


 
normen die uit de leerstof of onderwijsdoeleinden zijn af te leiden. Men neemt bijvoorbeeld aan dat zij op een of andere wijze in het hoofd van de docent zitten en de kunst is nu om deze normen met een bepaalde techniek over te brengen op de cijferschaal van het tentamen. Dat lukt overigens maar gedeeltelijk. De moeilijkheid is vooral dat deze normen onbetrouwbaar blijken: zij wisselen van week tot week en van docent tot docent. Het is echter mogelijk dat de eerder genoemde methode van de operationeel afgeleide items voert tot voor iedereen aanvaardbare normen, waarvan bovendien kan worden aangenomen dat zij van tentamen tot tentamen constant blijven.


Laten we dus aannemen, dat de aftestgrens a vast ligt. Daarnaast beschikken we over het verband tussen ware score en studeertijd, dankzij de leercurve. Wat, vragen we ons nu af, is de optimale strategie van de student, en wel in de typische situatie - waartoe we ons zullen beperken - aan een Nederlandse universiteit, waarin het hem veroorloofd is om elk tentamen zo vaak over te doen als het hem gelieft? Dat wil zeggen: hoe hoog moet hij zijn kennis opvoeren, wat is zijn optimale ware score? Het probleem zou eenvoudig zijn wanneer het tentamen volkomen betrouwbaar zou zijn. Immers in dat geval zou hij een kans één hebben om te slagen als zijn ware score t groter was dan de aftestgrens a en een kans nul als zijn score kleiner was en de beste strategie zou zijn om maar net boven die aftestgrens te mikken bij de voorbereiding op het tentamen. Immers, op deze wijze slaagt hij met de minste moeite, de kortste studeertijd. De zogenaamde "minimumstudent", die met de laagste cijfers door zijn tentamen rolt, volgt de beste strategie - in dit geval.


Maar helaas, en dat niet alleen voor de minimum-student, hebben tests, studietoetsen, tentamens, een zekere mate van onbetrouwbaarheid. De uitslag vertoont een meetfout. Deze is hier per definitie het verschil tussen geobserveerde en ware score.


Laten we, zoals gebruikelijk is, aannemen dat voor een gegeven ware score de geobserveerde scores normaal verdeeld zijn om die ware score heen13. Uit aftestgrens, ware score en standaardafwijking van de fouten kunnen we de slaagkans p bepalen, bijvoorbeeld met behulp van de normaaltabel14. Maar wat doen we nu met die slaagkans, die, zoals ieder kind ook zou verwachten, een monotoon stijgende functie blijkt te zijn van de studeertijd? (Of in de taal van dat kind: hoe minder je werkt, hoe vaker je blijft


8
 


 
zitten.) Wel, met die slaagkans kunnen we de verwachting berekenen van de totale studeertijd, en deze verwachting kunnen we minimaliseren; dat wil zeggen, de student moet zoveel studeren, zo'n hoge ware score bereiken, dat de verwachting van zijn totale studeertijd voor het tentamen minimaal is. Studeert hij te weinig dan zakt hij te vaak, waardoor zijn totale studeertijd nodeloos toeneemt. Kiest hij zijn ware score daarentegen te hoog, hetgeen niet alleen de ijverigen doen maar ook de voorzichtigen, dan verliest hij nodeloos tijd voor dat ene tentamen.


Laten we nu eens kijken hoe de kennis, dus de ware score, in de tijd variëert, bij een student, die de optimale strategie volgt. Die kennis begint bij het punt nul, dat wil zeggen, de tentamenvragen moeten zo geconstrueerd worden dat iemand, die niet studeert, gemiddeld een, eventueel voor raden gecorrigeerde, score nul krijgt. Dit is, tussen haakjes, de bekende specificiteitseis, die aan studietoetsen gesteld wordt: De toets moet meten wat onderwezen werd en niets meer15. Tijdens de voorbereiding tot het tentamen stijgt de kennis volgens de eerder genoemde leercurve tot haar optimale waarde. Op dit moment doet de student tentamen en slaagt, met een kans p, in welk geval de totale studeertijd direct bekend is. Of hij zakt, met een kans q = 1-p; dan treedt eerst een vergeetperiode op, waarin de kennis daalt tot een bepaalde fractie van de eerst bereikte optimale kennis. Die fractie kunnen we als parameter in onze formules opnemen, onder de naam onthoudfractie m.


Tijdens de vergeetperiode tussen herkansingen kan de student nuttige of aangename dingen doen, zoals zich voorbereiden op een ander tentamen, plezier maken, zichzelf ontplooien of protesteren. Die tijd is dus niet verloren en hoeft dan ook niet geminimaliseerd te worden. Het wordt pas pijnlijk voor hem zodra hij ten tweede male moet blokken. Deze leerperiode is echter korter dan de eerste, want hij heeft nog wat onthouden. De vorm van de leercurve is dezelfde als eerst, en ook de hoogte van de kennis waarnaar hij moet streven. De situatie is vlak voor dit tweede tentamen precies gelijk aan die vlak voor het eerste. Wat toen optimaal was is het ook nu. Weer kan de student slagen of zakken met dezelfde kansen als eerst. Men vermoedt het al: er ontstaat van de zakkans q een oneindige meetkundige reeks waarvan de som evenredig is aan de verwachting van de totale studeertijd16.


In de formule voor die verwachte totale studeertijd zit natuurlijk


9
 


 
in de eerste plaats het door de student te kiezen kennisniveau, dat geoptimaliseerd moet worden. Maar voorts zijn er nog de drie genoemde parameters, de aftestgrens, de onthoudfractie en het aantal items van de toets, dat immers bepalend was voor de spreiding der meetfouten. Laat ons nu eerst even zien hoe die verwachte totale studeertijd blijkt af te hangen van het gekozen kennisniveau.


De totale verwachte studeertijd is nul als het kennisniveau nul is en stijgt aanvankelijk met het gekozen kennisniveau. Hetgeen heel begrijpelijk is: wie niet studeert verliest geen tijd, maar omdat de toets niet onfeilbaar is heeft hij toch nog een heel klein kansje om er door te komen. En wie weinig studeert kan nog beter helemaal niet studeren. Wie wel eens de ruwe-score-verdeling van een meerkeuze-toets gezien heeft, met ettelijke gevallen van zogenaamde kansscores, die men bij blind invullen kan verwachten, zou inderdaad kunnen denken dat er studenten zijn die bewust deze rationele strategie volgen. Maar als we dan de bijbehorende slaagkansen en studeertijden berekenen, dan blijkt het toch maar een academische mogelijkheid. Als bijvoorbeeld de aftestgrens op de helft van het aantal items gesteld wordt dan is de slaagkans van iemand die maar een kennisniveau van 0,1 heeft volgens het gebruikte model bij een 100-item-toets ongeveer een milliardste, en zelfs bij een onwaarschijnlijk korte toets van 16 items toch slechts een duizendste.


Naarmate de student zijn kennisniveau of ware score verder opvoert neemt de verwachte totale studeertijd aanvankelijk zeer snel toe tot een maximum, dat echter reeds bereikt wordt bij een kleine fractie van de vereiste kennis. Daarna wordt het beter voorbereiden op het tentamen gelukkig steeds voordeliger, tot een minimum studeertijd bereikt wordt bij het voor ons interessante optimale kennisniveau. Méér studeren wordt daarna weer onverstandig en in het hier gebruikte model zou álles weten een oneindig lange voorbereiding kosten.


Tot zover heb ik getracht U te schetsen hoe men een formule kan opstellen, die de verwachting van de totale studeertijd geeft als functie van het door de student gekozen kennisniveau, met als bijkomende parameters het aantal items van de toets, de onthoudfractie bij elke herhaling van het tentamen en de aftestgrens. Met deze formule kan nu het optimale kennisniveau op de gebruikelijke manier door differentiëren bepaald worden17. Daarna berekent men de bijbehorende minimale verwachte studeertijd. Deze kan


10
 


 
men in verband met de typische vorm van de leercurve het beste uitdrukken in zogenaamde halveerperioden18. De halveerperiode is onze eenheid van tijd, en U vermoedt het al op het woord afgaande: een halveerperiode is de studeertijd, die nodig is om de helft van de nog niet onthouden leerstof in het hoofd te krijgen. Dus de eerste 50 % kost één periode, de volgende 25 % weer één, enzovoort.


Laten we nu de aftestgrens constant houden op de helft van het aantal vragen, en kijken hoe de minimale verwachte totale studeertijd volgens de berekeningen afhangt van het aantal items en van de onthoudfractie. Met het gekozen kennisniveau, dus met de strategie van de student hebben we niet meer te maken; die is weggewerkt doordat we veronderstellen dat hij de optimale strategie volgt.


Wel, we zien dan dat die totale studeertijd weinig afhangt van het aantal items, zolang dit ten minste groter is dan het gebruikelijke minimum van 30. Dus wat de verwachte studeertijd betreft is er nauwelijks reden om de betrouwbaarheid te verhogen door de toetslengte te verdubbelen van 50 tot 100 items. Als bijvoorbeeld bij elk volgend tentamen nog 50 % onthouden is, dan zou de verwachte tijd door de testverlenging slechts dalen van 1,35 eenheden naar 1,27 eenheden. Beneden de 20 items maakt het echter wel wat uit, vooral als de onthoudfractie klein is. En merkwaardig genoeg, als deze erg groot is, 90 % dan is een korte toets juist voordelig voor de lijntrekker, maar dat komt natuurlijk vanwege de dan relatief grote invloed van het "geluk". Een onthoudfractie van 90 % betekent dat de herkansingen erg dicht op elkaar liggen of dat het geheugen van de student uitzonderlijk goed is, en in zulke gevallen schrijft de optimale strategie voor om wat meer te gokken en wat minder te studeren, tenminste bij een korte toets, dus met een grote standaardmeetfout.


Tot nu toe hebben we ons alleen bezig gehouden met de optimale strategie van de student. Maar het is na het voorafgaande duidelijk dat deze van invloed is op de optimale strategie van de docent, dat wil hier zeggen op de hoogte van de aftestgrens. Als de docent bijvoorbeeld als eis stelt: 50 % van de stof beheersen, of wel: de (relatieve) ware score moet 0,5 zijn, dan moet hij de aftestgrens zodanig plaatsen dat een persoon die de optimale strategie volgt juist zo lang studeert tot hij die ware score van 0,5 bereikt heeft. Dit betekent dat de aftestgrens soms lager en soms hoger moet zijn


11
 


 
dan 50 %. De berekeningen wijzen uit dat de docent de grens meestal lager moet stellen omdat de student bij de optimale strategie blijkbaar toch hoger moet mikken in verband met de kans op zakken. Alleen bij een combinatie van weinig items en een hoge onthoudfractie moet de aftestgrens hoger gesteld worden. De aftestgrens moet precies een half zijn bij de combinatie van bijvoorbeeld 10 items en een onthoudfractie van 2/3 of van 50 items en een onthoudfractie van 0,9.


Achteraf kan men sommige, zij het kwalitatieve, resultaten, die ik U verder zal besparen, natuurlijk ook beredeneren, zonder ingewikkeld rekenwerk. Dat is dan juist heel prettig voor een mathematisch model. Maar de verschillen met een verbaal model liggen in de grotere genuanceerdheid, en vooral in de grotere duidelijkheid en verifieerbaarheid. Men kan voorts aan de hand van een mathematisch model gemakkelijk beslissingsregeIs opstellen, waar men het over eens kan worden. Zo kan men aan grafieken zien dat men het aantal items van een bepaald tentamen gerust van 90 tot 50 terug kan brengen, zonder dat dit gemiddeld meer studeertijd zou kosten, mits men tegelijk het aantal tentamengelegenheden per jaar zodanig laat toenemen, dat de onthoudfractie stijgt van bijvoorbeeld 0,5 tot 0,719.


We komen nu toe aan het in het begin genoemde probleem van de compensatorische dan wel conjunctieve combinatie van tentamens. Nogmaals: bij de compensatorische methode telt men de tentamenuitslagen al of niet gewogen bij elkaar op, terwijl de student bij de conjunctieve methode voor alle tentamens apart geslaagd moet zijn. Het blijkt dat de compensatorische methode testtheoretisch de voorkeur verdient omdat o.a. de beslissing betrouwbaarder is, de meetfout kleiner20. Een argument dat men hiertegen wel eens te berde hoort brengen, is dat de student bij zakken in een conjunctieve situatie alleen het betreffende tentamen moet overdoen, doch bij de compensatorische methode álle tentamens, ook die waarvoor hij eigenlijk een voldoende prestatie heeft geleverd. De compensatorische methode zou dus de student meer tijd kosten. Dit argument kan niet met de testleer worden beantwoord. Men zal een leermodel moeten hanteren, bijvoorbeeld het zojuist besprokene. We beperken ons nu tot de volgende situatie. We hebben een aantal even zware en even lange tentamens in een semester, gemakshalve zes, één per maand. De aftestgrenzen


12
 


 
zijn gelijk. Bij de compensatorische methode is deze nu ook gelijk aan de totale aftestgrens; wordt die niet gehaald, dan moet de student het volgende semester alle tentamens overdoen, net zolang tot de totale aftestgrens gehaald wordt. Bij de alternatieve, conjunctieve methode, die bij Nederlandse universiteiten verreweg het vaakst toegepast wordt, hoeft hij alleen over te doen wat onvoldoende was. Welk van beide methoden heeft nu volgens het model de hoogste verwachting van de totale studeertijd? Wel, het is niet moeilijk in te zien dat deze verwachting bij de conjunctieve methode gelijk is aan zesmaal die van één toets. De verwachting bij een compensatorische methode is daarentegen zesmaal die van een toets, die dezelfde relatieve standaardmeetfout zou hebben als nu de som van de zes toetsen heeft. Men neemt namelijk bij de compensatorische methode de beslissing als het ware met één toets die zes maal zoveel items heeft. Wil men bij de conjunctieve methode dezelfde verwachting van de studeertijd verkrijgen als bij de compensatorische methode, dan kost dat in ons voorbeeld zes maal zoveel items, en bij hetzelfde aantal items kost de conjunctieve methode dus gewoonlijk wegens de grotere pechkans méér tijd, tegen de verwachting in van diegenen die het zojuist genoemde argument hanteren. Optellen van de scores lijkt dus in alle opzichten de beste methode. Maar in feite is hiermee het pleit tussen compensatorische en conjunctieve methode nog niet beslist. Noch het betrouwbaarheidsaspect noch de studeertijd is altijd voldoende om tot een juiste keuze te geraken. Ik doel hier niet op het afgesleten argument dat veelal én de ene eigenschap én de andere nodig is voor een bepaalde functie, of omgezet voor de onderwijssituatie, dat voor een bepaald diploma men nu eenmaal én van het ene vak én van het andere vak voldoende moet weten. Dit argument is al goeddeels ontzenuwd door LORD20, die aantoonde dat de compensatiemethode bijna altijd tot een hogere utiliteit van de geaccepteerde groep leidt. Bovendien kan men gemakkelijk aantonen, dat als, wat men algemeen accepteert, de leercurve de holle zijde naar de tijdas keert, het voor de student het efficiëntste is om zijn tijd gelijkelijk over de totale leerstof te verdelen, in plaats van sommige delen of vakken te verwaarlozen ten gunste van andere. Als deze strategie aan studenten wordt uitgelegd dan zal over het algemeen de compensatorische methode de voorkeur verdienen, en véél meer in het universitaire onderwijs gebruikt moeten worden dan nu het


13
 


 
geval is. Maar de uitzondering waar ik op doelde is de situatie waarbij de kennis die bij eerdere cursussen geleerd werd noodzakelijk een bepaald peil moet hebben bereikt opdat de student de latere cursus met vrucht zal kunnen volgen. In deze situatie zal men soms conjunctief moeten toetsen, om de studenten te dwingen om eerst iets te leren beheersen alvorens verder te gaan, een principe dat met veel succes gebruikt wordt bij geprogrammeerde instructies.


Andere toepassingsmogelijkheden zullen we uit tijdgebrek moeten laten rusten doch nu een enkel woord over de parameters voor min of meer blijvende individuele verschillen. Sommigen Uwer zullen deze met enige verbazing gemist hebben in het model. Gaat het, zult U zich hebben afgevraagd, dan niet over tests en meten tests dan geen individuele verschillen? Hoe is het mogelijk dat we deze tot nog toe hebben kunnen missen in een examenkundig model?


Wel, eerst moet worden opgemerkt dat het bij studietoetsen, of in het algemeen examens, niet, of althans niet op de eerste plaats gaat om individuele verschillen. Het gaat vooral om het bereiken van een onderwijsnorm. De docent of staf plaatst als het ware een horde, waar de student overheen moet. En nu is het merkwaardige van hordelopen dat er helemaal niet gevraagd wordt om zo hoog mogelijk over die horde heen te springen. Integendeel, bij de instructie leert de athleet precies hoe hij er zo laag mogelijk overheen kan scheren. Het gaat om de snelheid waarmee hij over een aantal achter elkaar geplaatste horden heen springt, niet om de hoogte. Bij tentamens, althans bij de gebruikelijke conjunctief gecombineerde tentamens, is het eigenlijk net zo. Als er bepaalde zogenaamde minimumeisen gesteld zijn, dan moet het ook voldoende zijn als deze normen gehaald worden, en dan is het kennelijk niet de bedoeling om méér tijd aan het tentamen te besteden. Die tijd kan nuttiger besteed worden. Er zijn nog genoeg andere horden om overheen te springen.


Dan echter kunnen we toevoegen dat het voor bepaalde problemen natuurlijk wél van belang kan zijn om een nieuwe individuele parameter in te voeren. We hebben al de ware score, en de hier omheen dansende geobserveerde score. Maar dit zijn eigenlijk indices, die aangeven in hoeverre de student een juiste strategie gevolgd heeft. De ware score is geen maat voor de capaciteiten of


14
 


 
de ijver van de student. In principe kan immers een briljante student - wellicht in snel tempo - de eindstreep halen rakelings schietend over alle horden. En zo hoort het eigenlijk, als men de conjunctieve methode accepteert. Omgekeerd kan een trage doch ijverige of bange figuur hoge cijfers halen ten koste van veel tijd die hij misschien nuttiger op andere wijze had kunnen gebruiken, bijvoorbeeld als afgestudeerde. Maar in de praktijk zal er toch wel een positieve correlatie bestaan tussen capaciteiten en scores, omdat zelfs aan een Nederlandse universiteit het studieprogramma niet helemaal vrij is doch enigszins aan tijden en organisatieschemata gebonden21.


Wil men echte capaciteitenparameters in het model inbouwen, dan kan dat bijvoorbeeld geschieden door de studeertijd voor een bepaald kennisniveau evenredig te stellen aan het quotiënt van een individuele snelheidsparameter en een moeilijkheid- of omvangs-parameter van het tentamen22. De cognitieve en motivationele capaciteiten uiten zich in dit model dus in de eerste plaats in snelheid, dat wil zeggen in het weinig tijd nodig hebben voor de voorbereiding op de tentamens. Dit betekent echter niet dat de begaafde student per sé sneller afstudeert. Hij kan zijn tijd nog aan vele andere dingen besteden, waaronder het bestuderen van die gebieden van zijn wetenschap, die niet getentamineerd worden.


Hoe het zij, zo simpel als het boven beschreven is, kan het model natuurlijk niet blijven. Het lot van modellen in het algemeen is, dat zij, door empirisch onderzoek daartoe gedwongen, steeds meer worden opgedirkt, tot zij ineens verdrongen worden door jongere en elegantere rivalen.



Dames en Heren,


We hebben gezien dat in sommige gevallen de conjunctieve methode de voorkeur verdient. Dat wil zeggen dat voor elk vak een bepaald kennisniveau vereist wordt. Kan de docent na intensief onderwijs dit niveau nu niet zo plaatsen dat practisch iedereen slaagt? Hij zal dan zijn norm bijvoorbeeld iets lager moeten stellen, zegt men. Maar daardoor verschuift ook de optimale strategie, omdat hierbij wordt rekening gehouden met een kans op zakken. Er ontstaat een spiraal, analoog aan die van lonen en prijzen. Het slaagpercentage kan daarom alleen dichtbij de 100 blijven liggen als


15
 


 
de docent voortdurend zijn normen verlaagt. Daar echter noch onder docenten noch onder studenten enig animo te vinden is voor een dergelijke inflatie, zullen we in ons conjunctieve systeem het zakken voor lief moeten nemen. Tenslotte is de sanctie ook bijzonder gering, en niet alleen vergeleken met de straf in oude verhalen, waar degeen die niet slaagt bij de proef, die hij moet afleggen, om de hand van de prinses te verkrijgen, zonder meer het hoofd wordt afgehakt. Doch óók vergeleken met de sanctie van het schoolsysteem met zijn zitten-blijven, waarbij het slachtoffer een vol jaar kwijt is, dat hij niet kan opvullen met het maken van werkstukken, het volgen van practica of de voorbereiding op andere tentamens.
 


 
Mevrouw, Mijne Heren Curatoren,
Mijne Heren Leden van het Presidium,


Gaarne betuig ik mijn erkentelijkheid voor het in mij gestelde vertrouwen door mij tot lector te willen benoemen. Ik hoop dat ik dit vertrouwen waardig zal zijn door het bijdragen van het spreekwoordelijke steentje - hoe klein ook - voor het mozaïek van mijn wetenschapsgebied, en door het overdragen en vooral meten van nuttige kennis.
 


 
Dames en Heren Leden en Medewerkers van de Faculteit der Sociale Wetenschappen,


Vele psychologen vragen zich af of zij wel thuis horen in een faculteit der sociale wetenschappen. Maar het zal U duidelijk zijn, dat niet alleen de psychologen die de gedragsleer bestuderen zich nauw verbonden voelen met een andere subfaculteit van de Faculteit der Sociale Wetenschappen, maar ook zij die zich bezighouden met de theorie van studietoetsen en examens. De tot nog toe helaas slechts sporadische contacten met agogen hoop ik in de toekomst belangrijk uit te breiden. De onderwijskunde, waartoe de docimologie gerekend kan worden, is immers evenzeer een grensgebied tussen twee universitair-erkende wetenschappen, als de sociale psychologie dat is.


16
 


 
Dames en Heren Studenten,


Ik ben mij ervan bewust dat ik velen Uwer met deze Openbare Les stenen voor brood heb gegeven. In plaats van in concreto te vertellen hoe U als student optimaal kunt studeren, heb ik misschien volgens sommigen Uwer hoofdzakelijk trachten te beschrijven hoe de docent U optimaal kan manipuleren door gebruik te maken van een mathematisch model, waarin U bovendien mogelijk past als op een Procrustesbed. Ik hoop echter dat ik juist ook U van dienst ben geweest, al was het alleen reeds door te wijzen op de mogelijkheid van snel afstuderen, wanneer U eenmaal de weerstand overwonnen hebt tegen eventueel herhaaldelijk zakken voor een tentamen.
 


 
Dames en Heren Docenten en Medewerkers van het Psychologisch Laboratorium,


Met U heb ik in de bijna acht jaar dat ik aan deze universiteit verbonden ben, uiteraard het meeste contact gehad, zij het in groepen van steeds andere samenstelling: in de kleine staf, in de uitgebreide staf, in commissies en vergaderingen, het meest echter binnen de Afdeling Methodenleer. Deze contacten heb ik altijd bijzonder prettig gevonden en er zijn geen redenen om hierin wijzigingen te verwachten. Het zou te veel geduld vergen van de overige toehoorders, indien ik U allen persoonlijk zou toespreken, doch gaarne wil ik een uitzondering maken voor twee van U.
 


 
Hooggeleerde De Groot,
Hooggeleerde Wiegersma,


Het staat zwart op wit dat ik mijn onderwijs moet inrichten in overleg met U beiden. Het is echter niet alleen om deze reden dat ik mij tot U richt, doch vooral om U te danken omdat ik van U door observatie heb kunnen leren wat de wetenschappelijke houding inhoudt; namelijk onder meer een typische doch noodzakelijke synthese van "progressief" en "conservatief". De wetenschappelijke houding betekent, zo heb ik het bij U beiden kunnen beluisteren, vooral progressief-zijn op eigen onderzoeksgebied,


17
 


 
waarop immers voortdurend nieuwe ideeën moeten worden geproduceerd en getoetst. Op andere gebieden zal men echter ook af en toe conservatief moeten zijn in die zin, dat zo nodig éérst toetsing volgens strenge regels geëist wordt, en dat niet doelloos gehold wordt achter elk bord dat door geëngageerden omhoog wordt gehouden. De ervaring leert immers, dat slechts bij een gering gedeelte van alle vernieuwingen, die in naam der sociale wetenschappen gepropageerd werden, na toetsing en evaluatie de gebruikelijke significantiedrempel overschreden is; een gedeelte, dat nog kleiner wordt wanneer men alleen replicatieonderzoek accepteert.


Ik betreur het ten zeerste Adriaan - zo zal ik je nu, aan het einde gekomen, maar minder plechtig noemen - dat je het Psychologisch Laboratorium spoedig zult verlaten. Gelukkig kunnen wij ons echter troosten met de gedachte dat je zeker dóór zult gaan met het inspireren van anderen en het uitoefenen van een gunstige invloed op het Hoger Onderwijs.


Ik heb gezegd.


18
 


 

ANNOTATIES

1. Bijvoorbeeld in: "Measurement and evaluation in the modern school", van J. R. GERBERICH, H. A. GREENE en A. N. JORGERSEN, New York 1962.


2. J. R. GERBERICH. Specimen objective test items: A guide to achievement test construction. New York 1956.


3. B. S. BLOOM, ed. Taxonomy of educational objectives: Handbook 1, cognitive domain. New York 1956.


4. J. R. BORMUTH. On the theory of achievement test items. Chicago 1970. Het denkbeeld van de operationeel te definiëren items vindt men echter ook reeds in het hoofdstuk van J. TIMMER en G. J. MELLENBERGH in: A. D. DE GROOT, R. F. VAN NAERSSEN, e.a. Studietoetsen construeren, afnemen, analyseren, Mouton 1969.


5. Zie bijv. L. J. CRONBACH en G. C. GLESER, Psychological tests and personnel decisions, 2nd ed. Urbana 1965.


6. De term "shotgun empiricism" wordt gebruikt door J. NUNNALLY, Psychometric Theory, New York, 1967.


7. P. G. POLSON. Statistical methods for a general theory of all-or-none learning. Psychometrika 1970, 35, 51-73.


8. Aan J. G. GREENO, Elementary theoretical psychology, Addison-Wesley 1968, ontleen ik dat het idee afkomstig is van I. ROCK (Amer. J. Psychol. 1957, 70, 186-193) en uitgewerkt door W. K. ESTES (Psychol. Rev. 1960, 67, 207-223) en G. H. BOWER (Psychometrika 1961, 26, 255-280).


9. t = 1 - (1 - c)n dus n = ln (1 - t) / ln (1 - c)


10. Een duidelijke kritiek op elementair niveau wordt gegeven door H. REICHENBACH, in: The rise of scientific philosophy, Berkeley 1951.


19


11. De laatste termen zijn letterlijk overgenomen uit: A. D. DE GROOT, Het eigen vooroordeel en de strijd daartegen. Lezing T.H. Eindhoven, april 1970.


12. Zie bijv. DE GROOT, VAN NAERSSEN e.a. op. cit., hoofdstuk 19. Eveneens: E. WARRIES, Het relatief meten van leerprestaties in het onderwijs, Ned. T. Psychol. 1970, 25, 429-439.


13. We zullen stellen dat, gegeven een bepaalde ware score t, de variantie van de normaalverdeelde fouten gelijk is aan die van de binomiale verdeling, hetgeen een voor de berekeningen handig compromis is tussen klassiek en binomiaal foutenmodel. Dus, voor gegeven t, is de foutenvariantie: se2 = t (1 - t)/k, waarin k het aantal items is. Delen door k, en niet vermenigvuldigen met k, omdat we met "relatieve" scores werken (ware scores van 0 tot 1). Zie F. M. LORD en M. R. NOVICK, Statistical theories of mental lest scores, Addison-Wesley, 1968. Aan de figuren op p. 510 ziet men dat, mits het aantal items niet te klein is, de curven bij benadering kunnen worden weergegeven door normaalkrommen, zij het met dezelfde standaarddeviatie als die van de binomiale verdeling.


14. p = 1/(2π) -∞z exp (- ½ z2) dx, waarin z = (t - a)/se
Maar wéér kunnen we een handige vereenvoudiging aanbrengen, en wel door de cumulatieve normaalkromme of normaalogief te vervangen door de logistische kromme, die hier weinig van afwijkt, maar die gemakkelijker te berekenen is. Zie bijvoorbeeld BIRNBAUM, in LORD en NOVICK, op. cit., p. 399 e.v., en W. S. TORGERSON, Theory and methods of scaling, New York 1958, p. 201 e.v. In het logistische model wordt p= 1/(1 + e-Dz), waarbij de overeenstemming met een model met normale verdeling het grootst is als D = 1,7.


15. Zie bijv. R. L. EBEL, Measuring educational achievement, Prentice-Hall 1965, p. 297 e.v.


16. Stel het kennisniveau daalt steeds van de optimale waarde t tot mt, en de studeertijd van nul tot mt heet n1, en die van


20


mt tot t heet n2, dan is de verwachting van de totale studeertijd n1 + n2 + n2q + n2q2 + . . . = n1 + n2/p. We noemen deze verwachting E (n). Nu is n1 = ln (1 - mt) / ln (1 - c) en dus (zie noot 9) n2 = [ln (1 - t) - ln (1 - mt)]/ln (1-c). Hieruit vindt men ten slotte (zie noten 13 en 14) -ln (1-c) x
E (n) = -ln (1 - t) - exp [(a - t) D (k/(t(1-t)))] ln((1-t)/(1-mt))


17. Nulstellen van het differentiaalquotiënt van E (n) naar t levert de vergelijking op (1 - m)/(1-mt) + ln((1-t)/(1-mt)) y( a/2t) - a + ½) + e(t-a)y = 0,
waarin y = D k/(t (1-t))
Gegeven a, m en k, kan men t hiermee iteratief benaderen


18. Dit betekent, dat in de formules c = ½ wordt gesubstitueerd.


19. Voor de uitkomsten der berekeningen zie ook het binnenkort verschijnende artikel in het Ned. T. Psychol.: R. F. VAN NAERSSEN 1971. Een model voor tentamens.


20. Zie bijv. F. M. LORD, Cutting scores and errors of measurement, Psychometrika 1962, XXVII, 19-30, en Cutting scores and errors of measurement - a second case, Educ. Psychol. Meas. 1963, 23, 63-69. Voorts R. F. VAN NAERSSEN, Van score tot beslissing: slagen of zakken. Tweede Nat. Congres, Onderzoek van Wet. Onderw. 1968, Utrecht.


21. H. J. M. HERMANS (Kenmerken van het onderwijsprogramma en hun invloed op de functie van capaciteiten en motivatie als determinanten van studiesucces. Tweede Nationaal Congres Onderzoek van wetenschappelijk onderwijs, 1968, Utrecht) toont hoe studieprestaties bij een vrije studie correleren met motivatie en bij een strakke studie met capaciteiten.


22. Dit ligt natuurlijk erg voor de hand. HERMANS, l.c., vermeldt dat ook de Academische Raad een dergelijk verband voorstelde. Verg. voorts de niveauparameters van persoon en item in de theorie van RASCH.


21



Publicaties in relatie tot het tentamenmodel

R. F. van Naerssen (1962). Selectie van chauffeurs: onderzoekingen ten behoeve van de selectie van chauffeurs bij de Koninklijke landmacht. Groningen: Wolters. Proefschrift Universiteit van Amsterdam.


R. F. VAN NAERSSEN (1965). Application of the decision-theoretical approach to the selection of drivers. In Lee J. Cronbach and Goldine C. Gleser, Psychological tests and personnel decisions. Urbana: University of Illinois Press, second edition of their 1957. (273-290).


R. F. VAN NAERSSEN (1968). Van score tot beslissing: slagen of zakken. In congresboek Tweede Nationaal Congres Onderzoek van Wetenschappelijk Onderwijs. Utrecht.


Naerssen, R. F. van (1965). Enkele eenvoudige besliskundige toepassingen bij test en selectie. Nederlands Tijdschrift voor de Psychologie, 20, 365-380.


R. F. van Naerssen (1967). Compensatorische versus conjunctieve selectie: een betrouwbaarheidsvergelijking. Memorandum AET-213.




R. F. van Naerssen (1971). Een model voor tentamens. Nederlands Tijdschrift voor de Psychologie, 26, 121-132. [hardcopy]




R. F. van Naerssen (1971). Een model voor tentamens (vervolg). Nederlands Tijdschrift voor de Psychologie, 26, 551-559. [hardcopy]



R. F. van Naerssen (1974). A mathematical model for the optimal use of criterion referenced tests. Nederlands Tijdschrift voor de Psychologie, 29, 431 -446. pdf


R. F. van Naerssen (1975?). Rapport aan de Examencommissie Candidaats-I betreffende de invloed van herkansingen op het niveau van voor de propedeuse geslaagde studenten. Subfaculteit Psychologie UVA. Een bewerking hiervan is gepubliceerd in Tijdschrift voor onderrwijsresearch, 1, 112-117 'Computersimulatie bij het onderzoek van tentamenregelingen.


R. F. van Naerssen (1975). Het derde tentamenmodel. Memo didakometrika 113 . Is later in verbeterde vorm gepubliceerd in hetTijdschrift voor Onderwijsresearch, 1, 161-172.


R. F. van Naerssen (1975). Toepassing van het derde tentamenmodel. Memo didakometrika 116 (vervolg van memo 113). fc Is later gepubliceerd in hetTijdschrift voor Onderwijsresearch, 1, 161-172, evenwel zonder de discussie:



R. F. van Naerssen (1976). Computersimulatie bij het onderzoek van tentamenregelingen. Tijdschrift voor Onderwijsresearch, 1, 112-117


R. F. van Naerssen (1976). Het derde tentamenmodel met een toepassing. Tijdschrift voor Onderwijsresearch, 1, 161-171.


R. F. van Naerssen (1976). Over het nut van een tentamenmodel. Tijdschrift voor Onderwijsresearch, 1, 278-280.


R. F. van Naerssen (1977). Moeite en Tijd bij Conjunctieve en Compensatorische Combinatie van Twee Toetsen.Tijdschrift voor Onderwijsresearch.


Robert F. van Naerssen (1978). A systems approach to examinations. Annals of Systems Research, 6, 63-72. scan


R. F. van Naerssen (1979). Voorbeelden van psychometrisch onderzoek met gesimuleerde toetsuitslagen. In G. J. Mellenbergh, R. F. van Naerssen en H. Wesdorp (Red.) (1979). Rede als richtsnoer. Den Haag: Mouton. (p. 197-208) html


September 2015

Valid HTML 4.01!       http://www.benwilbrink.nl/publicaties/70vNaerssenLes.htm http://goo.gl/pnG4o