Van Naerssen's tentamenmodel opgewaardeerd

Ben Wilbrink

werktekst, niet citeren


28 september 2006


In 1957 (of pas in hun 2e editie?) wezen Cronbach en Gleser er nadrukkelijk op dat er naast institutionele modellen ook individuele modellen zijn voor beslissingen van allerlei soort. Er is sinds die tijd vrijwel geen serieuze poging gedaan om voor toetsen in het onderwijs dergelijke modellen op te stellen. De uitzondering is Van Naerssen's (1970, 1978) werk over het tentamenmodel, en het daarop geïnspireerde eigen werk dat het onderwerp van dit artikel is. Het pleidooi van A. D. De Groot (1970) voor doorzichtigheid van toetsen berust weliswaar op het idee dat studenten zich gericht op toetsen moeten kunnen voorbereiden, maar werkt dat niet modelmatig uit. Waarom De Groot en Van Naerssen in 1970 niet de handen ineen hebben geslagen is mij onbekend. Onderzoek naar uitstelgedrag bij tentamens betreft inherent individuele beslismodellen waarbij uitstelgedrag mede afhangt van de aard van examenregelingen (Schouwenburg, 1993); er zijn dus wel verwante onderwerpen in de literatuur die inspiratie kunnen bieden.


Alles wat er aan toetsen, examens en selectie in het onderwijs gebeurt, berust dus nog steeds op onuitgesproken of op zijn aanvechtbare noties over de manier waarop leerlingen en studenten hun strategisch gedrag richten op die toetsen. Misschien ernstiger is de onuitgesproken vooronderstelling dat studenten in het geheel niet reageren op beleidswijzigingen, bijvoorbeeld bij criterium-gerefereerd toetsen. Zo komt in de Twentse school van Wim van der Linden de student als strateeg niet voor: alle strategie is stilzwijgend voorbehouden aan de institutie of zijn vertegenwoordigers, als zij regelingen veranderen dan blijft het gedrag van studenten onveranderd. Dat is een onhoudbare positie. Een uitgewerkt tentamenmodel laat zien hoe ernstig de verwaarlozing van de student als autonome beslisser is. Overigens geldt in algemene zin voor vrijwel alle psychometrische activiteiten dat de geteste burger daarin een verwaarloosbare of uitwisselbare factor is. In het onderwijs gaat dat juist in tegen de kern van de zaak: dat er voor die toetsen hard wordt gewerkt. Dat inzicht bestaat buiten psychometrische kringen wel degelijk; populair is om in dat verband te spreken over de staart (toets) die de hond (student) kwispelt. Waar het algemene besef dat toetsen sturend werken, vooral slaat op wat er wel of niet wordt gevraagd, gaat het tentamenmodel - zoals een besliskundig model betaamt - vooral over de onzekerheden die inherent zijn aan toetsen waarop het halen van perfecte scores vrijwel is uitgesloten. Strategisch voorbereiden van toetsen en examens: dat heet studeren. Richt dat examen ingrijpend anders in, en studenten zullen er anders voor gaan studeren (Cohen-Schotanus, 1994).


te modelleren: de toets als onderdeel van een examen


28 september 2006


- examen: een verzameling van examenonderdelen.


- examenregling: hoe resultaten combineren tot de einduitslag. De combinatieregels zijn altijd compensatorisch, in extreme gevallen is de compensatie nul. De laatste af te leggen toets is altijd zo'n extreem geval: de uitslag daarvan is beslissend. Er zijn hier dus twee belangrijke inzichten: 1) de formele regels voor de combinatie van uitslagen zijn compensatoir, een gradueel kenmerk; 2) het laatste af te leggen onderdeel is per definitie een situatie absolveert, of niet. Let wel: formeel is het ook op de laatste toets toegestaan te compenseren in de mate zoals in de regeling vastgelegd, maar de facto is de vrije ruimte voor compensatie volledig weggenomen. Dat valt wel iets te nuanceren: er zijn uitslagen mogelijk waardoor alsnog een ander onderdeel het feitelijke laatste examenonderdeel wordt. Een derde belangrijke inzicht is dan: de individuele strategische situatie is een andere dan de formele regeling. Wat voor het laatste onderdeel in extreme mate geldt, geldt ook voor alle overige onderdelen, behalve het eerste. Voor het eerste af te leggen examenonderdelen zijn de strategische posities van alle deelnemers gelijk, daarna niet meer. Formele regelingen geven makkelijk de indruk dat toegestane compensaties dus voor iedereen altijd aan de orde zijn, maar de facto is dat niet het geval. In werkelijkheid verschillen strategische posities aanzienlijk, wat het vrijwel altijd onmogelijk maakt - door uit de hand lopende aantallen permutaties van alle nog open mogelijkheden - om een exact tentamenmodel op te stellen, tenzij voor het laatste en het voorlaatste examenonderdeel. Een verrassende uitkomst van jarenlang werken aan de ontwikkeling van het model is nu dat het modelleren van dat laatste onderdeel de sleutel levert, en dat juist die situatie zich leent voor een tentamenmodel zoals Van Naerssen dat in 1970 voor een nogal extreme situatie presenteerde: toetsen waar de student voor moet slagen, desnoods na zoveel herkansen als daarvoor maar nodig mogen zijn. Dat onbeperkt herkansen is geen realistisch model, maar is eenvoudig te vervangen door een inschatting van de tijd die gemoeid is met wat nodig is wanneer op die laatste toets de nodige punten niet worden gehaald.


een constructief model, modulair opgebouwd, en bovendien algemeen beschikbaar


28 september 2006


Zo kan de beschrijving van het tentamenmodel beginnen met wat in feite ongeveer zijn sluitstuk is. Wie probeert om uitgaande van zo'n analyse over examens als bestaand uit een aaneenschakeling van onderdelen dat model concreet te bouwen, komt van een koude kermis thuis. Toch was dat in 1978 het idee, en bleek dat al in 1978 een volstrekt onhaalbare kaart te zijn. Het huidige tentamenmodel is dan ook op een heel andere manier geconstrueerd. Want dit tentamenmodel is, evenals de modellen van Van Naerssen, inderdaad een constructief model, niet een abstracte beschouwing over hoe zo'n model eruit zou moeten zien. Omdat het oorspronkelijke model van Van Naerssen verstrikt leek te raken in bijzondere condities, is voor de bouw van een alternatief model van meet af aan gezocht naar de grootst mogelijke algemeen geldigheid. In feite is het model van Van Naerssen gesloopt, en van begin af aan opnieuw opgebouwd. Het bestaat nu uit een modulaire structuur van negen onderdelen, waarvan er zes voortbouwen op eerdere modulen. Deze ketenafhankelijkheid leverde grote problemen op in de opbouw van het model. Hoewel het van meet af aan duidelijk was dat voor het bepalen van optimale strategie‘n er een ondubbelzinnig criterium nodig is, en dat dit criterium alles met de benodigde tijdbesteding heeft te maken, moest een concrete vormgeving van de sluitsteen van het model wachten op de adequate uitwerking van tenminste zes lastige, voorafgaande problemen, ieder belichaamd in een afzonderlijke eenheid. Door de complexiteit van het model was het bovendien ondenkbaar om een en ander louter op papier uit te werken, zoals in 1978 nog wel voor enkele overzichtelijke onderwerpen was gedaan. De constructie van het model is gegaan langs de weg van het bouwen van een computertoepassing. Om meerdere redenen is daarbij gekozen voor een dubbelslag: zowel een analytische uitbouw van het model, als een uitbouw via simulatie. Die redenen zijn onder andere: de mogelijkheid de juistheid van de uitwerking van het analytische model te checken tegen die van de simulatie, en omgekeerd; de mogelijkheid om het tentamenmodel aan gebruikers in eenvoudige termen uit te kunnen leggen door de formules de formules te laten en alleen de simulatie daarvoor te gebruiken; en uiteraard zou voor iedere praktische toepassing van het tentamenmodel een implementatie als computerprogramma noodzakelijk zijn. Het is gelukt die implementatie te bouwen, en wereldwijd beschikbaar te maken voor computergebruikers ongeacht het operating system waaronder zij werken.

Het punt is evenwel het volgende. Het tentamenmodel is uit te leggen door de stapsgewijze opbouw van het model te volgen; op een bepaalde manier verdient dat zelfs de voorkeur, omdat ieder van de afzonderlijke modulen ook afzonderlijke toepssingen kent. Die uitleg is op de website beschikbaar, en is uit de aard van de zaak al met al ongelooflijk uitgebreid. Voor dit artikel is een heel andere benadering gekozen: die van een samenhangende bespeking van de constituerende idee‘n van het tentamenmodel. De analytische beschrijving van de te modelleren examensituatie hierboven, is daar het eerste onderdeel van.


iedere regeling is deels compensatorisch ....


28 september 2006


[ - gebruikelijk onderscheid compensatorisch vs conjunctief. Niet alleen is dat altijd weer lastig uit te leggen, het is niet zuinig om twee begrippen te hanteren
- beter is om uitsluitend over compensatie te spreken, die kan vari‘ren van volledig tot niks niemendal


- beheersingsleren als casus
- Groningen als casus: verandering van geen compensatie naar deeltoetsen die volledig compenseren etc.
]


Het tentamenmodel moet al deze varianten kunnen bedienen, maar het mag duidelijk zijn dat zoiets voor de eerste toetsen in een lange reeks van elkaar deels compenserende toetsen alleen bij benadering kan. Wat is een geschikte benadering? Om daar achter te komen is er eerst een vast punt nodig, en dat vaste punt blijkt te vinden in de laatste af te leggen toets. Afgezet tegen dat vaste punt is ook de voorlaatste toets exact te modelleren. Hoe verder terug in de reeks van toetsen, hoe lastiger een exacte modeluitwerking is omdat het aantal mogelijke permutaties van mogelijke toetsresultaten iedere practisch werkbare grens overschijdt. Dat is ook zo wanneer het lukt een algemene oplossing voor de op twee na laatste toets te schrijven: die oplossing inductief op de daaraan voorafgaande toetsen toepassen dreigt iedere computer langdurig in beslag te gaan nemen. Het is ook niet nodig om een exacte modeloplossing voor iedere toets in de reeks te hebben: een oplossing die bij benadering juist is, is zo'n toets te beschouwen alsof deze de voorlaatste toets is.


... en ieder laatste onderdeel is de facto een horde


29 september 2006


[ - Impliciet is hier een kwestie van cesuurbepaling aan de orde. De compensatieregeling resulteert in een serie verschillende 'cesuren' op de LT, voor deelnemers met een verschillende geschiedenis in de voorgaande toetsen. Kan ik hier laten zien hoe mal het is om te denken in termen van terecht/onterecht slagen/zakken? Dat kan ik ook doen aan de hand van ingrepen in de moeilijkheid van de LT, waardoor alles schuift, maar dus ook de strategie‘n verschuiven, en wel vooral op de VLT. ]

uitkomsten op het voorlaatste onderdeel gewaardeerd ...


29 september 2006


[ Scores/cijfers op de VLT compenseren die op de LT. Neem bijvoorbeeld de neutrale, niet-compenserende, score op de VLT, en ken die nut = 1 toe. Op deze eenvoudige nutsschaal kan nu het 'formele' nut van iedere compenserende score worden uitgedrukt, falen op de VLT heeft dan nut nul. Dit is overigens in het geheel geen vanzelfsprekende constructie, maar daarover straks meer. (Want je begrijpt het al: wat formeel nut nul is, betekent in de praktijk een forse kostenpost omdat bijvoorbeeld de VLT opnieuw moet worden voorbereid en afgelegd).

Met deze formele nutsfunctie kan best een optimale strategie op de VLT worden berekend, maar het vermoeden bestaat dat die benadering een veel te rooskleurig beeld oplevert omdat het later moeten compenseren van een lage VLT-score heel wat meer tijd zal kosten dan het mogen compenseren van een hoge VLT score aan tijdbesparing oplevert. Een schijnbaar aanwezige symmetrie kan in werkelijkheid wel eens heel anders komen te liggen. Aan verwacht formeel nut heb je misschien wel enig houvast, maar het kan ook bedrieglijk zijn.


De oplossing ligt nu voorhanden: ken nut 1 toe aan de neutrale score, daaraan correspondeert een bepaalde optimale strategie op de LT, dat tijdsbeslag is te berekenen zoals in het voorgaande aangetoond (met het voorbehoud van robuustheid van het leermodel). Het nut voor een positief compenserende score is dan de tijdsbesparing die het strategisch oplevert, omgerekend naar de vastgelegde nutsschaal.

Aha, dit gaat heemaal niet goed. Hoe heb ik het model de secundaire nutsfunctie bepaald? Dat moet ik maar eens even nakijken. Mogelijk dat ik daar enorm mee in mijn maag heb gezeten, en er uiteindelijk een eenvoudige en overtuigende oplossing voor heb gevonden. Die oplossing is af te leiden uit e eis dat verwacht benodigde tijd op de LT vergelijkbaar moet zijn met de voorbereidingstijd op de VLT. Misschien is het dus helemaal niet handig om over nut te gaan uitweiden. Maar dan moet ik de formele nutsfunctie ook anders construeren en benoemen. Misschien kan dat ook wel, in die gevallen (bijna alle) waarin de compensatieregeling lineair is in scores, danwel in cijfers. Zo'n impliciete vooronderstelling gaat er in feite van uit dat het leermodel ook lineair is in scores/cijfers: een twee keer zo hoge score kost twee keer zoveel voorbereidingstijd. Kan ik dat onderbouwen? Heb ik dat al onderbouwd, of is dat een ontdekking die ik nu even zit uit te tikken? Verdraaid, het zou best eens een ontdekking kunnen zijn. Mooi toch, dan? Een ingebouwde vooronderstelling die tot onzinnige uitkomsten leidt (maar goed, het gaat natuurlijk om de pragmatiek). Lineair in tijd, niet in capaciteit dan? Nee, omdat de tijdschaal dimensieloos is gemaakt, dat is nu juist ook gedaan om capaciteitsverschillen te neutraliseren. Dat is overigens wel een punt dat ik in het artikel duidelijk moet markeren. ]


.... waarover de verwachte waarde is te nemen bij gegeven investering


29 september 2006


nut: is dat tijd, of gewaardeerde prestatie?


29 september 2006


[ Alles doen in termen van tijd lijkt heel mooi, en dat is het ook. Maar tijd is toch ook wel lastig: tijd is beperkt beschikbaar, als er meer tijd nodig is dan eerder verwacht dan is dat toch vervelend, en hangt waarschinjlijk dus een subjectief prijskaartje aan die tijd; naarmate het tijdsbeslag groter wordt, is de waardering daarvan nog negatiever. Ongeveer hetzelfde wat mijn prijzen gebeurt: een kleine stijging is geen probleem, zal best lineair worden gewaard, maar grotere stijgingen hebben een naar verhouding negatiever nut.

De reden dat ik even snel deze aantekening maak is dat ik in 1980 de nutsfuncties niet heb genomen over de tijdbesteding, maar over de ware behaalde beheersing. Dat is toch heel iets anders, omdat tijd en beheersing niet alleen niet lineair met elkaar zijn gekoppeld, maar er bovendien nog het juist genoteerde effect bij komt dat de hogere tijdbestedingen prohibitiever zijn.

Er valt dus nog wel iets uit te werken, hier.


Het goede aan mijn zoekende en tastende nadenken vanmorgen vroeg is dat ik in de positie ben om zo mogelijke verborgen vooronderstellingen in mijn eigen modeluitwerking op het spoor te komen. Ik moet dus ook niet snel gaan kijken hoe ik de facto dingen in het programma heb uitgewerkt, maar los daarvan tot de oplossing van de geschetste problemen zie te geraken, en die oplossing later pas vergelijken. Dan zal wel blijken dat ik bij mijn huidige reconstructie dingen over het hoofd heb gezien, of dat er inderdaad enige eenzijdigheid zit in de model uitwerking. Vooral omdat het gaat om de LT- en VLT-strategie‘n kun je erop wachten dat er inderdaad conceptuele problemen zitten in de uitwerking zoals nu in mijn programmatuur vastgelegd: ik ben immers heel erg druk geweest met het aan de praat krijgen van de programmatuur, het op orde krijgen van de op zcih niet moeilijke maar conceptueel wel lastige formules, en de vreemde situatie die was ontstaan bij de ontdekking dat mijn aanvankelijke objectief gedachte 'nutsfucnties' mogelijk helemaal niet als 'nutsfucnties' mogen worden beschouwd. Nou nee, zo erg is het niet, ze zijn zeker een eerste benadering van iest, en een institutionele opgelegde variant waar studenten niet noodzakelijk mee hoeven te leven. ]


Literatuur


Cohen-Schotanus, J. (1994). Effecten van curriculumveranderingen. Studiewaardering, studeergedrag, kennis, studiedoorstroom in een veranderend medisch curriculum. Proefschrift Rijksuniversiteit Groningen.

Groot, A. D. de (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. [www.darenet.nl heeft dit arikel (nog?) niet]

Naerssen, R. F. van (1970). Over optimaal studeren en tentamens combineren. Openbare les. Amsterdam: Swets & Zeitlinger. html

Rekveld, I. J., & J. Starren (1994). Een examenregeling zonder compensatie in het Nederlandse Hoger Onderwijs? Een vergelijking tussen compensatie en conjunctie. Tijdschrift voor Hoger Onderwijs, 12, 210-219.

Schouwenburg, H. (1993): Uitstelgedrag bij studenten. Proefschrift Rijksuniversiteit Groningen.

spa_learning_suppes1978.jpg Patrick Suppes, Elizabeth Macke and Mario Zanotti (1978). The role of global psychological models in instructional technology. In Robert Glaser: Advances in instructional psychology, volume 1 (pp. 229-259). Hillsdale: Lawrence Erlbaum. pdf scan


=========================================== 26-9-2006


In de voorbereiding op toetsen neemt de individuele student voortdurend tactische beslissingen die mogelijk het best zijn te omschrijven als gericht op tegen zo spaarzaam mogelijke besteding van tijd een zo goed mogelijk resultaat boeken. Het is net het leven zelf. Cronbach en Gleser hebben voor het modelleren van een en ander de eerste steen gelegd. Daar is vervolgens heel weinig mee gedaan, totdat Van Naerssen, mede op basis van zijn besliskundige studie over de selectie van chauffeurs, een uitwerking voor een specifieke situatie - pass-fail scoring and unlimited opportinity to repeat failed tests - gaf met de naam 'tentamenmodel.' Ondanks een serie vervolgpublicaties, is het hem niet gelukt het model definitief leven in te blazen. Een mogelijke verklaring daarvoor ligt in de aard van het te ontwikkelen model zelf: niet alleen is dat voor enigszins realistische situaties meteen behoorlijk ingewikkeld, bovendien is het zo dat ieder van de samenstellende delen van het model een geslaagde uitwerking moet hebben voordat het model een eerste proefvlucht kan maken.

Ga maar na. Meestal staan examenregelingen compensatie tussen onderdelen toe, zodat het model weliswaar op de afzonderlijke toets gericht moet zijn, maar toch de examensituatie in het oog moet houden.

De student minimaliseert dan de tijd nodig om voor het examen te slagen, althans, laten we eens aannemen dat zoiets de onderliggende strategie van de student is. Waar bestaat die tijd zoal uit? Dat is nog knap ingewikkeld, omdat tijdens de rit voortdurend verwachtingen aan de orde zijn over hoeveel tijd er nog nodig zal zijn om het resterende deel binnen te halen.

Die verwachtingen zijn in feite voorspellingen. Wat is er bijvoorbeeld nodig om voor de eerstvolgende toets een adequate voorspelling van de te behalen score te kunnen maken? Daarvoor is op de een of andere manier een inschatting van de eigen beheersing van de examenstof nodig. Op basis van welke informatie kan zo'n inschatting worden gemaakt? Wat is daarvoor de adequate statistische techniek?

Voor een voorspelling is het nodig iets te weten over de vragen die gesteld kunnen worden. Is het redelijk om te veronderstellen dat die vragen willekeurig uit een grote verzameling van mogelijke toetsvragen komen? Ook al maakt de docent die toets op een heel andere manier? Beantwoord dit bevestigend, dan is het binomiaalmodel te gebruiken als breekijzer op die voorspelling. Want dan is de stofbeheersing gedefinieerd als het percentage van die denkbare vragenverzameling dat goed zou worden beantwoord, als voorgelegd.

Om een indruk te krijgen van de eigen beheersing, kan een proeftoets worden gedaan, ook random getrokken uit diezelfde verzameling. Of vertaal andere informatie in termen van een denkbare proeftoets, nu we toch virtueel bezig zijn. Zo'n proeftoetsresultaat is een empirische toets op de eigen beheersing, er valt voor die beheersin een aannemelijkheidsverdeling te construeren. Aha, als die aannemelijkheidsverdeling kend is, dan kan op basis daarvan, en het binomiaalmodel dat we aannemen, een voorspelling worden geconstrueerd. De vorm daarvan kan een betabinomiaalverdeling zijn, niet onbekend in de psychometrie, maar dat hoeft niet, en we streven naar algemeenheid. Leuk, die betabinomiaal, maar dat specifieke model is niet echt nodig.

[Zo gaat ie lekker, dan nut nog, leren, verwacht nut, laatste toets, voorlaatste toets, tweede generatie nut, eerder besliskundig onderzoek, implementatie, implicaties, afronding, literatuur. Moet ik in een uurtje ook allemaal zo kunnen utischrijven. Dan heb ik nog geen afgerond ineiding, daar is iets meer voor nodig, en later kan ik dan weer details over de afzonderlijke stappen indikken.]


[Waarom zou je zo'n individueel model willen hebben, we hebben toch goede institutionele modellen? Dat is nu juist de crux: zonder de strategische besognes van de student te kennen, hangen die institutionele modellen volkomen in de lucht. Wat optimaal is voor een instellingen, bijvoorbeeld hoe de examenregling in te richten, is per definitie een afgeleide van hoe studenten strategisch omgaan met de zo ingerichte regeling.]


[Het eerste onderwerp moet zijn dat er een serie toetsen is waaruit het examen of de opleiding of de cursus bestaat. Dat type probleem is eerder behandeld (Dahllöf; Van der Linden en Vos). Het punt is dat de student in die reeks altijd op een bepaald punt staat waar de voorbereiding voor de eerstvolgende toets aan de orde is. De reeksgegevens zijn dus samengebald in die specifieke situatie.]


[Het tweede onderwerp kan dan zijn dat in de algemene situatie van compensatoire combinaties, de laatste toets de facto een pass-fail situatie op kan leveren. Niet altijd, maar dat is meer een luxe situatie waarin ieder resultaat geod is, maar sommige beter dan andere. Dat is niet bijzonder lastig uit te weken. Het interessante is nu dat de LT situatie de door Van Naerssen gemodelleerde situatie is.

Het idee is nu om in feite de behandeling van het model te beginnen bij die LT, dus niet bij moduul 1, 2, etcetera. Een soort kortsluiting dus, die verhevigd kan worden door eenvoudig een betabinomiaalmodel aan te nemen.

Ik stap hiermee dus af van een presentatie van het model die de feitelijke opbouw van het model volgt. Om een en ander retorisch/didactisch goed over het voetlicht te krijgen, is het ook oneindig veel handiger het geduld van de lezer niet op de prof te stellen, en met 'los' te gaan. Wow. Zo gaat ie goed. Ik hoef er dan alleen nog een eenvoudige klasse van leermodellen bij te slepen, en klaar is Kees. Het is mogelijk dat een LT-uitslag niet de laatste is, omdat alsnog een andere toets moet worden overgedaan. No problem, dan is die andere de LT geworden.]


[Het LT-probleem laat overduidelijk zien dat de feitelijke situatie voor de student een werkelijk totaal andere is dan de examenregeling suggereert dat ze is: de regeling kan vrolijk zijn dat er op de LT volledige compensatie geldt, terwil de de facto strategische situatie die van drempelnut is. Dat geldt in zijn algemeenheid ook voor de andere toetsen in het examen: de de facto situatie voor de student is een door persoonlijke omstandigheden (vooral de toetshistorie) bepaalde, dus een ernstige variant op de formele situatie zoals in de exa,menegeling beschreven. De iplicatie is, maar eigenlijk hebbe we dat altijd al geweten, toch?, dat de groep studenten die toets C af gaat leggen, niet in een strategische situatie verkeert die als homogeen is op te vatten. ]


28 september 2006 \ contact ben at at at benwilbrink.nl    


Valid HTML 4.01!   www.benwilbrink.nl/projecten/spa_artikel.htm