in: Liber amicorum A.D. de Groot (1979). Rede als richtsnoer. Mouton: 's-Gravenhage. 197-208.



R.F. VAN NAERSSEN


Voorbeelden van psychometrisch onderzoek met gesimuleerde toetsuitslagen


1. Inleiding

Simulatie wordt in de wiskunde, in de natuurwetenschappen en bij vele technieken gebruikt voor het aanpakken van problemen die (nog) niet op deterministische wijze kunnen worden opgelost. Bijvoorbeeld kan men de uitkomst van elke bepaalde integraal met simulatie vinden, maar alleen bij sommige zogenaamde onoplosbare integralen heeft dit zin, want de simulatiemethode kost meestal tientallen of honderden malen meer computertijd dan de deterministische methode, als die er is (Cohen, 1973). Hieronder zal ik enkele voorbeelden geven van psychometrische problemen die opgelost worden door het simuleren van toets of zelfs itemuitslagen. En tenslotte zal ik, om de grenzen van de methode te laten zien, een voorbeeld geven van een minder geslaagde toepassing, waarbij de 'gewone' manier voor minder geld betere resultaten levert. Ik beperk mij hier tot enig eigen psychometrisch onderzoek. Voor inleidingen in de inmiddels omvangrijke literatuur van computersimulatie in de gedragswetenschappen kan verwezen worden naar boeken als Green (1963) en Lehman (1977). Internationale vermaardheid geniet een artikel van Frijda (1971).


De kern van elke simulatie of MonteCarlomethode, zoals deze ook wel genoemd wordt is het 'toevalsgetal', een grootheid, die alle mogelijke waarden tussen nul en één kan aannemen met eenzelfde kans. De simpelste (maar niet per se de beste) methode om een reeks toevalsgetallen te generen is te beginnen met een willekeurig toevalsgetal, dit met een vast getal te vermenigvuldigen en dan de gehelen weg te laten, het zo verkregen tweede toevalsgetal wordt op dezelfde manier gebruikt om het derde te generen, ete. Als vast. 'magisch' getal blijken sommige getallen beter te voldoen dan andere, d.w.z. de toevalsgetallen zijn daarbij gelijkmatiger rechthoekig verdeeld. Eisen die men aan een reeks gegenereerde toevalsgetallen stelt zijn: een nauwkeurig rechthoekige kansverdeling, statistische onafhankelijkheid van opeenvolgende getallen, een lange periodiciteit en geen lange 'runs' of 'gaps'.


Door bijvoorbeeld telkens twaalf opeenvolgende toevalsgetallen bij elkaar op te tellen en van de som 6 af te trekken krijgt men een grootheid die volgens de centrale limietstelling praktisch standaardnormaal verdeeld is. Men kan (op vele manieren) als het ware trekkingen uit elke gewenste verdeling genereren. Zo kan men (quasi)toevallige toetsuitslagen genereren als trekkingen uit, bijvoorbeeld, een normale verdeling met gegeven gemiddelde en standaardafwijking; of een binomiale verdeling met gegeven aantal items en 'relatieve ware score', d.i. de kans p om een willekeurig item van de toets goed te beantwoorden; of een samengesteld-binomiale verdeling in het geval elk item een andere p heeft, enzovoort. Ook itemuitslagen (nul of één) kunnen eenvoudig gevonden worden als de kans-op-goed p bekend is: is het gegenereerde toevalsgetal kleiner dan p dan wordt het item goed gerekend, en anders fout.


Bij alle onderstaande gevallen worden zo toets of itemuitslagen gegenereerd, en deze worden precies verwerkt alsof het onderzoek gedaan zou zijn met honderden of duizenden proefpersonen. Elk psychometrisch simulatieprobleem kan ook zuiver empirisch aangepakt worden, maar kost dan mogelijk het honderdvoudige, terwijl er bovendien nog talloze onbekende foutenbronnen roet in het eten kunnen werpen. Daar staat tegenover dat bij simulatie vele modelveronderstellingen worden gemaakt. Gelukkig blijkt de invloed daarvan vaak gering. Maar dat moet men dan wel af en toe checken. Zo bleek in het eerstvolgende onderzoek vervanging van normaal verdeelde toetsuitslagen (gegeven de ware score) door binomiaalverdeelde geen noemenswaardige invloed te hebben op de resultaten.


2. De aftestgrenzen bij een propedeuseregeling

Aan de subfaculteit psychologie van de universiteit van Amsterdam heerst tot de herprogrammering een gedeeltelijk compensatorische propedeuse. De student moet voor zes gedeelten (vakken) met resp. 45, 55, 80, 30, 30 en 30 items apart geslaagd zijn door bij elk vak minstens 55% van de items goed te beantwoorden, maar bovendien moet hij totaal 70% van alle items goed hebben, dus 189 punten halen. Van elk vak is er één herkansing; wie na alle herkansingen nog niet aan de zes minimumeisen en de eis van het gemiddelde voldoet, moet de studie opgeven of het volgend jaar opnieuw beginnen, d.w.z. voorlopig gehaalde tentamens zijn niet meer geldig. De voor het onderzoek gestelde vraag luidde: als men het aantal tentamengelegenheden van twee op vier per jaar brengt, tot hoever moet men dan de aftestgrenzen verhogen opdat het niveau van de geslaagden gehandhaafd blijft?


Men kan kiezen voor handhaving van kennisniveau of capaciteitsniveau. Het eerste speelt een rol in het onderzoek van de volgende paragraaf. Hier echter werd gekozen voor capaciteitsniveau omdat de propedeuse indertijd onder andere is ingevoerd als capaciteitsselectiemiddel. Een analyse van de intercorrelatiematrix tussen de vakken wees op slechts één gemeenschappelijke factor of capaciteit, vermoedelijk een 'mengsel' van ijver, studieëfficiëntie en intelligentie, dat bij alle vakken even belangrijk is.


Het zal duidelijk zijn dat het probleem te ingewikkeld is om op de gewone manier, dus deterministisch, te worden opgelost. Bij gebruik van gesimuleerde scores kan men het model echter zo dicht bij de werkelijkheid brengen als men wenst. Hier werd begonnen met een bij de begingroep normaalverdeelde capaciteit. Uit deze score van de gesimuleerde student werden zijn scores op de toetsen gegenereerd met behulp van de empirisch bepaalde gemiddelde scores, de standaardafwijkingen, de correlaties met de capaciteit (geoperationaliseerd als de totale score op de propedeuse) en met een normaal verdeelde toevalsvariabele. Het computerprogramma noteert, net als in de werkelijkheid, of de student geslaagd is. Maar nu blijkt ook een 'strategie' van de student te moeten worden ingebouwd: de persoon doet mee aan herkansingen zolang hij nog niet de minimumscore gehaald heeft, maar bij de laatste gelegenheid doet hij altijd mee als hij nog niet geslaagd is voor de gehele propedeuse (om de totaalscore zo mogelijk nog op te halen). Bij herkansingen vervalt de oude score. Later werd nog een andere strategie beproefd: steeds meedoen zolang men nog niet voor het geheel geslaagd is, tenzij men reeds 70% van de items van dat tentamen gehaald heeft, of men minstens de minimumscore voor dat tentamen gehaald heeft en van het geheel reeds 70%. Deze, misschien wat realistischer, strategie leidde echter niet tot andere resultaten, net zo min als het beproeven van binomiaal verdeelde scores (gegeven de ware score).


Voorts werden nog twee verschijnselen in het programma geïncorporeerd om het model realistischer te maken: 'testwiseness' en 'weglopen' en ook hier werd natuurlijk gebruik gemaakt van empirisch gevonden waarden. Vooral het weglopen, voortijdig de studie verlaten, kan als verschijnsel niet worden genegeerd. In het programma werd een kans op weglopen ingebouwd, die een lineaire functie is van de na de eerste gelegenheid gehaalde gemiddelde itemscore. Voor details moet verwezen worden naar Van Naerssen (1976).


Wat betreft de resultaten zij hier slechts vermeld dat gemiddeld dezelfde capaciteit van de geslaagden wordt gehandhaafd (bij vier tentamengelegenheden) indien men (bijvoorbeeld) de minimumscores van de drie herkansingen verplaatst van 55% tot 70%. (In werkelijkheid besloot de examencommissie om de oude toestand te handhaven met toevoeging van een tweede herkansing voor slechts één vak per student).


3. Conjunctieve of compensatorische combinatie van twee toetsen

Over de totale utiliteit van de geselecteerde groep bestaat er enige literatuur, die de conjunctieve methode - men moet voor beide tentamens apart geslaagd zijn - vergelijkt met de compensatorische. Hier echter gaat het om een vergelijking van de tijd, die de student nodig heeft om gemiddeld door beide tentamens heen te komen. Men kan denken aan het oude Nunnallytentamen, dat bestond uit twee delen van elk 50 items. De student moest toen samen 75 items goed hebben. Het probleem was: kost deze methode de student nu gemiddeld meer of minder tijd dan drie alternatieven: één tentamen van 100 respectievelijk 50 items, dan wel twee tentamens van elk 50 items conjunctief gecombineerd. De voor deze drie alternatieven benodigde tijd kan met het zogenaamde 'tentamenmodel' (samengevat in Van Naerssen, 1978b) zonder simulatie berekend worden (uiteraard bij aangenomen plausibele parameterswaarden). Dit model maakt o.a. gebruik van leer- en vergeetcurven van de ware score, binomiale verdeling van de scores gegeven de ware score, en de assumpties dat de student het tentamen een onbeperkt aantal keren mag overdoen als hij zakt en dat de student de optimale strategie volgt door de totale studeertijd te minimaliseren. Bij de compensatorische combinatie van de toetsen is de situatie echter te gecompliceerd om 'gewoon' te worden opgelost.


Dus komt men weer terecht bij simulatie: een persoon wordt gecreëerd door zeven registers te reserveren waarin respectievelijk de ware score, de laatste score op beide tentamens, de identiteit van het onderhavige tentamen, de totale moeite (= tijd) tot het slagen voor de combinatie en het aantal afgelegde tentamens worden bewaard. De persoon mikt op een (optimaal) kennisniveau, doet tentamen d.w.z. een score wordt gegenereerd afhankelijk van gemikt niveau en 'toeval' slaagt of zakt, begint na een optimale tijd aan het tweede deel, doet daarvoor tentamen, slaagt of zakt weer.... Maar nu moet hij kiezen, als hij nog niet voor het geheel geslaagd is, welk tentamen hij overdoet. In het programma kiest hij het tentamen met de laagste score, een vermoedelijk tamelijk goede strategie. Inmiddels daalt de kennis op beide tentamens tot het gekozen tentamen weer wordt opgehaald, enzovoort, tot de totaalscore van 75 gehaald is.


Bij deze summiere beschrijving zal ik het moeten laten. Het onderzoek staat beschreven in Van Naerssen (1977b). Wel zijn hier enige uitkomsten interessant: De compensatorische methode bleek de minste moeite te kosten, hoewel de verschillen gering zijn. Nu worden er echter bij de compensatorische methode gemiddeld de laagste scores gehaald; men springt als het ware net over de lat. Stelt men nu de aftestgrens één punt hoger dan kost de compensatorische methode nog net minder tijd, terwijl het kennisniveau gemiddeld toch niet minder is dan bij de andere methoden. Van de drie alternatieven blijkt 'één toets van 100 items' het meest efficiënt wat betreft de tijd van de studenten. Maar ook daar zijn de verschillen gering. Het belang van het onderzoek zit misschien vooral hier in dat een voorbeeld wordt gegeven hoe een psychometrisch anders onontwarbaar probleem door middel van simulatie tot een oplossing gebracht kan worden.


4. Simulatie bij empirisch onderzoek

De simulatie beschreven in Van Naerssen (1978a) heeft betrekking op een door een ander verricht en ter beoordeling opgezonden statistisch onderzoek. De onderzoeker had getracht aan te tonen dat het bekende model van weten of blind raden niet juist was. Hij koos hiervoor, van een door een grote groep gemaakte test, een subgroep personen met scores rond de raadscore een kwart van het aantal items bij vier alternatieven en meende aan te tonen dat deze groep significant lager scoorde op een subgroep moeilijke items dan het geval zou zijn wanneer steeds niet een kans van een kwart zou zijn geraden. Dus zou de groep niet raden maar bijvoorbeeld verkeerd geïnformeerd zijn of een misverstand vertonen. De scores op de items van de toets werden aan de hand van de empirische gegevens zoals p-waarden en item-test-correlaties, zo goed mogelijk gesimuleerd. Het computerprogramma volgde nu de handelingen van de onderzoeker op de voet, maar daarbij werd wèl het model van weten of blind raden ingebouwd. Dus een persoon weet het item en heeft het goed, of hij weet het niet en raadt dan met een kans van 0,25. Voor de berekening van de kans op weten werd het normaalogiefmodel gehanteerd (Lord & Novick, 1968, hoofdstuk 16); de itemparameters werden geschat met de methode van Urry.


Het programma leidde tot een ongeveer even 'significante' verwerping van de nulhypothese (het model van weten of blind raden) hoewel die hypothese nu juist was ingebouwd. Daar kon de oorzaak dus niet liggen. Natuurlijk lag de fout van de onderzoeker bij de ongeoorloofde selectie van personen en items uit het oorspronkelijke totale materiaal, maar de simulatie overtuigt méér dan mogelijk is door a priori te wijzen op een methodologische fout.


Belangrijker nog dan simulatie bij het achteraf beoordelen van empirisch onderzoek lijkt mij simulatie bij (bijna) elk empirisch toetsend onderzoek vóóraf. Empirisch onderzoek is duur en wordt naarmate de methodologie voortschrijdt en er dus steeds meer eisen worden gesteld, elk jaar duurder. Door het toetsend onderzoek vooraf te simuleren zouden misschien niet alleen af en toe fouten in het ontwerp aan de dag kunnen komen maar ook de minimum steekproefgrootte zou gevonden kunnen worden, vooral voor die situaties waar voor de 'power'-schatting geen tabellen beschikbaar zijn. Simulatie vóóraf zou wel eens door het ontmoedigen van uitzichtloos onderzoek een belangrijk efficiëntieverhogend middel kunnen worden en daardoor een aan onderzoek te stellen eis, die in een volgende (druk van?) Methodologie misschien zal worden opgenomen.


5. De keuze tussen een absolute en een relatieve aftest grens

In deze paragraaf wil ik illustreren hoe simulatie theoretisch-psychometrisch onderzoek kan begeleiden of toetsen. Door simulatie kan men schatten welk nut men kan verwachten van ontworpen veranderingen, berekeningsformules of modellen. Het voorbeeld betreft hier de vraag of men bij het bepalen van de aftestgrens (minimum-voldoende-score MVS) beter de absolute methode kan hanteren (constante MVS) dan wel de relatieve (constant percentage geslaagden). In de literatuur zijn nogal wat 'hybride' methoden voorgesteld, waarbij beoogd wordt te corrigeren zowel voor schommelingen in de gemiddelde moeilijkheid van de items als voor die in gemiddeld niveau van de studenten. Geavanceerde methoden zijn nu beschikbaar die gebruik maken van bijvoorbeeld het Raschmodel, het normaalogiefmodel of het logistisch model. Van de eenvoudige methoden kan die van de kernitems hier niet onvermeld bli ven (De Groot, 1964; Van Naerssen, 1974) hoewel dit bovendien nog een 'criterion-referenced' methode is. Recentelijk heeft De Gruijter interessante methoden ontworpen (bijv. De Gruijter, 1978), waarbij echter pas na vele toetsafnamen bruikbare schattingen kunnen worden gevonden.


In Van Naerssen (1979) wordt alleen de keuze tussen constante MVS of constant percentage geslaagden onder de loupe genomen, maar dit simulatieonderzoek heeft vermoedelijk belangrijke implicaties voor alle hybride methoden. Er wordt gebruik gemaakt van het logistisch model (Lord & Novick, 1968) dat lijkt op dat welke in de vorige paragraaf ter sprake kwam: alle items hebben slechts één factor, de trek thèta, gemeen; alle itemkarakteristieken (krommen die de kansopgoed uitdrukken als functie van thèta) zijn logistische krommen (praktisch de bekende normaalogieven, maar met logistische krommen rekent het sneller) met drie parameters. Dit zijn een discriminatie-index, een moeilijkheids-index en een index die samenhangt met het aantal alternatieven van de keuzetoets. Voor de simulatie worden nog een aantal min of meer plausibele parameterwaarden aangenomen. De groepen van N personen worden a.h.w. toevallig gekozen uit een populatie met standaardnormaalverdeelde thèta. De itemparameters worden voor elke toetsafname toevallig gekozen uit een verzameling, die gemiddeld tot een 'normale' toets leidt: bij 40 items bijv. tot een gemiddelde score van 25, een betrouwbaarheid van 0,78 een gemiddelde itemcorrelatie van 0,33, en standaardafwijkingen van pwaarden en itemtesteorrelaties van respectievelijk 0,17 en 0,11. Voorts wordt aangenomen dat de personen een 'utiliteit' hebben die lineair samenhangt met thèta terwijl het utiliteits nulpunt bij de populatie ligt bij ongeveer 30% afwijzen (thèta = 0,5; dat is dus in de populatie de optimale aftestgrens; zie de bijdrage van Mellenbergh in deze bundel).


Voor deze speciale maar 'normale' situatie genereert het programma nu voor een op te geven groepgrootte N en toetslengte K de itemscores, en berekent hieruit de utiliteit van de selectie, ten opzichte van de a priori strategie 'niemand laten slagen'. En wel gewoon door het optellen van de utiliteiten van de geslaagde personen (in dit geval thèta plus 0,5). De berekeningen werden verricht voor de negen combinaties van N = 25, 50, 100 en K = 20, 40, 80, apart voor de twee strategieën: constante MVS (absolute methode) en constant percentage geslaagden (relatieve methode). Zoals gebruikelijk werd bij de laatste methode telkens de utiliteit van de dichtst bij het percentage staande aftestgrens gekozen: een scoreverdeling is nu eenmaal niet continu. De beide utiliteiten, d.w.z. hun maxima, en hun verschil (absoluut min relatief) staan in de volgende tabel; de waarden zijn gemiddelden van 100 gesimuleerde toetsafnamen.


K		N = 25                     N = 50
80   0,683 - 0,669 =  0,014      0,684 - 0,683 =  0,001
40   0,679 - 0,674 =  0,005      0,674 - 0,670 =  0,004
20   0,627 - 0,634 = -0,007      0,639 - 0,640 = -0,001

	    N= 100
     0,685 - 0,686 = -0,001
     0,673 - 0,675 = -0,002
     0,643 - 0,643 = -0,004


Als eenheid geldt hier de standaardafwijking van thèta; bijvoorbeeld is bij een 80 itemtoets, afgenomen bij een klas van 25 de winst ten opzichte van 'niemand laten slagen' bij een vaste en optimale MVS 0,683; d.w.z. gelijk aan de winst die rnen maakt wanneer men iemand met een thèta van 0,683 standaarddeviaties boven het 'nulpunt' (thèta = 0,5) laat slagen in plaats van laat zakken.


De verschillen nemen toe naarmate het aantal items van de toets groter is en het aantal personen van de groep kleiner, precies zoals men intuïtief zou verwachten en de theorie van De Gruijter ook voorspelt. De onregelmatigheden zijn normaal bij simulaties (net als bij empirisch onderzoek). Dus: bij een kleine groep en een lange toets kan men beter een vaste aftestgrens kiezen, en bij een grote groep en een korte toets een constant percentage geslaagden. Maar tevens ziet men dat de verschillen tussen de maxima van beide strategieën uiterst gering zijn, zij zijn praktisch te verwaarlozen ten opzichte van de standaardafwijking van de gemiddelde utiliteit van, de groep, die bij N = 10 bijvoorbeeld 0,1 bedraagt en bij N = 25 zelfs 0,2. Men kan dus wel concluderen dat het er van utiliteitsstandpunt bezien praktisch niets toe doet of men een constante MVS kiest of een constant percentage geslaagden, althans bij de gebruikelijke groepsgrootte. (Bij landelijke toetsen met N = 1000 of meer is de relatieve methode ongetwijfeld duidelijk de beste). Maar dit betekent dat ook alle hybride methoden vermoedelijk weinig zin hebben. Het is misschien zoals Glass (1978) het stelt: wij moeten leren leven met tamelijk arbitraire aftestgrenzen.


Hiermee zijn we aangeland bij De Groot (1970). Als utiliteitsberekeningen nauwelijks verschillen aantonen dan rest ons slechts de aftestgrens te bepalen volgens acceptabiliteitsoverwegingen. De cesuur mag min of meer arbitrair geplaatst worden, zij het wel volgens vastgestelde regels en zodanig dat het tentamen gehaald kan worden binnen de geplande tijd (acceptabel voor studenten), mits er hard gewerkt wordt (acceptabel voor docenten).


6. Lokale betrouwbaarheid gegeven de itemparameters

Tenslotte dan een voorbeeld om de grenzen van de simulatiemethode te laten zien. Met het logistisch model kan men voor elke score de verwachting van de ware score berekenen, voor een bepaalde verdeling van thèta, bijvoorbeeld (quasi-)normaal. Voor elke discrete thètawaarde berekent het programma, met de samengesteld-binomiale verdeling en uitgaande van de uit de itemkarakteristieken te vinden kansen-op-goed gegeven thèta, de bijbehorende scoreverdeling. De ware score is de som van die kansen en door per score de (met de thètafrequentie gewogen) ware scores te middelen vindt men de gezochte verwachte ware score (zie Lord, 1978). Het verschil tussen opeenvolgende ware-score-waarden werd eerder 'lokale betrouwbaarheid' genoemd (Van Naerssen, 1977 a) en er is veel voor te zeggen om door itemselectie te streven naar een zo hoog mogelijke lokale betrouwbaarheid bij de aftestgrens, in plaats van naar maximale totale betrouwbaarheid.


In de figuur is de kromme D (van deterministisch) de aldus berekende lokale betrouwbaarheid als functie van de op de horizontale as afgezette ruwe score. De itemparameters zijn typisch die van een 'normaal' geval. Door middel van simulatie met N = 10 000 werden bij de 40-item


vannaerssen.1979.gif

Frequentieverdeling en Lokale Betrouwbaarheid (D en S) als functie van de score.


vierkeuzetoets namelijk de volgende veelvoorkomende afgeronde waarden gevonden: gemiddelde score 28, gemiddelde item-test-correlatie 0,30, standaardafwijking van de p-waarden 0,15 en van de correlaties 0,10, betrouwbaarheid 0,79. De grafiek toont dat de toets optimaal zou discrimineren bij een MVS van ongeveer 30 (56% gezakten), en bijvoorbeeld duidelijk minder bij de realistischer MVS van 24 met 22% gezakten. Voor die laatste grens zou men de items gemakkelijker moeten maken. Daar de simulatie toch nodig was om deze waarden te vinden - de deterministische methode van Urry wordt wel eens bekritiseerd wegens niet altijd realistische aannamen - werd de lokale betrouwbaarheid óók berekend met behulp van de gesimuleerde scores. Tot mijn onaangename verrassing bleek er zelfs bij N = 10000 weinig regelmatigheid in de reeks betrouwbaarheidswaarden te vinden. De verwachte ware scores vormden echter nog wèl een langgerekte puntenwolk. Besloten werd om hierdoor een best passend polynomium te leggen, d.w.z. dat 'de som van de kwadraten van de afstanden van de met het betreffende aantal gevallen gewogen punten tot het polynomium' werd geminimalizeerd. De afgeleide naar de score is dan de gezochte lokale betrouwbaarheid. Voor een vierdegraadspolynomium is de aldus geschatte lokale betrouwbaarheid in de figuur aangegeven als (derdegraads-)kromme S (van simulatie). Ook is in de figuur getekend de deterministisch gevonden score-frequentie-kromme met daarbij, als punten aangegeven, de frequenties volgens de simulatie. Wat deze frequenties betreft is er een fraaie overeenstemming tussen deterministische berekening en simulatie, maar de eerste methode is toch duidelijk beter. Bij de lokale betrouwbaarheid slingert de correcte kromme D zich met vijf snijpunten om de simulatiebenadering. Met een hogeregraads-polynomium zou de overeenstemming ongetwijfeld beter zijn geweest, maar het blijft toch zich behelpen. Ondanks een grote steekproef van 10000 gesimuleerde personen en een polynomium wordt de 'ware' kromme D aan de uiteinden minder fraai benaderd. Bovendien blijkt de simulatie met de polynomium-benadering tien maal zoveel computertijd te vergen als de deterministische methode. Wel illustreert dit voorbeeld toch nog een laatste nut van simulatie: de krommen D en S kunnen elkaar valideren, d.w.z. als zij systematisch van elkaar afwijken wijst dit op een fout in de formules of het computerprogramma. Dat is hier niet het geval.


7. Conclusies

Simulatie van (item)uitslagen kan een zeer nuttige methode worden in de psychometrica, en wel om problemen op te lossen die niet op andere, gewone, wijze kunnen worden aangepakt. Dit blijkt uit de voorbeelden van de aftestgrensbepaling van de propedeusetentamens en de vergelijking van de studeertijd bij conjunctieve en compensatorische combinatie van toetsen. De methode kan ook gebruikt worden voor de controle van empirisch onderzoek, maar veel nuttiger lijkt simulatie vóóraf, en bij elk (groot) experiment. Ook belangrijk zijn de mogelijkheden om zuiver psychometrisch werk te toetsen op juistheid en te verwachten nut. Maar anderzijds is simulatie overbodig tenzij als controle op grove fouten - indien het probleem deterministisch kan worden opgelost. In dit geval is simulatie bovendien minder nauwkeurig en veel duurder.


BIBLIOGRAFIE

Cohen, A. M. et al., Numerical analysis. New York: MacGrawHill 1973

Dutton, J. M. & W. H. Starbuck (eds.), Computer simulation of human behavior. New York, Wiley, 1971

Frijda, N. H., The problems of computer simulation. In: Dutton & Starbuck, 1971

Glass, G., Standards and criteria. Journal of Educational Measurement, 1978, 15, 237-261.

Green, B. F., Digital computers in research. New York: MacGraw-Hill, 1963.

Groot, A. D. de, De kernitemmethode voor de bepaling van de caesuur voldoende / onvoldoende. Pedagogische Studiën, 1964, 41, 425-440

Groot, A. D. de, Some badly needed nonstatistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 1970, 25, 360-376.

Gruijter, D. N. M. de, A Baysian approach to the passing score problem. Tijdschrift voor Onderwijsresearch, 1978, 3, 145-151. online

Lehman, R. S., Computer simulation and modeling. New York, Wiley, 1977.

Lord, F. M. & M. R. Novick, Statistical theories of mental test scores. Reading, Mass.: AddisonWesley, 1968.

Lord, F. M., Practical applications of item characteristic curve theory. Journal of Educational Measurement, 14, 1 17 137, 1978.

Naerssen, R. F. van, Psychometrische aspecten van de kernitemmethode. Nederlands Tijdschrift voor de Psychologie, 1974, 29, 421-430

Naerssen, R.F. van, Computersimulatie bij het onderzoek van tentamenregelingen. Tijdschrift voor Onderwijsresearch, 1976, 3, 112-117 abstract & online

Naerssen, R. F. van, Lokale betrouwbaarheid: begrip en operationalisatie. Tijdschrift voor Onderwijsresearch, 1977, 2, 111-119 (a). online

Naerssen, R. F. van, Moeite en tijd bij conjunctieve en compensatorische combinatie van twee toetsen. Tijdschrift voor Onderwijsresearch, 1977, 2, 165-171 (b). abstract & online

Naerssen, R. F. van, Een voorbeeld van simulatie ter controle van empirisch statistisch onderzoek. Tijdschrift voor Onderwijsresearch, 1978, 3, 49-55 (a). online

Naerssen, R. F. van (1978). A systems approach to examinations. Annals of Systems Research, 1978, 6, 63-72 (b). summary

Naerssen, R. F. van, Absolute of relatieve aftestgrens een verkenning met simulatie. Tijdschrift voor Onderwijsresearch, 1979, 4, 8-17. online


juli 2015

Valid HTML 4.01!       http://www.benwilbrink.nl/literature/vannaerssen.1979.htm