home selectie |
fixus |
toets |
model |
markt |
beleid |
geschiedenis |
overig |
Ben Wilbrink - publicaties op het thema: modellen voor de getoetste wereld
Algemeen Toetsmodel
en andere modellen
Schematisch tentamenmodel
De volgende publicaties geven modellen voor tal van zaken die met beoordelen en beoordeeld worden hebben te maken. Het belangrijkste model is het Algemene Toetsmodel, waarvan hiernaast een eenvoudig schema als motto voor de hele rubriek is opgenomen. Een afrondende publicatie over dit Algemene Toetsmodel zit vooralsnog in het vat, maar belangrijke onderdelen ervan zijn sinds 1978 gepubliceerd: de presentatie uit 1998 is te zien als een samenvatting van het model, met uitzondering van de afsluitende optimalisering van strategie. De grondgedachte van deze wijze van modelleren gaat terug tot het besliskundig opgezette Tentamenmodel van Bob van Naerssen. Het schema maakt duidelijk dat het model complex van karakter is. Daar komt bij dat het vrijwel onmogelijk is om over de afhankelijke elementen ervan te publiceren zonder tevens de voorafgaande elementen te behandelen. Ook is het zo dat eigenlijk ieder element op een bepaalde manier ingaat tegen de stroom van het gevestigde denken. Een actueel overzicht van het Algemene Toetsmodel is te vinden in de Engelse presentatie van algemene toetsmodel, waarin tevens de programmatuur wordt aangeboden in de vorm van Java-applets die in de browser zijn te gebruiken http://www.benwilbrink.nl/projecten/spa_project.htm
Het Algemene Toetsmodel is niet het enige model dat hier is te vinden. Ik noem nog uit 1977 het heuristische studieresultatenmodel, uit 1980 het model voor opeenstapeling van ellende voor de achterblijvende student, en vooral uit 1992 het systeemmodel (gebaseerd op methodieken van James Coleman) voor de impliciete onderhandeling zoals die tussen beoordelaars en beoordeelden voortdurend plaatsvindt.
Inzicht doorzichtig toetsen
Ben Wilbrink (1998). Inzicht doorzichtig toetsen. In Theo H. Joostens en Gerard W. H. Heijnen (Red.). Beoordelen, toetsen en studeergedrag. Groningen: Rijksuniversiteit, GION - Afdeling COWOG Centrum voor Onderzoek en Ontwikkeling van Hoger Onderwijs, 13-29. html
Deze bijdrage geeft in kort bestek een overzicht van het Algemene Toetsmodel, tot en met het voorlaatste moduul belang voorspellen, en presenteert voor het eerst de inbouw van inzicht als extra parameter voor bruikbare leermodellen. De gegeven theoretische onderbouwing is summier, wijst naar oorsprongen in Van Naerssen (1970: tentamenmodel) en De Groot (1970: transparency). Ieder van de onderscheiden modulen vraagt een eigen theoretische inkadering, maar levert ook meteen praktische gevolgen en inzichten op. De gekozen operationalisatie van inzicht als gelijktijdig paraat hebben van benodigde kennis maakt het mogelijk situaties te modelleren die anders lastig zijn te analyseren. Voorbeelden daarvan: hoe moeilijk is het eigenlijk om dwarsverbanden door de stof te leggen, iets dat makkelijk van studenten wordt gevraagd? En wat betekent het voor de slaagkansen van studenten wanneer toetsvragen meer inzicht vergen dan wat in het onderwijs is geoefend?
Studiestrategieën die voor studenten en docenten optimaal zijn
Ben Wilbrink (1995). Studiestrategieën die voor studenten en docenten optimaal zijn: het sturen van investeringen in de studie. Korte versie in Bert Creemers e.a. (Red.), Onderwijsonderzoek in Nederland en Vlaanderen 1995. Proceedings van de Onderwijs Research Dagen 1995 te Groningen (218-220). Groningen: GION. Paper: auteur. html
Op basis van de beginselen achter het tentamenmodel van Van Naerssen (1970) is het mogelijk gebleken een Algemeen Toetsmodel (ATM) te ontwikkelen waarmee ook complexere examenregelingen zijn te analyseren (dit ATM is beschreven in een parallelpaper in de sectie methodologie). Een interessant casus voor zoÕn analyse is de ontwikkeling in de numerieke rendementen van de propedeuse geneeskunde in Groningen, zoals beschreven door Janke Cohen-Schotanus (1994).
In dit paper komt een jaren later pas gecorrigeerde misvatting over de constructie van nutsfuncties bij compensatie voor. Hoewel de juiste techniek anno 2003 nog niet is gepubliceerd, is in de geactualiseerde versie van dit paper ook de gecorrigeerde analyse opgenomen: deze leidt tot nog duidelijker aan compensatie toe te schrijven voordelen.
De analyse van een casus met vrijstellende deeltoetsen heeft een corollary die in 1995 over het hoofd is gezien: als toetsen op deze wijze modelmatig uiteen zijn te leggen in deeltoetsen, moet het Algemene Toetsmodel ook geldigheid hebben in situaties waarin er vooral sprake is van begeleiding van de student (formatieve toetsing), en minder van een eindbeoordeling (summatieve toetsing). Het ATM is daarom niet inherent gebonden aan of beperkt tot formele toetsmomenten.
Van Naerssen's tentamenmodel in algemene vorm
Ben Wilbrink (1995). Van Naerssen's tentamenmodel in algemene vorm. Korte versie in B. Creemers e.a. (1995). Onderwijsonderzoek in Nederland en Vlaanderen 1995. Proceedings van de Onderwijs Research Dagen 1995 te Groningen. Groningen: GION. 114-115. Paper: auteur. html
In 1970 presenteerde Van Naerssen zijn tentamenmodel, dat de belofte in zich droeg een instrument te worden om studeergedrag te kunnen verklaren als afhankelijk van de toets(situatie), en en om toetsen en examens zo te kunnen inrichten dat deze met een minimum aan verliestijden zijn te behalen. Dit tentamenmodel is een van de de eerste pogingen om beoordelen in het onderwijs te modelleren als een proces van keuzen van zowel studenten als docenten, met technieken uit de economische besliskunde. De uitdaging is nu om dit tentamenmodel verder te ontwikkelen tot een algemeen toetsmodel (ATM) zodat het ook in andere situaties is te gebruiken, en om het te verbinden met de micro-economische theorie en ColemanÕs (1990) theorie van sociale systemen.
A consumer theory of assessment in higher education
Ben Wilbrink (1995). A consumer theory of assessment in higher education; modelling student choice in test preparation. [164k Word file] 6th European Conference for Research on Learning and Instruction, Nijmegen. Paper; auteur. html
abstract
Time on task is a major determinant of achievement. There are large differences between students in the amount of time they invest in preparation for tests. Typically these differences in preparation time show only weak correlations with achievement, indicating that individual students have their own reasons for choosing to spend their time in preparation for this or that test, or elsewhere. Individual choice in preparation time can be modeled, allowing for the stochastic character of the particular assessment instrument(s) involved. The stochastic part of the model makes use of statistical theory, not of psychometrics, to evaluate the expected returns to the alternative uses of his time that the student must choose between. The choice situation is depicted in the standard micro-economic format of indifference curves. Predictability of test scores is a crucial part of the assessment model; i.e. prediction by the testee, not by the tester. The entire model is implemented in a computer program. It is possible to vary crucial parameters of assessment situations and study the way how that influences the strategic choices students have in optimizing their investments of time. Not only is this program a research instrument, it can also be used by teaching staff to study the effects possibles changes in the assessment program might have on the behavior of students, thereby clearing inefficiencies out of the way.
Algemeen toetsmodel [Colloquium Cito]
Ben Wilbrink (1994). Colloquium voor de staf van het Cito over historische achtergronden van het beoordelen in het onderwijs, en een algemeen toetsmodel dat een alternatief is voor de 'geaccepteerde theorie.' Paper: auteur. html
Het colloquium voor de staf van het Cito is de eerste coherente presentatie van het Algemene Toetsmodel, uitgewerkt op papier, de gebruikte programmatuur (Pascal) is aan de digitale versie toegevoegd. De gehouden voordracht werd evenwel grotendeels gevuld met een overzicht van beoordelen in het wat verdere verleden, met een korte presentatie van het model dat immers vanwege zijn technische karakter slechts voor een klein deel van de staf interessant zou kunnen zijn (maar niet zo werd gewaardeerd, heb ik vernomen).
Understanding grade retention, drop-out and study delays as system rigidities
Ben Wilbrink (1992). Modelling the connection between individual behaviour and macro-level outputs. Understanding grade retention, drop-out and study-delays as system rigidities. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. 701-704.). Enschede: University of Twente. Paper: auteur. html
abstract
Certain anomalies in education are extremely resistant to change, as is certainly the case for grade retention in secondary education and for attrition and study-delay in higher education. Present-day research methodology and data analysis in the educational field are not fit to the task to elucidate this kind of macro-educational phenomena. Recently Coleman (1990, Foundations of social theory. Cambridge, Massachusetts) presented a theory of social systems that connects behavior of actors (for example students and teachers) at the micro-level with phenomena occurring at the macro-level of the social system involved. The theory of Coleman has its roots in micro-economics, and is conceptually very different from traditional methodological approaches to social (and educational) phenomena. The paper explores the possibility to apply this theory to the mentioned problems in education, using empirical data (grades and time expenditure) from the first year examinations 1985-1989 of the study of law at the University of Amsterdam.
See the response of James Coleman attached to 92ColemanApplicationECER.htm. For the Pascal program: contact me.
The first year examination as negotiation; an application of Coleman's social system theory to law education data
Ben Wilbrink (1992). The first year examination as negotiation; an application of Coleman's social system theory to law education data. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. 1149-1152). Enschede: University of Twente. Paper: auteur. htm
Abstract
The question asked, and answered in the paper, is how it is possible to describe self-study and examination results in the first year examination in such a way as to get a handle on the process. Marks and time spent for all parts of the first year examination in law at the University of Amsterdam, over a number of years, are the data that are available. The question is not whether time spent is related to marks received: of course it is. The real question is why so little time (appr. 800 hours) is spent, and yet so many unsatisfactory marks are received. This educational system must be constituted in such a way that it is NOT rational for students to invest a little extra time and succeed for the examination within the time limit of one year, for they are not behaving that way. These data are eminently suited to apply techniques of Coleman's (1990) social system theory, to reveal the weak spots in this educational system, and to suggest policy measures to repair them.
Added to the file; letter to James Coleman, and his return letter. For the data and the Pascal program: contact me.
Zelf-evaluatie voor propedeusestudenten
Ben Wilbrink (1987). Zelf-evaluatie voor propedeusestudenten. In Grave, W. S. de, en Nuy, H. J. P. (Red.). Leren studeren in het hoger onderwijs (p. 157-166). Almere: Versluys Uitgeverij bv. (Landelijke Dag Studievaardigheden 1987 Maastricht) html
Studielast, rendement en functies propedeuse. Relaties tussen wetgeving, theorie en empirie
Marjon Voorthuis en Ben Wilbrink (1987). Studielast, rendement en functies propedeuse. Relaties tussen wetgeving, theorie en empirie. Deelrapport 2: Evaluatie-onderzoek Wet Twee-fasenstructuur. Amsterdam: SCO-rapport 112. html
Toetsen, herkansen, studievertraging: achterliggende mechanismen
Ben Wilbrink (1980). Toetsen, herkansen, studievertraging: achterliggende mechanismen. Onderzoek van Onderwijs, 9 nr. 2, 7-11. html
Het kijken naar verzamelde cijfers over zakpercentages, aantallen herkansingen e.d., maakt de beschouwer niet veel wijzer over de aard van het probleem. Zelfs over de omvang van het probleem kun je misleid worden: het is niet op voorhand duidelijk dat bij vakken met de grootste aantallen 'zakkers' ook de grootste vertraging optreedt, of daar ook werkelijk de 'knelpunten' liggen. Voor inzicht in de samenhang tussen herkansen en studievertraging, en voor een begin van inzicht in mogelijkheden om hier studievertragingen te beperken, is het allereerst noodzakelijk om je inzicht te verwerven in de oorzakelijke mechanismen.
Het 'ontdekken' van die mechanismen is eigenlijk heel eenvoudig en geen kwestie van navelstaren bij een computeruitdraai van de studieresultaten over de afgelopen 10 jaar, als men zich eens af gaat vragen hoe 'verstandige' studiestrategieën er voor de student uitzien. Dat wil ik samen met de lezer in dit paper gaan doen. De 'filosofie' is dat al dat zakken en herkansen geen uiting is van laksheid van studenten, of van een belabberd functionerend onderwijsstelsel, maar dat het het noodzakelijk gevolg is van een nuchtere en rationele opstelling van studenten tegenover het gehanteerde beoordelingsstelsel.
Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden
Ben Wilbrink (1980). Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor Onderwijsresearch, 5, 49-62. (eerder ook vermeld onder 'Toetsen en examens') html
In criterion referenced testing the problem of locating cutting scores that are in some sense optimal is usually solved after intricate mathematical reasoning. The same solution is shown to be obtainable by simple arithmetics, though admittedly still based on the same debatable premises as more sophisticated approaches like Huynh's (1976).
Moreover, statistical modeling is nice in theoretical work, but not a necessary condition for sensible applications. The practitioner needs only 1) the value of a selection parameter, derived from the assessed utilities (losses) on possible decision outcomes, and 2) the scatter diagram of scores on test and referral task (or a parallel test) from students not given differential treatment on the basis of these testscores. Statistical models are useful insofar as improved estimates on the probability of succes on a referral task, given testscore, are obtained.
Enkele radicale oplossingen voor kriterium gerefereerde grensskores
Ben Wilbrink (1980). Enkele radicale oplossingen voor kriterium gerefereerde grensskores. Tijdschrift voor Onderwijsresearch, 5, 112-125. (eerder ook vermeld onder 'Toetsen en examens') html
A serious defect in decision analytic approaches to the cutting score problem hitherto has been that remedial treatment effects are rather implicitly subsumed in utility assignments to an incomplete set of possibie outcomes. The correct decision analysis is presented, using results from a second validation study on students assigned to the remedial treatment irrespective of their testscores. The specification of utilities, not longer being mixed up with probabilistic contingencies resulting from remediation, is now possible in a rather clear-cut way. The obvious relation to Cronbach and Snow's (1977) ATI methodology is summarily pointed out. The given approach, however correct, is still rather impractical; the best and simplest procedure is suggested to be the simultaneous optimization of the cutting scores on the set of tests, experiment-wise varying cutting scores and observing resulting achievements and needed studytimes.
Universitaire examenregeling: konjunktief of kompensatorisch?
Wilbrink, B. (1979). Universitaire examenregeling: konjunktief of kompensatorisch? In K. D. Thio & P. Weeda (Red.), Examenproblematiek. ORD bundel. Den Haag: SVO. html
Voor een studie naar de relatieve efficiëntie van conjunctieve (alles voldoende en compensatorische (gemiddeld voldoende) examenregelingen werden modellen opgesteld voor optimale studiestrategieën onder beide regelingen. Als tweede stap zal een methode voor cesuurbepaling ontwikkeld worden die de bereikte stofbeheersin gegeven de programmatisch beschikbare studietijd maximaliseert.
Theoretische vergelijking van beide regelingen is mogelijk door één van beide variabelen 'gemiddeld bereikte stofbeheersing' of 'gemiddelde tijdbesteding' ge lijk te stellen en het niveau van de andere variabele te schatten aangenomen dat studenten onder beide regelingen ongeveer optimale studiestrategieën zouden volgen.
De compensatorische regeling, die geen 'herkansingen' kent, is naar verwachting de efficiëntere.
Studiestrategieën
Ben Wilbrink (1978). Studiestrategieën. Examenregeling deel A. Amsterdam: COWO (docentenkursusboek 9). html
Herziene versie 2004, al beschikbaar html
Studiestrategieën en examenregelingen, waar gaat dat over? Voorop staat dat het examen op verschillende manieren geregeld kan zijn, en dat al naar gelang de regeling de beste studiedtrategie voor studenten wisselt. De regelingen gaan vooral over de manier van combineren van cijfers voor vakken. Twee vormen van examenregeling zijn te onderscheiden: de conjunctieve (dat is de regeling zoals we die vandaag de dag voornamelijk hanteren), en de compensatorische (het gemiddelde van de verschillende studieresultaten bepaalt het eindresultaat). De compensatorische regeling is ons vertrouwd, het is de manier waarop in lager en middelbaar onderwijs cijfers voor proefwerken en beurten binnen een enkel vak tot eindcijfer voor dat vak gecombineerd worden. Het is ook de manier waarop resultaten voor verschillende vragen binnen een enkele toets optellen tot eindscore en cijfer. Wij zijn alleen niet gewend om het gemiddelde resultaat over verschillende studieonderdelen het examenresultaat te laten bepalen, zoals bijvoorbeeld de Amerikanen dat weer wel gewend zijn.
Het meten van studietijd
Dick Tromp en Ben Wilbrink (1977). Het meten van studietijd. Congresboek Onderwijs Research Dagen. html
Studietijd is een geliefkoosd onderwerp van onderwijskundigen, docenten en beleidsmakers. Waarom? Net als bij het verwante onderwerp "studiepunten" mogelijk is, kan men de definitie nauw begrenzen en zich beperken tot uitspraken op basis van onderzoek naar de validiteit en betrouwbaarheid van de beschikbare meetinstrumenten. Dus doende echter, zou men voorbijgaan aan het nogal veelzijdige karakter van de factor studietijd; vooral wanneer men deze opvat als een variabele die in onderwijssituaties gemanipuleerd kan worden. Het lijkt derhalve op zijn plaats een bespreking te wijden aan een aantal aspecten, die hier als van onderwijskundige, ideologische, technische en empirische aard zullen worden aangeduid.
http://www.benwilbrink.nl/publicaties/model.htm