Ben Wilbrink - publicaties op het thema toetsen en examens
Toetsen en Examens
Een goed begrip ....
Toetsen en testen in het onderwijs
Ben Wilbrink (1986). Toetsen en testen in het onderwijs. In S.V.O. Jaarverslag / Jaarboek 1985. Den Haag: S.V.O., 275-288. htmls
-
Wie greep wil krijgen op de omvang van uitval en vertraging in het onderwijs doet er goed aan, alvorens dat onderwijs zelf weer eens structureel op z'n kop te zetten, de beoordelingsprocessen in dat onderwijs te proberen te beheersen. De krachtigste hefboom om verbeteringen in het onderwijs te bewerkstelligen is in te breken via het toetsgebeuren en alles wat daarmee samenhangt. Ik zal in het volgende enkele lijnen uitzetten voor een stormaanval op deze burcht van de traditie. Omdat onderzoek op vele van de te noemen onderwerpen nog nauwelijks heeft plaatsgevonden zal mijn betoog enigszins speculatief zijn, ook al laat mijn eigen werk zien dat er goede gronden voor de hier te ontvouwen gedachten kunnen worden aangegeven.
Voortgangstoetsen Maastricht
Ben Wilbrink (1985). Bewijs van het omgekeerde, voor Schmidt et al. Tijdschrift voor Onderwijsresearch, 10, 141-144. html
-
Commentaar op ontoereikende methodologie bij conclusies uit onderwijsonderzoek. Vertrekkend vanuit een aardig incident, waar Crombag Gaff en Chang in 1975 uit correlationeel onderzoek concluderen dat het voor studenten niet uitmaakt of ze studeren of in bed blijven liggen als voorbereiding op tentamens, richt deze commentaar zich op conclusies van Henk Schmidt en anderen (1982) over relaties tussen studiejaar en tentamenresultaat. De aangesproken onderzoekers zijn het met die commentaar niet eens, zoals zij in een onmiddellijk in het TOR volgende dupliek uitleggen. Die uitleg raakt evenwel mijn punt niet. Het is jammer dat zo'n interessant experiment als met de Maastrichtse voortgangstoetsen, sinds de oprichting van de medische faculteit daar, niet scherper wordt geëvalueerd dan Maastrichtse gevoeligheden kennelijk toestaan.
Docentbeoordeling
Ben Wilbrink en Willem K. B. Hofstee (1984). Docentbeoordeling. Onderzoek van Onderwijs, 13, 52-55. html
-
Ook in J. Bartelds et al. Studiedag 1987, 181-190. Contactgroep Research Wetenschappelijk Onderwijs, Utrecht: VSNU.
In dit artikel ligt de nadruk op docentbeoordeling die gevolgen kan hebben in de rechtspositionele sfeer (aanstelling, bevordering, ontslag), anders dan beoordeling met een meer begeleidend of evaluatief karakter. Mogelijkheden en randvoorwaarden bij deze docentbeoordeling worden bezien vanuit verschillende gezichtshoeken, kort te kenmerken als: het recht, de organisatie (waarbinnen docenten werken), het onderwijs (dat verzorgd wordt), en (de methodiek van) het beoordelen. Telkens weer zal blijken dat deze docentbeoordeling terughoudend moet worden ingevuld, zo men er al meer dan lippendienst aan wil bewijzen. Allereerst moet echter het waarom van deze beoordeling duidelijk zijn.
Teacher evaluation
Ben Wilbrink (1984). Opvattingen over docentbeoordeling. Bespreking van J. Millman: Handbook of teacher evaluation. Onderzoek van Onderwijs, 13. html
Toetsvragen schrijven (OvO)
Ben Wilbrink (1984). Toetsvragen schrijven. Onderzoek van Onderwijs, 13, 20-21. html
-
Kort gepresenteerd wat er in het boek Toetsvragen schrijven (Aula 809, nu beschikbaar op deze site) is te vinden aan behulpzame technieken en heuristieken voor het ontwerpen van toetsvragen. Het stuk is in naam een reactie op een mijns inziens nogal onheuse bespreking van het boek in dit tijdschrift. De redactie kwam mij genereus tegemoet door ruimte beschikbaar te stellen.
Toetsvragen ontwerpen
Ben Wilbrink (1983). Toetsvragen schrijven. Utrecht, Het Spectrum (Aula 809). [in herziening, hoofdstuksgewijs op te halen, samen ca 600k html
hfdst 1
2
3
4
5
6
7
8 ]
of [1983-editie in zijn geheel 564k pdf]
- Bij de figuur: uiteenleggen van de stof in begrippen en onderlinge relaties is het begin en eht einde van het ontwerpen van toetsvragen.
Uit het Voorwoord. Het belang van goede vuistregels voor het schrijven van toetsvragen is evident: hoe en waarop studenten getoetst en beoordeeld worden, bepaalt in niet geringe mate de kwaliteit en de opbrengst van het onderwijs. Zolang toetsvragen op intuïtieve en impressionistische wijze bedacht worden, omdat docenten nu eenmaal niet over betere mogelijkheden beschikken, zal het lastig zijn om de kwaliteit van het onderwijs te verbeteren, op welke manier dan ook. Dit boek biedt een samenhangend geheel van vuistregels, gericht op de grote diversiteit aan leerstof die de student in het Hoger Onderwijs aangeboden wordt. Deze nadruk op de inhoudelijke kant van toetsvragen onderscheidt dit boek ook van de eerste Amerikaanse poging om de beschikbare technieken voor het schrijven van toetsvragen in een overzichtelijke vorm voor onderwijspractici te presenteren: Technology of test item writing van Roid en Haladyna (1982), daar wordt het ideaal juist gelegd in zoveel mogelijk leerstofonafhankelijke technieken.
Ik heb gekozen voor vuistregels die de vragen doen aansluiten bij de aard en de structuur van de leerstof waarover gevraagd wordt. Dat is in tegenstelling tot het in de onderwijskunde meer gangbare denken in psychologische termen, waaruit vuistregels zouden kunnen volgen die leiden tot toetsvragen die bepaalde denkprocessen van de student eisen. Het verrassende is nu dat verschillende eenvoudige wijsheden uit de wetenschapsfilosofische hoek heel bruikbare aanknopingspunten bieden. Het gaat dan om de aard en de functie van definities (veel toetsvragen blijken over definities te gaan), het onderscheid tussen observeerbare, abstracte en theoretische begrippen, en dergelijke. Niet alleen zijn daar uitstekende vuistregels voor het schrijven van toetsvragen op te baseren, maar de hele aanpak zal de docent meer vertrouwd voorkomen dan de traditioneel onderwijskundige, op denkprocessen gerichte benadering. N.B.: Aan een fasegewijze herziening wordt gewerkt, die zal ook fasegewijs beschikbaar komen, onder de betere titel 'Toetsvragen ontwerpen.'
Stuur eens een enkele toetsvraag voor een vrijblijvende commentaar op naar
ben apenstaartje benwilbrink.nl
Toetsen
Ben Wilbrink (1979). Toetsen. Kursus 10.. Universiteit van Amsterdam: Centrum voor Onderzoek van het Wetenschappelijk Onderwijs .27 html
- Dit boek over het ontwerpen van toetsen is breed opgezet. Niet alleen het ontwerpen van toetsvragen, later verder en beter uitgewerkt in Aula 809 daarover, maar ook wiskundige modellen die zijn te gebruiken om precieze antwoorden te krijgen op tal van vragen die naar aanleiding van toetsresultaten zijn te stellen. Het aardige hiervan is dat deze analyses verder gaan dan de saaie en onbegrijpelijke uiteenzettingen over betrouwbaarheid en validiteit, waarin de literatuur over toetsen een kwart eeuw later nog steeds grossiert. Deze wiskundige modellen hebben een eenvoudige vorm, die al bekend is uit de voorgaande cursus uit 1978 over studiestrategieën, en in tal van andere, latere, publicaties weer terugkomen, onder andere ook in de doorrekeningen van de effecten van voorstellen voor selectie toelating tot numerus-fixusstudies in 1980. De toepassing op toetsen is als zodanig niet verder uitgewerkt; de reden daarvoor is dat het modelleren van toetsresultaten voor groepen leerlingen alleen echt zinvol is wanneer dat de aggregatie is van de individuele studiestrategieën die zij volgen, of zouden kunnen volgen. Dat is precies het tentamen-model project, ofwel het SPA-model: Strategic Preparation for Achievement testing, waaraan ik begin van de 21e eeuw nog steeds hard werk.
Kort-antwoord vragen of keuzevragen?
Ben Wilbrink (1981). Rationeel kiezen tussen kort-antwoord en keuzevragen. Universiteit en Hogeschool, 27, 293-296.12k html
-
Het dilemma 'open-antwoord- of keuzevragen' is rationeel oplosbaar, en doorgaans eenvoudiger dan via het empirisch onderzoek dat Hofstee als arbitrage aanbeveelt. Enkele overwegingen voor zo'n rationele analyse zal ik hier geven, en die betreffen zowel punten van overeenkomst, als punten van verschil tussen beide vraagvormen.
Grensscores besliskundig bepalen I
Ben Wilbrink (1980). Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor Onderwijsresearch, 5, 49-62. html Toegevoegd: enkele bewijzen en noten.
- Bij de figuur: Het draait om die verhouding P / (1 - P). Toch?
abstract
Criterion - referenced cutting scores are easily optimized
In criterion referenced testing the problem of locating cutting scores that are in some sense optimal is usually solved after intricate mathematical reasoning. The same solution is shown to be obtainable by simple arithmetics, though admittedly still based on the same debatable premises as more sophisticated approaches like Huynh's (1976).
Moreover, statistical modeling is nice in theoretical work, but not a necessary condition for sensible applications. The practitioner needs only 1) the value of a selection parameter, derived from the assessed utilities (losses) on possible decision outcomes, and 2) the scatter diagram of scores on test and referral task (or a parallel test) from students not given differential treatment on the basis of these testscores. Statistical models are useful insofar as improved estimates on the probability of succes on a referral task, given testscore, are obtained.
Grensscores besliskundig bepalen II
Ben Wilbrink (1980). Enkele radicale oplossingen voor kriterium gerefereerde grensskores.Tijdschrift voor Onderwijsresearch, 5, 112-125. html
- Bij de figuur: Lees het artikel om dit te begrijpen ....
abstract
Some radical answers to the criterion-referenced cutting score problem
A serious defect in decision analytic approaches to the cutting score problem hitherto has been that remedial treatment effects are rather implicitly subsumed in utility assignments to an incomplete set of possibie outcomes. The correct decision analysis is presented, using results from a second validation study on students assigned to the remedial treatment irrespective of their testscores. The specification of utilities, not longer being mixed up with probabilistic contingencies resulting from remediation, is now possible in a rather clear-cut way. The obvious relation to Cronbach and Snow's (1977) ATI methodology is summarily pointed out. The given approach, however correct, is still rather impractical; the best and simplest procedure is suggested to be the simultaneous optimization of the cutting scores on the set of tests, experiment-wise varying cutting scores and observing resulting achievements and needed studytimes.
Beleid bij tentamens en examens
Ben Wilbrink (1980). Beleid bij tentamens en examens. In A. I. Vroeijenstijn (Red.). Kwaliteitsverbetering hoger onderwijs. Vierde nationaal congres onderzoek van het wetenschappelijk onderwijs. Voorburg: Stichting Nationaal Congres, 380-409. html
- Dit is een presentatie van de harde kern waar de uitgebreide uiteenzetting uit 1978 over studiestrategieën op berust.
Zo geeft de figuur het effect aan van verbeterde doorzichtigheid van de toetsing: de strategie die met een minimaal aantal herkansingen leidt tot slagen voor het tentamen is scherper gedefinieerd bij meer doorzichtigheid.
Decision theory and educational measurement
Ben Wilbrink (1980). Passing scores on domain referenced tests: an improved decision-theoretic methodology for optimization. COWO. pdf
-
A decision analytic methodology is presented for setting the passing score on domain referenced tests. Distinguishing feature of this methodology is the explicit treatment of expected remediation effects. These effects not longer being considered implicit in the utility assignments results in more transparent utility structures. Attention is given to several classes of utility functions. The mathematical development, based on extensive form analysis, is rather simple compared to normal form analysis that minimizes the Bayes risk. It is not assumed that a 'mastery score' is set on the domain score dimension. In this methodology the terminali utility functions for the 'pass' and 'remediate' alternatives will in general not intersect. For a non-trivial passing score to exist it is sufficient that expected terminal utility functions intersect. The resemblance of the presented methodology to Cronbach and Snow's (1977) Aptitude Treatment Interaction methodology is summarily pointed out.
Alles voldoende of gemiddeld voldoende?
Ben Wilbrink (1979). Universitaire examenregeling: conjunktief of compensatorisch? In K. D. Thio & P. Weeda (Red.), Examenproblematiek. ORD bundel. Den Haag: SVO. html
-
Abstract. Voor een studie naar de relatieve efficiëntie van conjunctieve (alles voldoende en compensatorische (gemiddeld voldoende) examenregelingen werden modellen opgesteld voor optimale studiestrategieën onder beide regelingen. Als tweede stap zal een methode voor cesuurbepaling ontwikkeld worden die de bereikte stofbeheersing gegeven de programmatisch beschikbare studietijd maximaliseert. Theoretische vergelijking van beide regelingen is mogelijk door een van beide variabelen gemiddeld bereikte stofbeheersing of gemiddelde tijdbesteding gelijk te stellen en het niveau van de andere variabele te schatten aangenomen dat studenten onder beide regelingen ongeveer optimale studiestrategieën zouden volgen. De compensatorische regeling, die geen 'herkansingen' kent, is naar verwachting de efficiëntere.
Zakken of slagen, hoe bepaal je dat?
Ben Wilbrink (1977). Methoden voor het bepalen van de grens zakken/slagen voor studieonderdelen. Amsterdam: COWO (docentenkursusboek 6). html, + stukken html
-
De figuur is een abstracte voorstelling van het probleem: de toetsscores hebben typisch een klokvormige verdeling, de grens tussen zakken en slagen snijdt er 'ergens' doorheen. De vraag is hoe dat 'ergens' op een verantwoorde wijze is te bepalen, het liefst voordat de toetsresultaten zelf binnen zijn, het liefst zo ver tevoren dat de studenten er ook nog rekening mee kunnen houden. Het laatste suggereert dat er misschien op meer manieren rekening met studenten valt te houden, wat in deze cursus - mogelijk voor het eerst in Nederland - is uitgewerkt door algemene beginselen van behoorlijk bestuur op deze situatie toe te passen.
-
In dit boek is nog sprake van een destijds gangbare maar gemankeerde besliskundige benadering in termen van 'ten onrechte' gezakte of geslaagde studenten. Hoewel beter dan het lekeninzicht 'dat een vijf een vijf, een zes een zes is,' is het een platonische benadering die als een achteraf-analyse wordt uitgevoerd. Zij miskent dat studenten zich strategisch voorbereiden op examens, en in die strategie zijn te beïnvloeden door de eisen zoals gesteld, de kwaliteit van de toets, en de aard van de examenregeling. Stuk voor stuk thema's die in latere jaren verdere uitwerking krijgen in het op Van Naerssen's tentamenmodel gebaseerde werk over studiestrategieën uitmondend in het nog onder handen zijnde algemene toetsmodel.
keuzevragen niet 'objectief'
Ben Wilbrink (1977). Het verborgen vooroordeel tegen andere dan meerkeuze vraagvormen. In Stichting Onderwijsresearch, Congresboek Onderwijs Research Dagen (p. 219-222). html
-
Een klapper op deze ORD, de zaal overvol, de hele staf van het Cito aanwezig. Destijds was deze stelling zoiets als vloeken in de kerk. Mijn paper maakte het het Cito overigens wel makkelijker om zich ook over het essay-gedeelte van de eindexamens te ontfermen. In een latere briefwisseling met Adriaan de Groot vertelde deze dat de dogmatiek van de vierkeuzevraag het nieuwgevestigde Cito moest beschermen tegen de extra belasting die aandacht voor een veelheid van vraagvormen zou vergen.
Studietijd meten
Dick Tromp en Ben Wilbrink (1977). Het meten van studietijd. In Stichting Onderwijsresearch, Congresboek Onderwijs Research Dagen. html
-
Dit paper demonstreert de kracht van bovenstaand heuristische model voor de totstandkoming van (verschillen in) studieresultaten. Ik heb het model in latere publicaties nog vaak gebruikt. Deze benadering zet zich impliciet af tegen het gebruik van complexe padmodellen voor studieresultaten, in de zeventiger jaren al even in trek als nog vandaag de dag, die stevig nadenken over wezenlijke aspecten van de toetsingssituatie juist lijken te belemmeren. Hoe heuristisch ook bedoeld, het wybertje-model is wel degelijk kwantificeerbaar, zoals bij deze gelegenheid aan de hand van een geschikte dataset is getoond.
Overige publikaties, adviezen e.d.
visies op de eigen toetsen
Ben Wilbrink (2003). Toetsopvattingen van docenten. Herziene versie voor het nieuwe Tijdschrift Examens ingediend, maar de redactie had er toch geen zin in. Daarom voorshands op deze site beschikbaar. html
-
Een variant op de paradox van Meno is dat gebrek aan specifieke kennis niet als een tekort kan worden ervaren. Op complexe en tegelijk zachte terreinen als politiek, onderwijs, en examineren straft kennisgebrek zichzelf niet altijd. Dat vormt een bedreiging van kwaliteit.
Het is mogelijk een confrontatie te organiseren van praktijk en wetenschap en zo tot stapsgewijze kwaliteitsverbetering te komen. In een Amsterdamse faculteit is verkend of zoiets veelbelovend is.
Keuzevragen ontwerpen
Ben Wilbrink (1992). Keuzevragen ontwerpen. Handreiking voor het doeltreffend en doelmatig maken van een verzameling van keuzevragen. [Originele Aula 809 tekst: = pdf]. De tekst is - onder de nieuwe titel 'Toetsvragen onderwerpen' - onderhevig aan een ingrijpende herziening en uitbreiding. Het is werk in uitvoering, dat desondanks voorzover uitgevoerd online beschikbaar is, o.a. hoofdstuk 1 html, en vandaar is alles bereikbaar.
-
U vindt hier een aantal handreikingen voor het ontwerpen van toetsvragen. Dit stuk laat daarmee ook zien hoe het mogelijk is met een doordachte aanpak van het ontwerpen van toetsvragen een aantal zaken tegelijk te realiseren:
-
- aanzienlijke besparing in de tijd die nodig is om telkens nieuwe toetsvragen te ontwerpen;
-
- verbetering van de kwaliteit van de afzonderlijke toetsvragen;
-
- verminderde aanspraak op taalvaardigheid van de studenten (voorzover vallend buiten de leerstof!); scores minder beïnvloed door verschillen in (verbale) intelligentie;
-
- verbetering in de betrouwbaarheid en validiteit van het tentamen;
-
- geen problemen meer met geheimhouding van eerder gebruikte toetsvragen;
-
- en hoge doorzichtigheid van het tentamen, waardoor het voor studenten mogelijk is de leerstof doeltreffend en doelmatig te bestuderen met het oog op het tentamen.
Opvattingen over docentbeoordeling
Ben Wilbrink (1984 ). Opvattingen over docentbeoordeling. Bespreking van J. Millman: Handbook of teacher evaluation. Onderzoek van Onderwijs, 13. 16k html
-
Het boek is een geslaagde poging om ten behoeve van de mensen in de dagelijkse praktijk de (on)mogelijkheden van docentbeoordeling te schetsen, veelal aan de hand van gedetailleerde concrete voorbeelden. De praktijk is de Amerikaanse, maar de Nederlandse verschilt daar niet wezenlijk van. Bijv.: wat in het Amerikaanse rechtsgevoel behoorlijke procedures zijn, stemt sterk overeen met wat de (administratieve) rechter hier aan rechtsregels hanteert.
Beoordelingsexperimenten in het WO
Kees Kolthoff en Ben Wilbrink (1970). Enkele opmerkingen met betrekking tot de inhoud, beoordeling en experimenten in het wetenschappelijk onderwijs. COWO. 20k html
-
Stuk dat speelt in de strijd tussen het Presidium van de Universiteit van Amsterdam (rector Belinfante, kanselier-directeur Drechsel) en haar wetenschappelijke staf, en in de bredere landelijke strijd over projektonderwijs en de vraag of beoordelingen altijd louter individueel horen te zijn (ja, oordeelde meen ik minister Veringa later, in het Tilburgse casus). Zie ook het boek van Frits De Jong Edz. 'Macht en inspraak; de strijd om de democratisering van de universiteit van Amsterdam.' Kees Kolthoff, of course, is een van de oprichters van de SVB (StudentenVakBeweging), in 1970 lid van het bestuur van de PvdA, hoofd van het COWO, en ook als diensthoofd 'politiek' actief binnen de UvA. Conrector Sies Wiegersma gaf de auteurs een schriftelijke berisping voor hun advies, waarin het Presidium niet gekend was, een ernstige misstap van het COWO. dat immers als een centrale dienst onder dat Presidium hing.
De verwarring over verantwoordelijkheden voor de vormgeving van het onderwijs is groot, in deze jaren.
Powered by iWEBTOOL
http://www.benwilbrink.nl/publicaties/toets.htm