home     sitemap    


Publicatie-in-voorbereiding

Gedwongen raden is oneerlijk

Forced guessing unfair to students

Ben Wilbrink





Gedwongen raden leidt bewijsbaar in een bepaald aantal gevallen tot onredelijke afwijzingen, die daarom in rechte zijn aan te vechten. Studenten die zo'n onredelijke afwijzing willen voorkomen, kunnen op hun in te leveren scoringsformulier iedere gedwongen geraden vraag van een paraaf voorzien, zodat gedwongen raden achteraf bewijsbaar is.


fout raden of fout weten, een zelden of nooit in de psychometrische literatuur gemaakt onderscheid
Er is nog een heel ander probleem met gedwongen raden: dat van de correctie voor raden, waarbij meestal de aanname is dat een fout antwoord het resultaat is van fout raden, niet van fout weten. Ik moet het nog onderzoeken, onder andere aan de hand van de op deze pagina genoemde literatuur, maar een eerste steekproef uit de literatuur wijst uit dat geen van de auteurs die een formule voor correctie voor raden presenteert, signaleert dat het altijd mogelijk is dat foute antwoorden het resultaat zijn van fout weten. Dat fout weten in de onderwijspraktijk echt heel veel voorkomt, is onmiddellijk duidelijk voor wie daarnaar op zoek gaat. Kijk alleen maar eens naar wat er op korte open vagen aan fouten wordt gemaakt. Natuurlijk, ook bij antwoorden op korte open vragen kan de kandidaat een gokje wagen, en is er sprake van verkeerd gokken. Ik heb deze thematiek nog niet uitgewerkt in Toetsvagen ontwerpen, maar al wel in het SPA-model. Dat wil zeggen, ik ben nog niet in de gelegenheid geweest om het onderwerp in de tekst van hoofdstuk een, the generator, te behandelen, maar er is wel een mathematisch model uitgewerkt en toegepast in applet 1m. Er is een directe relatie tot de eerlijkheid van gedwongen raden, en ook dat moet ik hieronder nog uitwerken: miskennen dat antwoorden fout kunnen zijn geweten, leidt tot een overschatting van het aantal vragen waarop is geraden, dus tot mogelijk een te lage inschatting van het aantal goed geweten vragen. Interessant is dan hoe het aantal goed geweten te waarderen teegn het aantal fout geweten, bijvoorbeeld in een situatie waarin er nauwelijks is geraden omdat kandidaten van een onusregeling gebruikmaken.

fout raden of fout weten, een zelden of nooit in de psychometrische literatuur gemaakt onderscheid
Bijvoorbeeld lag de bal voor open doel in het overzichtsartikel van Ross E. Traub & Y. Raymond Lam (1985). Latent structure and item sampling models for testing. Annual Review of Psychology, 36, 19-48. Op p. 39 een beschouwing over.

De enige plek die ik zie, waar fout weten een plek heeft in de literatuur, is daar waar alternatieven zó worden gekozen dat ze het resultaat zijn van fout weten of van een foute redenering. Het probleem blijft dan, onder de instructie om niet-geweten vragen te raden, dat onbekend blijft of foute antwoorden fout zijn geweten, of fout zijn geraden. En het blijft opmerkelijk dat deze ontwerp-praktijk geen tegenhanger heeft in de formules voor correctie van raden.

Fout raden of fout weten is ook in deze webpagina nog niet onderscheiden. Het onderstaande is daarmee op zich niet incorrect, maar het is wel onvolledig. In het bijzonder is het van belang om onderzoek te doen naar de consequenties van het NIET maken van het onderscheid, bijvoorbeeld voor zak-slaagbeslissingen. Het maakt namelijk nogal verschil wanneer een fout beantwoorde vraag wordt opgevat als fout geraden, of als fout geweten. Een kandidaat die NIET raadt, heeft de goed gemaakte vragen dus goed GEWETEN, de kandidaat die nooit fouten maakt maar raadt op niet geweten vragen, zal enkele van de goed gemaakte items hebben GERADEN. Voor het bepalen van de zak-slaaggrens maakt het dus nogal uit wat de stilzwijgende veronderstelling is over deze zaken.


Gedwongen raden gebeurt onder de instructie om ook niet-geweten keuzevragen te beantwoorden. De reden voor die instructie is dat anders de vragen in ieder geval fout worden gerekend, zodat de leerling zichzelf zou benadelen door niet een gokje te wagen. Een reden voor deze absurde scoringsmethode wordt zelden of nooit gegeven, en dat kan voortaan maar beter wèl gebeuren. Er is altijd een uitstekend alternatief voorhanden: voor iedere opengelaten vraag een bonus toe te kennen die tenminste gelijk is aan de raadkans.

De aftrek van een punt voor een iedere foute vraag komt ongeveer op hetzelfde neer als een bonusregeling. Open gelaten vragen leveren weliswaar geen punt op, maar ook geen strafpunt. De aftrek voor foute vragen is een methode die bijvoorbeeld bij de Maastrichtse voortgangstoetsen wel wordt gebruikt. Op de SAT (The College Board) leveren open vragen geen punt op, en foute vragen een fractie van een punt als strafpunt (bv. bij vijfkeuzevragen 1/4e punt) (zie bv. 10 Real SAT's. New York: College Entrance Examinaion Board, 2003; of de oefensite
De CEEB Test-Taking ApproachesOmit questions that you really have no idea how to answer.”
But if you can rule out any choice, you probably should guess from among the rest of the choices."


Lewis R. Aiken (1987). Testing with multiple-choice items. Journal of Research and Development in Education, 20 #4, 44-58.



De thematiek raakt aan zowel de strategische voorbereiding op toetsen, als aan het ontwerpen van toetsvragen. Bij de toetsvragen is dat in het bijzonder vanwege het raden op keuzevragen, maar bedenk dat ook bij open vragen wel sprake is van raden. Bij de strategische voorbereiding op toetsen is er sprake van een modelleerbare situatie, waarin de rol van raadkansen exact valt te onderzoeken, en deze niet 'neutraal' blijkt te zijn (maar wie had dat gedacht, dan?).


In deze inventariserende fase geef ik hier eerst in temporele volgorde de ontwikkeling van het 'idee,' met daarbij - geanonimiseerd - de belangrijkste punten uit email-wisselingen over dat idee. Wie opmerkingen wil toevoegen, is hierbij van harte uitgenodigd.

Correspondentie 1 - Model voor raden

In een boeiende correspondentie over het modelleren van raadkansen bij binomiale modellen blijkt er naast het in de psychometrie bekende model ook een complexe formulering mogelijk te zijn; uiteraard leiden beide wiskundige modellen tot dezelfde resultaten, is dat ook bewijsbaar, maar het is niet vanzelfsprekend te zien aan de betreffende alternatieve formules. Voor de uitwerking van de thematiek van gedwongen raden is dit wel belang, omdat er aan het eenvoudige model twijfel zou kunnen bestaan.
Het gangbare model is natuurlijk dat bij raden de raadkans in de parameter van het binomiaalmodel wordt geabsorbeerd:


Als m de beheersing van de stof is, en r de raadkans, dan geldt voor toetsen met raden het binomiaalmodel met parameter p:


Een en ander is eenvoudig in te zien, tenminste vanuit het perspectief van de student die veronderstelt dat haar beheersing m is. De kans de volgende te trekken toetsvraag te weten òf niet te weten èn wel goed te raden is gelijk aan de bovenstaande formule.

De alternatieve ingewikkelde formule resulteert uit het perspectief van de psychometricus die inventariseert hoeveel vragen geweten resp. goed geraden kunnen zijn, gegeven mogelijk te behalen scores. Het is niet nodig dit hier uit te werken.

Zie het eerste moduulvan het spa-model voor de details. In de applet die hierbij hoort, en die in uw browser kan worden gedraaid, is overigens ook het complexe alternatieve model beschikbaar (optie 209).

Voor het volgende is van belang dat dit binomiaalmodel-met-raden wordt toegepast bij berekeningen. De inbouw van de raadkansen in het spa_model was overigens een direct gevolg van deze email-wisseling. Eerdere versies van het tentamenmodel hadden raden ook al ingebouwd, maar bij de ombouw van Pascal naar naar Java moeten alle toeters en bellen toch weer stapsgewijs opnieuw worden geïmplementeerd. Zie moduul 2 van het spa_model voor alle details. Het raden als optie is in de overige modulen van het spa-model nog niet overal doorgevoerd.

Voor de volledigheid: er zijn natuurlijk een oneindige veelheid van modellen voor raden mogelijk. Een bekende variant is die waar de raadkans afhankelijk is van de beheersing, wat geen onredelijke veronderstelling is. Voor een gegeven beheersing reduceert dit aardige model overigens weer tot bovenstaand eenvoudige model.

scientific position on guessing [taken from module 2]
"Guessing is a nuisance in educational assessment. Under all circumstances random influences like guessing on items not known or partially known are harmful, and if possible and feasible should be avoided. Because the core business of education is to educate, it definitely is harmful to teach students that it is perfectly OK to guess on questions one does not know or is not sure of. One approach, without abandoning multiplechoice questions altogether, would be to give the student a constant credit on questions left unanswered. The constant should be chosen so as to give ample credit to partial knowledge."

Stap 1. Toepassing binomiaal-model

Binomiaalmodel voor raden

Toepassing: raden bij zak-slaagtoetsing

Uit het spa-project komt de volgende toepassing van het binomiaal-model voort.

gif/06tvr2.2.648326.gif guessing under pass-fail scoring

While it is known (Lord & Novick, 1968, p. 304) that guessing, other things being equal, lowers the validity of tests, it is not generally known that guessing heightens the risk of failing under pas-fail scoring for students having satisfactory mastery. The figure shows a typical situation. The test has 40 three-choice items, its cut-off score in the no-guessing condition is 25, in the three-choice items condition the cut-off score is 30. Testscores for subjects known to have mastery 0.7 have been simulated 1000 times, using the spa-module 1 applet for binomial scores. The remarkable thing is that the probability to fail the 25 score limit is 0.115, while the probability to fail the 30 score limit under forced guessing is .165.

The statistical/simulation model is not strictly necessary to argue the case, of course, but it helps being able to quantify the argument. Suppose the student is allowed to omit questions she does not know, meaning she will not be punished for this behavior but instead will obtain a bonus of 1/3rd point for every question left unanswered. Students having satisfactory mastery will have a reasonable chance to pass the test. Those passing will do so while omitting a certain number of questions. It is perfectly clear that some of these students would fail the test if they yet had to guess on those questions. In the same way, some mastery students initially having failed the test, might pass it while guessing luckily. This second group is, however, much smaller than the first one, and they still have the option to guess. The propensity to guess is higher, the lower the expected score on tests, see Bereby-Meyer, Meyer, and Flascher (2002).

The amazing thing about this argument is that I do not know of a place in the literature where it is mentioned. There has of course been a lot of research on guessing, omissiveness, and on methods to 'correct' for guessing, but none whatsoever on this particular problem. That is remarkable, because students failing a test, might claim they have been put at a disadvantage by the scoring rule that answers left open will be scored as at fault. This is a kind of problem that should have been mentioned in every edition of the Educational Measurement handbook (its last edition 1989 by Robert L. Linn). Lord & Novick (1968, p. 304) mention the problem of examinees differing widely in their willingness to omit items; the interesting thing here is their warning that requiring every examinee to answer every item in the test introduces "a considerable amount of error in the test scores." The analysis above shows that in the particular situation of pass-fail scoring this added error puts mastery students at a disadvantage, a conclusion Lord and Novick failed to note.

Correspondentie 2 - Tegenwerpingen 1.

Stap 2 - Gedwongen raden is aanvechtbaar

In mijn persoonlijke casuïstiek over beoordeeld worden komt dat moment, ergens rond 1982 meen ik, dat ik een kleutertoets in keuzevorm onder ogen krijg. De beschrijving op mijn pagina 'Beoordeeld! En hoe! Casuïstiek' krijgt dat de volgende uitwerking.

meerkeuze-kleuter

Deze inventarisatie is gerangschikt naar opklimmende onderwijsjaren, het logische begin is de kleuterklas. Het eerste casus leidt meteen al tot uitvoerige annotaties, die ik telkens in boxen zal geven.

Mijn kleuterjaren zijn zonder beoordelings-incidenten verlopen: spelen, wandelen, verhalen van juf. Een generatie later is dat anders, en zie ik een kleuter thuiskomen met meerkeuze-werkjes.

Ik schrok me daarvan te pletter, het leidde tot scherpe formuleringen in de concept-tekst van mijn Toetsvragen schrijven. Dank zij een vruchtbare discussie met Ad Horsten (IOWO) is die onevenwichtigheid uit de tekst van hoofdstuk 2 weggeslepen. Wat blijft is de constatering dat kleuters al een hersenspoeling krijgen op een specifiek toets-format, dat zij worden geconditioneerd op het idee dat het in onze samenleving normaal is gewoon maar wat te roepen/zeggen/aankruisen wanneer je het antwoord op een vraag niet weet.
Dit ongelooflijke fenomeen is met stip een van de belangrijkste ontwikkelingen in de 20e eeuw bij het toetsen in het onderwijs: een onderwijsvreemde-beroepsgroep van psychometrici heeft het voor het zeggen gekregen. Deze aliens hebben het nodig geoordeeld dat toetsen vooral keuzetoetsen moeten zijn en - op louter pragmatische, zeker geen wetenschappelijke gronden - dat je leerlingen moet dwingen te raden op vragen die ze niet weten. Zie ook de aantekeningen bij mijn Assessment in historical perspective pdf op dit punt.
Pas in 2006 heb ik mij gerealiseerd dat dit gedwongen raden op keuzevragen niet alleen onnodig is, maar ronduit schadelijk, bezien vanuit de gangbare criteria voor betrouwbaarheid en geldigheid van toetsen en van beslissingen op grond van die toetsen (APA-Standards / NIP-Richtlijnen). Dit raden is natuurlijk onnodig omdat niet-geweten vragen gewoon onbeantwoord kunnen blijven, daar bestaat geen verschil van inzicht over. Tot mijn verbazing bleek het eenvoudig mogelijk te bewijzen dat gedwongen raden nadelig is voor goed voorbereide studenten die presteren boven de grens tussen onvoldoende-voldoende scores. Dat is zelfs eenvoudig in te zien: stel je voor dat zo'n student op het tentamen tot het laatste moment de niet-geweten vragen open laat, wat een sterk aan te raden tactiek bij het maken van toetsen is. Door de raad-dwang moet dan in de laatste minuut een loterij worden gedaan, even vlug alle open vragen nog aankruisen - willekeurig, of alle laatste alternatieven, of juist alle eerste, or what not. Door die loterij kan een voldoende resultaat verkeren in een onvoldoende score op de toets. Zie voor een grondige behandeling hoofdstuk 2 van Toetsvragen ontwerpen, of het engelstalige spa-project (spa_generator.htm paragraaf guessing under pass-fail scoring).

Denk er maar eens over na. Wie naar een College van Beroep voor de Examens stapt, met deze klacht, kan op mijn deskundige ondersteuning rekenen. NB: mogelijk is het op juridische gronden gewenst dat je al bij het beantwoorden een merkteken plaatst op het in te leveren scoreformulier bij de vragen die je raadt! Het moet natuurlijk geen achteraf-spelletje worden. In voorkomende gevallen kun je zo bewijzen dat een voldoende score alleen door gedwongen raden in een onvoldoende is veranderd.
Voorzover dat nu nog toelichting behoeft: uit het voorgaande volgt dat raden ronduit schadelijk is, en uit het onderwijs geweerd zou moeten worden. Het probleem met deze stelling is dat het fenomeen in de literatuur eenvoudigweg niet bekend is, omdat de bijbehorende simpele analyse en bewijsvoering bij mijn weten nooit is uitgevoerd/gepubliceerd (nee, ook niet door Frederic Lord) en het daarom evenmin in de tekst van de APA-Standards of de NIP-Richtlijnen is terug te vinden.



Correspondentie 3 - Tegenwerpingen 2.

Correspondentie 4 - Tegenwerpingen 3.

Literatuur (nog te onderzoeken)

Een sterk vermoeden dat ik heb is dat de resulaten van empirisch onderzoek over raden, deelkennis, zekerheidsscoring en enkele nog meer esoterische onderwerpen moeilijk zijn te interpreteren omdat gebrekkige kwaliteit van de toetsvragen een storende factor is. Denk daarbij vooral aan het gebruik van vierkeuzevragen, waarvan ondertussen wel genoegzaam is aangetoond dat tenminste een van de alternatieven niet een behoorlijk functionerend alternatief. Met andere woorden: dit soort kwalitatief ondermaatse items, dat overigens ook in gestandaardiseerde toetsen voorkomt, krijgt 'deelkennis' ingebouwd, ook al is dat niet het soort kennis dat de term suggereert.

David Budescu and Maya Bar-Hillel. (1993) To Guess or Not to Guess: A Decision-Theoretic View of Formula Scoring. Journal of Educational Measurement, 30, 277-291 [nog opzoeken]


A. Ben-Simon, D. V. Budescu and B. Nevo (1997). A comparative study of measures of partial knowledge in multiple-choice tests. Applied Psychological Measurement, 21, 65-88. [nog opzoeken] pdf for pay


Gershon Ben-Shakhar and Yakov Sinai. (1991) Gender Differences in Multiple-Choice Tests: The Role of Differential Guessing Tendencies. Journal of Educational Measurement, 28, 23-35 [nog opzoeken]


William H. Angoff. (1989) Does Guessing Really Help?. Journal of Educational Measurement, 26, 323-336 [nog opzoeken]


Mark A. Albanese. (1988) The Projected Impact of the Correction for Guessing on Individual Scores. Journal of Educational Measurement, 25, 149-157 [nog opzoeken]


William H. Angoff and William B. Schrader (1984). A study of hypotheses basic to the use of rights and formula scores. Journal of Educational Measurement, 21, 1-17 [nog opzoeken]


Leonard B. Bliss(1980). A test of Lord's assumption regarding examinee Guessing Behavior on Multiple-Choice Tests Using Elementary School Students. Journal of Educational Measurement, 17, 147-152


Rand R. Wilcox (1982). Some new results on an answer-until-correct scoring procedure.. Journal of Educational Measurement, 19, 67-74


Rand R. Wilcox (1979). Achievement tests and latent structure models. British Journal of Mathematical and Statistical Psychology, 32, 61-71. abstract gebundeld met:

Ivo W. Molenaar (1981). On Wilcox's latent structure model for guessing. British Journal of Mathematical and Statistical Psychology, 34, 224-228. abstract

Rand R. Wilcox (1981). Methods and recent advances in measuring achievement: A response to Molenaar. British Journal of Mathematical and Statistical Psychology, 34, 229-237.abstract


One observation: Wilcox and Molenaar do not see any examinee ‘knowing a wrong answer’. The exact formulation is somewhat ambiguous, however (Molenaar 224): “The examinee does not know and gives the incorrect response.” Is guessing meant here? ‘Knowing a wrong answer’ might obtain in many ways, for example, by misreading the question, by error in calculation, by forgetting to take an essential solution step such as translate a calculation result in some way or other.


[artikelen it de lijst uit 79toetsen.cowo.rtfd : ]

Abu-Sayf, F.K. The scoring of multiplechoice tests: a closer look. Educational Technology 1979, june, 515.

Bejar, I.I. & Weiss, D.J. A comparison of empirical differential option weighting scoring procedures as a function of interitem correlation. EPM 1977, 37, 335-340.

Borgesius, T.G. Een empirisch onderzoek naar het correctie voor raden scoringssysteem. Nijmegen, Instituut voor Onderzoek van het Wetenschappelijk Onderwijs, K.U. Nijmegen. 1978.

Claudy, J.G. Biserial weights: a new approach to test item option weighting. APM 1978, 2, 25-30.

Diamond, J. & Evans, W. The correction for guessing. RER 1973, 43, 181-192.

Duncan, G.T. & Milton, E.O. Multipleanswer multiplechoice test items: responding and scoring through Bayes and minimax strategies. Pm 1978, 43, 43-57.

Echternacht, G. The variances of empirically derived option scoring weights. EPM 1975, 35, 307-311.

Gibbons, J.D., Olkin, I. & Sobel, M. A subset selection technique for scoring items on a multiple choice test. Pm 1979, 44, 259-278.

Lord, F.M. Formula scoring and number right scoring. JEM 1975, 12, 7-12.

Molenaar, W. On Bayesian formula scores for random guessing in multipple choice tests. BrJMSP 1977, 30, 79-89.

Slakter, M.J., Crehan, K.D. & Koehler, R.A. Longitudinal studies on risk taking on objective examinations. EPM 1975, 35, 97-105.

Thorndike, R.L. The problem. of guessing. In Thorndike 1971, 59-61.

Wilcox, R.R. Achievement tests and latent structure models. BrJMSP 1979, 32, 61-71.


Rand R. Wilcox and Karen Thompson Wilcox. (1988) Models of decisionmaking processes for multiple-choice test items: An analysis of spatial ability. Journal of Educational Measurement, 25, 125-136


Rand R. Wilcox. (1987) Confidence Intervals for True Scores Under an Answer-Until-Correct Scoring Procedure. Journal of Educational Measurement 24:3, 263-269


Muijtjens, H van Mameren, Hoogenboom, Evers & C P M van der Vleuten. (1999) The effect of a 'don't know' option on test scores: number-right and formula scoring compared. Medical Education 33:4, 267-275


Richard F Burton. (2002) Misinformation, partial knowledge and guessing in true/false tests. Medical Education 36:9, 805-811


LAWRENCE H. CROSS AND ROBERT B. FRARY. (1977) AN EMPIRICAL TEST OF LORD'S THEORETICAL RESULTS REGARDING FORMULA SCORING OF MULTIPLE-CHOICE TESTS. Journal of Educational Measurement 14:4, 313-321


Robert B. Frary. (1989) The Effect of Inappropriate Omissions on Formula Scores: A Simulation Study. Journal of Educational Measurement 26:1, 41-53


ROBERT WOOD. (1976) INHIBITING BLIND GUESSING: THE EFFECT OF INSTRUCTIONS. Journal of Educational Measurement 13:4, 297-307


FREDERIC M. LORD. (1975) FORMULA SCORING AND NUMBER-RIGHT SCORING1. Journal of Educational Measurement 12:1, 7-11


GLENN L. ROWLEY ROSS E. TRAUB. (1977) FORMULA SCORING, NUMBER-RIGHT SCORING, AND TEST-TAKING STRATEGY. Journal of Educational Measurement 14:1, 15-22


A. RALPH HAKSTIAN and WANLOP KANSUP. (1975) A COMPARISON OF SEVERAL METHODS OF ASSESSING PARTIAL KNOWLEDGE IN MULTIPLE-CHOICE TESTS: II. TESTING PROCEDURES*. Journal of Educational Measurement 12:4, 231-239


WANLOP KANSUP and A. RALPH HAKSTIAN. (1975) A COMPARISON OF SEVERAL METHODS OF ASSESSING PARTIAL KNOWLEDGE IN MULTIPLE-CHOICE TESTS: I. SCORING PROCEDURES*. Journal of Educational Measurement 12:4, 219-230


ROGER A. KOEHLER. (1974) OVERCONFIDENCE ON PROBABILISTIC TESTS. Journal of Educational Measurement 11:2, 101-108


GLENN L. ROWLEY. (1974) WHICH EXAMINEES ARE MOST FAVOURED BY THE USE OF MULTIPLE CHOICE TESTS?. Journal of Educational Measurement 11:1, 15-23


Michael C. Rodriguez. (2003) Construct Equivalence of Multiple-Choice and Constructed-Response Items: A Random Effects Synthesis of Correlations. Journal of Educational Measurement 40:2, 163-184


Niall Bolger and Thomas Kellaghan. (1990) Method of Measurement and Gender Differences in Scholastic Achievement. Journal of Educational Measurement 27:2, 165-174


Mark G. Simkin and William L. Kuechler. (2005) Multiple-Choice Tests and Student Understanding: What Is the Connection?. Decision Sciences Journal of Innovative Education 3:1, 73-98


Michael O'Leary. (2002) Stability of Country Rankings Across Item Formats in the Third International Mathematics and Science Study. Educational Measurement: Issues and Practice 21:4, 27-38


Brent Bridgeman and Charles Lewis. (1994) The Relationship of Essay and Multiple-Choice Scores With Grades in College Courses. Journal of Educational Measurement 31:1, 37-50


Michael C. Rodriguez. (2003) Construct Equivalence of Multiple-Choice and Constructed-Response Items: A Random Effects Synthesis of Correlations. Journal of Educational Measurement 40:2, 163-184


Malcolm J. Slakter. (1968) THE EFFECT OF GUESSING STRATEGY ON OBJECTIVE TEST SCORES. Journal of Educational Measurement 5:3, 217-222


Ziller, R.C. Measure of the gambling response set in objective tests, Psychometrika, 1957, 22, 289-292.


Ahlgren, A. Confidence on achievement tests and the prediction of retention. Unpublished doctoral dissertation, Harvard University, 1967. [geen idee waar ik dit vandaan zou kunnen halen]


A.R. Gardner-Medwin (2005). Enhancing Learning and Assessment Through Confidence-Based Marking.


Good I.J. (1979) 'Proper Fees' in multiple choice examinations. Journal of Statistical and Computational Simulation, 9,164-165.


Margo GH Jansen (1993). Review of Ability, Partial Information, Guessing: Statistical. Modelling Applied to. Multiple-Choice Tests by T. P. Hutchinson. Psychometrika, 58, 513-514.


C. Horace. Hamilton (1950). Bias and error in multiple-choice tests. Psychometrika, 15, 151-168.


Samuel B. Lyerly (1951). A note on correcting for chance success in objective tests. {sychometrika, 16, 21-30; Lynnette B. Plumlee (1952).The effect of difficulty and chance success on item-test correlation and on test reliability. Psychometrika, 17, 69-86;


Lynnette B. (1954). Plumlee The predicted and observed effect of chance success on multiple-choice test validity. Psychometrika, 19, 65-70.


Vera T. Brownless (with J. A. Keats) (1958). A retest method of studying partial knowledge and other factors influencing item response. Psychometrika, 23, 67-73. John A. Keats (with V. T. Brownless) (1958). A retest method of studying partial knowledge and other factors influencing item responses. 23, 67-73. Robert C. Ziller (1957). A measure of the gambling response-set in objective tests. Psychometrika, 22, 289-292. Hassmen P, Hunt DP (1994) Human self-assessment in multiple-choice testing. Journal of Educational Measurement 31, 149-160.


Archer, N.S. A comparison of the conventional and two modified procedures for responding to multiple-choice items with respect to test reliability, validity, and item characteristics, Unpublished doctoral dissertation, Syracuse University, 1962. [geen idee waar ik dit vandaan zou kunnen halen]


Alpert, R., & Haber, R.N. Anxiety in academic achievement situations. J. abnorm. & soc. Psychol., 1960, 61, 207-215.


Rippey, R. Probabilistic Testing. J. Educ. Measmt., 1968, 5, 211-215


Nedelsky, L. Ability to avoid gross error as a measure of achievement. Educ. Psychol. Measmt., 1954, 14, 459-472.


Hevner, K. Method for correcting for guessing and empirical evidence to support. J. Soc. Psych., 1932, 3, 359-362.


Gritten, F., & Johnson, D.M. Individual-differences in judging multiple-choice questions. J. Educ. Psychol., 1941, 32, 423-430.


Ebel, R.L. Confidence weighting and test reliability. J Educ. Measmt., 1965, 2, 49-57.


Coombs, C.H., Milholland, J.E. & Womer, F.B. The assessment of partial knowledge. Educ. Psychol.Measmt. 1956, 16, 13-37.



Patrick Sturges, Nick Allum, Patten Smith and Anna Woods (2004?). The Measurement of Factual Knowledge in Surveys. pdf


Jeffery J. Mondak and Damarys Canache (2004). Knowledge Variables in Cross-National Social Inquiry. Social Science Quarterly, 85, 539-558.


Bereby-Meyer, Y., J. Meyer, and O.M. Flascher (2002). Prospect theory analysis of guessing in multiple choice tests. Journal of Behavioral Decision Making, 15, 313-327.

Albert Burgos (2004). Guessing and gambling. Economics Bulletin, 4, No. 4 pp. 1-10. pdf

Lord, Frederic M., & Novick, Melvin R. (1968). Statistical theories of mental test scores. London: Addison-Wesley. (Chapter 23)

W. Molenaar (1977). On Bayesian formula scores for random guessing in multiple choice tests. British Journal of Mathematical and Statistical Psychology, 30, 79-89.

Gerardo Prieto and Ana R. Delgado (1999). The Effect of Instructions on Multiple-Choice Test Scores. European Journal of Psychological Assessment, 15 #2.

N. Kogan and M. A. Wallach (1964). Risk taking: A study in cognition and personality. New York: Holt, Rinehart and Winston.

A.H.G.S. van der Ven (1974). A Bayesian formula score for the simple knowledge or random guessing model. NTvdPs. pdf

James Diamond, William Evans (1973). The Correction for Guessing. Review of Educational Research, Vol. 43, No. 2 (Spring, 1973), pp. 181-191. Jstor

Marilyn W. Wang and Julian C. Stanley (1970). Differential weighting: a review of methods and empirical studies. Review of Educational Research, 40, 663-705.




Ingebracht in een linkedin-discussie, 6 januari 2015.


De discussie is geopend op deze formule voor de cesuur voor een toets van 40 meerkeuzevragen


Twee dingen. Plus één.


1) Alleen voor blinde paarden is de raadkans 25%. Omdat die paarden niet meedoen, is de raadkans beter op 1/3e te stellen. In jouw ‘formule’ (daarover straks meer): ca 13 van de 40 ‘goed’ door raden, van de overige ca 27 vragen ca 16 goed door ‘weten’, dus cesuur 13 + 16 = 29 goed (afrondingen in ‘voordeel’ voor de leerling). Dat komt uit op iets meer dan 70%. Stel dat de raadkans 1/2 is, dan kom je met deze formule op een cesuur van 32, ofwel 80%.


2) Het is mij een raadsel waar jouw formule vandaan komt. Ik weet dat hij vaak wordt gebruikt, maar dat maakt het raadsel niet kleiner. De redenering is namelijk bizar (geen enkele leerling begint met alles te raden)


r = raadkans
p = juist voldoende beheersing


Jouw formule:
r • n + p • ( n - r • n )
= r • n + p • n • ( 1 - r )
= n • ( r + p • ( 1 - r ))


Kennelijk is de bedoeling dat de cesuur wordt gelegd bij 60% beheersing (van de vragen zoals over deze stof gebruikelijk worden gesteld). Volgens Van Naerssen (in De Groot & Van Naerssen, 1969, Studietoetsen), kan de leerling dan de overige vragen raden: 1/3e van de resterende 40%, dus (kort door de stochastische bocht) wordt de cesuur dan bij de toets van 40 vragen: 24 vragen goed maken + ca 5 vragen goed gokken = 29.


Mijn formule daarvoor:
p • n + r • ( n - p • n )
= n • ( p + r • ( 1 - p ))


Zoals je ziet: p en r wisselen stuivertje. Dat kan niet goed zijn — één van de twee formules slaat nergens op.


Wat zegt het Cito ervan?
http://www.cito.nl/static/oenw/ttb/beglist1.htm#CORRECTIE%20VOOR%20RADEN
Onze Arnhemse toetsexperts geven deze formule voor ‘gecorrigeerde’ score X':


1) X' = X - F / ( a - 1 )


X' = voor raden gecorrigeerde toetsscore
X = aantal ‘goed’ gemaakt en/of geraden
F = aantal 'fout'’ gemaakt en/of geraden
a = aantal antwoordalternatieven per vraag.


De formule drukt het aantal goed geweten vragen uit in termen van het totaal aantal goed beantwoorde verminderd met ( 1 - a ) maal het aantal fout beantwoorde vragen. Immers, de aanname is (impliciet) dat fout beantwoorde vragen alle fout geraden zijn. Het aantal fout geraden geeft een aanwijzing over het mogelijke aantal goed geraden. Bij vier alternatieven is er op iedere drie foute vragen naar verwachting ook één goed geraden vraag, inbegrepen in X: dus F delen door 3, en dat aftrekken van X'.


2) X' = X - F / ( a - 1 )


Formule 2 is niet echt behulpzaam, want jij wilt X weten, namelijk het aantal vragen dat tenminste goed moet zijn wanneer de minimaal voldoende beheersing van de stof correspondeert aan de X' die hoort bij stofbeheersing 60%. De cesuur X moet dus zijn:


3) X = X' + F / ( a - 1 )


Komt de Cito-formule nu overeen met jouw formule, of met de mijne? Dat is niet zomaar in te zien, dus er komt een kladblaadje bij. Met een klein beetje moeite, en heel wat vergissingen, gaat dat uiteindelijk wel lukken:


Omzetten, voor cesuur op 60% geweten, p = 0,6: n is aantal vragen


X' = n • p
F = n - X


4) X = n • p + ( n - X ) / ( a - 1 )


alle X naar links brengen:
5) X - ( n - X ) / ( a - 1 ) = n • p


De noemer ( a - 1 ) kwijt raken:
6) (( a - 1 ) • X - ( n - X )) / ( a - 1 ) = n • p
7) ( a - 1 ) • X - ( n - X ) = n • p • ( a - 1 )


linkerterm vereenvoudigen:
8) a • X - X - n + X = n • p • ( a - 1 )
9) a • X - n = n • p • ( a - 1 )


de n naar rechts brengen, links en rechts delen door a:
10) X = ( n • p • ( a - 1 ) + n ) / a


de variabele a omzetten naar variabele r (raadkans, kans op goed dus)
11) r = 1 / a
12) a = 1 / r
13) a - 1 = ( 1 - r ) / r


invullen:
14) X = r • n • ( p • (( 1 - r ) / r ) + 1 )


raadkans r doorvermenigvuldigen binnen de haken:
15) X = n • ( r * p • (( 1 - r ) / r ) + r )


nogmaals r doorvermenigvuldigen:
16) X = n • ( p • ( 1 - r ) + r )


We zijn er bijna, want we zoeken een begrijpelijke formulering; tussenstap:
17) X = n • ( p - r • p + r )


want dit kunnen we herformuleren in bekende vorm:
18) X = n • ( p + r • ( 1 - p ))


En dit is mijn formule van hierboven.


plus één) In al deze formules, dus ook die van het Cito, en van Van Naerssen in 1969, is de stilzwijgende aanname dat aangestreepte foute alternatieven bij meerkeuzevragen het resultaat zijn van raden. Maar dat kan natuurlijk niet waar zijn. Veel foute antwoorden zullen gewoon foute antwoorden zijn, geen ongelukkige gokjes. Dit is geen onbelangrijk punt, want het betekent dat het aantal fout gemaakte meerkeuzevragen geen goede aanwijzing geeft voor het mogelijke aantal goed geraden keuzevragen. De formule 1/a maal het aantal fouten geeft daar bepaald een OVERSCHATTING van.

Vraag mij niet hoe het kan dat De Groot en Van Naerssen, en het Cito tot en met de dag van vandaag, op dit punt een misvatting hebben verspreid.

Zie ook http://www.benwilbrink.nl/projecten/toetsvragen.2.htm#raden


20 juli 2016 | ontact ben apenstaartje benwilbrink.nl

  Valid HTML 4.01!   http://www.benwilbrink.nl/projecten/raden.htm