Ben Wilbrink literatuur over cijfergeven (grading and marking systems)




Literatuur over cijfergeven


Ben Wilbrink




Wat is het toch met dat cijfergeven, dat ritueel dat de lelijke trekken van onze harde samenleving altijd maar weer toedekt? Althans, voor wie niet goed kijkt. Het is het feest van winner takes all. Wie mag er meedoen in deze samenleving, wie niet? De grote uitdelingen van cijfers zijn het verdeelmechanisme waarbij vele uitdelers denken schone handen te kunnen houden. Als zij er al bij nadenken. Wie anderen labelt met ‘zesjescultuur’ heeft er tenminste een kort moment over nagedacht. De echte regent hoeft er geen seconde over na te denken, die heeft het oordeel altijd al klaar. De regent hoort dan ook tot de winnaars. En winnaar ben je pas echt als vele anderen de status van ‘waardeloosheid’ (Lampert, 2013) hebben gekregen, en definitief geen bedreiging meer vormen voor de winnaars.

Wie zich niet wil laten gebruiken, maar zich niet kan onttrekken aan het systeem waarin er voortdurend vergelijkend wordt beoordeeld, wil ik graag de gelegenheid geven om het ontbreken van een ziel in dat cijfergeven te doorgronden. Vandaar deze verzameling van relevante literatuur, op deze webpagina. Hierin grasduinen moet een ontdekkingsreis zijn. Wie geen tijd heeft om te reizen, kan de blog lezen waarin ik het wezenskenmerk van het cijfergeven probeer te schetsen, hopelijk zo verhelderend dat het voor eens en voor al op het netvlies van de lezer blijft staan. Nou ja, ik overdrijf, maar het schijnt zo te zijn, met dat netvlies, dat het een onderdeel van de hersenen is. Die blog verschijnt elders, maar staat in iets uitgebreidere versie (inclusief literatuurverwijzingen) ook op mijn eigen wedsite: Zescultuur? Wie zeggen dat?.




Een verwant onderwerp is uiteraard cesuurbepaling, maar dat is toch voldoende anders om relevante literatuur afzonderlijk voor bijeen te brengen. Over beide onderwerpen heb ik veel geschreven, zodat de meeste oudere literatuur daar al wel eens genoemd zal zijn (over cijfergeven en cesuurbepaling). Zie ook deze pagina: niveautrends.htm.


In onderstaande box een poging om een fors aantal thema’s bij dat cijfergeven onderling te verbinden, laten we zeggen onder de vlag van ‘zesjescultuur’ (voorbeeld van stemmingmakerij onder deze vlag: http://www.youtube.com/watch?v=yyXiNKgpRQc). Het moet wel een goed afgerond statement worden, over cijfergeven vooral (incl. rankings [Langville & Meyer, 2012 hier], accountability). Er is een jaar geleden een discussie op dit thema geweest waar ik nogal uitvoerig aan bijgedragen heb, op LinkedIn (niet door mij aangezwengeld). Een raak stuk is dat van Ionica Smeets — De Wiskundemeisjes leggen het nog één keer uit — ‘Zesjesmentaliteit’. De Volkskrant, 18 mei 2013, Wetenschap V7 site.


Zesjescultuur? Wie zeggen dat?


Het zijn boven ons gestelden die het woord ‘zesjescultuur’ in de mond nemen. Toch hebben juist zij vaak de voorwaarden voor die zesjescultuur geschapen — met perverse prikkels of uit liefdeloze onverschilligheid. Of uit overtuiging: wie niet mee kan of wil komen, is waarde-loos (Lampert, 2013). Ik zou hier kunnen stoppen, maar toch wil ik ook een ander verhaal doen. Heeft die zesjescultuur dan misschien te maken met een machtsspel tussen onderwijsveld en politiek, tussen leerlingen en leraren, tussen scholen en inspectie? En kunnen we dat misschien ook speels opvatten?

Maar wacht even, wat is er bedoeld met zesjescultuur? Laat ik het zo beschrijven: het gaat om een vermeende overmaat aan prestaties die nipt voldoende zijn (vandaar de zesjes) of anderszins middelmatig. Het is dus nogal een generalisatie, die zeker geen recht doet aan de inspanningen van velen.


Het is goed om te bedenken dat cijfers staan voor judicia, zoals ‘twijfelachtig’, ‘goed’ en ‘cum laude’. Want dat roept meteen de vraag op: wat is ‘goed’? Wat is ‘twijfelachtig’? Dan doel ik niet op die onderwijsminister die voor de oorlog de betekenis van de ‘5’ veranderde van ‘even voldoende’ naar ‘bijna voldoende’ (
Bartels 1963). De waardering kan zijn voor het resultaat dat de leerling neerzet, rekening houdend met zijn capaciteiten — toegevoegde waarde, zouden we kunnen zeggen. Of slaan op een absolute standaard die ergens is vastgelegd — wat de commissie-Meijerink ons heeft proberen te verkopen. Het gekke is dat we al heel lang een volkomen andere manier van waarderen gebruiken: een meritocratische (Young, 1958) waarin vooral telt of prestaties ‘beter’ zijn dan die van anderen.

‘Zesjescultuur’: dat gaat over cijfergeven en cijfers halen. Weet iedereen dan waarover we het hebben? Weten de cijfergevers het zelf? Velen kennen het boek bij uitstek over dat onderwerp: ‘Vijven en zessen’ van A. D. de Groot (1966). Hij beschrijft hoe lerarengroepen binnen de school elkaar aftroeven op het punt van aandacht en tijd die zij van de leerlingen krijgen: dat gaat via het cijfergeven. De Groot moest bekennen—op mijn rechtstreekse vraag—dat het niet bij hem was opgekomen om te zoeken naar de wortels van dat cijfergeven. Dat is verrassend. Het geeft ook aan dat vrijwel niemand van de cijfersgevers uit kan uitleggen waar zij precies mee bezig zijn.

Waarschijnlijk is ons cijfergeven in de 19e eeuw ontstaan uit het vigerende stelsel van rangordenen. In Groningen ging dat zo: iedere leerling hield in een eigen boekje de gemaakte fouten bij, niet alleen van hemzelf, maar ook van de klasgenoten; bij de afsluiting van het jaar werd de leerling met de minste fouten gelouwerd en beloond met een prijsboek. In de geschiedenis van de Franse concours d’agrégation wijst Chervel (1993, p. 136 e.v.) aan hoe eerst de rangorde van slechtst naar best werd gestandaardiseerd tot een rangorde op het beperkte bereik van 1 tot 10 in plaats van dat van 1 tot het aantal deelnemers, en hoe vervolgens de extreme scores ongebruikt werden gelaten wanneer de indruk bestond dat de slechtse kandidaten die lage scores eigenlijk niet verdienden, of de beste de hoogste scores. Eenmaal in gebruik, kon elders dat moderne systeem worden overgenomen. In Nederland was het Stedelijk Gymnasium van Groningen de laatste die het rangordenen verving door cijfergeven (in 1903).

Het rangordenen is een pseudo-objectief systeem om leerlingen te motiveren hun uiterste best te doen. Maar zo werkte het eeuwenlang niet, omdat alleen de nummers een en twee, soms ook drie, een beloning kregen in de vorm van een kostbaar prijsboek. Pedagogen hebben hier altijd mee in hun maag gezeten, omdat zij ook wel zagen dat dit systeem ontmoedigend is voor bijna alle andere leerlingen. En dat heeft weer met het klassikale onderwijs te maken, in de 19e eeuw door de staat dood-geüniformeerd, maar ooit in Zwolle als een briljante vernieuwing ontstaan. Joan Cele, vriend van Geert Groote, ontwikkelde in de 14e eeuw een curriculum op basis van niveaugroepen. Hij moest wel, hij had tot wel 900 leerlingen uit deze Europese streken. Maar zijn groepen waren heterogeen naar leeftijd, zijn lessen bestonden maar uit een vak — Latijn — en leerlingen konden halfjaarlijks naar een volgende groep wanneer ze de stof kenden (een soort leren-voor-beheersing). Bij Cele is iedere onderwijsgroep een tamelijk homogene groep, waarin het wel degelijk eerlijk kan zijn om met een prijzensysteem op basis van rangordenen naar gemaakte fouten, whatever, te werken. Ergo, wie in het huidige klasssikale systeem met competitie wil werken, moet dat niet op individueel niveau doen, maar de klas verdelen in twee gelijkwaardige groepen die met elkaar de sportieve strijd aangaan. Ha, dat gebeurde zo ook aan de Leuvense universiteit, in de eeuw van Erasmus: strijd tussen de vier pedagogieën: het Varken, de Lelie, de Burcht en de Valk.

Cele onderzocht zelf halfjaarlijks welke leerlingen naar een volgende groep konden, en ik stel me zo voor dat hij vooral een abolute maatstaf hanteerde. Waarschijnlijk was de gemiddelde verblijfsduur in een Cele-klasje iets meer dan twee keer een half jaar, zoals ook aan universiteiten een collegecyclus in de regel vaker dan een keer werd gehoord.

Het interessante van dat rangordenen van leerlingen is dat de leraar naast het beoordelen van wat goed of fout is, weinig ruimte heeft voor een eigen subjectief oordeel. Dat verandert met de overgang van rangordenen naar cijfergeven radicaal, ook al blijft het oordeel van goed of fout de basis. De leraar heeft nu grote vrijheid om te spelen met de cijferschaal. In eigen land zien we dat meteen gebeuren in Thorbecke’s Hogere Burger School: leraren veroordelen altijd bijna een kwart van de leerlingen als ongeschikt — ongeschikt voor toelating, voor de overgang, in het eindexamen (Posthumus, De Gids 1940). Het kan vriezen of dooien, wereldoorlog of niet, industrialisatie, depressie: altijd wordt bijna een kwart als ongeschikt veroordeeld. Het gekke is dat de HBS-leraren met deze starre gewoonte zichzelf collectief hebben beroofd van de mogelijkheid om over de boeg van het cijfergeven behoorlijk beleid te voeren. Zesjescultuur in optima forma.

Is dat mogelijk: het cijfergeven gebruiken om te sturen? Ja, James Coleman heeft in zijn Foundations of Social Theory laten zien hoe je dat kunt onderzoeken. Ik heb dat onderzoek gedaan voor propedeusestudenten in Amsterdam zie hier. Er is sprake van een collectieve onderhandelingssituatie. En eigenlijk weten we dat ook al wel: wanneer alle studenten de lijn gaan trekken, is het voor docenten lastig om daar goed op te reageren. Iets anders is: hebben docenten in de gaten hoe dit spel wordt gespeeld? Maken zij eigenlijk wel goed gebruik van de situatie? Nee, dus.

Nu wil het geval dat Robert van Naerssen al veel eerder (1970) een tentamenmodel ontwikkelde dat uitgaat van de eenvoudige waarneming dat studenten zich strategisch voorbereiden op hun tentamen — soms of vaak door op een ‘zesje’ te mikken — en van de al even eenvoudige slotsom dat het voor docenten dus mogelijk moet zijn om met de inrichting van hun toetsen en vooral ook van de examenregeling, dat strategische gedrag te beïnvloeden. En daarmee dus ook de studieresultaten en het studierendement. Kortom: de heilige graal waar iedereen nog steeds naar op zoek is. En soms wordt hij gevonden, zoals hier. In deze judo met ‘zesjescultuur’ van studenten is het de kunst om tot een win-win-situatie voor iedereen te komen. En dat blijkt dus mogelijk te zijn.

En dan de zesjescultuur als dans net boven de grens voor wat nog juist als voldoende wordt beoordeeld. Die dans is heel riskant, want een toets is meestal maar een armzalige steekproef, de kandidaat weet zelf niet exact hoe goed de stof erin zit, dus dat verwachte/gehoopte zesje kan ook zomaar een vier zijn. Op zich is dit nog moreel neutraal: zowel de hardwerkende marginale student, als het luierende talent heeft ermee te maken. Op zich hoeft de geringe trefzekerheid van toetsen geen moreel probleem te zijn; Edgeworth wees er in enkele belangrijke artikelen eind 19e eeuw al op dat de kandidaten door extra inspanning de eigen kansen op succes immers kunnen vergroten. A. D. de Groot wees er in 1970 op dat de docent/de instelling/het Cito dan wel de morele plicht heeft ervoor te zorgen dat kandidaten zich inderdaad doeltreffend op de toets kunnen voorbereiden. De Groot heeft er dus geen probleem mee dat er op zesjes wordt gemikt: dat is eigen verantwoordelijkheid van de kandidaten, en tot op zekere hoogte is het de plicht van de docent om dat mogelijk te maken. ‘Tot op zekere hoogte’ betekent bij De Groot: de kandidaten moeten zelf het risico kunnen dragen dat ze ondanks een adequate voorbereiding zakken.

Het is dus allemaal een spel, met spelregels voor beide partijen. Maar ook bloedserieus voor de relatief zwakke studenten (die er ook zijn in topopleidingen zoals wiskunde, vliegtuigbouw): kunnen zij echt wel het vege lijf redden door met veel inspanning die zesjes te halen? Of lopen ze cumulatief steeds grotere achterstanden op? Bij vakken die een cumulatieve kennisopbouw hebben zou dat best eens het geval kunnen zijn, en zouden juist de zwakkere studenten voor de hogere cijfers moeten gaan.

Laat ik het niet vrolijker maken dan het is: met ‘spel’ bedoel ik dat er heldere spelregels zijn: voor een voldoende resultaat moet je tenminste een ‘6’ scoren (al dan niet gemiddeld). Is dat eerlijk? Binnen het meritocratisch gedachtengoed: ja. Edgeworth, grondlegger van de mathematische statistiek, legde dat eind negentiende eeuw al uit: de leerling kan de kans om te zakken beperken door zich beter voor te bereiden. Eerlijk genoeg? Nog niet helemaal: voorwaarde is dat de leerling dat ook doeltreffend moet kunnen, zoals A. D. de Groot in 1970 bepleitte. En ceteris paribus: veronderstellend dat al het andere gelijk blijft of als gegeven moet worden beschouwd; maar waarom zouden we dat doen? Verander die examenregeling en toetsgewoonten. Verander het onderwijsstelsel.





Cultuur? Maar dan zijn er ook andere culturen, dus? Zoals daar zijn: de examenhel van de keizerlijke examens in China [I. Miyazaki (1976). China's examination hell. Weatherhill.], of de jukensenso (examenoorlog) in Japan (o.a. Zeng, 1995). Zuid-Korea ook (Asia Times). Radicaal anders. Maar beter?


Examenkoorts heerst. Dit jaar is het de vrees voor vijfjes op meer dan een kernvak die de temperatuur verder opjaagt. Het is geen gek idee om te stellen dat het juist de politiek is die onder de slogan ‘de lat omhoog’ ervoor heeft gezorgd dat het begrip ‘zesjescultuur’ extra inhoud heeft gekregen. Het is immers een metafoor uit een sport waarin het niet telt hoe hoog je over die lat gaat, maar alleen of je nog net over de lat op deze hoogte heen komt. Kennelijk lokt cijferspel in onderwijs en examens makkelijk rare beeldspraak uit.



Ik had me niet meteen gerealiseerd dat de zesjescultuur waar de laatste weken over wordt gesproken, die van de scholen is (niet van de leerlingen). Althans, dat is wat Annette Roeters uitdraagt n.a.v. het onderwijsverslag van de Inspectie. Dat is een bijzonder taalgebruik: het gaat kennelijk om de Inspectie die cijfers uitdeelt aan scholen. Ik zal er iets over opschrijven, maar het samenhangende beeld dat ik over die vermeende zesjescultuur ga schetsen vertrekt toch echt vanuit het cijfergebeuren binnen de scholen.


De feitelijke situatie is dat weliswaar individuele leerlingen door harder te werken veel betere cijfers kunnen halen, maar dat dit voor groepen leerlingen niet geldt. De ‘normen’ voor de cijferbeoordeling zijn bepaald van elstiek, en passen zich soepel aan aan veranderd gedrag van leerlingen. Dat geldt zelfs voor centraal schriftelijke eindexamens.


Wie deze mechanismen kent, kan ze beleidsmatig te gelde maken. Er zijn nu in meerdere universitaire instellingen pogingen gaande om dat althans voor het eerste studiejaar ook te doen (o.a. in Delft).






abstract




Ben Wilbrink (1992). Modelling the connection between individual behaviour and macro-level outputs. Understanding grade retention, drop-out and study-delays as system rigidities. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. 701-704.). Enschede: University of Twente. Paper: auteur. html




Ben Wilbrink (1992). The first year examination as negotiation; an application of Coleman's social system theory to law education data. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. 1149-1152). Enschede: University of Twente. Paper: auteur. html




Ben Wilbrink (1995). What its historical roots tell us about assessment in higher education today. 6th European Conference for Research on Learning and Instruction, Nijmegen. Paper; auteur. html


Eerste poging om een samenhangende uiteenzetting over dit onderwerp te presenteren. Het is niet de eerste publieke presentatie, dat was die voor de staf van het Cito, in 1993.



Ben Wilbrink (1995). Leren waarderen. html concept




Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23, 31-48. html




George F. Madaus (1994). Boekbespreking van F. Allan Hanson Testing Testing. American Journal of Education, 102, 222-234




Madaus, G. F., & Kellaghan, T. (1992). Curriculum evaluation and assessment. In P. W. Jackson: Handbook of resarch on curriculum. New York: Macmillan (119-154). [POW NASLAG 81.62]



Kurt F. Geisinger (1982). Marking systems. In Mitzel, H. E. (Ed.). Encyclopaedia of educational research.The Free Press, 1139-1149. abstract






John A. Laska & Tina Juarez (Eds.) (1992). Grading and marking in American schools. Two centuries of debate. Thomas. abstract




Michael Young (1958). The rise of the meritocracy 1870 - 2033. An essay on education and equality. London: Thames and Hudson.




W. A. Mehrens & B. G. Rogers (1970). Relations between grade point averages and collegeate course grade distributions. The Journal of Educational Research, 64, #4. abstract


Een belangrijk artikel, al was het slechts omdat het bijzonder helder weergeeft wat het typisch Amerikaanse beleid is m.b.t. cijfergeven. Bijv.:



Roy D. Goldman (1974). Grading practices in different major fields. AERJ 11, 343-357 DOI:10.3102/00028312011004343 abstract & scihub pdf




Roy D. Goldman & Mel H. Widawski (1976). A within-subjects technique for comparing college grading standards: Implications in the validity of the evaluation of college achievement. Educational and Psychological Measurement, 36, 381-390. abstract




A. Christopher Strenta & Rogers Elliott (1987). Differential grading standards revisited. Journal of Educational Measurement, 24, 281-291.




Dorothy C. Holland & Margaret A. Eisenhart (1990). Educated in romance. Women, achievement, and college culture. University of Chicago Press. Passages van belang: IX 6 regels van beneden; 237 bovenaan; 259 Horowitz; 165 2e, 3e, 4e alinea 171 3e a., laatste a.! 172 4e a. ‘teachers . . . ’ 173 5e, 6e, 7e, 8e 179 2e einde, 3e & laatste a. 178 2e, 3e, 4e a. 179-180 194 3e.




Claude Montmarquette & Sophie Mahseredhan (1989). Could teacher grading practices account for unexplained variation in school achievements? Economics of Education Review, 8, 335-343. abstract




Jerome E. Singer (1964). The use of manipulative strategies: Machiavellianism and attractiveness. Sociometry, 27, 128-150. preview




Howard S. Becker, Blanche Geer & Everett C. Hughes, E.C. (1968). Making the grade: the academic side of college life. Wiley. Reprinted 1995 by Transaction site


Dit is een fantastisch goed boek over de dagelijkse werkelijkheid van het GPA, voornamelijk vanuit optiek van de studenten beschreven. De enige goede beschrijving van het Amerikaanse cijfersysteem: de auteurs nemen de moeite precies aan te geven wat de regels etc. zijn, iets dat heel zelden is omdat vrijwel alle auteurs het systeem en zjn regels bekend veronderstellen. Heel expliciet (66 en p. 68 bv.) geven de auteurs aan dat de student in zijn class onderhandelt met de docent over de grades (exact het verbale Coleman-model!), en daartoe voortdurend uit is op wat er nodig is om een behoorlijk cijfer te kunnen scoren (doorzichtigheid dus, in een situatie in 1960 waar studenten bijzonder in het onzekere worden gehouden over welke prestaties hoe beoordeeld zullen worden en hoe verschillende oordelen uiteindelijk in de grade voor het betreffende vak zullen resulteren. Veel en veel interessanter boek dan dat van Pollio et al 1986). In zekere zin geeft dit boek veel beter het soort informatie dat ik zelf bij een bezoek aan de USA verzameld zou willen zien over het cijfersysteem (oude suggestie van Hofstee: ga eens kijken hoe die GPA-systemen functioneren, als je echt werk wilt maken van die compensatorische examenregeling). Het is een hard verhaal, en laat nog eens zien, ook zonder dat te kwantificeren, hoe een hard systeem er niet toe leidt dat vrijwel iedereen binnen boord blijft. Bedenk dat bij pleidooien om regels te verharden, ook in het belang van studenten: de USA-situatie laat zien dat er ook dan hopen uitvallers zijn, hoewel deze auters geen poging doen uit te zoeken waarom dat zo is, al laten zij wel zien en presenteren zij dat zo ook heel duidelijk dat studenten vaak denken dat het aan eigen falen ligt, en dat docenten denken dat het aan gebrek aan capaciteiten ligt.



C. R. Snyder & Mark Clair (1976). Effects of expected and obtained grades on teacher evaluation and attribution of performance.Journal of Educational Psychology, 68, 75-82. abstract




Richard M. Warren (1995). Criterion shift rule and perceptual homeostasis. Psychological Review, 92, 574-584. abstract




Robert F. van Naerssen (1982). Over punten en judicia en ‘mastery’ bij het hoger onderwijs. Tijdschrift voor Onderwijsresearch, 7, Notities en Commentaren, 223-225. Tijdschrift voor Onderwijsresearch scans in deze lijst


Een interessant voorstel van Bob van Naerssen om studenten de gelegenheid te geven een zwak cijfer voor een vak op te waarderen tegen inlevering van een relatief behoorlijk aantal 'punten' voor dat vak. Een compensatorische examenregling dus, maar in een onverwachte vorm.



Richard Winter (1993). Education or grading? Arguments for a non-subdivided honours degree. Studies in Higher Education, 18, 363-378.


Nieuwigheden in het Engelse hoger onderwijs brengen verschuiving met zich mee van het traditinele vergelijkende beoordelen naar meer criterium-georienteerd beoordelen. Ik weet niet of dit stuk van enig belang is, ik heb het in ieder geval beschikbaar.



John W. Young (1993). Grade adjustment methods. Review of Educational Research, 63, 151-163. preview


Van belang omdat het een volstrekt onomstreden ‘bewijs’ is voor de stelling dat cijfergeven relatief is. Ook interessant omdat in al die verhalen over grade adjustment ontbreekt dat cijfers het gecombineerde resultaat van investeren en capaciteiten zijn. Zie ook Lei, Bassiri and Schulz (2001).



Pui-Wa Lei, Dina Bassiri and E. Matthew Schulz (2001). Alternatives to the Grade Point Average as Measures of Academic Achievement in College. ACT Research Reports 2001-4 pdf




David J. Woodruff, Robert L. Ziomek (2004). Differential Grading Standards Among High Schools. ACT Research Reports 2004-2 pdf




David J. Woodruff, Robert L. Ziomek. (2004). High School Grade Inflation From 1991 to 2003. (ACT Research Report 2004-43 pdf).


a>).




John S. Brubacher (1947). A history of the problems of education. McGraw-Hill. archove.orghr>

Interessant materiaal, die bladzijden een keer doornemen op archive.org.



Mark W. Durm (1993). An A is not an A is not an A: a history of grading. The Educational Forum, 57, 294-297. pdf




Mary Lovett Smallwood (1935). An historical study of examinations and grading systems in early American universities. Harvard University Press. [alleen in UB UvA! Bestellen op nummer 1395 B 23]




David F. Labaree (201). The lure of statistics for educational researchers. Educational Theory, 61, 621-632. abstract of scan


Voor cijfergeven is dit een niet onbelangrijk thema, want onderzoekers grijpen heel makkelijk naar cijfers om een kwantitatieve draai aan hun onderzoeken te geven. En zoiets heeft dan zijn weerslag in de opvattingen van politici en bestuurders, die dan weer gaan sturen op cijfers, enzovoort enzoverder.



Randall R. Curren (1995). Coercion and the ethics of grading and testing. , 425 abstract




K. Posthumus (1940). Middelbaar onderwijs en schifting. De Gids, 104 deel 2, 24-42. integraal op dbnl.nl



K. Posthumus (1958). Rendement en beoordelingsgewoonten. Universiteit & Hogeschool, 4, 156-161.




Prinz von Hohenzollern, J. G. & Liedke, M. (1991). Schülerbeurteilungen und Schulzeugnisse. Historische und systematische aspekte. Bad Heilbrunn: Julius Klinkhardt.




Anna Südkamp, Johanna Kaiser & Jens Möller (2012, March 26). Accuracy of Teachers' Judgments of Students' Academic Achievement: A Meta-Analysis. Journal of Educational Psychology, 104, 743-762 abstract


Zie dit ook in relatie tot het artikel van Bowers, hierbeneden.



Alex J. Bowers (2011): What's in a grade? The multidimensional nature of what teacher-assigned grades assess in high school. Educational Research and Evaluation: An International Journal on Theory and Practice, 17, 141-159. abstract




Herbert Hoijtink en Klaas Sijtsma (2009). Meten Onder Druk. Advies aan de CEVO Inzake de Normering van Eindexamens Voortgezet Onderwijs. pdf




Iasonas Lamprianou (2009). Comparability of examination standards between subjects: an international perspective. Oxford Review of Education, 35, 205 - 226 abstract




Sarah Warshauer Freedman (1979). Why do teachers give the grades they do? College Composition and Communication, 30, 161-164. pdf


opstelbeoordeling; experiment met in vier opzichten gemanipuleerde opstellen: content, organization, sentence structure, spelling e.d.



P. van Rijn, A. Béguin & H. Verstralen (2009). Zakken of slagen? De nauwkeurigheid van examenuitslagen in het voortgezet onderwijs. Pedagische Studiën, 86, 185-195. abstract .doc




Willem K. B. Hofstee (2009). Promoting intersubjectivity: a recursive-betting model of evaluative judgments. Netherlands Journal of Psychology, 65. abstract




J. H. Stein: Inrichting der examens voor onderwijzers. In M. J. Koenen en J. H. Stein (Red.) (1882). School en Studie, Maandschrift voor Opvoeding en Onderwijs, 7-10. Vierde jaargang. Tiel: D. Mijs. [behalve de eerste jaargang volledig aanwezig in de KB, niet gedigitaliseerd] abstract




Liying Cheng (1999). Changing assessment: washback on teacher perceptions and actions. Teaching and teacher education, 15, 253-271. pdf



P. L. Roth, C. A. BeVier, F. S. Switzer & J. Schippmann (1996). Meta-analyzing the relationship between grades and job performance. Journal of Applied Psychology, 81, 548-556. abstract



Nathan R. Kuncel, Marcus Credé & Lisa L. Thomas (2005). The validity of self-reported grade point averages, class ranks, and test scores: A meta-analysis and review of the literature. Review of Educational Research, 75, 63-82. abstract



P. J. Hartog (1918). Examinations and their relation to culture and efficiency.. London: Constable. pdf



Full text of "The Case For Examinations An Account Of Their Place In Education With Some Proposals For Their Reform" http://www.archive.org/stream/caseforexaminati011620mbp/caseforexaminati011620mbp_djvu.txt Bewaard als brereton.1943.rtf



C. W. Valentine (1932).The Reliability of Examinations. An Enquiry. London: University of London Press. [niet online beschikbaar, 2013]



H. van den Bergh, E. Rohde en M. Zwarts (2003). Is het ene examen het andere? Over de stabiliteit van schoolonderzoek en centraal examen. Pedagogische Studiën, 80, 176-191 open access op http://www.open.ou.nl//vor/3_Pedagogische_Studiën/80.htm



Teachers' Marks; Their Variability and Standardization by Frederick James Kelly 1913 Columbia University. integraal online




C. T. Gray (1913). Variations in the grades of high school pupils. Warwick and York. integraal online




Jay Parekh (2002). Do Median Grades Vary Across Departments? Cornell Higher Education Research Institute, Working paper WP 30. pdf


Korte scriptie-achtige studie. Wel aardig als casus van Amerikaans cijfergeven, verder niet diepgravend.



Becker, H., Geer, B., & Hughes, E. C. (1968). Making the grade: the academic side of college life. New York: Wiley. http://home.earthlink.net/~hsbecker/ http://home.earthlink.net/~hsbecker/grades.html



Baird, L., & Feister, W. J. (1972). Grading standards: the relation of changes in average student ability to the average grades awarded. American Educational Research Journal, 9, 431-441.abstract




Keith Chapman (1996). Entry qualifications, degree results and value-added in UK universities. Oxford Review of Education, 22, 251-264. abstract




Harris (1940). Factors affecting college grades: a review of the literature, 1930-1937. Psychological Bulletin, 37, 125-166. abstract


Een grappig maar ook zeer volledig overzicht van onderzoek naar van alles dat met cijfers zou kunnen correleren. Nee, geen conceptueel interessante analyse. Wie goed oplet zal constateren dat er allerlei variabelen zijn onderzocht die betrekking hebben op de studenten, maar geen enkele die het beoordelingsgedag van docenten betreft, noch individueel, noch docenten als groe (vgl het Coleman-model, zoals in mijn 1992).



Larson & Scontrino (1976). The consistency of high school GPA and the verbal and mathematical portion of the SAT of the CEEB as predictors of college performance: an eight year study. Educational and Psychological Measurement, 36, 439-443. abstract




Lewis, W.A., Dexter, H.G., & Smith, W.C. (1978). Grading procedures and test validation: a proposed new approach. Journal of Educational Measurement, 15, p. 219-



David Pennycuick and Roger Murphy (1988). The impact of graded tests. London: The Falmer Press. isbn 1850002789



Please (1971). Estimation of the proportion of examination candidates who are wrongly graded. BrJMStPs, 24, 230-238. (fc)



Simon, S.B., & Bellanca, J.A. (Eds.)(1976). Degrading the grading myths. o.a. Evans, F.B. What research says about grading. (30-50). Bellanca, J.A., & Kirschenbaum, H. An overview of grading alternatives. (51-62).



Slavin, R.E. (1977). Classroom reward structure: an analytical and practical view. Review of Educational Research, 47, 633-650. competitie



Weeren, J.van. Cijfers geven. De groep als norm bij proefwerken en schoolonderzoek. Arnhem: Cito; 1990. 19 blz.; [heb ik niet beschikbaar]



Willmott, A. S., & Nuttall, D. L. (1975). The reliability of examinations at 16+. London: Macmillan Education. '95



F. J. Vaes (1930). Statistiek betreffende de 1e Hoogere Burgerschool met vijf-jarigen cursus te Rotterdam. Tweede uitgaaf 1865-1930. Niet in den handel, juli 1930. Ongelooflijk: een lijst van alle leerlingen, hun schoolloopbaan en eindexamen, en wat er later van hen geworden is. De toelichting op de tekens staat op blz 9 e.v. '93



Tluanga (1974). A scaling formula for bounded mark intervals. BrJMStPs, 27, 53-61. (fc)



Thorndike, R.L. (1969). Marks and marking systems. In Ebel, R.L. Encyclopedia of educational research. London: MacMillan.



Baet, A., Moret, L, Schoonen, R., & Sjoer, E. (1993). Zo haal je een hoog cijfer voor je examenopstel: adviezen van en voor leerlingen. De perceptie van de doelstellingen van het opstelonderwijs in de bovenbouw van havo-vwo. Tijdschrift voor Taalbeheersing, 15, 173-192. gezien



Bendig, A. W. (1953). The reliability of letter grades. Educational and Psychological Measurement, 13, 311-321.



Berkel, K. van (1996). Dijksterhuis, een biografie. Amsterdam: Bert Bakker. Hierin een aardig casus over cijfergeven: een conflict tussen twee wiskundeleraren, Dijksterhuis en Kerremans, in de 20er en 30er jaren, eindigend met het ontslag van Kerremans. Over onjuist en te laag cijfergeven.



Please (1971). Estimation of the proportion of examination candidates who are wrongly graded. BrJMStPs, 24,, 230. (fc)



Bridgeman, Brent, & Lewis, Charles (1994). The relationship of essay and multiple-choice scores with grades in college courses. Journal of Educational Measurement, 31, 37-50.



Brookhart, S. M. (1993). Teachers' grading practices: meaning and values. Journal of Educational Measurement, 30, 123-142.



Siero, F., & van Oudenhoven, J. P. van (1993). De invloed van contingente feedback op attributies en prestaties in de klas. TOR, 18, 343-354. Wat ik er zo in de gauwigheid van heb gezien: een naïeve conceptie van het inspanningsparadigma ‘als je maar je best doet, word je daar ook naar gewaardeerd.’ Dat miskent dus het inherent competitieve karakter van beoordelen in het onderwijs. Het artikel is dan ook aardig als illustratie van de doorwrochte naïviteit die op dit gebied kan heersen.



Stricker, L. J., Rock, D. A., Burton, N. W., Muraki, E., & Jirele, T. J. (1994). Adjusting college grade point average criteria for variations in grading standards: a comparison of methods. Journal of Applied Psychology, 79, 178-183. fc



Werts, C., Linn, R. L., & Jöreskog, K. G. (1978). Reliability of college grades from longitudinal data. Educational and Psychological Measurement, 38, 89-96.



Caspard, P. et al. (ed.) (1992). Travaux d'élèves; pour une histoire des performances scolaires et de leur évaluation, XIX-XX siècles. Paris: I.N.R.P. ISBN 2734203316. (Themanummer van Histoire de l'éducation, mai 1992 nr. 54). IJSB: PEDA.



Intelligenz und Schulleistung. Kapitel X: Stern, W. (1920). Die Intelligenz der Kinder und Jugendlichen und die Methoden ihrer Untersuchung. An stelle einer dritten Auflage des Buches: Die Intelligenzprüfung an Kindern und Jugendlichen. Leipzig: Verlag von Johann Ambrosius Barth. 194-225. Interessant omdat kennelijk geen 'cijfers' voorhanden waren om testscores mee te vergelijken, maar wel rangorde in de klas!



Spoelder, J. (1978). Over prijzen en promotie op de Latijnsche Erasmiaansche Scholen. In Blom, N. van der (1978). Grepen uit de geschiedenis van het Erasmiaans Gymnasium 1328-1978. Rotterdam: Backhuys. 106-128. (over notae, de voorloper van cijfersystemen). t



Coleman, J.S. (1959). Academic achievement and the structure of competition. HER, 29, 330-351. Reprinted in Halsey, A.H., Floud, J., & Anderson, C.A. (Editors) (1961). Education, economy, and society. A reader in the sociology of education. London: Collier-Macmillan. 367-389



Naerssen, R. F. van (1982). Over punten en judicia en ‘mastery’ bij het hoger onderwijs. Tijdschrift voor Onderwijsresearch, 7, 223-225. combineren Een interessant voorstel van Bob van Naerssen om studenten de gelegenheid te geven een zwak cijfer voor een vak op te waarderen tegen inlevering van een relatief behoorlijk aantal 'punten' voor dat vak.



Simon French (1985). The Weighting of Examination Components. The Statistician, Vol. 34, No. 3. (1985), pp. 265-280. Stable URL:http://links.jstor.org/sici?sici=0039-0526%281985%2934%3A3%3C265%3ATWOEC%3E2.0.CO%3B2-9



Simon French and Marilena Vassiloglou (1986). Strength of performance and examination assessment. British Journal of Mathematical and Statistical Psychology, 39, 1-14.



Marilena Vassiloglou and Simon French (1982). Arrow’s theorem and examination assessment. British Journal of Mathematical and Statistical Psychology, 35, 183-192. kopie in bak ex regeling. Abstract: Usually in examinations an overall assessment of a candidate’s performance is made by means of a weighted sum of the marks attained on the various components. However, recently it has been suggested that the combination should be based on the candidate’s rankings on the components alone, and not on the actual marks. This paper discusses whether such an approach can lead to a fair and consistent system of assessment. Ik heb er (2-2008) een stukje over gemaakt, en dat toegevoegd aan '97 Assessment in historical perspective. Dit is nogal wat. Een leuk casus misschien om een aantal van de vanzelfsprekende vooronderstellingen in de literatuur te demonsteren, zoals het niet letten op backwash, de beperkte definitie van wat fair en wat consistent is, e.d. De suggestie van rangordenen is gedaan door Wood & Wilson (1980), in vd Kamp, Langerak en De Gruijter 1980 fc in bak ex regeling



Cremers, P.G.J., Konstruktie van een schaal voor bereikt niveau van voortgezet onderwijs. TOR 1980, 5, 80- .



Crijns, J. H. J. (1969). Een school in cijfers. Een cijfermatige analyse van een Nederlandse H.B.S. 's-Hertogenbosch: Malmberg.



Cross, L.H. e.a., Establishing minimum standards for essays: blind versus informed reviews. JEM 1985, 22, 137-146



Davies, J., & Skinner, V. (1992). Parental responses to records of achievement: a primary school case study. Ed Res 34, 117-132.



Andrew Davis (1998) The Limits of Educational Assessment. Oxford: Blackwell. isbn 0631210202. Special Issue: The limits of educational assessment. Journal of Philosophy of Education, 32(1), 1-155. full contents



Keith, T. Z., & Benson, M. J. (1992). Effects of manipulable influences on high school grades across five ethnic groups. Journal of Educational Research, 86, 85-93. preview




Domino, G. (1992). Cooperation and competition in Chinese and American children. Journal of Cross-Cultural Psychology, 23, 456-467. fc (gaat niet over cijfergeven, maar over competitief versus cooperatief gedrag. Kennen de Chinezen een systeem van cijfergeven dat vergelijkbaar is met in het Westen gangbare systemen? Goede vraag.)



Ebel, (1969). The relation of scale fineness to grade accuracy. Journal of Educational Measurement, 6, 217-221. (fc)



Etaugh et al. (1972). Reliability of college grades and GPA's: some implications for prediction academic performance. EPM 32, 1045-1050.



Simon French (1981). Measurement theory and examinations. British Journal of Mathematical and Statistical Psychology, 34, 38-49. Sommeren van cijfers (dus compenseren) zou geen goede methode zijn. Stelt een alternatief voor.



Isidor Edward Finkelstein (1913). The marking system in theory and practice. Baltimore, Md. Warwick & York, Inc. Educational psychology monographs . . . , no. 10, "Studies from the Cornell educational laboratory, no. 14." integraal online




Gesualdi, M. (1967). Die rotschool van u. Brief aan een onderwijzeres. door de kinderen van Barbiana gevolgd door een nabeschouwing van Oscar de Wit, Sibe Soutendijk en Co van Calcar. Utrecht: Bruna. (Zeer scherpe uitspraken, en ook wel empirisch onderbouwd, over beoordelen van leerlingen) bo



A. D. de Groot (1966). Vijven en zessen. Groningen: WoltersNoordhoff.



A. D. Groot en W. H. F. W. Wijnen (1966/1983). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: Wolters-Noordhoff. isbn 9001355501 (NB: Wijnen was er in 1966 uiteraard niet bij!)



Hewitt, B.N., & Jacobs, R. (1978). Student perceptions of grading practices in different major fields. Journal of Educational Measurement, 15, 213-217. (adaptation-level hypothesis) fc



Hoskin, K. (1979). The examination, disciplinary power and rational schooling. History of Education, 8, 135-146. fc Aardig geschreven, maar oppervlakkig en onnauwkeurig. Dweept met Foucault’s Discipline and punish. p. 144 in about 1792, William Farish, one of the moderators, suggested that marks should be assigned for individual questions. Hoskin gaat ervanuit dat dat voorstel inderdaad is overgenomen, maar ik heb dat nooit ergens bevestigd gezien. Interessant is verder dat hij veronderstelt dat het schriftelijk werk van de kandidaten gelijk was, maar dat was niet waar, zie Wilson 1982 p. 337.



Hoyt, D. P. The relationship between college grades and adult achievement. A review of the literature. (ACT Research Report 7) Iowa City, Iowa: The American College Testing Program Publications Office. 1965.



Ingenkamp, K. (Her.) (1971). Die Fragwürdigkeit der Zensurengebung. Texte und Untersuchungsberichte. Weinheim und Base: Beltz Verlag. (u.a.: Dohse: Die geschichtliche Entwicklung des Schulzeugnisses; Starch & Elliott; Hartog & Rhodes: Prüfungszensuren in Geschichte und English; Weiss; Finlayson; Eells; Carter; Hadley. Zeer uitgebreide, vnl. Duitse literatuurlijst)



D. W. Johnson, G. Maruyama, R. Johnson, D. Nelson & L. Skon (1981). Effects of cooperative, competitive, and individualistic goal structures on achievement: a meta-analysis. Psychological Bulletin, 89, 47-62. pdf



Johnson, D. W., & Johnson, R. T. Instructional goal structure: cooperative, competitive or individualistic. Review of Educational Research, 1974, 44, 213240.



Karlins, J. et al (1969). Academic attitudes and performance functions of differential grading systems: an evaluation of Princeton's P/F system. JExE, 37 (3), 38-50. fc



Kelley (1950). The use of literal grades. JEP. (fc)



Karl Josef Klauer (1984). On criterion-referenced grading models. JESt, 9, 237-251. preview



Koenraads, W. H. A. (1957). Cijfergeving als probleem. Openbare les. Groningen: Noordhoff. [Niets van enig belang}



M. J. Langeveld (1961 7e). Inleiding tot de studie der paedagogische psychologie van de middelbare-schoolleeftijd. Wolters.



Le Monde de l’éducation, octobre 1994, p. 19 Les notes, une science inexacte. N.a.v. een onderzoek dat misschien aardig is om aan te schaffen: Merle, Pierre (1994?). La compétence en question. école, insertion, travail. Presses universitaires de Rennes, 209 p., 94 F.



Lenders, J. (1988). De burger en de volksschool. Culturele en mentale achtergronden van een onderwijshervorming. Nederland 1780-1850. Nijmegen: SUN. isbn 9061682886



Michaels, J.W. (1977). Classroom reward structures and academic performance. RER, 47, 87-98. preview



Naerssen, R.F. van (1972). Het schalen van testscores. NTvdPs, 27, 471-485. (procedure om middelen van cijfers e.d. wat beter te kunnen rechtvaardigen hoeveel punten behaald zijn: als hoger cijfer nodig is, dan minder punten, etc.



Stewart & White (1976). Teacher comments, letter grades, and student perormance: what do we really know? JEP, 68, 488-500.



Stiggins, R.J., D.A. Frisbie, & Ph.A.Griswold (1989). Inside high school grading practices: building a research agenda. EdMeas, 8 #2, 5-14. researchgate.net hr>



Daniel Starch (1913). Reliability and distribution of grades. Science, vol. 38, 630-636. Leiden: Museum Natuurlijke Historie. read online




Smallwood, M.L. (1935). An historical study of examinations and grading systems in early American universities. Harvard University Press. geleend, ik heb een kopie gemaakt als ik me goed herinner



Schoenfeldt, L.F., & Brush, D.H. (1975). Patterns of college grades across curricular areas: some implications for GPA as a criterion. AERJ, 12, 313-321.



Deutsch, M. (1979). Education and distributive justice: some reflections on grading sytsems. American Psychologist, 34, 379-401. 10.1037/0003-066X.34.5.391 pdf




Edgeworth, F. V. (1888) The statistics of examinations. Journal of the Royal Statistical Society, 51, 599-635 JSTOR read online free, also 'The element of chance in competitive examinations', ibid, vol. LIII (1890), pp. 460-75 JSTOR read online free, 644-63 JSTOR read online free



Crijns, J. H. J. (1969). Een school in cijfers. Een cijfermatige analyse van een Nederlandse H.B.S. Malmberg




Amsterdam. Het Gymnasium te Amsterdam. Verslag cursus 1853-1854. (Bezit van bibliotheek POW: IJsbaanpad). abstract




Covington, M. V. (1992). Making the grade. A self-worth perspective on motivation and school reform. Cambridge University Press. ISBN 052134803X




CBS (1978). Eindexamencijfers vwo 1977. Mededelingen no. 7681, juli 1978.




Fortgens (1958). Schola Latina.


Voor de 17e, 18e en 19e eeuw geeft Fortgens (1958) veel informatie over overgangsexamens, examenthemata en promoties op de Latijnse scholen. De overgangsexamens vinden veelal halfjaarlijks plaats, en zijn in de 17e eeuw inderdaad examens die ten overstaan van de rector en het schoolbestuur worden afgelegd. De promotie van degenen die overgaan naar een volgende klas is vaak een zeer plechtige gebeurtenis voor de stad. In de 18e eeuw worden de examens meer een formaliteit, omdat de overgang wordt beslist op basis van de door de leerlingen gemaakte fouten en van hun gedrag.



P. J. van Herwerden (1947). Gedenkboek van het Stedelijk Gymnasium te Groningen. Wolters.




Ball, W. W. R. (1921). Cambridge notes, chiefly concerning Trinity College and the University. Cambridge: Heffer & Sons. integraal online


Dit is een sleutelboek, en dan gaat het om hoofdstuk XXI The mathematical tripos 259-311. NB: Dit examen kon men maar een keer afleggen, een feit dat in dit hoofdstuk nogal impliciet blijft, kennelijk omdat Ball het vanzelfsprekend vond. Uitgebreide passages zijn van belang, kijk daarvoor in de kopie. Juist omdat in deze geschiedenis zoveel kernpunten uit de geschiedenis van het beoordelen aan de orde zijn, heb ik er uitvoerig aandacht aan besteed. Die aandacht is ook daarom gerechtvaardigd dat dit examen als model heeft gediend voor het inrichten van examens op andere plaatsen in de samenleving, waar vaak oud-Cambridge studenten bij waren betrokken. Hoe zit het met Oxford: die volgde in de ontwikkeling van zijn examens wat er in Cambridge gebeurde, laat ik het zo maar even samenvatten; Ball gaat er in het geheel niet op in.



L. R. Aiken, Jr. (1963). The grading behavior of a college faculty. Educational and Psychological Measurement, 23, 319-322. abstract




Davis, J. (1964). Great aspirations. Aldine.



W. C. Eells (1930). Reliability of reported grading of examinations. Journal of Educational Psychology, 21. abstract




Lienert, G.A. (1987). Schulnotenevaluation. Frankfurt a.M.: Athenäum. [UB Leiden? 3895 A 27].


Een buitengewoon teleurstellend boek: detaillistisch gefrut over schalen, correlaties, etc., zonder enige aandacht voor de rol die cijfergeven in het onderwijsproces en bij leerprocessen speelt.



Bartels, A. (1963). Een eeuw middelbaar onderwijs 1863-1963. Wolters.




Casimir, R. (1934). Het Nederlandsch Lyceum 1909-1934. Wolters.




Cools, J. (1984). Geschiedenis van het College te Herentals. Herentals: Oud-leerlingenbond van het Sint-Jozefscollege.




Jordens, P.H. (1906). Wet van den 17 augustus 1878, S. 127, tot regeling van het lager onderwijs. Tjeenk Willink.




Roelants aan Van Gobbelschroy, 21 aug. 1827. In Nooij, J. de (1939). Eenheid en vrijheid in het nationale onderwijs onder koning Willem I. Utrecht, proefschrift.




G. Codina Mir, G. (1968). Aux sources de la pédagogie des Jésuites; le ‘Modus Parisiensis.’ Roma. https://archive.org/details/bhsi28




Lindquist, E. F. (1963). An evaluation of a technique for scaling high school grades to improve prediction of college success. Educational and Psychological Measurement, 23, 623-646. abstract




J. Roach, J. (1971). Public examinations in England 1850-1900. Cambridge University Press. [UB UvA? 1923 E 36]




F. Rudolph (1965). Essays in education in the early republic.. The Belknap Press of Harvard University Press. [UB Leiden geleen]




Sheldon Rothblatt (1968). The revolution of the dons: Cambridge and society in Victorian England. London: Faber. [UB Leiden? 6832 A 2]




Alexander W. Astin (1985). Achieving educational excellence. Jossey-Bass.




Eckstein, M. A., & Noah, H. J. (eds) (1992). Examinations: comparative and international studies. Oxford: Pergamon Press. [KB geleend]




K. Ingenkamp (1972). Zur Problematik der Jahrgangsklasse. Weinheim: Beltz. [POW B-7 INGE]




Becker, H., Geer, B., & Hughes, E. C. (1968). Making the grade: the academic side of college life. New York: Wiley. http://howardsbecker.com/ http://howardsbecker.com/articles/grades.html H. Becker, B. Geer & E. C. Hughes (1968). Making the grade: the academic side of college life. Wiley. [Niet in UB A'dam. UBL 2829 C 32; is recent herdrukt]




G. A. Lienert (1987). Schulnotenevaluation. Frankfurt a.M.: Athenäum. [UB Leiden: 3895 A 27]




Coebergh van den Braak, A.M. (1988). Meer dan zes eeuwen Leids Gymnasium. Leiden: Leids Gymnasium.




K. Ingenkamp (1972). Zur Problematik der Jahrgangsklasse. Weinheim: Beltz. [POW B-7 INGE]




E. E. White (1888). Examinations and promotions. Education, 8, 519-522.




Kandel (1936). Examinations and their substitutes in the United States. The Carnegie Foundation for the advancement of teaching. Bulletin number twenty-eight.


A. M. Coebergh van den Braak (1988). Meer dan zes eeuwen Leids Gymnasium. Leiden: Leids Gymnasium.



Tim Gill & Tom Bramley (2013) How accurate are examiners’’ holistic judgements of script quality?, Assessment in Education: Principles, Policy & Practice, 20:3, 308-324. abstract




Dylan Wiliam interview - Designing the future. Extracts from video feature presentation at ACER Research Conference 2015. vimeo.com/136773589


New to me: personal best scoring, kind of ipsative judgment. Also: the Japanese way to teach to calcultae the area of the trapezium.



Warren W. Willingham, Judith M. Pollack & Charles Lewis (2002). Grades and test scoes: Accounting for observed differences. Journal of Educational Measurement, 39, 1-37. abstract




Niels Smits, GideonJ. Mellenbergh & Harrie C. M. Vorst (2002). Alternative missing data techniques to grade point average: Imputing unavailable grades. Journal of Educational Measurement, 39, 187-206. pdf [the pdf is from a republication as book chapter, without the list of references]




Brian P. Godor (2016). Revisiting differential grading standards anno 2014: an exploration in Dutch higher education. Assessment & Evaluation in Higher Education abstract




Susan M. Brookhart, Thomas R. Guskey, Alex J. Bowers, James H. McMillan, Jeffrey K. Smith and Lisa F. Smith, Michael T. Stevens and Megan E. Welsh (2016). A Century of Grading Research: Meaning and Value in the Most Common Educational Measure. AERJ, 86, 803-848. pdf




Regeling omzetting scores in cijfers centrale examens en rekentoets VO 2016 Geldend van 06-04-2017 t/m heden regeling


Zie ook http://www.wiskundebrief.nl/553.htm#1.



Anja J. Boevé, Rob R. Meijer, Hans J. A. Beldhuis, Roel J. Bosker, and Casper J. Albers (2019). On Natural Variation in Grades in Higher Education, and Its Implications for Assessing Effectiveness of Educational Innovations. Educational Measurement. Issues and Practice abstract




B. M. van Dalfsen (1930). De samenhang der Rapportcijfers voor de verschillende leervakken eener H. B. S. Paedagogische Studiën, 11, 230. \ online




Bert Meuffels (maart 2004). Cijfergeven over de grens. Examens. Tijdschrift voor de Toetspraktijk, 15-17. artikel €


Cijferschalen, internationaal.



H. W. F. Stellwag (1955). Selectie en selectiemethoden. Een inleidende studie in het aansluitingsvraagstuk L.O. en V.H.M.O. J. B. Wolters. Hoofdstuk 6, over het cijfer.




J.N. v.d. Ende (1954). Cijfers op de middelbare school Pedagogische Studien



'Over cijfergeven gesproken'


De Groot schreef er al eens over: 'Vijven en zessen'. Op mijn vraag of hij de oorsprong van dat cijfergeven kende, liet hij weten door die vraag verrast te zijn: hij had het zich nooit afgevraagd.


Is deze anecdote relevant? Dat denk ik wel. Want het staat voor mij vast dat het cijfergeven een gestandaardiseerde vorm van rangordenen is. De rangorde van leerlingen of examenkandidaten was eeuwenlang de relevante uitkomst, met speciale beloning van de #1 eventueel ook nog #2. v Het systeem stamt uit een humanistische ontwikkeling in de middeleeuwse scholen die het bestraffen van fouten (met de roede, de plak, de pechvogel) verving door het belonen van prestatie (maar dan alleen de beste(n)). Bedoeld om te motiveren, maar iedereen zag dat dat niet lukte.


Halverwege de 19e eeuw, een eeuw van standaardiseren en statistieken, vertaalde de onvrede over dat rangordenen zich in 'verbeteringen' van dat rangordenen. In plaats van te rangordenen van de beste naar de slechtste, gingen juries dat doen van 1 (slechtst) naar 10(best).


Een verdere verfijning is dan om de hoogste cijfers niet te gebruiken bij een slecht presterende groep, idem voor de laagste cijfers. [A. Chervel, 1993, 'Histoire de l'agrégation. Contribution à l'histoire de la culture scolaire' p. 136 ev.] Dat was vooruitgang, met navolging!


Alzo, met dat cijfergeven in het onderwijs zijn we nog steeds bezig met iets middeleeuws: rangordenen van leerlingen. Laat het tot u doordringen. In een systeem van rangordenen kunnen de niet alle leerlingen het winnen van het systeem, per definitie. Zie ook Karen Heij 14-16.


Ook wie juist van dat cijfergeven af wil, heeft enorm veel aan het inzicht dat cijfergeven neerkomt op rangordenen. En rangordenen is iets dat we tegenwoordig met grote weerzin doen, als het per se niet anders mag of kan. Rangordenen is losgekoppeld van leren, van onderwijzen.


Wie dit allemaal te gek vindt: een grondig boek over alles wat rangordenen is van Amy N. Langville & Carl D. Meyer, 2012, 'Who's #1? The Science of Rating and Ranking.' http://press.princeton.edu/titles/9661.html Tot hier (Ik schreef hier al eens eerder over: 'Assessment in historical perspective')




Twitterdraadje over cijfers, 23 november 2021:


https://twitter.com/benwilbrink/status/1463094983188176900


Literatuur: http://benwilbrink.nl/literature/cijfergeven.htm… Van belang is hoe het rangordenen (sinds de middeleeuwen) plaats maakte voor cijfergeven. Zie In http://benwilbrink.nl/publicaties/97AssessmentStEE.htm "France the marking system seems to have evolved from the ranking system: Chervel (1993, p. 136 ff.)"


Cijfersystemen verschillen van elkaar in 'lengte' (van 1 tot 10, 1-20, 1-6 etcetera), 'richting' ('1' als laagste waardering, of juist als hoogste), gebruik van cijfers of letters, maar dat is de oppervlakte. Algemeen geldt: cijfers zijn pseudo-objectief, want in wezen rangordes.


Omdat cijfers een pseudo-objectieve vorm van rangordenen zijn, is de verleiding groot geweest om ergens op de cijferschaal een punt aan te wijzen waar de bokken van de schapen worden gescheiden. Flauwekul natuurlijk, maar zie er maar eens vanaf te komen.


https://twitter.com/benwilbrink/status/1463097964285542407


Adriaan de Groot schreef erover in (o.a.) 'Vijven en zessen'.


De Nederlandse gekte is dat we doen alsof de cijferschaal een intervalschaal is. Daarmee schiet het NL onderwijs zich in eigen beide voeten: 'onvoldoende' presteren krijgt een enorm gewicht. #overgewicht


De cijferschaal is uiteraard een rangordeschaal. Cijfers 'middelen' is een vorm van Nederlandse poldergekte. Excuus, elders komt het syndroom ook voor. Op de een of andere manier is er ook ingeslopen dat cijfers 'normaalverdeeld' zouden moeten zijn, zoals IQ. Gek en supergek.


Onvoldoendes zoals '1', '2' of '3' uitdelen is een vorm van mentale (kinder)mishandeling. Zie ook de casuïstiek die hoort bij de 'Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs' U Twente 1998 http://ben-wilbrink.nl/Model_gedragscode_toetsen_beoordelen_en_beslissen_in_het_voortgezet_onderwijs.pdf (het VO nam dit niet over! !!)


Over die malle tweedeling in onvoldoende en voldoende cijfers (waar is dat in vredesnaam ooit goed voor geweest?): Onderwijsminister Gerrit Bolkestein veranderde (voor WOII) de betekenis van de '5' van 'juist voldoende' naar 'juist onvoldoende'. Wie snapt het nog?






a. e. n. rommes, w. k. b. hofstee. g. n. kema (1968). Omzetting van testscores in schoolcijfers. Pedegagische Studiën open




Robert Coe, Jeff Searle, Patrick Barmby, Karen Jones, Steve Higgins (2008). Relative difficulty of examinations in different subjects. CEM Centre, Durham University. Report for SCORE (Science Community Supporting Education) via academia.edu




Paul van der Molen & Jos Keuning (2023). Steeds meer zesjes. Cito. pdf




Wouter de Jong (15 maart 2023). Hoe cijfers de motivatie van leerlingen om zeep helpen – twee reacties. blog




Ben Wilbrink (1 maart 2023). Deugdelijk toetsen: psychometrie, grondrechten, en ethiek. blog




Ben Wilbrink (9 februari 2023). ‘Meten is weten’. Werkelijk? blog




Ben Wibrink (19 november 2022). Cijfers, cijfers, cijfers, en zittenblijven blog




Ben Wilbrink (10 augustus 2022). Rangordenen en cijfergeven, kan dat ook samengaan? Een draadje.




Ben Wilbrink (14-11-2022). draadje












maart 2023 \ contact ben at at at benwilbrink.nl      

Valid HTML 4.01!       http://www.benwilbrink.nl/literature/cijfergeven.htm http://goo.gl/ioZlY