Hoe gelijkwaardig blijft het eindexamen tussen scholen?

Annotaties door Ben Wilbrink

Meest recent: Van Alphen en Dronkers, december 2009, zie hierbeneden.

Vooraf: Inspectie/Elsevier cijfers eindexamens 2007

Elsevier publiceert in januari 2009 een lijstje met scholen met de grootste, respectievelijk kleinste, verschillen tussen gemiddelden voor schoolonderzoek en centraal schriftelijk (figuur, klik deze voor een leesbare tabel). Bij VMBO-theoretisch zijn er wat grotere verschillen, en dat is ook voor HAVO en VWO zo. Nou ja, het gaat over ontzettend veel scholen, en daar iedere keer de vijf scholen met het grootste verschil. Vallen we daar dan van achterover? Ik niet. Maar het is wel interessant te signaleren, zoals Elsevier ook doet, dat er een samenhang lijkt te zijn met het percentage APC-leerlingen (leerlingen die wonen op een postcode waar relatief veel achterstandsproblemen zijn). De betekenis daarvan ontgaat Elsevier, de redacteuren suggereren dat deze leerlingen in het schoolonderzoek wat cadeau krijgen. Waarschijnlijker is dat deze leerlingen het in het centraal schriftelijk relatief relatief moeilijker hebben door oneerlijkheid in de vragen (de taal, de cultuur, in contextvragen waar heel erg veel taal en cultuur in zit, ook als ze niet over taal en cultuur, maar bijvoorbeeld wiskunde gaan). Afijn, dat hoeft hier niet verder uitgezocht.

Let ook op de kleinste verschillen: die zijn in het VWO nul. Dat lijkt me een heel betekenisvol gegeven. Het duidt erop dat het fenomeen in ieder geval voor een deel niets heeft te maken met cadeautjes geven aan eigen leerlingen: dan zouden er immers 'eerlijke' scholen moeten zijn waarin de verschillen tussen schoolonderzoek en centraal examen een toevalsverdeling rond nul hebben, en zouden er scholen moeten zijn met bijvoorbeeld -0,5, zoals in het VMBO het geval is. Niet dus.

Nog een interessante waarneming die aan de lijstjes van Elsevier is te doen: kijk eens naar de gemiddelden voor het centraal eindexamen. Een kind kan zien dat de verschillen, althans voor deze kop- en staartlopers, bijna helemaal worden bepaald door de gemiddelden voor het centraal schriftelijk! Dat is lastig te interpreteren. Het wijst er om te beginnen op dat de cijfers voor het schoolonderzoek helemaal niet hoger zijn dan elders, althans niet substantieel hoger. De scholen met het grootste verschil tussen schoolonderzoek en centraal schriftelijk zijn scholen waar gemiddeld lage cijfers op het centraal schriftelijk vallen. Dat laatste is waarschijnlijk om een scala van redenen zo, maar daar horen we niets over. Het heeft in ieder geval niet evident te maken met pogingen om via cadeau gegeven hogere cijfers eigen leerlingen die zich opgeven voor een numerus-fixusstudie een streepje voor te geven (dat moet ook eenvoudig door de Inspectie te signaleren zijn, want dan gaat het niet om zesjes, maar om cijfers rond de acht). Enzovoort en zo verder. Elsevier levert hier dus wel een interessante tabel, jammer dat ze niet een aantal stakeholders heeft gevraagd om hier eens met elkaar over van gedachten te wisselen.

Arthur van Leeuwen en Ruud Deijkers (8 januari 2009). Beste scholen 2009: opnieuw te hoge cijfers bij examens. Elsevier. html. Op deze webpagina ook links naar een aantal pdf-documenten van Elsevier, o.a. een overzicht van scholen met de grootste en de kleinste verschillen tussen eindexamencijfers (schoolonderzoek en centraal schriftelijk) pdf.

25 oktober 2008. Staatssecretaris Van Bijsterveldt heeft laten weten (hier) dat zij de eindexamenseisen gaat aanscherpen om zo een betere aansluiting met het hoger onderwijs te krijgen, waarvan de onderdelen zijn: 1) cijfers van schoolonderzoek en centraal schriftelijk kunnen elkaar niet meer compenseren, 2) om te slagen voor het centraal schriftelijk worden de eisen voor enkele kernvakken aangescherpt. Hiermee dreigt in de media geventileerde wantrouwen over mogelijk gesjoemel van bepaalde scholen met hun schoolonderzoeken, uit te lopen op wet- en regelgeving die bepaald tot aanzienlijke schade zullen leiden. Die schade is bij benadering kwantificeerbaar, zoals ik eerder in 1980 heb laten zien voor de effecten van een ontwerp-wetsvoorstel voor selectie bij numerusfixus-studierichtingen (html). Het probleem zit hem als vanouds in het misplaatste idee dat het cijfer voor een enkel examenvak een betrouwbaar gegeven zou zijn, zodat je vanzelfsprekend van iedereen mag eisen dat het vak Nederlands tenminste een '5' moet zijn om te kunnen slagen, en idem dito ook voor nog een aantal andere vakken. Welnu, het enige examenresultaat waarvan verdedigbaar is dat het een redelijk betrouwbaar beeld geeft van het kennen en kunnen van de kandidaat, is het totaal behaalde resultaat, bijvoorbeeld het gesommeerde cijfer, het gemiddelde cijfer of een gewogen gemiddelde als juridische definitie. De staatssecretaris wil de bijl zetten aan de wortel van dat enige redelijk betrouwbare eindexamenresultaat waarop zak-slaagbeslissingen zijn te baseren. Van Bijsterveldt wil de leerlingen uitdagen en verzekeren van een goede aansluiting op het vervolgonderwijs (zie het persbericht); ik heb met zo'n beleidsdoel geen moeite (behalve de suggestie die erin ligt dat het nu een zootje zou zijn), en ben ook een fervent pleitbezorger van het stellen van stevige eisen aan leerlingen, maar knoeien met het oprichten van hordes voor afzonderlijke vakken werkt contra-productief en kan leerlingen vooral meer angst voor hun examen aanjagen.

Ik zal een poging doen om voor onderdelen van het voorstel Van Bijsterveldt een paar doorrekeningen te maken, en zal dat presenteren op de pagina /http://www.benwilbrink.nl/projecten/examen.vanbijsterveldt.2008.htm

Voor het doorrekenen van te verwachten effecten van veranderingen in examenregelingen is een tentamenmodel nodig, zoals in 1970 door Van Naerssen voorgesteld (html), en door mij verder is uitgewerkt en in rekenmodules beschikbaar is gemaakt hier.

17 juni 2008. Het GION publiceert: Meten met twee maten? De discrepantie tussen de cijfers op het schoolexamen en het centraal examen VO van allochtone leerlingen. pdf De landelijke pers haalt hier uit dat leraren hun allochtone leerlingen voor ijver zouden belonen bij het schoolonderzoek. Los daarvan of dat iets is dat niet zou deugen, geloof ik er niets van totdat ik harde onderzoekgegevens heb gezien. Ik moet dit rapport nog bestuderen, en zal dat doen met de achterdochtige hypothese in mijn achterhoofd dat talige bias van toets- en examenopgaven voor het door de pers gesignaleerde fenomeen een verklaring kan zijn. Benieuwd wat de onderzoekers op dit punt hebben geanalyseerd. [dit slaat natuurlijk op de thematiek die ik in de pagina projecten/eerlijkrekenen.htm probeer uit te werken]. 15 december 2009: Ik ben in de tussentijd aan dat bestuderen niet toegekomen. Ondertussen is op basis van dit rapport een artikel gepubliceerd in Pedagogische Studiïn, waarop een voorlopige commentaar hierbeneden is gegeven. Die ‘ijver’ zit me wel geweldig dwars: wat is dat voor vreemde gedachte om daar denigerend over te doen, wat in dat artikel waarschijnlijk geheel onbedoeld toch gebeurt? Je ziet dat zoiets precies de krent is die de pers uit het rapport haalt, waarmee een perverse beeldvorming ontstaat.

17 juni 2008. Dezelfde dag, in de Volkskrant een column van Aleid Truijens over het thema dat Dronkers heeft aangesneden. Naast nuttige informatie die ik nog niet had (over niet meer betalen van de tweede corrector), is het een voor Aleid onverwacht reactionair stukje, ik kan me tenminste niet voorstellen dat de uitsmijter ironisch is bedoeld: "Alleen een examen waarvoor je flinke kans loopt te zakken, is de moeite van het halen waard." Brrrrrrrrr. Aleid wil het nakijken verder optuigen, dat is eerlijker niet waar, maar dat gaat eraan voorbij dat alle tijd en kosten die besteed worden aan dat nakijken, ten koste gaan van—worden gestolen van—de vorming en de opleiding van diezelfde leerlingen. Trouwens, ons middelbaar onderwijs is al zo waanzinnig selectief, moet dat eindexamen dan ook nog eens idioot selectief worden opgetuigd? In wiens belang is dat?

Stan van Alphen en Jaap Dronkers (4 december 2009). Commentaar bij de uitkomsten van Trouw schoolprestaties 2009. pdf

[Ik ga deze gegevens en commentaren/interpretaties nog bestuderen. Enkele eerste indrukken. Alles geldt voor geslaagde examenkandidaten: ik wil graag heel zeker weten dat dit juist is. Telkens weer gemiddelde cijfers, waar waarschijnlijk de mediaan een beter en stabieler beeld geeft dan het gemiddelde [de mediaan: het middelste cijfer in de naar grootte gerangordende reeks scoes. Bijvoorbeeld: 9 scores van laag naar hoog geordend, dan is de mediaan de 5e score.]. Als je de beste scholen selecteert op basis van het CE, dan vind je vanzelf dat op die scholen het SE gemiddeld in de buurt van het CE ligt, niet? Van Alphen en Dronkers analyseren op basis van alleen geslaagde leerlingen, Rekers-Mombarg, Harms en Van der Werf (2009, zie hierbeneden) doen analyses op individueel niveau maar dan voor iedereen die deelneemt, dus inclusief gezakten: interessan is dan of de trends in discrepanties tussen SE en CE verschillen, en hoe ze dat dan doen, en of daar een theoretische verklaring bij valt te ontwerpen. Van Alphen en Dronkers signaleren dat de meeste goede en slechte scholen over de jaren heen hun scores hebben verbeterd, resp. verslechterd, tegen de verwachting op basis van statistiek in (regressie naar het midden): hoe zit dat precies, en als dit nderdaad klopt, is er een verklaring voor? Van Alphen en Dronkers hebben veel werk verzet, hebben zij inderdaad belangrijke inzichten toe kunnen voegen aan wat de Inspectie al wist?

L. T. M. Rekers-Mombarg, G. J. Harms en M. P. C. van der Werf (2009). Discrepanties tussen schoolexamen- en centraal examencijfers bij allochtone leerlingen. Omvang en verklaringen. Pedagogische Studiën, 86, 425-442.

Zie ook een uitvoeriger rapport van het GION: L. T. M. Rekers-Mombarg & G. J. Harms (2008). Meten met twee maten: De discrepantie tussen de cijfers op het schoolexamen en het centraal examen VO van allochtone leerlingen. pdf.
Bestrijkt hetzelfde thema als De Lange en Dronkers (2006), maar doet dat in beginsel op een heel andere manier, namelijk door de cijfers van individuele kandidaten te bekijken, waar De Lange en Dronkers alleen over groepsgegevens beschikten. Waar komen die cijfers vandaan: uit het VOCL-cohort, een langjarige studie, kennelijk op individueel niveau gekoppeld aan de landelijke eindexamencijfers 2006.
Dit artikel zegt de globale resultaten van De Lange en Dronkers te ondersteunen.
De auteurs maken o.a. een punt van de grote ijver van een deel van de allochtone leerlingen, een ijver die huns inziens niet helemaal terecht met goede cijfers wordt beloond door hun docenten. Ik vind dit veel te kort door de bocht, tenslotte geldt voor alle leerlingen dat ze hun best moeten doen, de een kan meer freewheelen op basis van hoge intellectuele capaciteiten, de ander zal bij wat minder capaciteiten of taalbeheersing alle zeilen bij moeten zetten door ijver. Dat hoeft op zich aan de resultaten helemaal niet zichtbaar te zijn. Ik wijs op het overzicht van dit eenvoudige studieresultatenmodel zoals in een boek van Covington te vinden: Making the grade.
Het artikel grondig bestudeerd hebbend is mijn vraag: waarom niet gewoon gekeken naar leerlingen die hun uiterste best moeten doen om mee te komen, of ze nu allochtoon zijn of autochtoon, of ze een taalachterstand hebben of niet. Of juist een indelen naar het al dan niet hebben van een merkbare taalachterstand. Bijvoorbeeld Model 2 van de meerniveau-analyse: daar zitten de verklarende variabelen prachtig in, helemaal geen noodzaak om over allochtone versus autochtone leerlingen te spreken. Maar ja, ik begrijp dat de opdrachtgever voor dit onderzoek, het WODC, een etnisch onderzoek wilde.
Wat mij dan vervolgens bijzonder intrigeert is hoe de onderzoekers uit Groningen omgaan met de selectie bij dat eindexamen: analyseren zij alleen de resultaten van de geslaagde kandidaten, of van de hele groep deelnemers? En als alleen van de eerste groep, welke selectie-effecten levert dat op? Want de verwachting is natuurlijk dat kandidaten die het centraal schriftelijk examen op zich niet voldoende maken, alleen slagen als ze goede cijfers op hun schoolonderzoek hebben: dat kan makkelijk een belangrijk deel van de gemiddelde verschillen tussen cijfers voor schoolonderzoek encentraal examen verklaren. Uit de tekst van artikel en rapport moet ik opmaken dat de uitsplitsing naar geslaagde/gezakte kandidaten in dit onderzoek niet is gemaakt. Als dat zo is, dan staan de conclusies en aanbevelingen van dit artikel nog even op losse schroeven. [Kuyper en Van der Werf 2007 pdf analyseren rendementen voor geslaagde kandidaten. Van Alphen en Dronkers (2009) hier, analyseren schoolprestaties aan de hand van cijfers voor alleen de geslaagde kandidaten.]
De onderzoekers hebben een rijk en ingewikkeld databestand, dat maakt het heel lastig om bij te houden waarover precies er uitspraken worden gedaan. Ik ga mijn best doen. Voorlopig vooral vragen. Waarom spreken de onderzoekers bij voortduring en indringend over allochtone versus autochtone leerlingen, waar de kenmerken die direct van belang zijn, vooral andere zijn: het hebben van een taalachterstand, het kiezen voor het betreffende VO-niveau terwijl Cito-score en advies dat maar nipt mogelijk maken, het vooral op basis van ijver presteren? Ik wil helemaal niet weten wat de etniciteit van de leerlingen is, tenzij er aan het eind van de dag reden is om ook nog eens na te gaan hoe de verhouding allochtonen-autochtonen een rol speelt in de resultaten. Maar misschien belangrijker (dat weet ik dus niet, omdat de auteurs daar weinig over zeggen): de vergeljking tussen allochtone en autochtone leerlingen is voortdurend tussen appels en peren, terwijl ik een vergelijking wil zien tussen alleen die allochtone leerlingen die uitgesproken kenmerken hebben in termen van Cito-score, taalachterstand, etectera, met autochtone leerlingen die dezelfde kenmerken hebben.
Een boeiend resultaat, waar de auteurs wel veel aandacht aan schenken: al bij aanvang van de onderwijsloopbaan in het VO is er sprake van een patroon in presteren op schoolse versus gestandaardiseerde toetsen dat hetzelfde is als bij de eindexamens in de vorm van relatief grote discepanties tussen SE en CE naar voren komt. Dat is spectaculair, want het zet de door Dronkers aangezwengelde discussie over vermeende misstanden in een heel ander daglicht. De Gronignse auteurs redeneren precies andersom: wat volgens Dronkers bij de eindexamens problematisch is, is dat ook bij aanvang van de schoolloopbaan al. Ook hier is het meen ik goed dat er een stevige discussie komt over hoe deze resultaten te interpreteren. Het fenomeen, als het dat is, heeft waarschijnlijk niets met etniciteit te maken. Ik illustreer dat maar eens aan een onderzeokresultaat van bijna een eeuw geleden: “.... men kan toch wel besluiten dat de schoolhoofden hun leerlingen hoogere cijfers meegeven dan bij het toelatingsexamen behaald worden. (...) is het neatieve verband tusschen proefuitslag [een soort Cito-basistoetsje, b.w.] en cijfers door de schoolhoofden medegegeven, waardoor vrijstelling van examens plaats had, wel zonderling. Is er aan die cijfers wel groote waarde te hechten?” Uit een onderzoekje van Van Beuningen van Helsdingen (1926, Nederl. Tijdschr. voor geneeskunde, eerste helft no. 18) bleek een correlatie van 0,47 tussen intelligentieproeven en raaportcijfers HBS 1e jaar, tegen 0,27 tussen intell proeven en dor schoolhoofden meegegeven cijfers. “Maar in de tweede plaats toont de uitkomst te Rotterdam dat er betere samenhang is tusschen de proef en het rapportcijfer, dan tusschen de proef en de meegegeven cijfers der schoolhoofden. Dit komt eenigszins overeen met wat ik vond bij mijn onderzoek op bladz. 107 vermeld, waa de correlatie tussen proe en cijfer van schoolhoofd negatief was, etrwijl er een goede correlatie bestond tusschen proef en uitslag van het toelatingsexamen.”
A. H. Oort (1928) Proeven over verstandelijke ontwikkeling op Leidsche scholen. Leiden: Van Doesburgh. p. 108, 115-116. Zie voor een bespreking van de rekenproef uit de testbatterij van van Oort hier
De auteurs doen beleidsaanbevelingen, maar gaan niet in op de plannen van Van Bijsterveldt met het eindexamen, plannen die toch bedoeld zijn om die discepantie tussen schoolonderzoek en centraal te bestrijden: zijn die plannen in het licht van de resultaten in dit artikel nu terecht, of niet, of valt daar aan de hand van de beste data die er in ons land beschikbaar zijn niets zinvols over te zeggen?
“In recent onderzoek zijn verontrustende bevindingen over de eindexamenresultaten VO van allochtone leerlingen gepresenteerd.” En wel “... dat het verschil in cijfer tussen schoolgedeelte en het centrale deel op het eindexamen — de discrepantie — voor allochtone leerlingen aanzienlijk groter is dan voor autochtone leerlingen. (2008). De onderzoekers gaan dan vol in de slag om de rol van etniciteit te verklaren. Ik ben hier toch wel verbaasd over, want deze voortvarendheid gaat voorbij aan de mogelijkheid dat het niet etniciteit als zodanig is, maar een complex van factoren zoals taalachterstand, Nederlands als tweede taal, culturele verschillen, opleidingsniveau van de ouders dat iets te maken kan hebben met verschillen in eindexamenprestaties. Ik ben nu dus ook gedwongen om met deze onderzoekers mee te denken in termen van etniciteit, in plaats van in de factoen die ertoe doen. Heel frustrerend. En het doet natuurlijk geen recht aan de positie van allochtone leerlingen, die niet als zodanig gelabeld bejegend horen te worden, niet door onderzoekers, niet door scholen, en niet door leraren. Ik begrijp dit dus niet.
De samenvatting van het artikel (p. 425) legt een directe relatie, voor allochtone leerlingen, tussen de discrepantie SE-CE, minder goede objectieve leerprestaties, en meer ijver bij leerlingen in de onderbouw van het vo, waaruit de onderzoekers concluderen “dat de extra discrepantie bij allochtone leerlingen deels berust op overwaardering van hun prestaties in het vo, inclusief het schoolexamen.” Zoals het in de samenvatting staat, is het nogal een beschuldiging, want sinds wanneer is het minder gewenst om via ijver prestaties te boeken?
[ik werk er nog aan]

Marloes de Lange en Jaap Dronkers (2006). Hoe gelijkwaardig blijft het eindexamen tussen scholen? Discrepanties tussen de cijfers voor het schoolonderzoek en het centraal examen in het voortgezet onderwijs tussen 1998 en 2005 pdf

abstract The Dutch secondary education comprehends a final examinations system in which students take both a school exam (that differs among every school) and a national central exam. We analyse the discrepancies in the grades for both these examinations between 1998 and 2005, as they are a threat to the equivalence of the examinations between schools. Based on the Kwaliteitskaarten Voortgezet Onderwijs (Quality-cards of Secondary Education) collected by the Schools Inspectorate, we first examined the discrepancies in the grades for the period of 1998 till 2005, classified by type of education and also by school and then explained these discrepancies by using school and examination-characteristics.
Our most important finding is the trend towards growing discrepancies in the school exam-grades and central exam-grades. Moreover, this growth turns out to be the strongest among the VWO (the highest level of education). We also find a high correlation between the several years, as well as between the types of education, which points out a strong continuity in the individual examination results. This indicates the fact that the intrinsic value of the diplomas in education has been deteriorating.
Er zijn toch een paar probleempjes met dit artikel, zoals de voorlaatste abacadabra-zin in het abstract al aangeeft. De verdienste van het artikel is dat het wijst op een groeiende literatuur over de zegenende werking van centrale eindexamens op het onderwijspeil van de betreffende landen. De zorgelijke punten die ik in het artikel zie, zal ik hieronder aanstippen, zoveel mogelijk de lijn in het artikel volgend.
Huub van den Bergh en Michel Couzijn (20 juni 2006). Diploma daalt niet in waarde. De Volkskrant. pdf
- Reactie op rapport van De Lange en Dronkers.
- "Opmerkelijk is dat de SE-cijfers, gebaseerd op een groot aantal toetsen binnen schoolverband, wèl stabiel zijn over de jaren en de centrale examens (met één toetsmoment) niet. De conclusie ligt voor de hand: het verschil tussen SE- en CE-cijfers in een bepaald jaar wordt sterk meebepaald door de instabiliteit van het CE.
  Om direct naar de scholen of docenten te wijzen die opzettelijk te hoge cijfers voor het SE zouden rekenen, geeft dus geen pas. Kortom, Als er al verschillen worden geconstateerd tussen SO- en CE-cijfers dan zijn die afhankelijk van het jaar en het vak."
Mijn commentaar op De Lange en Dronkers (in bewerking, maar ondertussen is de thematiek verbreed tot niveautrends, zie de betreffende pagina):

Het is niet voor het eerst dat er aan de strengheid van de beoordeling van het SO wordt getwijfeld: bij de regeling van de toelating voor numerusfixusstudies spelen eindexamenresultaten een rol, dus ook de gedachte alleen het CSE daarvoor te gebruiken. Hofstee (pers. meded.) wijst mij erop dat de 'Werkgroep Wiegersma' zoiets had voorgesteld, en dat bewijsbaar is dat buiten beschouwing laten van het SO betekent dat een mogelijkheid onbenut blijft om de door het CSE gemeten beheersing beter te schatten. Lees de laatste zin nogmaals. Het gestelde blijft waar, ook als er verschillen in strengheid zijn. Ik geef hier de persoonlijke mededeling van Hofstee over het methodologische punt.
Hofstee (pers. meded): "Eind jaren 70 heb ik met medewerking van Ivo, Jos en Charley Lewis het jou dacht ik bekende true-scores modelletje voor de onderlinge verdiscontering van CSE en SO gepresenteerd (zie o.a. Tijdschrift voor Onderwijsresearch 1979). Dat model speelde op het niveau van de individuele leerling. Als je dat langs de lijnen van de multilevel-analyse opleukt naar het niveau van de klas of de school, krijg je de volgende parallelredenering:
1. het CSE-cijfer op dat aggregatieniveau is nog steeds een imperfect betrouwbare variabele (over scholen etc.);
2. je kunt dus de voorspelling van de betreffende true score verbeteren door naast de geobserveerde CSE-score de SO-score op te nemen in de multipele predictie van die true score;
3. waarschijnlijk zal ook op dit aggregatieniveau gelden dat zelfs een ongewogen (in plaats van optimaal gewogen) gemiddelde van CSE en SO een betere predictie geeft van de CSE-true score dan de geobserveerde CSE-score levert.
Het buitengewoon geinige -- als dit allemaal blijkt te kloppen -- is dat je aldus de CSE-fanaten met hun eigen argumenten om de oren slaat. Immers, je gaat (al is het maar bij wijze van concessie) uit van het primaat van het CSE, en gebruikt het SO louter als een 'booster' om de ware CSE-score beter te schatten; vervolgens toon je aan dat beoordeling van scholen (of leerlingen) louter op basis van CSE irrationeel en contraproductief is."
W.K.B. Hofstee (1979). Schatting van de true score met inachtneming van andere variabelen. Tijdschrift voor Onderwijsresearch, 4, 38-40.
Al in de samenvatting is sprake van hoge correlaties. Er worden inderdaad heel wat correlaties berekend, niet op basis van de resultaten van individuele leerlingen, maar van scholen. Dergelijke correlaties mogen niet zomaar worden geïnterpreteerd alsof het over individuele leerlingen gaat. De reden is dat correlaties over geaggregeerde data makkelijk heel hoog kunnen worden, terwijl tegelijk dezelfde correlaties, zouden ze op het niveau van individuele leerlingen zijn berekend, heel laag kunnen zijn. Deze problematiek is in de literatuur goed beschreven (zoek op 'aggregated data', 'aggregation', 'ecological fallacy' 'reversal paradox' [Messick en Van de Geer: A reversal paradox. Psychological Bulletin, 1981, 582-593] (WikiPedia), 'ecological inference'), en de auteurs hadden er beslist aandacht aan moeten schenken, en zich in hun conclusies op basis van correlaties over geaggregeerde data moeten matigen. Best mogelijk dat analyses op beide niveaus tot dezelfde conclusies leiden, wie weet? Ik weet het nu niet.
Natuurlijk, er zijn geen gegevens op individueel niveau beschikbaar. Maar dat is geen excuus voor misleidende analyse. Doe een gedachtenexperiment: neem uit iedere Nederlandse eindexamenklas een leerling, en doe de analyses van Dronkers en De Lange op de data van individuele leerlingen. Wat denkt u dat er uit komt? Te kleine groep? Neem vijf leerlingen uit iedere klas. Dat is een geweldige steekproef. Is er kans dat de analyse op deze individuele data tot dezelfde conclusies kan komen die Dronkers en De Lange presenteren? Ik vraag het u af.
- Thomas A. Garrett (2002). Aggregated vs. Disaggregated Data in Regression Analysis: Implications for Inference. pdf. abstract: This note demonstrates why regression coefficients and their statistical significance differ across degrees of data aggregation. Given the frequent use of aggregated data to explain individual behavior, data aggregation can result in misleading conclusions regarding the economic behavior of individuals. Over consumentengedrag. Beoordelende leraren zijn net consumenten.
- $\scalebox{.7}{\includegraphics{parts/m29.hep1}}$ $\scalebox{.7}{\includegraphics{parts/m29.hep2}}$ Zie hier een voorbeeld van Rollin Brant (2004) hoe misleidend de uitkomsten van correlaties over gemiddelden kunnen zijn: html. Dezelfde afbeeldingen, Raw Data Plot en Aggregate Data Plot hiernaast weergegeven [ze staan in feite op zijn website].
Dronkers concludeert dat de Inspectie tekort schiet en dat er met het schoolexamen (SO) wordt gesjoemeld. Dat is nogal wat, en dan mag je toch verwachten dat de analyse begint met helder neer te zetten wat de eigen aard van SO en CE is, wat het kader is waarbinnen of waartegen de beschikbare data moeten worden geïnterpreteerd. Als selectiepsycholoog zou ik zeggen: de geldigheid van tests en de daarop gebaseerde beslissingen wordt bepaald door de ultieme criteria voor het slagen van die selectie. In het bedrijfsleven is het ultieme criterium: bijdrage aan het bedrijfsresultaat. (Voorbeeld selectie voor de NPA pdf)
Door het werk van Bishop en anderen over de effecten van centrale examens uitvoerig te bespreken, geven Dronkers en De Lange een eigen, niet onbelangrijke, maar toch nieuwe - niet zo door de wetgever bedoelde - betekenis aan de eindexamens VO. Het gekke is nu dat de data niet tegen dit 'effectiviteits-criterium' worden getoetst, dat de analyse ontbreekt waartegen dan wèl de geldigheid van de examens moet worden afgezet, en dat bij gebrek aan dat alles in arren moede de constructie wordt gemaakt dat SO en CE gelijke resultaten zouden moeten opleveren. Ik zie niet wáár in wet of jurisprudentie dat zo staat beschreven. Dat is jammer, het degradeert al het kwantitatieve werk van Drokers en De Lange tot gefrutsel met cijfers, de afleidingsmanoevre via het stellen van een reeks hypothesen - waarover hieronder meer - verandert daar niets aan.
Wat maakt het uit, kun je je afvragen. Ik zal dat uitleggen door te beschrijven hoe SO en CE staan voor ingrijpend verschillende beoordelingsprocessen. Ik doe daar geen kwantitatieve analyse bij, het is niet mijn bedoeling het werk van Dronkers en De Lange over te doen.
Het schoolexamen bestaat vaak uit meerdere onderdelen: missers kunnen goed worden gemaakt, zeg maar. Wie het te gek slecht doet, doet misschien helemaal niet mee aan het schriftelijk. Eigenlijk is dit een antwoord op mijn retorische vraag waarom Dronkers eigenlijk denkt dat SO en CE gemiddeld gelijk uit zouden moeten komen (in een ideale wereld). Die schoolonderzoeken zijn een menging van formatief en summatief toetsen, waarbij er bewust mogelijkheden zijn om te werken aan bijna gegarandeerd 'voldoende' resultaten.
Het centraal examen is een heel ander verhaal, veel meer een momentopname, letterlijk een momentopname, waarbij de leerling door omstandigheden alles uit handen kan laten vallen. Je mag bij het CE, vergeleken met het SO, waarschijnlijk meer uitschieters naar beneden verwachten, en die uitschieters trekken de cijfergemiddelden fors naar beneden.
Wie heeft data tot zijn beschikking die iets over deze verschillende processen zeggen? Huub van den Bergh?
De Tweede Fase: "Dit alles betekent dat er binnen het studiehuis een grotere belang gehecht wordt aan het schoolexamen t.o.v. het centraal examen en dit maakt de eindexamenresultaten onderling moeilijker vergelijkbaar" (p. 6). Dit is op zijn minst een opmerkelijke mededeling in een artikel waarin zoveel ophef wordt gemaakt over ten onrechte hogere cijfers voor het schoolexamen dan voor het centraal examen. Op zijn minst geeft het citaat een mogelijke reden waarom er terecht hogere cijfers voor het SO dan voor het CE vallen.
Waarom dat eindexamenresultaten moeilijker vergelijkbaar maakt, is mij niet duidelijk. Dronkers en De Lange spreken zich over de beoordelingsproblematiek niet echt helder uit - en het is ook verdomd lastig, ik geef het toe - en doen zelfs een noodgreep naar de 'Wetmatigheid van Posthumus,' bij uitstek geen mogelijke reden voor uit de pas lopende beoordelingen.
Het gaat hier niet om een ondergeschikt punt. Dronkers en De Lange kijken naar geaggregeerde data, maar het onderliggende proces is een beoordelingsproces, met vele actoren en omstandigheden die van invloed zijn. Het is mij een raadsel hoe uit deze geaggregeerde data duidelijk kan worden wat er mogelijk fout gaat in die beoordelingsprocessen. En ik heb toch wel enig zicht op mogelijke ontsporingen in dergelijke processen. De auteurs doen af en toe dan ook een noodgreep uit de bak anecdotes en gepubliceerde misstanden op de werkvloer - iedereen weet toch hoe die dingen gaan? - maar dat kan niet de stelling onderbouwen dat er over de hele linie, althans schooltypen of -soorten, misstanden zouden groeien. Misstanden? Ja, want volgens de auteurs zou de inspectie hier hard hebben moeten ingrijpen.
Toch zet het artikel de lezer telkens weer op een ander been. Er worden immers ook tal van mechanismen aangereikt die op zich best tot meer afstand tussen SO en CE zouden kunnen leiden, en waarvan moeilijk valt in te zien wat er precies het problematische van is. Waarom, nu we het er toch over hebben, zouden SO en CE in beginsel gelijk moeten zijn, en op welk niveau van aggregatie zou die gelijkheid dan moeten bestaan? De deus-ex-machina van Dronkers en De Lange is de grote afwezige in dit onderzoek: het vertrouwen in het eindexamen als standaard zou op het spel staan, maar voor wie is dat dan zo, op welke gronden?
Een bekend probleem bij veel sociologisch (en economisch) onderzoek is dat op basis van in het veld gevonden data en correlationele gegevens conclusies volgen over oorzaak-gevolg relaties en over te verwachten effecten van beleidsingrepen. Een pijnlijk punt, ik heb er op congressen meerdere aanvaringen over gehad, onder andere met Dronkers. Maar scherpe methodologische problemen gaan niet weg simpel omdat ze pijnlijk worden gevonden. In beginsel is voor onderzoek naar oorzaak-gevolg relaties (quasi-)experimenteel onderzoek nodig. De kwaliteitskaart-gegevens komen wat dat betreft uit een ander universum (de simpele volgorde van jaren is op zich niet een voldoende voorwaarde om van oorzakelijke relaties te mogen spreken). Ik moet concreet maken waar het om gaat, ik noem dus maar een rij passages uit het artikel over oorzakelijke verbanden die onmogelijk uit deze data kunnen blijken, en ik beperk me tot uitspraken over invloeden (zoeken op effecten zou zeer veel meer passages opleveren):
1. [p. 21]"Opvallend is dat het zijn van een bijzondere school geen invloed blijkt uit te oefenen op de discrepantie bij MAVO-scholen."
2. [p. 23] "Het feit dat de normeringsystematiek aangepast is in het jaar 2000, heeft geen invloed gehad op de groei in de discrepantie tussen het schoolexamencijfer en de centraal examencijfers."
3. [p. 23] "Waar wij verwacht hadden dat hogere adviesgemiddelden van de leerlingen van scholen tot grotere discrepanties tussen de SE- en CE-cijfers zouden leiden, hebben wij slechts gelijk voor de HAVO. Op de MAVO en het VWO blijkt advies daarentegen een negatieve invloed te kennen en moet hypothese 4 dus verworpen worden."
4. [p. 23]"Echter de daarmee verbonden hypothese die verwacht een negatief effect van tijd te vinden op de invloed van het percentage allochtonen, moeten wij verwerpen. In tegendeel, in de jaren 1998 – 2005 stijgt juist het effect van het percentage allochtonen op de discrepantie tussen de SE- en CE-cijfers."
5. [p. 24] "De Tweede Fase heeft een negatieve invloed op de handhaving van een vergelijkbare kwaliteit van de eindexamens op de HAVO en het VWO, wat in strijd is de oorspronkelijke bedoeling van de Tweede Fase."
6. [laatste zin] "De invloed van het percentage allochtonen op de discrepantie tussen SE- en CE-cijfers (een invloed die bovendien nog groeit) kan een goed en gevaarlijk voorbeeld van perverse gevolgen zijn."
De geaggregeerde data zelf (zoals in tabel 1) worden op een niet-statistische wijze behandeld, en dat is op zich correct omdat de data populatiegegevens zijn, geen steekproef (tenzij van jaren).
Maar hoe interpreteer je verschillen die je in dergelijke complete gegevenssets aantreft? Het probleem dat in het artikel onbelicht blijft, is dat Dronkers en De Lange allerlei vooronderstellingen hebben en conclusies trekken die de dataset zelf te buiten gaan. Dat kan niet zomaar, en toch gebeurt dat zomaar. Een kras voorbeeld daarvan is het volgende
- "De cijfers voor de HAVO laten zien dat binnen de 8 jaar het SO-cijfer met ruim 0,15 is toegenomen. Het CE-cijfer is binnen deze periode vrijwel constant gebleven, maar het SO-CE verschil is verviervoudigd." [mijn accent]
Tja, wat gebeurt hier? Het SO-CE verschil in 1998 is 0,04, in 2005 0,16. Volgens elementaire rekenkunde is dat verviervoudigd. Populatiedata, dus geen speld tussen te krijgen? Jawel, ik zou zeggen dat 1998 best eens een uitbijter kan zijn, laten we 1999 nemen, daar is het verschil 0,22. Op zijn minst zou wat exploratieve analyse à la Tukey op zijn plaats zijn. De auteurs interpreteren hier maar raak, dat raakt kant noch wal. Nog maar even afgezien van de aggregatie-problematiek.
Het onderzoek wordt in hoofdstuk 5 opgetuigd als een hypothese-toetsend onderzoek. Ik wil niet flauw zijn, hoor, maar iedereen kan leuke hypothesen bedenken, en niemand garandeert dat die voorafgaand aan de dataverzameling zijn opgesteld. Dit hoort meer bij de afdeling die Popper gewoon het te drogen hangen van het eigen ondergoed noemt. Window dressing, heet dat. Of ook wel: rookgordijnen leggen. Beide hinderen het vrije zicht. Ik raad niet methodologisch geschoolde lezers aan dit gedoe over hypothesen gewoon over te slaan.
Er is hier overigens sprake van een interessante inconsistentie: op sommige plekken de data behandelen als populatiegegevens waarover niets te hypothetiseren valt, op andere weer als steekproeven uit een of andere wereld, om er hypothesen mee te toetsen. Wat is het nu? De onderzoekers willen, zoals alle onderzoekers, uitspraken doen die verder gaan dan de data zelf. Prima, maar daar is dat gedoe over hypothesen niet voor nodig. Zeg gewoon waar je naar kijkt, en hoe en waarom zo.
Een heel andere overweging is de slotalinea van het invloedrijke opiniestuk van Norman Frederiksen (1984) The real test bias. American Psychologist, 39, 193-202. (helaas geen online versie beschikbaar):
"The 'real test bias' in my title has to do with the influence of tests on teaching and learning. Efficient tests tend to drive out less efficient tests, leaving many important abilities untested - and untaught. Am important task for educators and psychologists is to develop instruments that will better reflect the whole domain of educational goals and to find ways to use them in improving the educational process."
Koppel dit door naar de manier waarop De Lange en Dronkers het onderscheid tussen schoolonderzoek en CE behandelen. Ik wil niet meteen beweren dat onze centrale eindexamens even absurd zijn als de Amerikaanse SAT of ACT inteliigentietests, maar ze zijn uit de aard van de zaak beperkt tot in korte tijd toetsbare brokken beheersing. Het schoolonderzoek heeft die beperking veel minder, en hoort dat voordeel uit te buiten. De verschillen tussen schoolonderzoek en CE moeten nog veel groter, zou ik, met Frederiksen, willen zeggen.

aantekening: "Belangrijke conclusies die uit dit onderzoek (Dronkers, 1999) volgen zijn" (par. 4.2, vooruitlopend op de data-analyses in de volgende hoofdstukken) volgens de auteurs "dat het schoolonderzoek gewoonlijk hoger becijferd wordt dan het centraal examen en dat de becijferingen niet constant zijn over de tijd." Maar daar was dit onderzoek niet voor nodig. Een perfecte open deur. Wat gebeurt hier? Worden er stromannen opgericht? Onmiddellijk volgend: "Dit heeft tot gevolg dat het eindexamen niet gelijkwaardig is en de diploma's van de verschillende leerlingen dus elk een andere waarde kennen." Maar dat is niet onderzocht! Op zijn minst slordig, en een aanwijzing dat dit artikel achterdochtig moet worden gelezen.
A. A. Béguin (2000). Robustness of equating high-stakes tests. Dissertation University Twente. http://download.citogroep.nl/pub/pok/dissertaties/dissertationbeguin2000.pdf [mei 2007: link verbroken]

Juni 2006, er is enige publieke commotie over de stelling van Jaap Dronkers dat er groepen scholen zijn die sjoemelen met de becijfering van hun schoolonderzoeken. Jaap reageert in de Volkskrant 26-6-2006 op kritische reacties op zijn onderzoek. Ik houd nog een paar vragen over:

Wat noem je 'even zware eisen'? Hoe definieer je dat? Kun je over alle jaren heen alle relevante omstandigheden gelijk houden? Of denk je dat dat niet hoeft omdat je gewoon op de curve kunt normeren (grading on the [bell] curve)?

Kwesties over het door de jaren heen gelijk blijven, stijgen of dalen van niveau zijn ongelooflijk moerassig, daar kom je van jouw levensdagen niet uit. Dat is ook het geval met het Flynn-effect, daar kan met gemak eindeloos over worden gehakketakt. Grof geschat hebben alle buitenlanden te kampen met meer of minder ernstige vormen van cijferinflatie, waarom denk je dat daar al niet een halve eeuw geleden door jouw sociologische collega's een halt aan is toegeroepen? Internationaal onderzoek is mooi en aardig, maar als puntje bij paaltje komt, en de relevante context ook wordt meegenomen, is het niet eenvoudig om te interpreteren wat eigenlijk wordt vergeleken.

Toon mij ook maar één volstrekt helder en overtuigend onderzoek waarin het eindexamenniveau van twee wat verder uit elkaar liggende jaren vergelijkbaar is gemaakt. Zou je een paar eindexamenklassen van vandaag jouw eigen eindexamen over willen laten doen? Zou leuk zijn, maar is volstrekt onzinnig. De curve van onzinnigheid zwakt af naarmate je een vergelijkingspunt dichterbij zoekt, maar het zal altijd lastig zijn.

Die normhandhaving van vandaag de dag is mij trouwens ook een raadsel, kennelijk heb ik niet de goede contacten om daar de precieze ins en outs van te kunnen achterhalen. Als ik me goed herinner heeft Blokker er eens een stukje aan gewijd.

Je hebt ongetwijfeld gelijk met je stelling dat veel scholen politiek/handel drijven met hun eigen normen. Doorheen de geschiedenis van het onderwijs is dat altijd zo geweest. Het is net de vrije markt; het moet wel worden beteugeld.

Japke-d. Bouma (7 juli 2007). Roepende in de woestijn. Jaap Dronkers blijft het zeggen: de kwaliteit van het schooldiploma neemt af. NRC Handelsblad, p. 49.

Jaap pakt hier demagogisch uit. Hij doet in antwoord op hem voorgelegde stellingen en tegenwerpingen de ene na de andere stellige uitspraak, zonder een zweem van schaamte over die stelligheid. Het interview geeft zodoende meer de meningen van burger Dronkers, dan wat onderzoek de hoogleraar Dronkers influistert.
Jaap heeft een oplossing voor de problemen: "Door verplicht te stellen dat scholieren zowel voor hun schoolexamen als hun centraal schriftelijk examen, een voldoende halen." Deze onzin is recent ook door de Onderwijsraad beweerd (in een andere variant: ieder vak afzonderlijk moet voldoende zijn). Het is een kunstfout: chirurgen Dronkers en de Onderwijsraad zetten het mes in het verkeerde been. De maatregel zou denkbaar zijn in een droomkasteel waar toetsen perfect geldig en betrouwbaar zijn; in de wereld waarin examenkandidaten leven is dat bij lange na niet het geval.

Leo Prick (7 juli 2007). Rectificatie. NRC Handelsblad, p. 49.

Direct naast het interview van Dronkers verontschuldigt Leo Prick zich voor zijn ongenuanceerde uitspraken, twee weken eerder, over precies hetzelfde onderwerp, het geven van cijfers voor schoolonderzoeken versus de cijfers van het Centraal Eindexamen. Leo laat zich tenminste terugfluiten door argumenten, in dit geval die van Cees Otto.
Otto geeft enkele mogelijke verklaringen voor onverwachte verschillen tussen gemiddelde SO- en CE-cijfers. Om te beginnen weten kandidaten hun SO-cijfer al voordat ze aan de laatste voorbereidingen voor het CE beginnen, de calculerende kandidaten maken gebruik van al behaalde goede resultaten op het SO om het voor het CE wat kalmer aan te doen. Dat spreekt mij wel aan, ook al is onbekend hoe groot dit effect is, er is ongetwijfeld enig effect.
Dan is het vervolgens zo dat de cijfertoekenning voor het CE noodzakelijk (want met een Cito-formule en eventuele correctie van de strengheid daarvan door het CEVO) op een heel andere manier gebeurt dan voor het SO (leraren van de betreffeende school), waardoor er bijvoorbeeld bij het CE veel extremere cijfers voorkomen, vooral ook lagere. En wie middelt, ziet het gemiddelde dan fors zakken (zonder dat er daardoor ook meer onvoldoendes komen, b.w.). Ook in 1991 (zie beneden, Pijl) is dat in onderzoek zichtbaar gemaakt: de spreiding van SO-cijfers is behoorlijk kleiner dan die van CE-cijfers.
Een schoolonderzoek gaat over minder lesstof dat een CE over dat vak, en is daardoor beter voor te bereiden (nee, het SO hoeft niet 'makkelijker vragen' te bevatten, dat is iets anders). Dronkers en Prick hebben hier dan een eigen mening over, maar gaan er gemakshalve even aan voorbij dat dit SO wettelijk is geregeld, door een wetgever die bepaald niet heeft zitten slapen (voor- en nadelen zijn uitvoerig in publieke en parlementaire discussie geweest, gaan we dat herhalen als mosterd na de maaltijd, dan?)
Leo Prick kletst dan wat om deze argumenten heen, het zou hem sieren dat niet te doen. Maar ja, hij is al gesierd door zich hier publiekelijk te laten corrigeren.
Japke Bouma heeft Dronkers dezelfde tegenwerpingen voorgelegd, en Jaap luistert niet eens goed, laat staan dat hij overtuigend antwoordt (op dezelfde pagina, 7 juli).
Leo eindigt zijn column met wat opmerkingen over domme pech bij examens. Die bestaat, maar vooral op andere manieren dan Leo hier aangeeft, niet door raden op keuzevragen. Wel heel erg uit de losse pols, Leo! Mogelijk is dat dezelfde overschatting van wat toetsen kunnen die Dronkers brengt tot zijn malle advies om kandidaten op SO en CE afzonderlijk af te rekenen, in plaats van op de combinatie

Greetje van der Werf en Bert Creemers (1999). Naar een vollediger systeem van kwaliteitsbeoordeling van scholen. Pedagogische studiën, 76, 51-60. [niet online beschikbaar?]

Inspectie van het Onderwijs (2000). Discrepantie tussen SO-cijfer en CE-cijfer in het Voorgezet Onderwijs. In de schooljaren 1995, 1996, 1998, 1999 en 2000. Inspectie van het Onderwijs.

Ik heb dit rapport nog niet opgezocht. Niet downloadable bij Inspectie. Niet in KB, niet in Picarta. Gebruiken De Lange en Dronkers het? De voorlichter bij de Inspectie kan het evenmin traceren.
genoemd in: Karin Bügel (2005). Sekseverschillen in examenprestaties. Stand van zaken 2003. Examens, 2, februari, 19-22.

Inspectie van het Onderwijs (juli 2007). Discrepanties tussen de cijfers op het schoolexamen en het centraal examen in de periode 2004-2006. pdf

Onderzoek n.a.v. kamervragen n.a.v. De Lange en Dronkers 2007.
uit par. 4.1: "Het geeft geen pas om op voorhand alle scholen waar de discrepantie groter is dan een half punt verwijten te maken over oneigenlijk gebruik van het schoolexamen."
uit par 4.2: "Dit neemt echter niet weg dat er een aanzienlijke groep scholen bestaat die geen adequate verklaring kan bieden waarbij ook bij nadere analyse en onderzoek geen verklaring kan worden geboden voor de relatief grote discrepantie tussen het cijfer van het schoolexamen en het centraal examen."

Y. J. Pijl (1991). Discrepanties tussen het schoolonderzoek en het centraal schriftelijk examen in HAVO en VWO. Groningen: RION

Helaas, dit is een onderzoekje uitgevoerd door een onderzoeker die niet in de gaten heeft dat hij/zij de expertise op het onderwerp mist. Het instituut laat de onderzoeker bungelen, subsidiegever SVO vond het ook wel goed zo. Er staat dus veel kletsika in het rapport, zoals in de discussie het idee om het schoolonderzoek maar af te schaffen, en waarom dat misschien toch niet zo'n goed idee is.
Gebruik het rapport voor de gegevens die het onbewerkt presenteert. Daar zitten interessante dingen in, zoals een geringere spreiding in SO-cijfers vergeleken met SE cijfers, en daarmee samenhangend andere percentages onvoldoendes. Sla geen acht over de bespiegelingen die Pijl aan dat fenomeen wijdt.
Cijfers worden vrolijk opgeteld, gemiddeld, en wat niet al. Dat kan, als je weet wat je doet, en dat ook even uitlegt. In een fundamentele betekenis van cijfers als schaalwaarden, is het natuurlijk vreemd om ze maar op te tellen en te middelen, zoals A.D. de Groot vaak heeft uitgelegd.
Het grote probleem met dit onderzoekje, en mogelijk al in de opdracht meegegeven, is dat impliciet is dat zoeken naar discrepantiestussen cijfers voor SO en CE een zinvolle bezigheid is. Dat is ook bij De Lange en Dronkers een probleem. Pijl is erover in verwarring (p. 6):
"Het onderhavige onderzoek richt zich op de vraag in hoeverre SO- en CE-cijfers identiek zijn."
, Wie zulk proza opschrijft, mist benodigde expertise, waaronder kennis van de wet en de intenties van de wetgever. En zo blijft het in Nederland rondgonzen dat scholen iets verkeerd zouden doen met het SO, want Pijl pakt nogal stevig uit met adviezen om de Inspectie te laten ingrijpen, en vooral jaarlijks onderzoekjes zoals het onderhavige te doen. Slaat nergens op, met alle respect voor de opdrachtonderzoeker in kwestie, zijn/haar instituut, en de al lang niet meer bestaande SVO.

C. Suhre en P. Edelenbos (1991). Evaluatie eindexamen Engels en wiskunde in het HAVO/VWO. Groningen: RION

Onderzoek naar de cijfergeving bij het SO (schoolfactoren die samenhangen met verschillen in cijfers op SO en CE van individuele kandidaten) en het CE (o.a. constante cijfergeving over de jaren heen)

Jaap Dronkers (1999). Is het eindexamen gelijkwaardig tussen scholen? Discrepanties tussen de cijfers voor hetschoolonderzoek en het centraal examen in het voortgezet onderwijs. [Afscheidsrede Amsterdam 25-11-1999] pdf

Xin Wei & Edward Haertel (2011). The effect of ignoring classroom-level variance in estimating the generalizability of school mean scores. Educational Measurement: Issues and Practice, 30 #1, 13-22. abstract

Lynne Hollingshead and Ruth A. Childs, (2011). Reporting the Percentage of Students above a Cut Score: The Effect of Group Size. Educational Measurement: Issues and Practice, 30 #1, 36-43. abstract

David J. Woodruff, Robert L. Ziomek (2004). Differential Grading Standards Among High Schools. ACT Research Reports 2004-2 pdf

from the abstract This study used the ACT Composite score, English score, and Mathematics score and compared the regressions of overall HSGPA, English HSGPA, and mathematics HSGPA onto those ACT scores. The ACT scores were used as objective measures of student achievement across schools and over time.
Given that the ACT is a constant standard that is applied equally to all students in all schools, the results of this study imply that grades are a relative standard, in that they can vary from school to school. A particular student's grades depend not only on the student's achievement, but also on the school the student attends. ACT scores, in contrast, have the same meaning at all schools. In this sense, grades are norm referenced within schools, and the ACT is criterion referenced across schools. This difference between high school grades and the ACT is one characteristic of the ACT that makes the ACT an important complement to high school grades in making college admission decisions.

Nieuws januari 2008: De Inspectie heeft opdracht gegeven voor een onderzoek op deze thematiek. De methodiek zal ongeveer dezelfde zijn als in de heel andere, want Amerikaanse, situatie van het onderzoek door Woodruff en Ziomek (2004), zie hier onmiddellijk boven. Zonde van de tijd en het geld, maar dat krijg je wanneer hoogleraren ongenuanceerde dingen gaan roepen waar politici vervolgens mee aan de haal gaan. De voorspelbare uitkomst van het onderzoek: geen harde conclusies over cijfermanipulatie, en al helemaal geen conclusies over mogelijke daling van niveau van eindexamens ovr de laatste decennia (dat is een interessantere vraagstelling, waarover nauwelijks onderzoek is gedaan, behalve een enkele econometrist die in datasets iets van een trend meent te kunnen zien, wat natuurlijk op geen enkele manier iets bewijst of aannemelijk maakt) (wel Amerikaans onderzoek: David J. Woodruff, Robert L. Ziomek. (2004). High School Grade Inflation From 1991 to 2003. (ACT Research Report 2004-43 pdf). Ziomek, R. L. & Svec, J. C. (1995). High school grades and achievement: Evidence of Grade Inflation. (ACT Research Report 1995-3). Iowa City, IA: ACT. Pdf beschikbaar op ACT website).

Ysbrand J. Pijl (1995). Discrepancies between school-internal and national exams in Dutch secondary education. Tijdschrift voor Onderwijswetenschappen, 24, 249-262. [nummer 5/6 is een Special Issue: Examinations foreign languages at the end of secondary education]

abstract “In the Netherlands passing or failing the final exam in the last year of higher general secondary education and of pre-university education depends on the average over the results of a school-internal exam and a national exam. The Inspectorate of Education has expressed some concern about the fact that mean grades in the school-internal exams may often be higher than mean grades in the national exam. However, detailed statistics as to the nature of this and other discrepancies were not available. In this study the internal exam-grades of large samples of students are compared in great detail with the grades students got in the national exam. The most striking discrepancy between internal and national exams is the large difference in the variance of grades. In particular, the grades in internal exams in modern foreign languages showed much less variance than the corresponding grades in the national exams.”

Jos Canton, Trees Aler, Klaas Heemskerk, Wilma van der Westen, Kitty Willemsen, K. J. Schut & M. E. Lamé (2013). Effecten van sturing op discrepanties tussen de cijfers van het centraal examen en het schoolexamen bij de talen. Onderzoek naar sturing door schoolleiders en de effecten daarvan op het taalonderwijs op havo en vwo. Uitgave: Levende Talen. pdf

Een moeilijk leesbaar rapport; de onderzoekers hebben informatie opgestapeld, maar ontberen een behoorlijk theoretisch kader om dit goed te ordenen en selecteren. Hoe dat ook zij: het beeld dat wordt geschetst van de nu ontstane situatie in het onderwijs ontluisterend. Ik heb voortdurend de indruk in een omgekeerde wereld verzeild te zijn geraakt. Ik heb geen reden om aan de grote lijn van dit rapport te twijfelen, het is uitstekend dat via dit rapport aandacht wordt gevraagd voor de idiotie waar leraren en leerlingen, maar ook schoolleiders, in toenemende mate te maken hebben. In toenemende mate: want er zijn nog wel meer problemen met een hoog gehalte van absurditeit, zoals de rekentoetsen voor de eindexamens havo en vwo, en natuurlijk de kernvakkenregeling zelf, meester Dorknooper ten knop.

Onderwijs Innovatie Groep (OIG) heeft dit onderzoek uitgevoerd in de maanden juli tot en met december 2012. Het bestond uit een literatuurstudie, analyse van examencijfers van DUO (Dienst Uitvoering Onderwijs van het ministerie van Onderwijs, Cultuur en Wetenschap), een online-enquête onder taaldocenten en interviews met experts.
Uit dit onderzoek blijkt dat de norm zoals in de escalatieladder is gedefinieerd lang niet altijd wordt gehanteerd. Driekwart van de schoolleiders stuurt wanneer het verschil bij een vak in een schooljaar 0,5 tot 1,0 punt is.
p. 27

abstract

23 mei 2012 \ contact ben apenstaartje benwilbrink.nl

http://www.benwilbrink.nl/literature/delangedronkers2006.htm