Hoe gelijkwaardig blijft het eindexamen tussen scholen?

Annotaties door Ben Wilbrink


Meest recent: Van Alphen en Dronkers, december 2009, zie hierbeneden.


Vooraf: Inspectie/Elsevier cijfers eindexamens 2007


Elsevier rekent met eindcijfers Elsevier publiceert in januari 2009 een lijstje met scholen met de grootste, respectievelijk kleinste, verschillen tussen gemiddelden voor schoolonderzoek en centraal schriftelijk (figuur, klik deze voor een leesbare tabel). Bij VMBO-theoretisch zijn er wat grotere verschillen, en dat is ook voor HAVO en VWO zo. Nou ja, het gaat over ontzettend veel scholen, en daar iedere keer de vijf scholen met het grootste verschil. Vallen we daar dan van achterover? Ik niet. Maar het is wel interessant te signaleren, zoals Elsevier ook doet, dat er een samenhang lijkt te zijn met het percentage APC-leerlingen (leerlingen die wonen op een postcode waar relatief veel achterstandsproblemen zijn). De betekenis daarvan ontgaat Elsevier, de redacteuren suggereren dat deze leerlingen in het schoolonderzoek wat cadeau krijgen. Waarschijnlijker is dat deze leerlingen het in het centraal schriftelijk relatief relatief moeilijker hebben door oneerlijkheid in de vragen (de taal, de cultuur, in contextvragen waar heel erg veel taal en cultuur in zit, ook als ze niet over taal en cultuur, maar bijvoorbeeld wiskunde gaan). Afijn, dat hoeft hier niet verder uitgezocht.

Let ook op de kleinste verschillen: die zijn in het VWO nul. Dat lijkt me een heel betekenisvol gegeven. Het duidt erop dat het fenomeen in ieder geval voor een deel niets heeft te maken met cadeautjes geven aan eigen leerlingen: dan zouden er immers 'eerlijke' scholen moeten zijn waarin de verschillen tussen schoolonderzoek en centraal examen een toevalsverdeling rond nul hebben, en zouden er scholen moeten zijn met bijvoorbeeld -0,5, zoals in het VMBO het geval is. Niet dus.

Nog een interessante waarneming die aan de lijstjes van Elsevier is te doen: kijk eens naar de gemiddelden voor het centraal eindexamen. Een kind kan zien dat de verschillen, althans voor deze kop- en staartlopers, bijna helemaal worden bepaald door de gemiddelden voor het centraal schriftelijk! Dat is lastig te interpreteren. Het wijst er om te beginnen op dat de cijfers voor het schoolonderzoek helemaal niet hoger zijn dan elders, althans niet substantieel hoger. De scholen met het grootste verschil tussen schoolonderzoek en centraal schriftelijk zijn scholen waar gemiddeld lage cijfers op het centraal schriftelijk vallen. Dat laatste is waarschijnlijk om een scala van redenen zo, maar daar horen we niets over. Het heeft in ieder geval niet evident te maken met pogingen om via cadeau gegeven hogere cijfers eigen leerlingen die zich opgeven voor een numerus-fixusstudie een streepje voor te geven (dat moet ook eenvoudig door de Inspectie te signaleren zijn, want dan gaat het niet om zesjes, maar om cijfers rond de acht). Enzovoort en zo verder. Elsevier levert hier dus wel een interessante tabel, jammer dat ze niet een aantal stakeholders heeft gevraagd om hier eens met elkaar over van gedachten te wisselen.

Arthur van Leeuwen en Ruud Deijkers (8 januari 2009). Beste scholen 2009: opnieuw te hoge cijfers bij examens. Elsevier. html. Op deze webpagina ook links naar een aantal pdf-documenten van Elsevier, o.a. een overzicht van scholen met de grootste en de kleinste verschillen tussen eindexamencijfers (schoolonderzoek en centraal schriftelijk) pdf.




25 oktober 2008. Staatssecretaris Van Bijsterveldt heeft laten weten (hier) dat zij de eindexamenseisen gaat aanscherpen om zo een betere aansluiting met het hoger onderwijs te krijgen, waarvan de onderdelen zijn: 1) cijfers van schoolonderzoek en centraal schriftelijk kunnen elkaar niet meer compenseren, 2) om te slagen voor het centraal schriftelijk worden de eisen voor enkele kernvakken aangescherpt. Hiermee dreigt in de media geventileerde wantrouwen over mogelijk gesjoemel van bepaalde scholen met hun schoolonderzoeken, uit te lopen op wet- en regelgeving die bepaald tot aanzienlijke schade zullen leiden. Die schade is bij benadering kwantificeerbaar, zoals ik eerder in 1980 heb laten zien voor de effecten van een ontwerp-wetsvoorstel voor selectie bij numerusfixus-studierichtingen (html). Het probleem zit hem als vanouds in het misplaatste idee dat het cijfer voor een enkel examenvak een betrouwbaar gegeven zou zijn, zodat je vanzelfsprekend van iedereen mag eisen dat het vak Nederlands tenminste een '5' moet zijn om te kunnen slagen, en idem dito ook voor nog een aantal andere vakken. Welnu, het enige examenresultaat waarvan verdedigbaar is dat het een redelijk betrouwbaar beeld geeft van het kennen en kunnen van de kandidaat, is het totaal behaalde resultaat, bijvoorbeeld het gesommeerde cijfer, het gemiddelde cijfer of een gewogen gemiddelde als juridische definitie. De staatssecretaris wil de bijl zetten aan de wortel van dat enige redelijk betrouwbare eindexamenresultaat waarop zak-slaagbeslissingen zijn te baseren. Van Bijsterveldt wil de leerlingen uitdagen en verzekeren van een goede aansluiting op het vervolgonderwijs (zie het persbericht); ik heb met zo'n beleidsdoel geen moeite (behalve de suggestie die erin ligt dat het nu een zootje zou zijn), en ben ook een fervent pleitbezorger van het stellen van stevige eisen aan leerlingen, maar knoeien met het oprichten van hordes voor afzonderlijke vakken werkt contra-productief en kan leerlingen vooral meer angst voor hun examen aanjagen.

Ik zal een poging doen om voor onderdelen van het voorstel Van Bijsterveldt een paar doorrekeningen te maken, en zal dat presenteren op de pagina /http://www.benwilbrink.nl/projecten/examen.vanbijsterveldt.2008.htm

Voor het doorrekenen van te verwachten effecten van veranderingen in examenregelingen is een tentamenmodel nodig, zoals in 1970 door Van Naerssen voorgesteld (html), en door mij verder is uitgewerkt en in rekenmodules beschikbaar is gemaakt hier.


17 juni 2008. Het GION publiceert: Meten met twee maten? De discrepantie tussen de cijfers op het schoolexamen en het centraal examen VO van allochtone leerlingen. pdf De landelijke pers haalt hier uit dat leraren hun allochtone leerlingen voor ijver zouden belonen bij het schoolonderzoek. Los daarvan of dat iets is dat niet zou deugen, geloof ik er niets van totdat ik harde onderzoekgegevens heb gezien. Ik moet dit rapport nog bestuderen, en zal dat doen met de achterdochtige hypothese in mijn achterhoofd dat talige bias van toets- en examenopgaven voor het door de pers gesignaleerde fenomeen een verklaring kan zijn. Benieuwd wat de onderzoekers op dit punt hebben geanalyseerd. [dit slaat natuurlijk op de thematiek die ik in de pagina projecten/eerlijkrekenen.htm probeer uit te werken]. 15 december 2009: Ik ben in de tussentijd aan dat bestuderen niet toegekomen. Ondertussen is op basis van dit rapport een artikel gepubliceerd in Pedagogische Studiïn, waarop een voorlopige commentaar hierbeneden is gegeven. Die ‘ijver’ zit me wel geweldig dwars: wat is dat voor vreemde gedachte om daar denigerend over te doen, wat in dat artikel waarschijnlijk geheel onbedoeld toch gebeurt? Je ziet dat zoiets precies de krent is die de pers uit het rapport haalt, waarmee een perverse beeldvorming ontstaat.


17 juni 2008. Dezelfde dag, in de Volkskrant een column van Aleid Truijens over het thema dat Dronkers heeft aangesneden. Naast nuttige informatie die ik nog niet had (over niet meer betalen van de tweede corrector), is het een voor Aleid onverwacht reactionair stukje, ik kan me tenminste niet voorstellen dat de uitsmijter ironisch is bedoeld: "Alleen een examen waarvoor je flinke kans loopt te zakken, is de moeite van het halen waard." Brrrrrrrrr. Aleid wil het nakijken verder optuigen, dat is eerlijker niet waar, maar dat gaat eraan voorbij dat alle tijd en kosten die besteed worden aan dat nakijken, ten koste gaan van—worden gestolen van—de vorming en de opleiding van diezelfde leerlingen. Trouwens, ons middelbaar onderwijs is al zo waanzinnig selectief, moet dat eindexamen dan ook nog eens idioot selectief worden opgetuigd? In wiens belang is dat?




Stan van Alphen en Jaap Dronkers (4 december 2009). Commentaar bij de uitkomsten van Trouw schoolprestaties 2009. pdf




L. T. M. Rekers-Mombarg, G. J. Harms en M. P. C. van der Werf (2009). Discrepanties tussen schoolexamen- en centraal examencijfers bij allochtone leerlingen. Omvang en verklaringen. Pedagogische Studiën, 86, 425-442.




Marloes de Lange en Jaap Dronkers (2006). Hoe gelijkwaardig blijft het eindexamen tussen scholen? Discrepanties tussen de cijfers voor het schoolonderzoek en het centraal examen in het voortgezet onderwijs tussen 1998 en 2005 pdf


  1. Het is niet voor het eerst dat er aan de strengheid van de beoordeling van het SO wordt getwijfeld: bij de regeling van de toelating voor numerusfixusstudies spelen eindexamenresultaten een rol, dus ook de gedachte alleen het CSE daarvoor te gebruiken. Hofstee (pers. meded.) wijst mij erop dat de 'Werkgroep Wiegersma' zoiets had voorgesteld, en dat bewijsbaar is dat buiten beschouwing laten van het SO betekent dat een mogelijkheid onbenut blijft om de door het CSE gemeten beheersing beter te schatten. Lees de laatste zin nogmaals. Het gestelde blijft waar, ook als er verschillen in strengheid zijn. Ik geef hier de persoonlijke mededeling van Hofstee over het methodologische punt.
    Hofstee (pers. meded): "Eind jaren 70 heb ik met medewerking van Ivo, Jos en Charley Lewis het jou dacht ik bekende true-scores modelletje voor de onderlinge verdiscontering van CSE en SO gepresenteerd (zie o.a. Tijdschrift voor Onderwijsresearch 1979). Dat model speelde op het niveau van de individuele leerling. Als je dat langs de lijnen van de multilevel-analyse opleukt naar het niveau van de klas of de school, krijg je de volgende parallelredenering:

    1. het CSE-cijfer op dat aggregatieniveau is nog steeds een imperfect betrouwbare variabele (over scholen etc.);
    2. je kunt dus de voorspelling van de betreffende true score verbeteren door naast de geobserveerde CSE-score de SO-score op te nemen in de multipele predictie van die true score;
    3. waarschijnlijk zal ook op dit aggregatieniveau gelden dat zelfs een ongewogen (in plaats van optimaal gewogen) gemiddelde van CSE en SO een betere predictie geeft van de CSE-true score dan de geobserveerde CSE-score levert.

    Het buitengewoon geinige -- als dit allemaal blijkt te kloppen -- is dat je aldus de CSE-fanaten met hun eigen argumenten om de oren slaat. Immers, je gaat (al is het maar bij wijze van concessie) uit van het primaat van het CSE, en gebruikt het SO louter als een 'booster' om de ware CSE-score beter te schatten; vervolgens toon je aan dat beoordeling van scholen (of leerlingen) louter op basis van CSE irrationeel en contraproductief is."
    W.K.B. Hofstee (1979). Schatting van de true score met inachtneming van andere variabelen. Tijdschrift voor Onderwijsresearch, 4, 38-40.
  2. Al in de samenvatting is sprake van hoge correlaties. Er worden inderdaad heel wat correlaties berekend, niet op basis van de resultaten van individuele leerlingen, maar van scholen. Dergelijke correlaties mogen niet zomaar worden geïnterpreteerd alsof het over individuele leerlingen gaat. De reden is dat correlaties over geaggregeerde data makkelijk heel hoog kunnen worden, terwijl tegelijk dezelfde correlaties, zouden ze op het niveau van individuele leerlingen zijn berekend, heel laag kunnen zijn. Deze problematiek is in de literatuur goed beschreven (zoek op 'aggregated data', 'aggregation', 'ecological fallacy' 'reversal paradox' [Messick en Van de Geer: A reversal paradox. Psychological Bulletin, 1981, 582-593] (WikiPedia), 'ecological inference'), en de auteurs hadden er beslist aandacht aan moeten schenken, en zich in hun conclusies op basis van correlaties over geaggregeerde data moeten matigen. Best mogelijk dat analyses op beide niveaus tot dezelfde conclusies leiden, wie weet? Ik weet het nu niet.
    Natuurlijk, er zijn geen gegevens op individueel niveau beschikbaar. Maar dat is geen excuus voor misleidende analyse. Doe een gedachtenexperiment: neem uit iedere Nederlandse eindexamenklas een leerling, en doe de analyses van Dronkers en De Lange op de data van individuele leerlingen. Wat denkt u dat er uit komt? Te kleine groep? Neem vijf leerlingen uit iedere klas. Dat is een geweldige steekproef. Is er kans dat de analyse op deze individuele data tot dezelfde conclusies kan komen die Dronkers en De Lange presenteren? Ik vraag het u af.

  3. Dronkers concludeert dat de Inspectie tekort schiet en dat er met het schoolexamen (SO) wordt gesjoemeld. Dat is nogal wat, en dan mag je toch verwachten dat de analyse begint met helder neer te zetten wat de eigen aard van SO en CE is, wat het kader is waarbinnen of waartegen de beschikbare data moeten worden geïnterpreteerd. Als selectiepsycholoog zou ik zeggen: de geldigheid van tests en de daarop gebaseerde beslissingen wordt bepaald door de ultieme criteria voor het slagen van die selectie. In het bedrijfsleven is het ultieme criterium: bijdrage aan het bedrijfsresultaat. (Voorbeeld selectie voor de NPA pdf)
    Door het werk van Bishop en anderen over de effecten van centrale examens uitvoerig te bespreken, geven Dronkers en De Lange een eigen, niet onbelangrijke, maar toch nieuwe - niet zo door de wetgever bedoelde - betekenis aan de eindexamens VO. Het gekke is nu dat de data niet tegen dit 'effectiviteits-criterium' worden getoetst, dat de analyse ontbreekt waartegen dan wèl de geldigheid van de examens moet worden afgezet, en dat bij gebrek aan dat alles in arren moede de constructie wordt gemaakt dat SO en CE gelijke resultaten zouden moeten opleveren. Ik zie niet wáár in wet of jurisprudentie dat zo staat beschreven. Dat is jammer, het degradeert al het kwantitatieve werk van Drokers en De Lange tot gefrutsel met cijfers, de afleidingsmanoevre via het stellen van een reeks hypothesen - waarover hieronder meer - verandert daar niets aan.
    Wat maakt het uit, kun je je afvragen. Ik zal dat uitleggen door te beschrijven hoe SO en CE staan voor ingrijpend verschillende beoordelingsprocessen. Ik doe daar geen kwantitatieve analyse bij, het is niet mijn bedoeling het werk van Dronkers en De Lange over te doen.
    Het schoolexamen bestaat vaak uit meerdere onderdelen: missers kunnen goed worden gemaakt, zeg maar. Wie het te gek slecht doet, doet misschien helemaal niet mee aan het schriftelijk. Eigenlijk is dit een antwoord op mijn retorische vraag waarom Dronkers eigenlijk denkt dat SO en CE gemiddeld gelijk uit zouden moeten komen (in een ideale wereld). Die schoolonderzoeken zijn een menging van formatief en summatief toetsen, waarbij er bewust mogelijkheden zijn om te werken aan bijna gegarandeerd 'voldoende' resultaten.
    Het centraal examen is een heel ander verhaal, veel meer een momentopname, letterlijk een momentopname, waarbij de leerling door omstandigheden alles uit handen kan laten vallen. Je mag bij het CE, vergeleken met het SO, waarschijnlijk meer uitschieters naar beneden verwachten, en die uitschieters trekken de cijfergemiddelden fors naar beneden.
    Wie heeft data tot zijn beschikking die iets over deze verschillende processen zeggen? Huub van den Bergh?
  4. De Tweede Fase: "Dit alles betekent dat er binnen het studiehuis een grotere belang gehecht wordt aan het schoolexamen t.o.v. het centraal examen en dit maakt de eindexamenresultaten onderling moeilijker vergelijkbaar" (p. 6). Dit is op zijn minst een opmerkelijke mededeling in een artikel waarin zoveel ophef wordt gemaakt over ten onrechte hogere cijfers voor het schoolexamen dan voor het centraal examen. Op zijn minst geeft het citaat een mogelijke reden waarom er terecht hogere cijfers voor het SO dan voor het CE vallen.
    Waarom dat eindexamenresultaten moeilijker vergelijkbaar maakt, is mij niet duidelijk. Dronkers en De Lange spreken zich over de beoordelingsproblematiek niet echt helder uit - en het is ook verdomd lastig, ik geef het toe - en doen zelfs een noodgreep naar de 'Wetmatigheid van Posthumus,' bij uitstek geen mogelijke reden voor uit de pas lopende beoordelingen.
    Het gaat hier niet om een ondergeschikt punt. Dronkers en De Lange kijken naar geaggregeerde data, maar het onderliggende proces is een beoordelingsproces, met vele actoren en omstandigheden die van invloed zijn. Het is mij een raadsel hoe uit deze geaggregeerde data duidelijk kan worden wat er mogelijk fout gaat in die beoordelingsprocessen. En ik heb toch wel enig zicht op mogelijke ontsporingen in dergelijke processen. De auteurs doen af en toe dan ook een noodgreep uit de bak anecdotes en gepubliceerde misstanden op de werkvloer - iedereen weet toch hoe die dingen gaan? - maar dat kan niet de stelling onderbouwen dat er over de hele linie, althans schooltypen of -soorten, misstanden zouden groeien. Misstanden? Ja, want volgens de auteurs zou de inspectie hier hard hebben moeten ingrijpen.
    Toch zet het artikel de lezer telkens weer op een ander been. Er worden immers ook tal van mechanismen aangereikt die op zich best tot meer afstand tussen SO en CE zouden kunnen leiden, en waarvan moeilijk valt in te zien wat er precies het problematische van is. Waarom, nu we het er toch over hebben, zouden SO en CE in beginsel gelijk moeten zijn, en op welk niveau van aggregatie zou die gelijkheid dan moeten bestaan? De deus-ex-machina van Dronkers en De Lange is de grote afwezige in dit onderzoek: het vertrouwen in het eindexamen als standaard zou op het spel staan, maar voor wie is dat dan zo, op welke gronden?
  5. Een bekend probleem bij veel sociologisch (en economisch) onderzoek is dat op basis van in het veld gevonden data en correlationele gegevens conclusies volgen over oorzaak-gevolg relaties en over te verwachten effecten van beleidsingrepen. Een pijnlijk punt, ik heb er op congressen meerdere aanvaringen over gehad, onder andere met Dronkers. Maar scherpe methodologische problemen gaan niet weg simpel omdat ze pijnlijk worden gevonden. In beginsel is voor onderzoek naar oorzaak-gevolg relaties (quasi-)experimenteel onderzoek nodig. De kwaliteitskaart-gegevens komen wat dat betreft uit een ander universum (de simpele volgorde van jaren is op zich niet een voldoende voorwaarde om van oorzakelijke relaties te mogen spreken). Ik moet concreet maken waar het om gaat, ik noem dus maar een rij passages uit het artikel over oorzakelijke verbanden die onmogelijk uit deze data kunnen blijken, en ik beperk me tot uitspraken over invloeden (zoeken op effecten zou zeer veel meer passages opleveren):
    1. [p. 21]"Opvallend is dat het zijn van een bijzondere school geen invloed blijkt uit te oefenen op de discrepantie bij MAVO-scholen."
    2. [p. 23] "Het feit dat de normeringsystematiek aangepast is in het jaar 2000, heeft geen invloed gehad op de groei in de discrepantie tussen het schoolexamencijfer en de centraal examencijfers."
    3. [p. 23] "Waar wij verwacht hadden dat hogere adviesgemiddelden van de leerlingen van scholen tot grotere discrepanties tussen de SE- en CE-cijfers zouden leiden, hebben wij slechts gelijk voor de HAVO. Op de MAVO en het VWO blijkt advies daarentegen een negatieve invloed te kennen en moet hypothese 4 dus verworpen worden."
    4. [p. 23]"Echter de daarmee verbonden hypothese die verwacht een negatief effect van tijd te vinden op de invloed van het percentage allochtonen, moeten wij verwerpen. In tegendeel, in de jaren 1998 – 2005 stijgt juist het effect van het percentage allochtonen op de discrepantie tussen de SE- en CE-cijfers."
    5. [p. 24] "De Tweede Fase heeft een negatieve invloed op de handhaving van een vergelijkbare kwaliteit van de eindexamens op de HAVO en het VWO, wat in strijd is de oorspronkelijke bedoeling van de Tweede Fase."
    6. [laatste zin] "De invloed van het percentage allochtonen op de discrepantie tussen SE- en CE-cijfers (een invloed die bovendien nog groeit) kan een goed en gevaarlijk voorbeeld van perverse gevolgen zijn."

  6. De geaggregeerde data zelf (zoals in tabel 1) worden op een niet-statistische wijze behandeld, en dat is op zich correct omdat de data populatiegegevens zijn, geen steekproef (tenzij van jaren).
    Maar hoe interpreteer je verschillen die je in dergelijke complete gegevenssets aantreft? Het probleem dat in het artikel onbelicht blijft, is dat Dronkers en De Lange allerlei vooronderstellingen hebben en conclusies trekken die de dataset zelf te buiten gaan. Dat kan niet zomaar, en toch gebeurt dat zomaar. Een kras voorbeeld daarvan is het volgende Tja, wat gebeurt hier? Het SO-CE verschil in 1998 is 0,04, in 2005 0,16. Volgens elementaire rekenkunde is dat verviervoudigd. Populatiedata, dus geen speld tussen te krijgen? Jawel, ik zou zeggen dat 1998 best eens een uitbijter kan zijn, laten we 1999 nemen, daar is het verschil 0,22. Op zijn minst zou wat exploratieve analyse à la Tukey op zijn plaats zijn. De auteurs interpreteren hier maar raak, dat raakt kant noch wal. Nog maar even afgezien van de aggregatie-problematiek.
  7. Het onderzoek wordt in hoofdstuk 5 opgetuigd als een hypothese-toetsend onderzoek. Ik wil niet flauw zijn, hoor, maar iedereen kan leuke hypothesen bedenken, en niemand garandeert dat die voorafgaand aan de dataverzameling zijn opgesteld. Dit hoort meer bij de afdeling die Popper gewoon het te drogen hangen van het eigen ondergoed noemt. Window dressing, heet dat. Of ook wel: rookgordijnen leggen. Beide hinderen het vrije zicht. Ik raad niet methodologisch geschoolde lezers aan dit gedoe over hypothesen gewoon over te slaan.
    Er is hier overigens sprake van een interessante inconsistentie: op sommige plekken de data behandelen als populatiegegevens waarover niets te hypothetiseren valt, op andere weer als steekproeven uit een of andere wereld, om er hypothesen mee te toetsen. Wat is het nu? De onderzoekers willen, zoals alle onderzoekers, uitspraken doen die verder gaan dan de data zelf. Prima, maar daar is dat gedoe over hypothesen niet voor nodig. Zeg gewoon waar je naar kijkt, en hoe en waarom zo.
  8. Een heel andere overweging is de slotalinea van het invloedrijke opiniestuk van Norman Frederiksen (1984) The real test bias. American Psychologist, 39, 193-202. (helaas geen online versie beschikbaar):
    "The 'real test bias' in my title has to do with the influence of tests on teaching and learning. Efficient tests tend to drive out less efficient tests, leaving many important abilities untested - and untaught. Am important task for educators and psychologists is to develop instruments that will better reflect the whole domain of educational goals and to find ways to use them in improving the educational process."
    Koppel dit door naar de manier waarop De Lange en Dronkers het onderscheid tussen schoolonderzoek en CE behandelen. Ik wil niet meteen beweren dat onze centrale eindexamens even absurd zijn als de Amerikaanse SAT of ACT inteliigentietests, maar ze zijn uit de aard van de zaak beperkt tot in korte tijd toetsbare brokken beheersing. Het schoolonderzoek heeft die beperking veel minder, en hoort dat voordeel uit te buiten. De verschillen tussen schoolonderzoek en CE moeten nog veel groter, zou ik, met Frederiksen, willen zeggen.

    aantekening: "Belangrijke conclusies die uit dit onderzoek (Dronkers, 1999) volgen zijn" (par. 4.2, vooruitlopend op de data-analyses in de volgende hoofdstukken) volgens de auteurs "dat het schoolonderzoek gewoonlijk hoger becijferd wordt dan het centraal examen en dat de becijferingen niet constant zijn over de tijd." Maar daar was dit onderzoek niet voor nodig. Een perfecte open deur. Wat gebeurt hier? Worden er stromannen opgericht? Onmiddellijk volgend: "Dit heeft tot gevolg dat het eindexamen niet gelijkwaardig is en de diploma's van de verschillende leerlingen dus elk een andere waarde kennen." Maar dat is niet onderzocht! Op zijn minst slordig, en een aanwijzing dat dit artikel achterdochtig moet worden gelezen.

  9. A. A. Béguin (2000). Robustness of equating high-stakes tests. Dissertation University Twente. http://download.citogroep.nl/pub/pok/dissertaties/dissertationbeguin2000.pdf [mei 2007: link verbroken]


Juni 2006, er is enige publieke commotie over de stelling van Jaap Dronkers dat er groepen scholen zijn die sjoemelen met de becijfering van hun schoolonderzoeken. Jaap reageert in de Volkskrant 26-6-2006 op kritische reacties op zijn onderzoek. Ik houd nog een paar vragen over:

Wat noem je 'even zware eisen'? Hoe definieer je dat? Kun je over alle jaren heen alle relevante omstandigheden gelijk houden? Of denk je dat dat niet hoeft omdat je gewoon op de curve kunt normeren (grading on the [bell] curve)?

Kwesties over het door de jaren heen gelijk blijven, stijgen of dalen van niveau zijn ongelooflijk moerassig, daar kom je van jouw levensdagen niet uit. Dat is ook het geval met het Flynn-effect, daar kan met gemak eindeloos over worden gehakketakt. Grof geschat hebben alle buitenlanden te kampen met meer of minder ernstige vormen van cijferinflatie, waarom denk je dat daar al niet een halve eeuw geleden door jouw sociologische collega's een halt aan is toegeroepen? Internationaal onderzoek is mooi en aardig, maar als puntje bij paaltje komt, en de relevante context ook wordt meegenomen, is het niet eenvoudig om te interpreteren wat eigenlijk wordt vergeleken.

Toon mij ook maar één volstrekt helder en overtuigend onderzoek waarin het eindexamenniveau van twee wat verder uit elkaar liggende jaren vergelijkbaar is gemaakt. Zou je een paar eindexamenklassen van vandaag jouw eigen eindexamen over willen laten doen? Zou leuk zijn, maar is volstrekt onzinnig. De curve van onzinnigheid zwakt af naarmate je een vergelijkingspunt dichterbij zoekt, maar het zal altijd lastig zijn.

Die normhandhaving van vandaag de dag is mij trouwens ook een raadsel, kennelijk heb ik niet de goede contacten om daar de precieze ins en outs van te kunnen achterhalen. Als ik me goed herinner heeft Blokker er eens een stukje aan gewijd.

Je hebt ongetwijfeld gelijk met je stelling dat veel scholen politiek/handel drijven met hun eigen normen. Doorheen de geschiedenis van het onderwijs is dat altijd zo geweest. Het is net de vrije markt; het moet wel worden beteugeld.


Japke-d. Bouma (7 juli 2007). Roepende in de woestijn. Jaap Dronkers blijft het zeggen: de kwaliteit van het schooldiploma neemt af. NRC Handelsblad, p. 49.

Leo Prick (7 juli 2007). Rectificatie. NRC Handelsblad, p. 49.

Greetje van der Werf en Bert Creemers (1999). Naar een vollediger systeem van kwaliteitsbeoordeling van scholen. Pedagogische studiën, 76, 51-60. [niet online beschikbaar?]

Inspectie van het Onderwijs (2000). Discrepantie tussen SO-cijfer en CE-cijfer in het Voorgezet Onderwijs. In de schooljaren 1995, 1996, 1998, 1999 en 2000. Inspectie van het Onderwijs.

Inspectie van het Onderwijs (juli 2007). Discrepanties tussen de cijfers op het schoolexamen en het centraal examen in de periode 2004-2006. pdf

Y. J. Pijl (1991). Discrepanties tussen het schoolonderzoek en het centraal schriftelijk examen in HAVO en VWO. Groningen: RION

C. Suhre en P. Edelenbos (1991). Evaluatie eindexamen Engels en wiskunde in het HAVO/VWO. Groningen: RION



Jaap Dronkers (1999). Is het eindexamen gelijkwaardig tussen scholen? Discrepanties tussen de cijfers voor hetschoolonderzoek en het centraal examen in het voortgezet onderwijs. [Afscheidsrede Amsterdam 25-11-1999] pdf



Xin Wei & Edward Haertel (2011). The effect of ignoring classroom-level variance in estimating the generalizability of school mean scores. Educational Measurement: Issues and Practice, 30 #1, 13-22. abstract



Lynne Hollingshead and Ruth A. Childs, (2011). Reporting the Percentage of Students above a Cut Score: The Effect of Group Size. Educational Measurement: Issues and Practice, 30 #1, 36-43. abstract

David J. Woodruff, Robert L. Ziomek (2004). Differential Grading Standards Among High Schools. ACT Research Reports 2004-2 pdf



Nieuws januari 2008: De Inspectie heeft opdracht gegeven voor een onderzoek op deze thematiek. De methodiek zal ongeveer dezelfde zijn als in de heel andere, want Amerikaanse, situatie van het onderzoek door Woodruff en Ziomek (2004), zie hier onmiddellijk boven. Zonde van de tijd en het geld, maar dat krijg je wanneer hoogleraren ongenuanceerde dingen gaan roepen waar politici vervolgens mee aan de haal gaan. De voorspelbare uitkomst van het onderzoek: geen harde conclusies over cijfermanipulatie, en al helemaal geen conclusies over mogelijke daling van niveau van eindexamens ovr de laatste decennia (dat is een interessantere vraagstelling, waarover nauwelijks onderzoek is gedaan, behalve een enkele econometrist die in datasets iets van een trend meent te kunnen zien, wat natuurlijk op geen enkele manier iets bewijst of aannemelijk maakt) (wel Amerikaans onderzoek: David J. Woodruff, Robert L. Ziomek. (2004). High School Grade Inflation From 1991 to 2003. (ACT Research Report 2004-43 pdf). Ziomek, R. L. & Svec, J. C. (1995). High school grades and achievement: Evidence of Grade Inflation. (ACT Research Report 1995-3). Iowa City, IA: ACT. Pdf beschikbaar op ACT website).



Ysbrand J. Pijl (1995). Discrepancies between school-internal and national exams in Dutch secondary education. Tijdschrift voor Onderwijswetenschappen, 24, 249-262. [nummer 5/6 is een Special Issue: Examinations foreign languages at the end of secondary education]

abstract “In the Netherlands passing or failing the final exam in the last year of higher general secondary education and of pre-university education depends on the average over the results of a school-internal exam and a national exam. The Inspectorate of Education has expressed some concern about the fact that mean grades in the school-internal exams may often be higher than mean grades in the national exam. However, detailed statistics as to the nature of this and other discrepancies were not available. In this study the internal exam-grades of large samples of students are compared in great detail with the grades students got in the national exam. The most striking discrepancy between internal and national exams is the large difference in the variance of grades. In particular, the grades in internal exams in modern foreign languages showed much less variance than the corresponding grades in the national exams.”



Jos Canton, Trees Aler, Klaas Heemskerk, Wilma van der Westen, Kitty Willemsen, K. J. Schut & M. E. Lamé (2013). Effecten van sturing op discrepanties tussen de cijfers van het centraal examen en het schoolexamen bij de talen. Onderzoek naar sturing door schoolleiders en de effecten daarvan op het taalonderwijs op havo en vwo. Uitgave: Levende Talen. pdf


Een moeilijk leesbaar rapport; de onderzoekers hebben informatie opgestapeld, maar ontberen een behoorlijk theoretisch kader om dit goed te ordenen en selecteren. Hoe dat ook zij: het beeld dat wordt geschetst van de nu ontstane situatie in het onderwijs ontluisterend. Ik heb voortdurend de indruk in een omgekeerde wereld verzeild te zijn geraakt. Ik heb geen reden om aan de grote lijn van dit rapport te twijfelen, het is uitstekend dat via dit rapport aandacht wordt gevraagd voor de idiotie waar leraren en leerlingen, maar ook schoolleiders, in toenemende mate te maken hebben. In toenemende mate: want er zijn nog wel meer problemen met een hoog gehalte van absurditeit, zoals de rekentoetsen voor de eindexamens havo en vwo, en natuurlijk de kernvakkenregeling zelf, meester Dorknooper ten knop.



abstract




abstract



23 mei 2012 \ contact ben apenstaartje benwilbrink.nl


Valid HTML 4.01!       http://www.benwilbrink.nl/literature/delangedronkers2006.htm