Doorrekeningen examen Van Bijsterveldt 2008

Ben Wilbrink


In de Tweede Kamer: donderdag 22 januari


http://static.ikregeer.nl/pdf/KST134032.pdf


http://static.ikregeer.nl/pdf/KST128068.pdf


http://static.ikregeer.nl/pdf/KST123512.pdf


Vooraf: Inspectie/Elsevier cijfers eindexamens 2007


Elsevier rekent met eindcijfers Elsevier publiceert in januari 2009 een lijstje met scholen met de grootste, respectievelijk kleinste, verschillen tussen gemiddelden voor schoolonderzoek en centraal schriftelijk (figuur, klik deze voor een leesbare tabel). Bij VMBO-theoretisch zijn er wat grotere verschillen, en dat is ook voor HAVO en VWO zo. Nou ja, het gaat over ontzettend veel scholen, en daar iedere keer de vijf scholen met het grootste verschil. Vallen we daar dan van achterover? Ik niet. Maar het is wel interessant te signaleren, zoals Elsevier ook doet, dat er een samenhang lijkt te zijn met het percentage APC-leerlingen (leerlingen die wonen op een postcode waar relatief veel achterstandsproblemen zijn). De betekenis daarvan is volgens Elsevier dat deze leerlingen in het schoolonderzoek wat cadeau krijgen. Waarschijnlijker is dat deze leerlingen het in het centraal schriftelijk relatief relatief moeilijker hebben door oneerlijkheid in de vragen (de taal, de cultuur, in contextvragen waar heel erg veel taal en cultuur in zit, ook als ze niet over taal en cultuur, maar bijvoorbeeld wiskunde gaan). Afijn, dat hoeft hier niet verder uitgezocht.

Let ook op de kleinste verschillen: die zijn in het VWO nul. Dat lijkt me een heel betekenisvol gegeven. Het duidt erop dat het fenomeen in ieder geval voor een deel niets heeft te maken met cadeautjes geven aan eigen leerlingen: dan zouden er immers 'eerlijke' scholen moeten zijn waarin de verschillen tussen schoolonderzoek en centraal examen een toevalsverdeling rond nul hebben, en zouden er scholen moeten zijn met bijvoorbeeld -0,5, zoals in het VMBO het geval is. Niet dus.

Nog een interessante waarneming die aan de lijstjes van Elsevier is te doen: kijk eens naar de gemiddelden voor het centraal eindexamen. De verschillen, althans voor deze kop- en staartlopers, worden bijna helemaal bepaald door de gemiddelden voor het centraal schriftelijk. Dat is lastig te interpreteren. Het wijst er om te beginnen op dat de cijfers voor het schoolonderzoek helemaal niet hoger zijn dan elders, althans niet substantieel hoger. De scholen met het grootste verschil tussen schoolonderzoek en centraal schriftelijk zijn scholen waar gemiddeld lage cijfers op het centraal schriftelijk vallen. Dat laatste is waarschijnlijk om een scala van redenen zo, maar daar horen we niets over. Het heeft in ieder geval niet evident te maken met pogingen om via cadeau gegeven hogere cijfers eigen leerlingen die zich opgeven voor een numerus-fixusstudie een streepje voor te geven (dat moet ook eenvoudig door de Inspectie te signaleren zijn, want dan gaat het niet om zesjes, maar om cijfers rond de acht). Elsevier levert hier dus wel een interessante tabel, jammer dat ze niet een aantal stakeholders heeft gevraagd om hier eens met elkaar over van gedachten te wisselen.

Arthur van Leeuwen en Ruud Deijkers (8 januari 2009). Beste scholen 2009: opnieuw te hoge cijfers bij examens. Elsevier. html. Op deze webpagina ook links naar een aantal pdf-documenten van Elsevier, o.a. een overzicht van scholen met de grootste en de kleinste verschillen tussen eindexamencijfers (schoolonderzoek en centraal schriftelijk) pdf.




hoezo een onvoldoende opstel? (een lintje voor deze docent)


Het zou absurd zijn om leerlingen op het eindexamen af te rekenen op een atypische prestatie. Toch schrijft de wet deze paarse krokodil voor, en Van Bijsterveldt scherpt de tanden van het beest. Een witte raaf is dan de docent die dat doorbreekt. Een publiek casus, sinds 19 mei 2009:


"Toen Koch in 1972 eindexamen deed aan het Amsterdamse Spinoza Lyceum, was hij de lust tot leren en voor school allang kwijtgeraakt. Gelukkig was de docent Nederlands hem goed gezind. ‘Ik verknalde mijn opstel, maar gelukkig liet hij de gecommitteerde vijf andere teksten van me lezen als bewijs dat ik het echt wel kon.’".

Robin Gerrits (19 mei 2009). Eindexamens 2009. Herman Koch. Over het examen Nederlands. De Volkskrant, p. 2.

Deze quote heb ik ook op de pagina met casus over beoordeeld worden geplaatst beoordeeld.htm


nog invoeren: Brief staatssecretaris over het Cito-onderzoek naar de mogelijkheden om het centraal examen in het voortgezet onderwijs anders te wegen http://www.ikregeer.nl/document/KST123512


Een extreme voorganger: California High School Exit Examination (CAHSEE)


Om op een behoorlijke manier high school af te ronden, moeten leerlingen zowel een wiskundetoets als een toets Engelse taal voldoende maken. Goede bedoelingen zijn natuurlijk om leerlingen te motiveren en voor een goed afstudeerniveau te zorgen, waar dat rond 2000 heel problematisch bleek te zijn. De Onderwijsraad zou het als inspiratiebron gebruikt kunnen hebben om Van Bijsterveldt tot het huidige wetsvoorstel te verlokken. De vraag is: is er van de goede bedoelingen iets terecht gekomen? Er zijn jaarlijkse onafhankelijke evaluaties beschikbaar op http://www.cde.ca.gov/ta/tg/hs/evaluations.asp. Om een idee te geven van de taaiheid van die evaluaties, en de leegheid van de aanbevelingen, uit die van 2008: "Many low-income and minority students have difficulty passing the CAHSEE. Dropout rates are also higher for these groups of students, leading to a greater proportion of students in these groups who do not receive a high school diploma. Failure to receive a diploma has significant societal costs as well as costs to the individual students. Our fourth recommendation is:

Recommendation 4: California schools need to find ways to increase graduation rates for low-income and minority students."

Een gigantisch probleem in Californië is studiestaken, gemiddeld 24% over de vier jaren high school, met natuurlijk minderheidsgroepen die hier veel hoger scoren. De machteloosheid van dit beleid ligt duimendik op de herkansingscijfers:

"Many students who did not graduate in 4 years continued to take the CAHSEE. More than 12,000 of the 29,000 students from the Class of 2007 who had not passed took the CAHSEE again in 2008; of these, more than 4,000 (one-third of those retaking the test) have now completed the CAHSEE requirement. In addition, nearly 4,000 of 35,000 students from the Class of 2006 who had not passed by the end of 2007 took the CAHSEE in 2008, more than one year after their original graduation date. About 1,200 of these students (nearly a third of retakers) met the CAHSEE requirement this year."

Mijn vermoeden is dat dit beleid heeft geresulteerd in een situatie die beroerder is dan de uitgangspositie was. Maar daarvoor zou ik graag een analyse zien van iemand die van de hoed en de rand weet, en echt onafhankelijk is (niet door Californië wordt betaald). Schoenfeld, die alles van wiskundeonderwijs weet, wijst erop dat velen op goede gronden hebben voorspeld dat CAHSEE tot meer studiestaken zal leiden. Voor een discussie van een groep IDEA onderzoekers met die van evaluator HumRRRO zie pdf.

Alan H. Schoenfeld (2007) Issues and Tensions in the Assessment of Mathematical Proficiency. In Alan H. Schoenfeld:. Assessing mathematical proficiency (pp 3-21). Cambridge University Press. pdf

http://www.cde.ca.gov/ta/tg/hs/


Bij de doorrekening van specifieke situaties van studenten die zich voorbereiden op een 'examen Van Bijsterveldt' maak ik gebruik van een technologie die goeddeels publiek beschikbaar is op deze website: het model Strategic Preparation for Achievement Tests (SPA-model). Het model bestaat uit een opklimmende serie modulen met bijbehorend applets die in de browser zijn tte gebruiken om opgegeven toetssituaties door te rekenen.




25 oktober 2008. Staatssecretaris Van Bijsterveldt heeft laten weten (hier) dat zij de eindexamenseisen gaat aanscherpen om zo een betere aansluiting met het hoger onderwijs te krijgen, waarvan de onderdelen zijn: 1) cijfers van schoolonderzoek en centraal schriftelijk kunnen elkaar niet meer compenseren, 2) om te slagen voor het centraal schriftelijk worden de eisen voor enkele kernvakken aangescherpt. Hiermee dreigt het wantrouwen in de media geventileerd over mogelijk gesjoemel van bepaalde scholen met hun schoolonderzoeken, uit te lopen op wet- en regelgeving die bepaald tot aanzienlijke schade zal leiden. Die schade is bij benadering kwantificeerbaar, zoals ik eerder in 1980 heb laten zien voor de effecten van een ontwerp-wetsvoorstel voor selectie bij numerusfixus-studierichtingen (html). Het probleem zit hem als vanouds in het misplaatste idee dat het cijfer voor een enkel examenvak een betrouwbaar gegeven zou zijn, zodat je vanzelfsprekend van iedereen mag eisen dat het vak Nederlands tenminste een '5' moet zijn om te kunnen slagen, en idem dito ook voor nog een aantal andere vakken. Welnu, het enige examenresultaat waarvan verdedigbaar is dat het een redelijk betrouwbaar beeld geeft van het kennen en kunnen van de kandidaat, is het totaal behaalde resultaat, bijvoorbeeld het gesommeerde cijfer, het gemiddelde cijfer of een gewogen gemiddelde als juridische definitie. De staatssecretaris wil de bijl zetten aan de wortel van dat enige redelijk betrouwbare eindexamenresultaat waarop zak-slaagbeslissingen zijn te baseren. Van Bijsterveldt wil de leerlingen uitdagen en verzekeren van een goede aansluiting op het vervolgonderwijs (zie het persbericht); ik heb met zo'n beleidsdoel geen moeite (behalve de suggestie die erin ligt dat het nu een zootje zou zijn), en ben ook een fervent pleitbezorger van het stellen van stevige eisen aan leerlingen, maar knoeien met het oprichten van hordes voor afzonderlijke vakken werkt contra-productief en kan leerlingen vooral meer angst voor hun examen aanjagen.

Voor het doorrekenen van te verwachten effecten van veranderingen in examenregelingen is een tentamenmodel nodig, zoals in 1970 door Van Naerssen voorgesteld (html), en door mij verder is uitgewerkt en in rekenmodules beschikbaar is gemaakt hier.




Startdatum van deze pagina: zondag 26 oktober.


Wat ik wil doen is, om te beginnen, voor een aantal eenvoudige situaties doorrekenen wat de kansen voor een individuele leerling zijn om te slagen voor een bepaald vak in dit eindexamen.


De crux zit hem in de beperkte omvang van de toets voor dat vak. Het aantal op het eindexamen te beantwoorden vragen is maar klein, en met deze kleine steekproeven is het zelfs voor goed voorbereide leerlingen al snel tamelijk riskant als er per se een '6' voor dat vak moet worden behaald. Het probleem is niet alleen, zoals in de openingsparagraaf al aangegeven, dat beleidsmakers geen flauwe notie hebben van hoe groot de risico's in feite (=aantoonbaar) zijn, maar eigenlijk veel belangrijker is dat leerlingen die flauwe notie ook niet hebben, en zich mogelijk veel te optimistisch op dit Van Bijsterveldt-examen gaan voorbereiden.


Het is een fluitje van een cent om de kans om te slagen, of het complement daarvan: de kans om te zakken, voor die ene leerling en dat ene vak te berekenen. Zelfs vwo-ers zouden kunnen weten dat je daar om te beginnen een binomiaalmodel voor kunt gebruiken, gewoon een statistisch model voor het trekken van vragen uit een domein van vragen, waarbij iedere vraag ofwel een geweten vraag is, of een niet geweten vraag. NB. Ik spreek hier meteen af dat er op keuzevragen niet wordt geraden.


Wat voor een enkel vak en een enkele leerling valt te brekenen, is meteen te veralgemeniseren naar de hele groep eindexamenkandidaten, en alle vakken voor het examen. Daar zitten niet zulke geweldige problemen, al is een heel verraderlijk fenomeen toch het door Van Bijsterveldt aangescherpte karakter van hordenloop (waarbij de horden niet om mogen vallen, of maar een horde mag vallen, etcetera): de de slaagkans voor het examen in zijn geheel nadert dan al snel het product van de slaagkansen voor de afzonderlijke vakken. Reken dat maar eens uit wanneer de kans voor een enkel vak te slagen 0,95 is, wat op het eerste gezicht nog een aanvaardbaar risico lijkt in te houden .... . Neem er een tweede vak bij, en alleen op die twee vakken bezien is de slaagkans voor het examen nauwijls hoger dan 0,9! Etcetera.


Zolang deze eenvoudige berekeningen hier nog niet beschikbaar zijn, verwijs ik naar de eerste modulen van het SPA-project (zie menu bovenaan deze pagina), waarin voor een enkel vak de slaagkansen zijn door te rekenen, voor verschillende omvang van het aantal vragen in de toets, verschillende zak-slaaggrenzen, verschillende inzichten die de leerling heeft over de eigen beheersing van deze stof, etectera.


wiskunde eindexamen vwo


Voor informatie over het eindexamen wiskunde: http://www.eindexamen.nl/9336000/1/j9vvhinitagymgn_m7mvh57glijc7x5/vg41h1hf76wy.


18 juni 2008 opgaven wiskunde B1, vwo pdf. "Dit examen bestaat uit 18 vragen. Voor dit examen zijn maximaal 84 punten te behalen."

De puntenverdeling is als volgt:

  1. 4 punten
  2. 5
  3. 6
  4. 5
  5. 5
  6. 6
  7. 4
  8. 4
  9. 4
  10. 3
  11. 4
  12. 6
  13. 6
  14. 3
  15. 5
  16. 4
  17. 6
  18. 7


Deze vragen zijn niet altijd onafhankelijk van elkaar, bijvoorbeeld vraag 16 en 17 horen bij elkaar, gaan over een uitvoerig beschreven file-situatie.

Binnen iedere vraag zijn de te verdienen punten evenmin onafhankelijk, omdat het mogelijk is met een enkele onachtzaamheid alle punten te verspelen.

Voor het modelleren van deze toets zijn die afhankelijkheden lastig.



aannamen


Om snel een analyse te kunnen opzetten, is het handig om de 84 te verdienen punten te beschouwen als 84 afzonderlijke vragen waarop telkens een punt valt te verdienen. Met andere woorden: beschouw deze wiskundetoets als een toets bestaande uit 84 vragen.


Neem aan, tegen beter weten in, dat de vragen onafhankelijk van elkaar zijn. Dat betekent dat het antwoord op een vraag niet afhankelijk is van het op een andere vraag gegeven antwoord, etcetera. Dat deze aanname in flagrante strijd is met de werkelijkheid nemen we voorlopig voor lief, maar het betekent wel dat de toevalligheden voor de 'echte' toets grilliger zijn, en dus ook een bredere spreiding hebben, dan die voor de toets onder de aanname van onafhankelijkheid over 84 vragen.


Neem aan dat de vragen in de toets wiskunde er voor de individuele kandidaat uitzien alsof ze willekeurig zijn getrokken uit een heel grote verzameling van mogelijke vragen over de opgegeven wiskundestof.


Neem aan dat er zoiets is als 'beheersing van deze wiskundestof', en wel geoperationaliseerd als het percentage vragen uit die heel grote (denkbare) verzameling dat deze kandidaat goed zou beantwoorden, mits daartoe in de gelegenheid gesteld. Zeker, dit is een nogal metafysische aanname, maar dat hoeft helemaal geen belemmering te zijn omdat zal blijken dat deze aanname in de modelanalyses alleen als een soort katalysator functioneert. Aan het eind van de rit gooien we de aanname weer weg.


Wie meent dat de aanname van 84 onafhankelijke vragen voor deze wiskundetoets te mooi is om waar te zijn, kan op subjectieve gronden gewoon dat aantal verminderen, zeg tot 50 of 60 vragen, en de analyse doen (of herhalen) op dat aantal toetsvragen.


kandidaat met beheersing 0.6 (60%)


gif/bijster1.jpg


Gebruik nu applet 1 om te zien wat de kansen zijn voor een kandidaat met een beheersing van 0,6.

De afbeelding laat de resultaten zien van een simulatie van 100.000 toetsen. Daar is niets geheimzinnigs aan: voor iedere te simuleren toets wordt voor iedere vraag gesimuleerd of het antwoord goed is of niet door een willekeurig getrokken getal tussen 0 en 1 te vergelijken met de 0,6 van de gegeven beheersing: als het willekeurige getal kleiner is, dan is dit een vraag met een goed antwoord. De statistische verdeling die zo ontstaat is een binomiaalverdeling met parameter 0,6 en 100.000 waarnemingen.

Stel dat het voor deze kandidaat van belang is om tenminste 42 van de 84 vragen goed te hebben om te slagen voor niet alleen deze toets maar ook het examen in zijn geheel (de Van Bijsterveldt-variant), dan is de kans om te zakken 0,025, ofwel 2,5%.

Natuurlijk, de kandidaat met beheersing 0,5 heeft een zakkans van 50% als de grens 42 punten is (in feite 55%, met voordeel van de twijfel als het ware; als de grens 43 is: 45%). Enzovoort. Het applet maakt het mogelijk tal van varianten te simuleren.


Hier is het applet (dus niet een afbeelding ervan, maar het applet zelf), experimenteer er eens iets mee, begin met op de knop 'Go' te klikken:


Omdat JAVA nogal ingrijpend is veranderd (om veiligheidslekken te dichten), werken mijn oude applets niet meer onder de huidige versies van JAVA. Ik heb het applet hier dus verwijderd. [januari 2015]


kandidaat heeft 60% goed op een proefexamen


gif/bijster2.jpg


Gebruik nu applet 2 (klik op deze link, niet op bovenstaande afbeelding van het applet) om te zien wat de waarschijnlijke beheersing van de wiskundestof is voor iemand die bijvoorbeeld 60% van de vragen op een proeftoets van 84 goed heeft beantwoord.


Niemand weet van wie dan ook de 'ware' beheersing van de stof, ook de kandidaat zelf niet. Bij benadering valt er wel iets over de beheersing te zeggen, bijvoorbeeld op basis van een proefexamen. Veronderstel dat de proeftoets wiskunde eveneens 84 vragen heeft, en dat onze kandidaat er 50 goed heeft beantwoord (dicht in de buurt van die 60%), zodat zij zou kunnen denken: mijn beheersing moet 0,6 zijn (60%). Nou ja, het zal daar niet veel van afwijken. Hoeveel kan het afwijken? De afbeelding laat zien dat het veel kan afwijken, heel veel zelfs. Wie nog niet was geschrokken van de vrede spreding van mogelijke toetsscores bij een bekend veronderstelde beheersing, zal dat zeker doen bij deze kwantificering van de o(on)zekerheid over de eigen beheersing, gegeven een prestatie op een in alle opzichten met de examentoets vergelijkbare proeftoets.

De figuur laat niet een statistische verdeling zien, maar een aannemelijkheidsfunctie, of kortweg een aannemelijkheid. De functie is overigens nauw verwant, identiek aan of afgeleid van de statistische betaverdeling.

De techniek voor de simulatie is bepaald iets ingewikkelder dan bij de gegeven beheersing in de voorgaande paragraaf, maar laat zich wel kort schetsen zonder daarbij statistiek nodig te hebben. Dat is juist de charme van de simulatie: die maakt geen gebruik van statistische theorie; de mogelijkheid om een analytische aannemelijkheid te evalueren en te plotten doet dat wel. Het gaat wel een beetje met hulp van domme kracht: voor een aantal mogelijke waarden die de beheersing zou kunnen hebben, wordt een groot aantal bijbehorende toetsscores gesimuleerd, en daarvan wordt de proportie bepaald die gelijk is aan de proeftoetsscore. Op basis van die proporties wordt de aannemelijkheid geplot, met een vertaling van zijn maximum naar de waarde 1. Voor alle details verwijs ik naar het bij module 2 behorende hoofdstuk likelihood van het SPA-model.


kandidaat voorspelt nu de (verdeling voor de) examentoetsscore


gif/bijster3.jpg


Gebruik nu applet 3 (klik op deze link, niet op bovenstaande afbeelding van het applet) om te zien wat de voorspellende scoreverdeling voor de examentoets is voor iemand die bijvoorbeeld 60% van de vragen op een proeftoets van 84 goed heeft beantwoord. Dit applet geeft niet zonder meer ook de slaagkans, maar het verwachte nut ExpU. De nutsfunctie heeft waarde 1 voor scores groter of gelijk 42, en overigens nul. Dat betekent dat verwacht nut met deze functie van drempelnut eenvoudig gelijk is aan de slaagkans. Net iets beter dan 0,9, of 90%. Had u dat verwacht?


De techniek voor het simuleren van een voorspellende toetsscoreverdeling is simpel, gegeven dat een aannemelijkheid voor de beheersing beschikbaar is, dus gegeven dat de simulatie zoals met applet 2 beschikbaar is. In feite wordt die simulatie in applet 3 natuurlijk gewoon overgedaan, het ophalen van bestanden etcetera zou waanzinnig complex worden. Het simuleren bestaat dan uit het een groot aantal keren willekeurig trekken van een waarde uit de oppervlakte onder de aannemelijkheid, en op basis van de zo getrokken beheersing een toetsscore simuleren. That's all there is to it.

Voor de liefhebbers: de analytische statistische verdeling staat bekend als de betabinomiaalverdeling, ook wel de Polya-verdeling, of de negatief-hypergeometrische verdeling geheten.


Voor een enkele kandidaat, jazeker. Maar voor de subgroep van alle kandidaten met dezelfde proeftoetsscore is dus de voorspelling dat tien procent van deze groep kandidaten ondanks een score van 50 uit 84 op de proeftoets wiskunde, voor de examentoets wiskunde een score lager dan 42 gaat halen! Dat is ernstig. En dan hebben we het nog alleen over de toets wiskunde. Dan is er ook nog zoiets voor Engels, en Nederlands. En denk eraan dat deze analyses zijn gedaan onder vereenvoudigende vooronderstellingen die een rooskleuriger beeld geven dan de werkelijkheid rechtvaardigt.


Merk op dat deze analyse stilzwijgend uitgaat van de vooronderstelling dat deze kandidaat zakt voor het examen als het resultaat op de wiskundetoets beneden de 42 uitkomt. Er zijn tenminste twee situaties waarin deze vooronderstelling terecht kan zijn:

  1. het is al bekend dat voor wiskunde een '5' nog juist doet slagen voor het examen, omdat de cijfers voor Engels en Nederlands al bekend zijn en beide voldoende, terwijl ook het CE in zijn geheel met een '5' voor wiskunde toch gemiddeld voldoende zal zijn. De score 42 levert dan, zeg, een 4,5+ op.
  2. het is al bekend dat voor wiskunde tenminste een '6' moet worden behaald, omdat een van de vakken Nederlands of Engels al met een '5' is gehonoreerd (en de andere voldoende is). De score 42 staat dan voor een waardering 5,5+, af te ronden op examencijfer '6'


Geen van beide stilzwijgende vooronderstellingen zijn realistisch, want al veel eerder moet de kandidaat zien in te schatten of de kansen om voor het examen te zakken zo groot zijn, dat nog een paar weken/dagen/uren alles op alles moet worden gezet om de beheersing te verbeteren.


Het is waarschijnlijk nodig om de voorspelling twee keer te doen: een keer op de grens die nog net een '5' oplevert, en nog een keer op de grens die nog net een '6' oplevert. Het verschil tussen beide kansen, tenminste een '5' min tenminste een '6', is de kans om een '5' te scoren. Laten we zeggen dat voor een '6' een score van 42 goed nodig is, voor een '5' een score 36.


gif/bijster4.jpg


De kans om minder dan 36 vragen goed te scoren is 0,0124.

Het verschil is 0,0896 - 0,0124 = 0,0772 is de kans om een '5' te scoren.


wiskunde, Nederlands, Engels


Centraal examen gemiddeld voldoende


"Het eindcijfer van het examen is het gemiddelde van het schoolexamen en het centraal examen. Behaalde onvoldoendes voor het centraal examen kunnen leerlingen nu nog compenseren met voldoendes van het schoolexamen. Dit wil de staatssecretaris veranderen. Leerlingen kunnen in de toekomst alleen slagen als het eindcijfer voor het centraal examen gemiddeld een voldoende is. Daarnaast mogen examenkandidaten van havo en vwo maximaal één vijf binnen de vakken Nederlands, Engels en wiskunde als eindcijfer halen. Over deze norm vraagt Van Bijsterveldt aanvullend advies van de Onderwijsraad voor het vmbo. Met de maatregelen volgt zij voor een groot deel het advies op uit het Onderwijsraad-rapport "Doorstroom en talentontwikkeling" en sluit zij aan bij de aanbevelingen van de commissie Dijsselbloem." (vet: b.w.)

http://www.minocw.nl/actueel/nieuws/35696/Van-Bijsterveldt-verscherpt-de-exameneisen.html


Als het gemiddelde (in de definitie van de staatssecretaris) voldoende blijft, mag een van de drie vakken wiskunde, Nederlands of Engels met een '5' gehonoreerd zijn (op het centraal examen (CE)). Hoe riskant is dat voor kandidaten?

Voor wiskunde, verdergaand met het casus in de voorgaande paragraaf, is voor de betreffende kandidaat de kans een '5' voor wiskunde te scoren 0,08 (afgerond). De kans een onvoldoende te scoren is 0,01, dan is de kandidaat in alle mogelijke varianten gezakt voor het examen.

Veronderstel nu dat voor Nederlands en Engels de kans om een '5' te scoren eveneens 0,08 is.

De mogelijke 'winnende' combinaties zijn dan als volgt, veronderstellend dat een enkele vijf het gemiddelde voor het CE nog voldoende laat zijn:

  1. alle drie vakken voldoende, de kans daarop is: 0,91 . 0,91 . 0,91 = 0,7536
  2. een vak een vijf, de beide andere voldoende, dat kan dus op drie manieren: 3 ( 0,08 . 0,91 . 0,91 ) = 0,19875


Dan leert een eenvoudige berekening, omdat alle andere mogelijkheden tot direct zakken voor het examen leiden: 1 - 0,7536 - 0,19875, dat de kans om op deze drie vakken voor het examen te zakken 0,048 is, zeg maar 5%. [NB Hier zit een afwijking in die door het discrete karakter van de uitgangsaantallen is ontstaan. Een doorrekening op n=80 komt op 3,3% uit] Ofwel: een op de twintig tot dertig kandidaten met dezelfde voorspellende toetsscoreverdelingen zal voor het examen zakken. Let op: het casus is dat op de proeftoetsen voor deze vakken de score 50 uit 84 is geweest, terwijl voor een '6' tenminste een score van 42 nodig is. Ongeacht de resultaten van het schoolonderzoek. Ongeacht of kandidaten het schoolprogramma in de kortst mogelijk tijd (jaren) en met goede resultaten hebben afgelegd. Wil Van Bijsterveldt dit echt? Of heb ik ergens een foutje gemaakt? Natuurlijk, ook bij volledige compensatie van van alles en nog wat blijft het zo dat kandidaten een zeker risico om verschrikkelijke pecht te hebben, zelf zullen moeten dragen. Maar is wat Van Bijsterveldt, de Onderwijsraad, Jaap Dronkers, en BON willen redelijk (gezien de ervoor te betalen prijs)? Welk doel is ermee gediend? Want bedenk wel dat degenen die de prijs gaan betalen, door het lot worden aangewezen. Ik heb daar enige ervaring mee, en er zijn situaties waarin loten het kleinere kwaad kan zijn, maar zo'n situatie hebben we hier toch niet bij de hand.


NB. Het bovenstaande is vers van de pers, maandag 27 oktober uitgevoerd, ik houd een slagje om de arm voor de juistheid van de analyse zoals tot hier uitgevoerd, maar veel ruimte voor echt andere uitkomsten is er bepaald niet. De crux zit hem in het moeten vermenigvuldigen van conjunctieve slaagkansen voor de drie vakken wiskunde, Nederlands en Engels. Dat is een mokerslag.


Gevoeligheid van de aanname van de sterkte van de toets: doorrekening op 25 - 30 - 35 - 40 - 50 -55 - 60 - 65 - 70 - 75 - 80 vragen


Ik heb een reeks doorrekeningen gemaakt, voor aantal vragen in de toets van 20, 30, 40, 50, 60 en 70, telkens ook een proeftoets met even grote omvang. Verder dezelfde vooronderstellingen: 60% goed op die proeftoets, bij 50% goed een '6', bij 40% goed een '5'. De zakkansen, op dezelfde wijze berekend als hierboven onder de vooronderstelling van 84 vragen in de toets, zijn dan respectievelijk:


0,256 — 0,185 — 0,130 — 0,092 — 0,065 — 0,047 — 0,033.



zakkans op de vakken wiskunde, Nederlands en Engels, gegeven 60% goed op een proeftoets van dezelfde veronderstelde lengte als de examentoets voor dat vak

----------------------------------------------------------------
 n ref  p6+ ref p5+  p5  p6^3 3p5p6^2 zakkans
----------------------------------------------------------------
 20 10 .780  8 .921 .141 .475 .269   .256
 30 15 .813 12 .953 .140 .537 .278   .185
 40 20 .840 16 .971 .131 .593 .277   .130
 50 25 .862 20 .982 .120 .641 .267   .092
 60 30 .881 24 .989 .108 .684 .251   .065
 70 35 .896 28 .993 .097 .719 .234   .047
 80 40 .910 32 .996 .086 .754 .213   .033
----------------------------------------------------------------
n = aantal vragen in de toets = aantal vragen in proeftoets
aantal vragen goed in proeftoets is verondersteld: 0,6n
ref = grens tenminste voldoende, resp tenminste '5'
p6+ = kans op tenminste een '6'
p5+ = kans op tenminste een '5'
p5 = kans op precies een '5'
p6^3 = p6+ tot de 3e macht
3p5p6^2 = 3 (p5 . p6+ . p6+)
zakkans = kans te zakken op wiskunde, Nederlands en Engels = 1 - p6^3 - 3p5p6^2


Deze reeks leert dat de aanname over het aantal vragen in de toets heel kritisch is. De werkelijkheid ligt ergens tussen de letterlijk 18 vragen in de wiskundetoets, en de 84 punten die deze vragen waard zijn. De zakkans voor wiskunde, Engels en Nederlands heeft dan ook een enorm bereik van 0,25 tot 0,03. Neem toetslengte 50 als mogelijk representatief, dan is volgens deze specifieke modelberekening—andere berekeningen zijn mogelijk!—de kans om te zakken op de kernvakken wiskunde, Nederlands en Engels als op proeftoetsen voor deze vakken 30 uit 50 goed is gemaakt: 9%. Ofwel: ongeveer negen van de 100 kandidaten die een vergelijkbare proeftoetsprestatie leveren, zullen zakken. Goeddeels is dat voor de betrokkenen een loterij (als zij niet echt meer informatie hebben dan de score op de proeftoets oplevert), maar dat is voor examens met harde zak/slaaggrenzen altijd het geval (door Edgeworth, 1888, al goed uitgelegd). Dat neemt niet weg dat een eis van transparantie (A. D. de Groot, 1970, zie hier) is dat zo mogelijk dit soort willekeurigheid in examens zo klein mogelijk moet worden gehouden.


Ik zal nog een variant doorrekenen: die met als aanname 50 vragen in de toets, en het dubbele in de proeftoets. Dat laatste is nog helemaal niet zo'n gek idee. Het is namelijk mogelijk om de informatie die de leerling over het eigen presteren in het laatste jaar heeft opgedaan, ook in termen van een proeftoetsresultaat te vertalen. Een beetje Bayesiaanse benadering, voor wie dat wat zegt. De voorspellende toetsscoreverdeling geeft dan voor alleen wiskunde aan dat de kans 0,898 is om tenminste een '6' te scoren, 0,992 om tenminste een '5' te scoren, dus 0,094 om precies een '5' te scoren. Dan: 1 - 0,724 - 0,227 = 0,049. Een verdubbeling van de beschikbare informatie over de eigen stofbeheersing resulteert in een veel betere voorspelling: de zakkans is nu 5%, in plaats van de eerdere 9%.


CE op zich gemiddeld voldoende


Het effect van de maatregel dat het CE op zich gemiddeld voldoende moet zijn, is dan eenvoudig door te rekenen. Daar zijn natuurlijk weer geschikte aannamen voor nodig, als u denkt dat andere aannamen beter zijn dan rekent u alles door onder uw eigen aannamen.

Het Cito heeft deze variant toegepast op historische examengegevens voor het vwo. Het percentage gezakten stijgt dan van 6,4 naar 12,6%. Het Cito geeft geen details voor deze berekening, er valt dus niets aan na te rekenen of te variëren. Over welke vakken dat allemaal gaat is mij onbekend. Maar let op: waarschijnlijk is op basis van deze berekeningen een publicatie in Pedagogische Studiën verschenen, met een klassieke beschouwing die uitgaat van de fictie van examenkandidaten die terecht of ten onrechte zijn geslaagd danwel gezakt:




P. van Rijn, A. Béguin & H. Verstralen (2009). Zakken of slagen? De nauwkeurigheid van examenuitslagen in het voortgezet onderwijs. Pedagische Studiën, 86, 185-195. abstract .doc

Peter van Rijn (2009). Mogelijke effecten van verschillende uitslagregels. Wat betekent een andere weging van de prestaties op het centraal eindexamen. Examens. Tijdschrift voor de Toetspraktijk, 6 #3, 5-8. pdf


Neem aan dat er zowel in het SE als in het CE acht examenvakken zijn, en dat deze vakken even zwaar meewegen in het totaalresultaat. Maak gebruik van de voorgaande simulaties door dat gesimuleerde vak wiskunde als model te nemen voor alle vakken; neem aan dat de sterkte van de wiskundetoets 50 vragen is. Neem aan dat de kandidaat waarvoor we de slaagkansen gaan bepalen, voor alle vakken een proeftoets heeft afgelegd die vergelijkbaar is met de examentoets, dus ook 50 vragen sterk is, en daarop mirabele dictu overal ca 27 goed heeft gescoord.

NB: omdat in feite het examen een gestratificeerde trekking van vragen is uit de diverse vakken, is de daaruit volgende complicatie te vermijden door aan te nemen dat de student over alle vakken over dezelfde proeftoets-informatie beschikt: waar de volgende examenvraag ook uit getrokken wordt, de verwachting dat de vraag goed kan worden beantwoord is dan altijd dezelfde.


De voorspellende toetsscoreverdeling die we zoeken is die voor een toets van 800, respectievelijk 400 vragen, met als zak-slaaggrens respectievelijk 400 en 200 goed. De aannemelijkheid voor de beheersing van de gezamenlijke stof is gelijkwaardig aan respectievelijk 430 goed uit 800 proeftoetsvragen, en 215 goed uit 400 proeftoetsvragen. Deze aantallen goed zijn zo gekozen dat er een interessante kans om te zakken is (bij 200 uit 400 zijn slaagkansen altijd rond 50%, wat verder boven 215 dan is het al gauw zo dat de kandidaat vrijwel zeker is te slagen). Wie daar nog allerlei verfijningen op aan wil brengen, kan dat vrijelijk doen, maar het gaat hier om een goede eerste indruk van het effect van opknippen van de exameneis van een minimum totaalscore naar een minimum deeltotaalscore.


gif/bijster5.jpg


Zowel een simulatie op 1000 gevallen (groen ingevuld), als de analytische voorspellende examenscoreverdeling (zwarte lijnplot) zijn hier geplot. De zakkans voor deze kandidaat is 0.064, ofwel 6,4%, vergelijkbaar met het percentage gezakten voor de totale groep zoals in het Cito-rapport gegeven.


gif/bijster6.jpg


Dezelfde analyse, maar nu alleen voor het CE, komt uit op een zakkans van 0,137, ofwel bijna 14%. In feite is de zakkans voor het examen in zijn geheel nog een fractie groter, omdat het SE het totaal nog naar beneden kan trekken beneden de huidige aftestgrens. De grootte van het effect is vergelijkbaar met de post-hoc analyse van het Cito op de totale groep studenten, waarvan onder de huidige regeling 6,4% zou zijn gezakt, onder de nieuwe regeling 12,6%.

De horizontale schaal van de laatste figuur is een factor twee groter dan die van de voorlaatste, om beide beter vergelijkbaar te maken. Het blijft met dit soort zaken evenwel behelpen, want daarmee zijn de figuren in andere opzichten juist weer minder goed vergelijkbaar. De applet maakt de ingreep in de horizontale schaal mogelijk, maar met de beperking dat deze tenminste 1 pixel per 'vraag' is. Daarmee komt een examen van 800 vragen net niet uit binnen de voor het applet gedeclareerde ruimte. Enzovoort enzoverder.


Voor de hele groep examenkandidaten


Ik moet hier nog even goed over nadenken. Het probleem met zo'n groepsanalyse is een heel andere dan die waarvoor het Cito zich stelde: de strategische situatie voor de groep kandidaten voorafgaand aan de examens is een bijzondere optelsom van de strategische positie van ieder van die kandidaten afzonderlijk, terwijl voor een post-hoc analyse zoals door Het Cito uitgevoerd het volstaat eenvoudig alle cijfers te sommeren en de resultaten te vergelijken met huidige, reps. voorgestelde aftestgrenzen.

Het probleem heeft mogelijk ook te maken met gestratificeerd trekken van vragen, een verfijning die op de analyse in de voorgaande paragraaf aangebracht zou kunnen worden, en voor de groepsanalyse mogelijk noodzakelijk is. Voor het gestratificeerd trekken van toetsvragen is in module 1 van het SPA-model wel een voorziening getroffen, maar mogelijk nog niet in de erop volgende modulen doorgevoerd. De technische problemen daarbij zijn in ieder geval als volgt: het casus van gestratificeerd trekken uit 8 of 9, laat staan uit 18 subdomeinen is met deze programmatuur niet (zonder meer) mogelijk; de analytische situaties is lastig omdat de som van twee of meer biomiale verdelingen zelf geen binomiale verdeling is; daar staat tegenover dat het simuleren van gestratificeerd trekken van examenvragen tamelijk probleemloos is uit te voeren.


Een eerste gedachte, in statistische termen, is de volgende. De verdeling van eindexamencijfers (of punten, voor wie daar makkelijker in denkt; strikt genomen gata het natuurlijk om de ruwe scores) kan worden benaderd met een betabinomiaalverdeling. Als een goede benadering kan worden gevonden, geven de parameters van deze betabinomiaal de betaverdeling van vaardigheden waaruit de waargenomen frequentieverdeling zou kunnen zijn ontstaan. Je zou daar nog wat ingewikkelder over kunnen redeneren: er zijn meerdere betaverdelingen denkbaar, sommige overlappen 'beter' met de gegeven frequentieverdeling dan andere, er is dus een aannemelijkheid over die verschillende betaverdelingen te construeren. Welnu, de meest aannemelijke betaverdeling is die met dezelde parameters a en b als van de best op de frequentieverdeling passende betabinomiaalverdeling. Stel nu die betaverdeling is voor het examen in huidige stijl gevonden, de vaardigheden van de landelijke groep geëxamineerden zijn dan bekend, voor de combinatie van SE en CE vakken. Wat kunnen we dan zeggen over de vaardigheden voor alleen de CE-vakken? Is dat dezelfde verdeling, of is het dezelfde verdeling maar mogelijk een fractie verschoven naar een lager niveau, of is het een verdeling die een iets grotere spreiding heeft dan de totale verdeling? Het valt uit te proberen met het applet 'De predictor.' Een verrassende eerste poging laat zien dat de eis van voldoende voor het CE maar een heel kleine vergroting van de zakkans oplevert wanneer dezelfde verdeling voor de vaardigheid wordt verondersteld. Dat laatste is natuurlijk niet realistisch, want het is bekend dat er een gemiddeld verschil is tussen SE en CE van, laten we zeggen, 0,2 cijferpunt. Voor een toets van 50 vragen zou dat 1 vraag minder goed op het CE kunnen zijn, vergeleken met het SE. Voor 8 examenonderdelen zijn dat 8 vragen minder goed. Afgezet tegen het totaalgemiddelde zijn dat 4 vragen minder goed.


gif/bijster7.jpg


Dit zou een analyse op groepsniveau kunnen zijn, niet uitgaande van de strategische situaties waar de kandidaten zich voor bevinden, maar een post-hoc institutionele analyse. De huidige regeling, aangenomen dat CE + SE het equivalent is van 800 examenvragen, dat de zak-slaaggrens ligt op 396 punten, dat het percentage gezakten 6,4 is, en de spreiding van de scoreverdeling behoorlijk groot is. Een beetje proberen met de parameters in het applet komt dan uit op de parameters a=19 en b=11 voor de betabinomiaalverdeling die 7% gezakten oplevert bij een zak-slaaggrens van 396 op 800 vragen. Waarom 396? Uitgaande van de overweging dat CE-vakken hogere cijfers opleveren dan SE-vakken, om welke mogelijk complexe redenen dan ook, en dat de zak-slaaggrens voor het SE op 50% goed ligt, ligt die voor de combinatie van SE en CE, volgens de redenering in de voorgaande alinea, daar de helft van in dit geval 8 vragen onder. Dit is allemaal voorbereiding op de crux van deze kortte analyse: wat is de scoreverdeling dan voor alleen de CE-vakken?


gif/bijster8.jpg


Voor alleen de CE-vakken is het totale aantal vragen de helft, dus 400, en de zak-slaaggrens ligt op 200. Met andere woroden: voor alleen het CE ligt de lat iets hoger. En daar komt bij dat voor het CE het gemiddelde vaardigheidsniveau juist wat lager is dan het overall vaardigheidsniveau: in plaats van parameters 19 en 11, nu parameters 18 en 12 (samen nog steeds dertig, de spreiding van de vaardigheden binnen de groep is voor de CE vakken ongeveer even groot als met de SE vakken erbij). Het zakpercentage komt dan op bijna 15%. Daar moet onmiddellijk bij worden opgemerkt dat deze uitkomst heel gevoelig is voor de gemaakte aannamen, het zegt dus niet zo gek veel. Wel is het zo dat de stijging van het zakpercentage in deze post-hoc groepsanalyse vooral is te danken aan het niveauverschil tussen SE en CE, waarvoor is uitgegaan van een getal dat ook in het Cito-rapport voorkomt: 0,2 cijferpunt verschil tussen SE (hoger) en CE (lager).


Opmerkelijk is dat bij de grote aantallen examenvragen waarvan ook nog steeds sprake is bij alleen het CE, het uitsluiten van compensatie tussen SE en CE op zich niet tot een echt merkbaar grotere zakkans leidt. Het is het verdisconteren van het systematische verschil tussen SE en CE dat tot verhoging van het zakpercentage leidt.

Ik moet eerlijk zeggen dat ik een merkbaar effect had verwacht van het opknippen van het examen in twee delen die ieder op zich voldoende moeten zijn. De grote omvang van het CE op zich is kennelijk in staat het effect goeddeels te dempen. Het nut van doorrekenen van zo'n variant is dat onjuiste verwachtingen gecorrigeerd kunnen worden, dat blijkt maar weer eens.


Houd wel in de gaten dat deze analyse van de voldoende eis op het CE niets heeft te maken met de eerdere analyse van de specifieke eisen voor wiskunde, Nederlands en Engels. Daar werd wel een groot effect gevonden, omdat het over een of twee toetsen gaat, niet over een combinatie van acht toetsen.


Deze hele analyse is erg ad hoc, en vooral post hoc. Ik zou graag voor een individuele kandidaat die nog in de voorbereiding op het examen zit de strategische positie willen bepalen met betrekking tot de nieuwe eis dat het CE op zich ook voldoende moet zijn. Als de resultaten van die oefening geen open deur zijn, wil ik vervolgens ook nog bestuderen of er een mogelijkheid is om combinaties te maken van strategische posities van kandidaten, voorafgaand aan het examen. Als dat probleem is op te lossen voor twee kandidaten, bijvoorbeeld met een tweede kandidaat die zich ongeveer qua beheersing op de zak-slaaggrens bevindt, dan is een combinatie van meer dan twee kandidaten waarschijnlijk ook te maken. Dat zal dan in de programmatuur moeten worden ingewerkt, dus het ziet er net naar uit dat ik op korte termijn deze analyse kan leveren.





Er zijn natuurlijk meer verkenningen mogelijk. Ik som er een aantal op, en zal nog bekijken welke zich lenen voor een kwantitatieve studie.


Het is mogelijk de strategische voorbereiding diepgaander te analyseren, door daar ook een leermodel op te zetten, nutsfucnties die rekening houden met mogelijk voor compensatie te gebruiken extra punten, nutsfuncties die rekening houden met de persoonlijke consequenties van zakken voor het examen (en eventuele herkansingsregelingen die er dan nog zijn). Al deze onderwerpen zijn uitgewerkt in de volgende modulen van het SPA-model, waarvoor ook telkens weer applets beschikbaar zijn waarin tal van strategische mogelijkheden onder tal van examenreglingsvarianten zijn door te rekenen/simuleren. Ik vermoed dat hier niet de essentiële punten liggen waarop het voorstel van Van Bijsterveldt doorgerekend zou moeten worden, maar ik noem het toch maar.


Heel iets anders is dat het spel tussen leerlingen en docenten zich eveneens laat kwantificeren. Dat spel bestaat uit enerzijds studenten die meer danwel minder tijd aan de studie voor dit vak respectievelijk andere vakken willen besteden, en anderzijds docenten die prestaties met hogere dan wel lagere cijfers willen honoreren dan andere docenten doen, etcetera. Adriaan de Groot heeft dit spel in zijn 'Vijven en zessen' (1966) in de bekende termen van de lerarenvergadering etcetera beschreven. Maar er is door James Coleman een toepasselijk model ontwikkeld waarin deze heel complexe dynamische wederkerigheden toch kwantificeerbaar blijken te zijn (ik heb er in 1992 een paar papers over geschreven, gebruik makend van een geschikte dataset van een Amsterdamse faculteit). Het is in zoverre direct relevant voor wat Van Bijsterveldt probeert te veranderen, omdat het laat zien dat de ingreep van Van Bijsterveldt heel eenzijdig is, en dus voorspelbaar effectloos zal blijken te zijn, zodra zich een nieuw evenwicht heeft ingesteld tussen de partijen die in het examenspel zijn betrokken. Ik geef toe, dit gaat ver, en ik kan dit niet makkelijk kwantificeren. Maar het is belangrijk genoeg om het te noemen. Het is een wat ingewikkelde variant op een overigens in de literatuur bekend fenomeen dat aangescherpte selectie van wat dan ook, na razend korte tijd effectloos blijkt te zijn gemaakt doordat betrokkenen tesamen het oude evenwicht weer hebben gevonden. Dat is trouwens niet helemaal waar: aangescherpte selectie betekent weliswaar niet dat uitval in het eerste jaar op den duur vermindert, maar ondertussen wordt wel meer kandidaten de toegang geweigerd, en is er dus een maatschappelijk verlies. Deze variant is wel herkenbaar in het voorstel van Van Bijsterveldt: het belooft een betere overgang naar het HO, maar juist dat is voorspelbaar een fata Bijsterveldiana. Ondertussen zijn er wel hogere faalpercentages voor de eindexamens. Maatschappelijk verlies, dus.


Van Bijsterveldt wil compensatie tussen schoolonderzoek en CE beperken. Dat leent zich ongetwijfeld eveneens tot eenvoudige kwantitatieve analyse.


Vergelijk de marginale kandidaat onder de huidige regeling met de marginale kandidaat onder die van Van Bijsterveldt: hoe verschillen zij? Niet in de slaagkans zelf, een marginale student heeft slaagkans 0,5 (50%), maar mogelijk wel in de spreiding voor die slaagkans, in het beheersingsniveau dat impliciet door de Van Bijsterveldt regeling wordt gedefinieerd.


De kwestie van norm versus aftestgrens: de norm is een ideaal, en levert als zodanig nog geen houvast voor cijfergeven en zakgrenzen op. Voor aftestgrenzen (zakgrenzen) moet een afweging worden gemaakt tussen heel veel dingen, maar in ieder geval de kans ten onrechte een juist aan de norm voldoende kandidaat af te wijzen, versus de kans een kandidaat toe te laten met een beheersing die een bepaalde afstand beneden die norm ligt. Maar zelfs zo'n berekening is gewoon natte-vinger-werk, want uiteindelijk gaat het erom winst en verlies zelf te kwantificeren, zo mogelijk in de vorm van nutsfuncties. En wat zijn dan de ultieme criteria om winst en verlies aan af te meten? Is dat studiesucces in hoger onderwijs? Is het gewoon tijdverlies? Or what?


Normen: elastiek? Posthumus (1940, in De Gids) heeft de permanente schifting in de HBS aangeklaagd aan de hand van driekwart eeuw overgangscijfers. Wat er in de wereld ook gebeurde, de HBS-docenten lieten altijd rond de 25% van de leerlingen zitten. En dat is het eeuwige probleem met het zetten van zak-slaaggrenzen: hoe kun je dat anders doen dan op zo'n relatieve manier? Als voor een of ander examenvak er onverwacht veel kandidaten onvoldoende scoren, is de Cevo er als de kippen bij om de norm aan te passen. Hoe moet je dat dan anders doen? En wat is de relatie tot het gesleutel van Van Bijsterveldt en andere protagonisten aan de examenregeling? Kijk, er is een koninklijke oplossing voorhanden: die groep kandidaten die gekwalificeerd zijn om eindexamen af te leggen, omdat zij voldoende tijd hebben besteed om op het norm-niveau van beheersing gekomen te zijn, die hoort in zijn geheel te slagen. Vreemd? Helemaal niet, zo deden de meesters van de Universiteit van Parijs dat in de late middeleeuwen. De meester bepaalde of je gereed was voor het examen, vervolgens werd dat examen door andere meesters afgenomen. Vreemd? Helemaal niet, dat is precies zoals vandaag de dag promoties nog steeds in hun werk gaan. Het kan dus best. Als Van Bijsterveldt iets aan de motivatie en het niveau wil doen, kan ze beter wegkijken van de huidige examens, en de blik op het onderwijs richten, hoe docenten dat geven, hoe docenten de leerlingen naar dat eindniveau begeleiden. Klinkt een beetje ouderwets, want de volgende stap lijkt te zijn dat er een mondelinge toets komt met een gecommitteerde van buiten erbij. Dat leidt dan tot de vraag of het gestandaardiseerde deel van het examen niet teveel in belang is opgeklopt, en een probleem voor de kwaliteit van het onderwijs is geworden. Jazeker, want het heeft de positie van de leraren mogelijk uitgehold, zoals de regeling van Van Bijsterveldt die positie ook weer aantast. Laat leraren doen waar zij voor zijn aangesteld: leerlingen onderwijzen en beoordelen, want die leerlingen moeten inhoudelijke feedback krijgen. Tot en met het eindexamen, dat weinig meer dan een formaliteit hoort te zijn. Toch?




Gooi geen informatie (=resultaten SO) weg!


Het is niet voor het eerst dat er aan de strengheid van de beoordeling van het SO wordt getwijfeld: bij de regeling van de toelating voor numerusfixusstudies spelen eindexamenresultaten een rol, dus ook de gedachte alleen het CSE daarvoor te gebruiken. Hofstee (pers. meded.) wijst mij erop dat de 'Werkgroep Wiegersma' zoiets had voorgesteld, en dat bewijsbaar is dat buiten beschouwing laten van het SO betekent dat een mogelijkheid onbenut blijft om de door het CSE gemeten beheersing beter te schatten. Lees de laatste zin nogmaals. Het gestelde blijft waar, ook als er verschillen in strengheid zijn. Ik geef hier de persoonlijke mededeling van Hofstee over het methodologische punt.
Hofstee (pers. meded): "Eind jaren 70 heb ik met medewerking van Ivo [Molenaar], Jos [ten Berge] en Charley Lewis het jou dacht ik bekende true-scores modelletje voor de onderlinge verdiscontering van CSE en SO gepresenteerd (zie o.a. Tijdschrift voor Onderwijsresearch 1979). Dat model speelde op het niveau van de individuele leerling. Als je dat langs de lijnen van de multilevel-analyse opleukt naar het niveau van de klas of de school, krijg je de volgende parallelredenering:

  1. het CSE-cijfer op dat aggregatieniveau is nog steeds een imperfect betrouwbare variabele (over scholen etc.);
  2. je kunt dus de voorspelling van de betreffende true score verbeteren door naast de geobserveerde CSE-score de SO-score op te nemen in de multipele predictie van die true score;
  3. waarschijnlijk zal ook op dit aggregatieniveau gelden dat zelfs een ongewogen (in plaats van optimaal gewogen) gemiddelde van CSE en SO een betere predictie geeft van de CSE-true score dan de geobserveerde CSE-score levert.


Het buitengewoon geinige -- als dit allemaal blijkt te kloppen -- is dat je aldus de CSE-fanaten met hun eigen argumenten om de oren slaat. Immers, je gaat (al is het maar bij wijze van concessie) uit van het primaat van het CSE, en gebruikt het SO louter als een 'booster' om de ware CSE-score beter te schatten; vervolgens toon je aan dat beoordeling van scholen (of leerlingen) louter op basis van CSE irrationeel en contraproductief is."

W. K. B. Hofstee (1979). Schatting van de true score met inachtneming van andere variabelen. Tijdschrift voor Onderwijsresearch, 4, 38-40.




Roept u maar


"... een lobby beloond ..." (redacteuren NRC)


"Jammer dat er één 5 mogelijk blijft op Nederlands, Engels en wiskunde, zegt Jaap Dronkers. "Ik wilde voor all drie de vakken voldoende. Maar dat was misschien ook iets té woest."


Ook Pechtold had liever drie voldoendes gezien op Nederlands, Engels en wiskunde, zo laat hij weten. "Maar deze maatregel is al een hele goede stap voorwaarts. Hiermee laat het kabinet zien dat je een probleem voor het leven hebt als je met de kerncompetenties Nederlands, Engels en wiskunde niet uit de voeten kan."


De Onderwijsraad zegt dat de regels zullen bijdragen aan een betere aansluiting tussen voortgezet en hoger onderwis.


De nieuwe regels leiden mogelijk tot een verdubbeling van het aantal gezakten op vmbo, havo en vwo, zegt Van Bijsterveldt. Maar dat kan meevallen als leerlingen gaan anticiperen op de nieuwe regels, en beter hun best doen."

Japke-D. Bouma en Marieke van Twillert (redacteuren NRC) (29 oktober 2008). Calculerende scholier krijgt het lastiger. NRC Handelsblad Binnenland


Alsof de toegeschreven positieve effecten ook werkelijk zullen gaan optreden, alsof er geen nadelen en kosten zullen zijn. Ah, Pechtold voelt wel nattigheid: "Pechtold zegt erop te gaan toezien dat scholen voldoende geld krijgen." Pechtold zegt niet waar dat extra geld dan weggehaald kan worden, dat valt me van deze eerlijke politicus toch wat tegen. Hij heeft waarschijnlijk ook geen flauw idee van de mogelijke kosten, en welke partijen die op moeten brengen. Het departement lijkt geen schattingen van kosten te hebben gemaakt. Ik geef een idee: de maatregel leidt tot studieduurverlenging voor een bepaald niet verwaarloosbare groep, leerlingen die de dupe worden zouden een claim op de staat in kunnen dienen gebaseerd op laten we zeggen een half jaarsalaris van een 25-jarige hoogopgeleide werknemer (gederfd inkomen) plus onderhoudskosten van een half jaar.

De uitspraken van Onderwijsraad en Van Bijsterveldt staan in het artikel in de andere volgorde. Ik vind mijn volgorde onthullender: Van Bijsterveldt lijkt hier het tertiair onderwijs (ook het mbo) via een omweg toch zijn extra selectie-aan-de-poort te geven.

Natuurlijk, steviger eisen stellen gaat leiden tot ander gedrag van scholieren. Ik ben een heftig voorstander van steviger eisen, heb daar ook een strak model voor uitgewerkt (hier), een model dat in hoofdlijnen al in 1970 door Robert van Naerssen werd aangegeven (html). Maar de extra eisen van Van Bijsterveldt houden extra risico's in voor de scholieren, en zullen dus niet vanzelf tot betere inspanningen, maar mogelijk juist tot ontwijkend gedrag leiden. Als politicus moet je toch wel een beetje een idee hebben van de balans tussen die twee: winnen de extra inspanningen het van ontwijkend gedrag? Of zou het ook heel anders uit kunnen pakken? Hoe komen we daar tijdig achter?


Inspectie Onderwijs (8 januari 2009). Elsevier publiceert 'de beste scholen.' html

Arthur van Leeuwen en Ruud Deijkers (8 januari 2009). Beste scholen 2009: opnieuw te hoge cijfers bij examens. Elsevier. html. Op deze webpagina ook links naar een aantal pdf-documenten van Elsevier, o.a. een overzicht van scholen met de grootste en de kleinste verschillen tussen eindexamencijfers (schoolonderzoek en centraal schriftelijk) pdf.

Elsevier is toch weer knap suggestief over de verschillen in gemiddelde cijfers voor schoolonderzoek en centraal schriftelijk: docenten geven bij schoolonderzoek cadeautjes. Hoe dat ook zij, Elsevier publiceert die gemiddelden in ieder geval. De lezer kan zo zelf zien wat die verschillen zijn, en daar hoeft die lezer echt niet bij van de stoel te vallen, ook al blijft een analyse achterwege van wat de aard en de oorzaken van die verschillen kunnen zijn. Nee, dat is niet helemaal waar: meer achterstandsleerlingen, dan is een groter verschil waarschijnlijk. Zoiets doet toch vermoeden dat er meer aan de hand is, bijvoorbeeld zou het kunnen zijn dat het centraal schriftelijk niet helemaal fair is voor achterstandsleerlingen. Op voorhand roepen dat er cijfers 'cadeau' worden gedaan, is een journalistieke leugen. Regeert die bij Elsevier?


Literatuur


Onderwijsraad (april 2009). Examens in het VMBO. pdf

Cito? (anoniem en ongedateerd beschikbaar op de OCW-site [oktober 2008]). De verhouding tussen het schoolexamen en het centraal examen. http://www.minocw.nl/documenten/20977c.pdf


Peter Teitelbaum (2004). The intended and unintended consequences of high school graduation requirement policy. In Susan J. Paik: Advancing educational productivity. Policy implications from national databases (pp. 45-67). Information Age Publishing. [books.google, gedeeltelijk] Almost identical to Peter Teitelbaum (2003) The Influence of High School Graduation Requirement Policies in Mathematics and Science on Student Course-Taking Patterns and Achievement. Educational Evaluation and Policy Analysis, 25, 31-57 (2003)

William H. Clune and others (1989). The Implementation and Effects of High School Graduation Requirements: First Steps toward Curricular Reform. CPRE Research Report Series. pdf

Joseph D. Creech (1996). High School Graduation Standards: What We Expect and What We Get. Goals for Education: Educational Benchmarks. Atlanta, GA: Southern Regional Education Board. pdf

Ben Wilbrink (1998). Inzicht doorzichtig toetsen. In Theo H. Joostens en Gerard W. H. Heijnen (Red.). Beoordelen, toetsen en studeergedrag (13-29). Groningen: Rijksuniversiteit, GION - Afdeling COWOG Centrum voor Onderzoek en Ontwikkeling van Hoger Onderwijs. html

Jaap Dronkers (1999). Is het eindexamen gelijkwaardig tussen scholen? Discrepanties tussen de cijfers voor hetschoolonderzoek en het centraal examen in het voortgezet onderwijs. [Afscheidsrede Amsterdam 25-11-1999] pdf

Marloes de Lange en Jaap Dronkers (2006). Hoe gelijkwaardig blijft het eindexamen tussen scholen? Discrepanties tussen de cijfers voor het schoolonderzoek en het centraal examen in het voortgezet onderwijs tussen 1998 en 2005. pdf



Deven Carlson & Michael Planty (). The Ineffectiveness of High School Graduation Credit Requirement Reforms: A Story of Implementation and Enforcement? Educational Policy, online 25 August 2011 abstract




Noodklok


Ferry Haan (28-12-2012). Je zou wel gek zijn als je nog wiskunde B koos. De Volkskrant, p. 29 pdf







Trends in eindexamencijfers


Gerard Koolstra (7 januari 2015) https://twitter.com/ggerardk/status/552771703747928064





7 januari 2014 \ contact ben apenstaartje benwilbrink.nl


Valid HTML 4.01!       http://www.benwilbrink.nl/projecten/examen.vanbijsterveldt.2008.htm http://goo.gl/NyFfQ