thuis       publicaties       sitemap      


Effectiviteit van scholen: stabiliteit van verschillen

Ben Wilbrink
persoonlijke aantekening

4 februari 2004

De stabiliteit van effectiviteitsverschillen tussen scholen is een kern-issue voor onderwijsbeleid. De stelling dat die stabiliteit er niet is kan hard overkomen, of tenminste verrassend (is dat niet goed onderzocht, dan?). In deze aantekening een aantal items uit de empirische literatuur. Eerst een korte inleiding, dan enkele sleutelpublicaties. De ouderdom van aangehaald onderzoek zegt niets: het gaat om een wereld die naar essentiële trekken maar langzaam verandert.

Vooraf

Vergeet even het gedonder rond de Trouw-publicaties van een jaar of wat geleden, en het gedoe over kwaliteitskaarten voor scholen. Het gaat om het volgende:

  1. Verschillen tussen scholen zijn eenvoudig te constateren, dat wordt ook niet betwist, maar wat is de betekenis ervan?
  2. Iedere school heeft een eigen profiel wat betreft de kwalificaties van instromende leerlingen. Het gaat dus niet om eenvoudig te constateren verschillen in de uitstroom van scholen, maar om moeilijker te achterhalen verschillen in toegevoegde waarde. Dat is onomstreden.
  3. Scholen blijken te verschillen in de mate waarin zij toegevoegde waarde leveren. Wat daarin de omstreden vraag is, is de stabiliteit van die verschillen. Is de rangorde van scholen in 2000 ongeveer dezelfde als die in 2004? Nee dus. Hoewel Jaap Dronkers (hij was de genius achter de trouw-publicaties) denkt dat er wel significante verschillen zijn. Er is dus wel ruimte voor discussie tussen deskundigen.
  4. De advocaat van de duivel stelt voor om Dronkers even te volgen en aan te nemen dat er weliswaar statistisch significante maar praktisch geen belangrijke verschillen zijn. Dan zal het altijd zo zijn dat een belangrijk deel van die kleine verschillen niets heeft te maken met beleid dat de overheid, scholen, of individuen kunnen volgen. Met andere woorden: als er al stabiele verschillen zijn aan te tonen, dan is nog steeds de hamvraag welk deel daarvan manipuleerbaar is, dus misschien 'verwijtbaar' aan schoolbesturen.
  5. Het hele verhaal idem dito wanneer je binnen scholen gaat kijken naar stabiliteit van verschillen in effectiviteit (toegevoegde waarde) van leraren, stromen, leerjaren.


Een en ander neemt niet weg dat er natuurlijk door alle actoren in het veld uiterste inspanningen gedaan moeten worden om de kwaliteit van het onderwijs te verbeteren (bewaken is iets anders, dat kost tijd en geld en levert op zich nog niets op). Zie bijvoorbeeld het advies van de Onderwijsraad (2006) Doortastend onderwijstoezicht pdf.

Uitzonderingen zijn te verwachten. Zo is er in de VS een stabiel verschil gevonden tussen katholieke high schools en andere Bryk, A. S., Lee, V. E., & Holland, P. B. (1993). Catholic schools and the common good. London: Harvard University Press). Daarom is dat type onderzoek in Nederland ook populair geworden: vergelijkingen tussen bijzonder en openbaar onderwijs. Over scholengemeenschappen die opgeheven worden omdat leerlingen elders naartoe gaan, gaat dit niet. Evenmin over zieke of dysfunctionerende leraren.


Sleutelpublicaties




Michael Pressley, Irene W. Gaskins, Katie Solic & Stephanie Collins (2006). A Portrait of Benchmark School: How a School Produces High Achievement in Students Who Previously Failed. Journal of Educational Psychology, 98, 282-306. abstract

G. Driessen, J. Doesborgh, G. Ledoux, M. Overmaat, J. Roeleveld en I. van der Veen (2006). Van basis- naar voortgezet onderwijs. Voorbereiding, advisering en effecten. ITS/SCO-Kohnstamm Instituut. pdf



R. J. Bosker & H. Luyten, H. (2000). De stabiliteit en consistentie van differentiële schoolkenmerken. Tijdschrift voor Onderwijsresearch, 24, 308-321. online



Bosker, Roel J. Bosker, Bert P. M. Creemers and Sam Stringfield (1999). Enhancing educational excellence, equity and efficiency. Evidence from evaluations of systems and schools in change. Dordrecht: Kluwer. isbn 0792361385 preview (a.o.: Roel J. Bosker, Peter Blatchford & G. Wim Meijnen: The forthcoming Class Size Reduction Initiative [klassegrootte] - Geertje P.C. van der Werf, Hennie P. Brandsma, Lidwien M.C.M. Cremers-van Wees & Miranda J. Lubbers: Quality and Opportunities in Secondary Education: Implementation and Effects of the Common Core Curriculum - Jaap Scheerens & Bert P.M. Creemers: Review and Prospects of Educational Effectiveness Research in the Netherlands)



Roeleveld, J., U. de Jong & P. Koopman (1990). De stabiliteit van schooleffecten. Tijdschrift voor Onderwijsresearch, 15, 301-316. Ook in Roeleveld, J. (1994). Verschillen tussen scholen. Kenmerken, effectiviteit en stabiliteit van onderwijsinstellingen in Nederland. Proefschrift Universiteit van Amsterdam. Amsterdam: SCO-Kohnstamm Instituut (rapport 361).

"De uitkomsten van de in dit artikel gepresenteerde analyses leiden tot de volgende conclusies:
- De niet voor aanvangsverschillen gecorrigeerde output van scholen is vrij stabiel over de tijd.
- Er is meer instabiliteit in de wel voor aanvangsverschillen gecorrigeerde output van scholen."

"De instabiliteit van de voor aanvangsverschillen gecorrigeerde output kan er de oorzaak van zijn dat het zo moeilijk blijkt om een verklaring voor verschillen in effectiviteit tussen scholen te vinden in termen van verschillen in schoolkenmerken. De meeste van deze schoolkenmerken blijven immers onveranderd gedurende een zekere tijdspanne, maar de (relatieve) effectiviteit fluctueert wel over die periode."


Roeleveld discussieert over redenen voor de stabiliteit in output, ondanks fluctuaties in input. Het is algemeen bekend dat er mechnismen werken die naar constantie neigen. Die mechanismen vallen onder het label Wetmatigheid van Posthumus: ongeacht kwaliteitsverschillen tussen klassen, zijn docenten/scholen geneigd het percentage zittenblijvers toch ongeveer gelijk te houden. Ik kan er nog aan toevoegen dat leerlingen en studenten zelf ook de neiging tot constantie hebben, in de zin dat de beloning voor betere dan gewone resultaten onvoldoende beloond worden om je daarvoor in te spannen. OK, dan zijn er dus wel mogelijke mechanismen te ontdekken, en kun je daar toch op ingrijpen? Volkomen juist, maar dan gaat het om ingrepen die volstrekt buiten de macht van de individuele leraar of de afzonderlijke onderwijsinstelling liggen (er zijn wel experimenten geweest met onderwijs-zonder-zittenblijven, maar dergelijke scholen trekken meteen bijzondere leerlingen aan die verschrikkelijk de spaken in het experimentele wiel gaan steken).




Langen, A. van, & Vierke, H. (1996). Schoolresultaten veantwoorden. Nijmegen: ITS.


(pas op: wat ik gezien heb is het conceptrapport)
De effectiviteit van scholen is de mate waarin hun leerlingen de doelen realiseren. De stand van zaken van onderzoek naar verschillen in effectiviteit is verwarrend. Effectiviteitsonderzoek leidt onderzoekers nogal eens tot de conclusie dat er tussen scholen verschillen in effectiviteit zijn. Ook resultaten van cohortstudies, zoals PRIMA, halen makkelijk de krant met koppen dat er zelfs grote verschillen tussen scholen zouden zijn. Zelfs wanneer de betreffende cijfers op zich degelijk genoeg zijn, blijft het nog de vraag of de school die vorig jaar effectiever was, dat dit jaar nog zal zijn. En hetzelfde voor leerjaren en leraren. Onderzoek naar de stabiliteit van effectiviteitsverschillen leverde meermalen teleurstellende resultaten op. In deze studie is geprobeerd definitieve antwoorden op de vraag naar stabiliteit van effectiviteit(sverschillen) te vinden, met als duidelijke uitkomst dat die stabiliteit er niet is. Dat levert voor scholen een bijzondere situatie op, want hoewel zij erg nieuwsgierig zijn naar hoe zij presteren ten opzichte van landelijke resultaten, geeft dit onderzoek dus aan dat gegevens daarover weinig of geen geldigheid hebben (betrouwbaarheid zou je in dit geval eigenlijk moeten zeggen). Hoewel dit rapport is gedateerd op april 1996, komt het ITS bij monde van Paul Jungbluth nog voor de ORD '96 in het nieuws met het bericht dat er in Nederland nog steeds sprake is van standenscholen, en dat elitescholen voor de ‘betere’ leerlingen meer effectief zouden zijn dan andere scholen. Er zijn meer van dergelijke raadsels op dit moment in Nederland onderzoekland: waar Langen en Vierke vinden dat effectiviteitsverschillen niet stabiel zijn, en er dus geen scholen in achterstandswijken zijn die minder effectief zijn dan andere scholen, claimt Rotterdam een innovatieprogramma te hebben dat deze scholen veel effectiever maakt.

Brian Rowan, Richard Correnti, and Robert J. Miller (2002). What Large-Scale, Survey Research Tells Us About Teacher Effects On Student Achievement: Insights from the Prospects Study of Elementary Schools. CPRE Research Report Series RR-051.




In het bijzonder ook nog effectiviteit van toeleidingstrajecten:

Boer, Peter den (1995). Scholing van laag opgeleide volwassenen. Een onderzoek naar de inrichting en effceten van scholing in het kader van de PBVE. Proefschrift RU Groningen. Rion Monografieën onderwijsonderzoek 23.


Dit is onderdeel van de evaluatie van de Primaire Beroepsgerichte Volwasseneneducatie (PBVE), uitgevoerd door mij en Peter den Boer (SCO-Kohnstamm Instituut en Rion), in opdracht (via SVO) van OCenW.

Peter den Boer gaat in zijn afsluitend hoofdstuk uitgebreid op de beleidstheorie in. Interessante stof. Nog steeds actueel, al zijn de beleidsbordjes verhangen:

"p. 244: "De PBVE bestaat niet meer. Haar taak is overgenomen door de Regionale Besturen voor de Arbeidsvoorziening (RBA's) en door de scholen (binnenkort de ROC's). Als doelstelling voor het scholingsbeleid is geformuleerd: een startkwalificatie voor iedereen (...)."


Het probleem voor de doelgroep is (p. 243): "dat de positie van de zwakke groepen [op de arbeidsmarkt] geen gevolg is van hun lage opleiding, maar van verdringing." Inzetten op opleiden is meer window dressing door de politiek (overigens een Europese trend: kijk eens wat we doen voor deze zwakke groepen) dan een werkelijke bijdrage aan oplossingen, en dat blijkt uit de door Peter den Boer wel bevonden maar geringe effecten van deze opleidingstrajecten. Met een brede grijns gaf hij bij de receptie na afloop van de promotie toe dat zelfs dat kleine effect wegsmelt, omdat er niet is gecorrigeerd voor het gedurende die opleidingstrajecten verminderd beschikbaar zijn voor de arbeidsmarkt. Kortom: hier is een voorbeeld van onderwijs dat in zijn geheel een stabiel effect nul heeft. Het is ook in termen van stabiliteit van verschillen te formuleren: veronderstel dat een ROC dat niet van dergelijke opleidingstrajecten heeft, deze aan zijn aanbod toevoegt, en dat als criterium voor affectivieti de arbeidsmarktpositie wordt gehanteerd. Dan laat het onderzoek van Peter den Boer zien dat dat extra onderwijs geen effect heeft, naar dat criterium gemeten. Ondertussen zijn de kosten van onderwijs dus wel opgelopen.




Martin Burlingame (1977). Impact of policy decisions on schools.Review of Research in Education, 5, 236-271. [relevant voor Kuhry-Herweijer hoofdstuk in SCP 2012over primair onderwijs]

Hoger Onderwijs VS

Astin, A.W. (1985). Achieving educational excellence. Achieving educational excellence. A critical assessment of priorities and practices in higher education. San Francisco: Jossey-Bass.


Onder het kopje 'Benefits of Higher Education' (p. 18) geeft Astin een overzicht over drie typen opbrengsten die hij wil onderscheiden:

  1. "(...) educational benefits refer to changes in the student - in his or her intellectual capacities and skills, values, attitudes, interests, habits, mental health, and so forth - that are attributable to the college experience."
  2. (p 19). "(...) fringe benefits of attending a given college include those post-college outcomes that are related not to the student's personal attributes but to the institutional credential that the student receives. Some writers call this the 'sheepskin effect'."
    (p. 22) "The belief system that supports the institutional hierarchy in American higher education is inclined to assume that educational benefits are proportional to fringe benefits. That is, it is widely believed that students learn more and develop their intellectual capacities more fully in an elite or highly selective institution than in a nonselective or unknown institution. Longitudinal studies of student development, however, generally fail to support this belief. Thus, highly selective institutions do not appear to confer more educational benefits on their students than do moderately selective or even non-selective institutions (Astin, A.W., Undergraduate achievement and institutional excellence. Science, 1968, 161, 661-668)."

  3. (p. 21). "(...) existential benefits refer to the quality of the undergraduate experience itself, independent of any changes in competence (educational benefits) or any sheepskin effect (fringe benefits). Thus, they derive from the subjective satisfaction associated with peer contacts, extracurricular and academic involvement, recreational activities, and virtually any other experience connected with college attendance. Existential benefits are, in effect, the sum total of the student's subjective experience while attending college. Such experiences may, of course, yield educational benefits (learning, changes in values, and so forth). But the main point here is that these experiences have value to students in and of themselves.
    Educators frequently overlook the fact that the fout or more years involved in a college education represent a sizable portion of the student's total lifespan. For the student, then, existential outcomes are important in themselves, not merely for what they will mean later. Research on student development (Astin, 1977) suggests that existential benefits are more dependent than either ffringe or educational benefits on the institutional environment. In other words, institutions can probably exert more direct control over the existential benefits for students than over the other two types of benefits."


Astin, A. W. (1993). What matters in college? Four Critical Years revisited. San Francisco: Jossey-Bass.


Dit is werkelijk een goudmijn van data en inzichten. Amerikaans, dat wel, het is dus niet zonder meer te vertalen naar Nederlandse verhoudingen.
Heeft Astin in 1985 duidelijk gemaakt dat elite-instellingen evenveel toegevoegde waarde leveren als andere instellingen doen, in dit werkelijk gigantische onderzoek (ik meen 20.000 studenten en ongeveer evenveel faculty members) laat hij zien welke factoren dan wel van invloed zijn op toegevoegde waarde, factoren die dus op zich niet hebben te maken met de mate van selectiviteit van de instellingen.

Viewed as a whole, the many empirical findings from this study seem to warrant the following general conclusion: the student's peer group is the single most potent source of influence on growth and development during the undergraduate years. (p. 398)
p. 398: When it comes to the student's affective development, one generalization seems clear: students' values, beliefs, and aspirations tend to change in the direction of the dominant values, beliefs, and aspirations of the peer group.(p. 398)
Amerikaans? Alleen voor 18-jarigen? Dat hale je de koekoek. Ik eet mijn hoed op als dit niet evenzeer geldt voor andere vormen van onderwijs, in andere landen en culturen. De uitwerking, implicaties etc. kan ik hier niet weergeven, zie daarvoor de bron.
Next to the peer group, the faculty represents the most significant aspect of the student's undergraduate development. In this study we have identified two characteristics of faculty that produce contrasting patterns of effects: Research Orientation and Student Orientation. (...) The Faculty's Research Orientation and Student Orientation reflect not only how they spend their time but also their personal goals and and values and their interest in and accessibility to students. (p. 410-1)

Dit resultaat van Astin nodigt uit om voor het VMBO bijvoorbeeld de verwachting uit te spreken dat belangstelling voor de leerling een van de belangrijkste factoren is, na de peer group, en dat alles wat vanuit regelgeving en vanuit de instelling daarvoor een belemmering is, zich vertaalt naar schade aan de groei van leerlingen. Hier past bijvoorbeeld de opmerking dat voor leraren het minder belangrijk is voor welk vak ze zijn opgeleid om dat te geven, dan dat ze zijn opgeleid in de didactiek die op vmbo-niveau van belang is.


Hoger Onderwijs Nederland: economie

Ben Wilbrink (1989). Arbeidsmarkt en curriculum economie.Amsterdam: SCO. (rapport 198) [340k pdf ]


Dit is een onderzoek geweest onder sinds 1945 in Nederland afgestudeerde economen. De analyse is ook gericht op onderscheid tussen de opleidingen economie in Groningen, Amsterdam, Amsterdam-VU, Rotterdam en Tilburg (sorry, Maastricht deed nog niet mee). Welnu, die verschillen zijn talrijk. Mensen nemen ook kwaliteitsverschillen waar, maar daar is iets merkwaardigs mee aan de hand: de grootste instelling, Rotterdam, is in de waarneming kwalitatief het best. Dat kan gewoon een artefact van omvang zijn, en dus van aanwezigheid van zijn hoogleraren in de media. Zoek je naar criteria voor effectiviteit, dan zijn er gegevens legio voorhanden over hoe het de alumni verder is vergaan. Daar valt weinig anders uit af te leiden dan dat er kenmerkende verschillen tussen opleidingen zijn in de sectoren waarnaar hun afgestudeerden vooral vertrekken (overheid, rijksoverheid, bedrijfsleven).
Naast van alles over functies, is ook gevraagd naar salarissen. De verschillen zijn enorm, waarbij degenen die academische of ambtelijke loopbanen hebben gekozen het afleggen tegen degenen met loopbanen in het bedrijfsleven. Is salaris dan een goed criterium voor kwaliteit van de opleiding?


Oosterbeek, H., Groot, W., & Hartog, J. (1991). An empirical analysis of college choice and earnings. UvA Sectie Micro-economie. De economist, 140 (1992), 293-309 (17). Bewerkt door Hessel Oosterbeek als hoofdstuk 6 in zijn (1992). Essays on human capital theory. Proefschrift Universiteit van Amsterdam. Voorloper: Oosterbeek, Hessel, Wim Groot & Joop Hartog (1991) Maakt het uit waar je studeert? Een analyse van verschillen tussen economische faculteiten in Nederland. In J. K. Koppen, H. Stroomberg en M. van der Kamp, Hoger onderwijs en volwasseneneducatie (p. 79-89). Onderwijsresearchdagen 1991.



Dit is onderzoek op dezelfde, door Wilbrink (1989) is samenwerking met de Faculteit Economie (Hartog, Odink, Oostendorp) verzamelde, landelijke data. De analyse is moeilijk navolgbaar, maar het type resultaat klinkt bekend in de oren: verschillen tussen faculteiten in resultaten (criterium: wage structures), maar tegelijk grote verschillen tussen die faculteiten in kwalificaties van instroom. Tel erbij op dat velen willens en wetens kiezen voor loopbanen die in financieel opzicht minder succesvol vergelekn met wat anderen zich kiezen, en de impasse is duidelijk. Vanuit de aankomende studenten bezien: kiezen voor Amsterdam of Rotterdam vanuit verwachte verschillen in wat er later te verdienen valt, is grotelijks onzin. Wie graag meer wil verdienen dan anderen, kiest later voor een loopbaan in het bedrijfsleven, en dat kun je vanuit willekeurig welke plaats doen, en eveneens hoef je daar niet een bepaalde specialisatie in de studie voor te kiezen. Die combinatie betekent dat faculteiten zich ten opzichte van elkaar niet dusdanig kunnen onderscheiden dat aankomende studenten realistische alternatieven hebben waartussen zij kiezen. Zo gaat het vaak in het leven, de keuze wordt dan pragmatisch, in de regio, met vrienden mee, en dergelijke.


Lager Onderwijs VS

Ronald G. Ehrenberg, Dominic J. Brewer, Adam Gamoran and J. Douglas Willms (2001). The Class Size Controversy. Cornell Higher Education Research Institute, Working paper WP 14. pdf ophalen

Klassenverkleining: advies over de betekenis van klassenverkleining voor beter basisonderwijs / Commissie Kwalitatieve Aspecten van Groepsgrootte in het Basisonderwijs [voorz.: S.J.C. van Endhoven]. - [S.l.] : Commissie Kwalitatieve Aspecten van Groepsgrootte in het Basisonderws ; Den Haag : Sdu Servicecentrum [distr.], 1996. ISBN 9034633683

pro memorie

De Onderwijsraad heeft de laatste jaren een aantal studies en adviezen uitgebracht die direct raken aan de thematiek van stabiliteit van verschillen in effectiviteit tussen scholen. Ik ben niet thuis in de lijn die de Raad hierin heeft gevolgd, moet de betreffende stukken dus eerst eens rustig bekijken. Ik noem vast de belangrijkste:

Onderwijsraad (2001). De Markt Meester? Een verkenning naar marktwerking in het onderwijs. Verkenning (als pdf-bestand beschikbaar op de site van de Onderwijsraad).

"Op verzoek van de minister van OCenW heeft de raad een analyse gemaakt, trends gesignaleerd en aanbevelingen gedaan voor verdere marktontwikkeling. Een thema, private financiering is in een advies verder uitgewerkt"

Waarom pro memorie: de premisse voor een beleid gericht op meer marktwerking is dat er iets te kiezen valt, met andere woorden dat er naast verschillen in locatie, behuizing, kleur, ook verschillen zijn in kwaliteit, quod non. (bw) De notitie staat nog op mijn leeslijstje, ik ben benieuwd.



Onderwijsraad (2003). Wat scholen toevoegen. Advies.(als pdf-bestand beschikbaar op de site van de Onderwijsraad).

"De raad onderzoekt in dit advies de huidige praktijk van het zichtbaar maken van de opbrengsten van het onderwijs in basisscholen. Hij adviseert tot invoering van een systeem met een begin- en een eindmeting. Zie ook onder de rubriek Actueel het persbericht en de bijbehorende studie Herkomstkenmerken en begintoets."

De Raad weet het beter?


Aansturing van onderwijskansen

"De raad presenteert een bestuurlijk model waarmee een helpende hand kan worden geboden aan onderpresterende scholen die vallen onder het gemeentelijk onderwijsachterstandenbeleid."

Ze bestaan dus?



R. J. Bosker & H. Luyten, H. (2000). De stabiliteit en consistentie van differentiële schoolkenmerken. Tijdschrift voor Onderwijsresearch, 24, 308-321. online




Hans Luyten (1998). School effectiveness and student achievement, consistent across subjects? Evidence from Dutch elementary and secondary education. EdRes&Eval 4, 281-306. abstract




Kenneth K.J. Rowe & Peter W. Hill (1998) Modeling Educational Effectiveness in Classrooms: The Use of Multi-Level Structural Equations to Model Students’ Progress. Educational Research and Evaluation, 4, 307-347. abstract




Margarita Pivovarova, Jennifer Broatch & Audrey Amrein-Beardsley (August 1, 2014). Chetty, et al, on the American Statistical Association's recent position statement on value-added models (VAMs): five points of contention. Teachers College Record http://www.tcrecord.org ID Number: 17633, Date Accessed: 8/10/2014 webpage (Diane Ravitch blog)




Tobias Feldhoff Falk Radisch Linda Marie Bischof , (2016),"Designs and methods in school improvement research: a systematic review", Journal of Educational Administration, Vol. 54 Iss 2 pp. 209 - 240 Permanent link to this document: 
http://dx.doi.org/10.1108/JEA-07-2014-0083 abstract




Glory Tobiason (2018). Countering Expert Uncertainty: Rhetorical Strategies from the Case of Value-Added Modeling in Teacher Evaluation. Minerva, 57, 109-126. open












maart 2019 \ contact ben at at at benwilbrink.nl    

Valid HTML 4.01!   http://www.benwilbrink.nl/projecten/effectiviteit.htm