Ben Wilbrink
persoonlijke aantekening
4 februari 2004
De stabiliteit van effectiviteitsverschillen tussen scholen is een kern-issue voor onderwijsbeleid. De stelling dat die stabiliteit er niet is kan hard overkomen, of tenminste verrassend (is dat niet goed onderzocht, dan?). In deze aantekening een aantal items uit de empirische literatuur. Eerst een korte inleiding, dan enkele sleutelpublicaties. De ouderdom van aangehaald onderzoek zegt niets: het gaat om een wereld die naar essentiële trekken maar langzaam verandert.
Vergeet even het gedonder rond de Trouw-publicaties van een jaar of wat geleden, en het gedoe over kwaliteitskaarten voor scholen. Het gaat om het volgende:
Michael Pressley, Irene W. Gaskins, Katie Solic & Stephanie Collins (2006). A Portrait of Benchmark School: How a School Produces High Achievement in Students Who Previously Failed. Journal of Educational Psychology, 98, 282-306. abstract
( .. )
our research group is trying to be more sensitive to psychological aspects of such schools (see Pressley, Roehrig, et al., 2003), for example, whether the schools are using curricular approaches that are informed by psychological theory and research and/or whether the motivational approaches in effective schools are consistent with psychological theories and research findings about how to motivate academic achievement (e.g., Pintrich & Schunk, 2002).”
G. Driessen, J. Doesborgh, G. Ledoux, M. Overmaat, J. Roeleveld en I. van der Veen (2006). Van basis- naar voortgezet onderwijs. Voorbereiding, advisering en effecten. ITS/SCO-Kohnstamm Instituut. pdf
R. J. Bosker & H. Luyten, H. (2000). De stabiliteit en consistentie van differentiële schoolkenmerken. Tijdschrift voor Onderwijsresearch, 24, 308-321. online
Bosker, Roel J. Bosker, Bert P. M. Creemers and Sam Stringfield (1999). Enhancing educational excellence, equity and efficiency. Evidence from evaluations of systems and schools in change. Dordrecht: Kluwer. isbn 0792361385 preview (a.o.: Roel J. Bosker, Peter Blatchford & G. Wim Meijnen: The forthcoming Class Size Reduction Initiative [klassegrootte] - Geertje P.C. van der Werf, Hennie P. Brandsma, Lidwien M.C.M. Cremers-van Wees & Miranda J. Lubbers: Quality and Opportunities in Secondary Education: Implementation and Effects of the Common Core Curriculum - Jaap Scheerens & Bert P.M. Creemers: Review and Prospects of Educational Effectiveness Research in the Netherlands)
Roeleveld, J., U. de Jong & P. Koopman (1990). De stabiliteit van schooleffecten. Tijdschrift voor Onderwijsresearch, 15, 301-316. Ook in Roeleveld, J. (1994). Verschillen tussen scholen. Kenmerken, effectiviteit en stabiliteit van onderwijsinstellingen in Nederland. Proefschrift Universiteit van Amsterdam. Amsterdam: SCO-Kohnstamm Instituut (rapport 361).
Roeleveld discussieert over redenen voor de stabiliteit in output, ondanks fluctuaties in input. Het is algemeen bekend dat er mechnismen werken die naar constantie neigen. Die mechanismen vallen onder het label Wetmatigheid van Posthumus: ongeacht kwaliteitsverschillen tussen klassen, zijn docenten/scholen geneigd het percentage zittenblijvers toch ongeveer gelijk te houden. Ik kan er nog aan toevoegen dat leerlingen en studenten zelf ook de neiging tot constantie hebben, in de zin dat de beloning voor betere dan gewone resultaten onvoldoende beloond worden om je daarvoor in te spannen.
OK, dan zijn er dus wel mogelijke mechanismen te ontdekken, en kun je daar toch op ingrijpen? Volkomen juist, maar dan gaat het om ingrepen die volstrekt buiten de macht van de individuele leraar of de afzonderlijke onderwijsinstelling liggen (er zijn wel experimenten geweest met onderwijs-zonder-zittenblijven, maar dergelijke scholen trekken meteen bijzondere leerlingen aan die verschrikkelijk de spaken in het experimentele wiel gaan steken).
Langen, A. van, & Vierke, H. (1996). Schoolresultaten veantwoorden. Nijmegen: ITS.
(pas op: wat ik gezien heb is het conceptrapport)
De effectiviteit van scholen is de mate waarin hun leerlingen de doelen realiseren. De stand van zaken van onderzoek naar verschillen in effectiviteit is verwarrend. Effectiviteitsonderzoek leidt onderzoekers nogal eens tot de conclusie dat er tussen scholen verschillen in effectiviteit zijn. Ook resultaten van cohortstudies, zoals PRIMA, halen makkelijk de krant met koppen dat er zelfs grote verschillen tussen scholen zouden zijn. Zelfs wanneer de betreffende cijfers op zich degelijk genoeg zijn, blijft het nog de vraag of de school die vorig jaar effectiever was, dat dit jaar nog zal zijn. En hetzelfde voor leerjaren en leraren. Onderzoek naar de stabiliteit van effectiviteitsverschillen leverde meermalen teleurstellende resultaten op. In deze studie is geprobeerd definitieve antwoorden op de vraag naar stabiliteit van effectiviteit(sverschillen) te vinden, met als duidelijke uitkomst dat die stabiliteit er niet is. Dat levert voor scholen een bijzondere situatie op, want hoewel zij erg nieuwsgierig zijn naar hoe zij presteren ten opzichte van landelijke resultaten, geeft dit onderzoek dus aan dat gegevens daarover weinig of geen geldigheid hebben (betrouwbaarheid zou je in dit geval eigenlijk moeten zeggen). Hoewel dit rapport is gedateerd op april 1996, komt het ITS bij monde van Paul Jungbluth nog voor de ORD '96 in het nieuws met het bericht dat er in Nederland nog steeds sprake is van standenscholen, en dat elitescholen voor de ‘betere’ leerlingen meer effectief zouden zijn dan andere scholen. Er zijn meer van dergelijke raadsels op dit moment in Nederland onderzoekland: waar Langen en Vierke vinden dat effectiviteitsverschillen niet stabiel zijn, en er dus geen scholen in achterstandswijken zijn die minder effectief zijn dan andere scholen, claimt Rotterdam een innovatieprogramma te hebben dat deze scholen veel effectiever maakt.
Brian Rowan, Richard Correnti, and Robert J. Miller (2002). What Large-Scale, Survey Research Tells Us About Teacher Effects On Student Achievement: Insights from the Prospects Study of Elementary Schools. CPRE Research Report Series RR-051.
Boer, Peter den (1995). Scholing van laag opgeleide volwassenen. Een onderzoek naar de inrichting en effceten van scholing in het kader van de PBVE. Proefschrift RU Groningen. Rion Monografieën onderwijsonderzoek 23.
Dit is onderdeel van de evaluatie van de Primaire Beroepsgerichte Volwasseneneducatie (PBVE), uitgevoerd door mij en Peter den Boer (SCO-Kohnstamm Instituut en Rion), in opdracht (via SVO) van OCenW.
Peter den Boer gaat in zijn afsluitend hoofdstuk uitgebreid op de beleidstheorie in. Interessante stof. Nog steeds actueel, al zijn de beleidsbordjes verhangen:
Martin Burlingame (1977). Impact of policy decisions on schools.Review of Research in Education, 5, 236-271. [relevant voor Kuhry-Herweijer hoofdstuk in SCP 2012over primair onderwijs]
Astin, A.W. (1985). Achieving educational excellence. Achieving educational excellence. A critical assessment of priorities and practices in higher education. San Francisco: Jossey-Bass.
Onder het kopje 'Benefits of Higher Education' (p. 18) geeft Astin een overzicht over drie typen opbrengsten die hij wil onderscheiden:
Astin, A. W. (1993). What matters in college? Four Critical Years revisited. San Francisco: Jossey-Bass.
Dit is werkelijk een goudmijn van data en inzichten. Amerikaans, dat wel, het is dus niet zonder meer te vertalen naar Nederlandse verhoudingen.
Heeft Astin in 1985 duidelijk gemaakt dat elite-instellingen evenveel toegevoegde waarde leveren als andere instellingen doen, in dit werkelijk gigantische onderzoek (ik meen 20.000 studenten en ongeveer evenveel faculty members) laat hij zien welke factoren dan wel van invloed zijn op toegevoegde waarde, factoren die dus op zich niet hebben te maken met de mate van selectiviteit van de instellingen.
Ben Wilbrink (1989). Arbeidsmarkt en curriculum economie.Amsterdam: SCO. (rapport 198) [340k pdf ]
Dit is een onderzoek geweest onder sinds 1945 in Nederland afgestudeerde economen. De analyse is ook gericht op onderscheid tussen de opleidingen economie in Groningen, Amsterdam, Amsterdam-VU, Rotterdam en Tilburg (sorry, Maastricht deed nog niet mee). Welnu, die verschillen zijn talrijk. Mensen nemen ook kwaliteitsverschillen waar, maar daar is iets merkwaardigs mee aan de hand: de grootste instelling, Rotterdam, is in de waarneming kwalitatief het best. Dat kan gewoon een artefact van omvang zijn, en dus van aanwezigheid van zijn hoogleraren in de media. Zoek je naar criteria voor effectiviteit, dan zijn er gegevens legio voorhanden over hoe het de alumni verder is vergaan. Daar valt weinig anders uit af te leiden dan dat er kenmerkende verschillen tussen opleidingen zijn in de sectoren waarnaar hun afgestudeerden vooral vertrekken (overheid, rijksoverheid, bedrijfsleven).
Naast van alles over functies, is ook gevraagd naar salarissen. De verschillen zijn enorm, waarbij degenen die academische of ambtelijke loopbanen hebben gekozen het afleggen tegen degenen met loopbanen in het bedrijfsleven. Is salaris dan een goed criterium voor kwaliteit van de opleiding?
Oosterbeek, H., Groot, W., & Hartog, J. (1991). An empirical analysis of college choice and earnings. UvA Sectie Micro-economie. De economist, 140 (1992), 293-309 (17). Bewerkt door Hessel Oosterbeek als hoofdstuk 6 in zijn (1992). Essays on human capital theory. Proefschrift Universiteit van Amsterdam. Voorloper: Oosterbeek, Hessel, Wim Groot & Joop Hartog (1991) Maakt het uit waar je studeert? Een analyse van verschillen tussen economische faculteiten in Nederland. In J. K. Koppen, H. Stroomberg en M. van der Kamp, Hoger onderwijs en volwasseneneducatie (p. 79-89). Onderwijsresearchdagen 1991.
Dit is onderzoek op dezelfde, door Wilbrink (1989) is samenwerking met de Faculteit Economie (Hartog, Odink, Oostendorp) verzamelde, landelijke data. De analyse is moeilijk navolgbaar, maar het type resultaat klinkt bekend in de oren: verschillen tussen faculteiten in resultaten (criterium: wage structures), maar tegelijk grote verschillen tussen die faculteiten in kwalificaties van instroom. Tel erbij op dat velen willens en wetens kiezen voor loopbanen die in financieel opzicht minder succesvol vergelekn met wat anderen zich kiezen, en de impasse is duidelijk. Vanuit de aankomende studenten bezien: kiezen voor Amsterdam of Rotterdam vanuit verwachte verschillen in wat er later te verdienen valt, is grotelijks onzin. Wie graag meer wil verdienen dan anderen, kiest later voor een loopbaan in het bedrijfsleven, en dat kun je vanuit willekeurig welke plaats doen, en eveneens hoef je daar niet een bepaalde specialisatie in de studie voor te kiezen. Die combinatie betekent dat faculteiten zich ten opzichte van elkaar niet dusdanig kunnen onderscheiden dat aankomende studenten realistische alternatieven hebben waartussen zij kiezen. Zo gaat het vaak in het leven, de keuze wordt dan pragmatisch, in de regio, met vrienden mee, en dergelijke.
(an edited version appeared in Psychological Science in the Public Interest, May 2001). (A more popular version titled "Does Class Size Matter?" appeared in Scientific American, Nov. 2001).
Deze studie biedt een kritisch overzicht van de beschikbare literatuur over effecten van klassengrootte (verkleinen van klassengrootte). Even uit mijn hoofd is de Nederlandse situatie dat er een uitgebreid advies door een aantal wetenschappers (o.a. Bosker, UT) is opgesteld ten behoeve van het departement, en dat mevrouw Netelenbos daar generiek beleid van heeft gemaakt. Het probleem is dat de aanleiding voor een en ander werd gevormd door gunstige berichten over klassenverkleining in een Amerikaans experiment, maar dat de Nederlandse wetenschappers over het hoofd hebben gezien dat het daarbij passende beleid juist selectief was gericht op groepen leerlingen die daar bij gebaat zouden zijn, in het overgrote deel van het onderwijs zouden de klassen gewoon even groot blijven. Ik zal de betreffende stukken en publicaties in de loop van de tijd op deze pagina bijeenbrengen. Het Amerikaanse experiment, in Tennessee, krijgt in de Ehrenberg c.s. studie ruim aandacht. Daarom hier de eerste pagina van de conclusies van het Ehrenberg rapport:
Experimental psychologists have long distinguished between the internal validity and external validity of an experiment (Campbell, & Stanley, 1966). Internal validity refers to whether one can logically infer a cause and effect relationship from an experiment or quasi-experiment that has been conducted. The external validity of an experiment refers to whether it can be generalized to other populations, other times and other scales of treatment. An experiment should have external validity before one considers basing wide spread public policy on it.
Suppose that we take at face value the findings from the Tennessee experiment that appear to indicate that class size reductions in the early grades have a long-lasting impact and that this impact is greatest for students from disadvantaged backgrounds. Our review of findings from large-scale quasi-experimental studies from other countries tends to support the Tennessee results. What are the implications of these findings for public policy? When we say we take the findings of the Tennessee experiment at face value, this means we believe the experiment had internal validity. However, there are a number of factors that lead us to question whether the external validity of the Tennessee experiment has been established sufficiently to warrant generalizing across different populations and settings in the US. Our view is that we need more and varied randomized class-size experiments, balanced with quasi-experiments that employ multi-level longitudinal designs. This lack of external validity has not prevented large-scale class size reduction initiative from being instituted by both federal and state governments in the United States. Our discussion here is meant to pose a cautionary note.
Klassenverkleining: advies over de betekenis van klassenverkleining voor beter basisonderwijs / Commissie Kwalitatieve Aspecten van Groepsgrootte in het Basisonderwijs [voorz.: S.J.C. van Endhoven]. - [S.l.] : Commissie Kwalitatieve Aspecten van Groepsgrootte in het Basisonderws ; Den Haag : Sdu Servicecentrum [distr.], 1996. ISBN 9034633683
De Onderwijsraad heeft de laatste jaren een aantal studies en adviezen uitgebracht die direct raken aan de thematiek van stabiliteit van verschillen in effectiviteit tussen scholen. Ik ben niet thuis in de lijn die de Raad hierin heeft gevolgd, moet de betreffende stukken dus eerst eens rustig bekijken. Ik noem vast de belangrijkste:
Onderwijsraad (2001). De Markt Meester? Een verkenning naar marktwerking in het onderwijs. Verkenning (als pdf-bestand beschikbaar op de site van de Onderwijsraad).
"Op verzoek van de minister van OCenW heeft de raad een analyse gemaakt, trends gesignaleerd en aanbevelingen gedaan voor verdere marktontwikkeling. Een thema, private financiering is in een advies verder uitgewerkt"
Waarom pro memorie: de premisse voor een beleid gericht op meer marktwerking is dat er iets te kiezen valt, met andere woorden dat er naast verschillen in locatie, behuizing, kleur, ook verschillen zijn in kwaliteit, quod non. (bw) De notitie staat nog op mijn leeslijstje, ik ben benieuwd.
R. J. Bosker & H. Luyten, H. (2000). De stabiliteit en consistentie van differentiële schoolkenmerken. Tijdschrift voor Onderwijsresearch, 24, 308-321. online
Hans Luyten (1998). School effectiveness and student achievement, consistent across subjects? Evidence from Dutch elementary and secondary education. EdRes&Eval 4, 281-306. abstract
Kenneth K.J. Rowe & Peter W. Hill (1998) Modeling Educational Effectiveness in Classrooms: The Use of Multi-Level Structural Equations to Model Students’ Progress. Educational Research and Evaluation, 4, 307-347. abstract
Margarita Pivovarova, Jennifer Broatch & Audrey Amrein-Beardsley (August 1, 2014). Chetty, et al, on the American Statistical Association's recent position statement on value-added models (VAMs): five points of contention. Teachers College Record http://www.tcrecord.org ID Number: 17633, Date Accessed: 8/10/2014 webpage (Diane Ravitch blog)
Tobias Feldhoff Falk Radisch Linda Marie Bischof , (2016),"Designs and methods in school improvement research: a systematic review", Journal of Educational Administration, Vol. 54 Iss 2 pp. 209 - 240 Permanent link to this document: http://dx.doi.org/10.1108/JEA-07-2014-0083 abstract
Glory Tobiason (2018). Countering Expert Uncertainty: Rhetorical Strategies from the Case of Value-Added Modeling in Teacher Evaluation. Minerva, 57, 109-126. open
http://www.benwilbrink.nl/projecten/effectiviteit.htm