Hook, Bishop en Hook (2007). A quality math curriculum in support of effective teaching for elementary schools. pdf

Bishop en Hook (2004). Urban Elementary Schools in California Show Stunning Improvement in SAT-9 Test Scores over Initial Four Year Period of New Math Standards. pdf

Aantekeningen van Ben Wilbrink

William Hook, Wayne Bishop and John Hook (2007). A quality math curriculum in support of effective teaching for elementary schools. Educational Studies in Mathematics. not for free anymore pdf of pdf op BON site

abstract This paper presents a curriculum, textbook and test result analysis for the new (to California) elementary school "Key Standard" mathematics curriculum, transplanted in 1998 from it's foreign roots in Asia and Europe, locations with far different cultural and economic backgrounds. Based on topic analysis methods developed by Michigan State University, this curriculum is a "quality" curriculum, since it is closely aligned with the curriculum of the six leading TIMSS math countries. Five-year test results are presented for two cohorts totaling over 13,000 students, all from four "early adoption" urban districts where 68% of the students were economically disadvantaged. Included are two cohorts of English learning immigrants totaling over 4,400 students. Performance was found to be statistically superior to similar (control) districts which continued with the old 1991 curriculum and textbooks (0.003 < p < 0.015). The focus of this paper is on the transition from far-below to above average learning performance of these students over the 1998-2002 period.
Stuur me een mailtje als je de pdf wilt hebben, dan stuur ik die retour.

Wayne Bishop and William Hook (2004). Urban elementary schools in California show stunning improvement in SAT-9 test scores over initial four year period of new math standards', pdf

Summary The state of California adopted new math standards in 1997, featuring a more focused mathematics curriculum, coherent from one year to the next, with a primary goal of having students fully ready for success in California Algebra I by the end of the seventh grade. The 'Key Standards' approach was implemented in 2000, greatly reducing the number of topics and allowing students to focus on the core curriculum, including a strong pre-algebra component.

Wayne Bishop (2002). Four years of California mathematics progress [webpage no longer available, 2-2008]

Vooraf

Deze bespreking is naar aanleiding van een discussie in de Kring Wiskunde van B.O.N. over onderzoek van wiskundeonderwijs, reden om de bespreking in het Nederlands te doen. Een van de deelnemers aan die discussie woont en werk in Californië, de plek waar de afgelopen decennia wilde wisselingen in onderwijswetgeving zijn geweest. Dat soort dramatiek levert 'natuurlijke experimenten' op, de vraag is wat nu bekende gegevens over leerlingen die op verschillende plaatsen en tijden daar andere vormen van wiskundeonderwijs hebben gevolgd, daaruit hebben meegenomen.

De Californische discussiant heeft het Hook-Bishop-Hook artikel ingebracht als voorbeeld van 'goed' onderwijsonderzoek (in de Bas Braams definitie), door buitenstaanders wat onderwijsonderzoek betreft. De uitgesproken suggestie is dat professionele onderwijsonderzoekers niet uit zouden zijn op waarheidsvinding, maar andere belangen hebben. Laten we afspreken dat die suggestie een wetenschapssociologische hypothese is (zoals in het werk van Latour te vinden, of specifiek voor onderwijsonderzoek in de historische studie van Lagemann, 2000), dan kunnen we fatsoenlijk blijven en toch relevant materiaal ervoor verzamelen. Als referentie voor eventuele discussie over dit punt: Jasanoff (2004) questia. Ik waarschuw nog een keer: dit gaat een studieclubje worden.

'Goed' onderwijsonderzoek in de Bas Braams definitie staat los van whatever de verschillen tussen onderzocht onderwijs, als er maar verschillen zijn. Dat is de wereld op zijn kop, voor methodologen en statistici wel begrijpelijk omdat het typisch hun aandeel in onderzoek is. Voor onderwijsonderzoekers is er een voorafgaande vraag: valt er wat te onderzoeken, en zo ja wat is dat? Dat deel is precies wat Bas Braams weglaat, misschien omdat hij het vanzelfsprekend vindt. Wat je dan overhoudt is evaluatieonderzoek om de evaluatie, een speeltje van politici. Maar dat mag ik niet zeggen, dat is neerbuigend naar politici. Dat 'latouriseren' we dan maar, want het gaat om een maatschappelijk probleem dat steeds wrangere proporties aanneemt (de inspecteurs, accrediteurs, controleurs, visiteurs, enquêteurs, allemaal overhead-lieden die echt helemaal niets aan de productieve processen zelf toevoegen). Voordat ik Hook, Bishop en Hook zelf ga lezen, wil ik verkennen wat ik ervan verwacht, en wat ik erin ga zoeken. Wat weet ik van Californië?

"Philip Agre (1998) has remarked on "the tendency of people who define themselves against something to simply invert whatever it is they oppose, rather than actually having a new idea." (par. 10) That has been the character of much educational reform in the 20th century. Liberal reforms have all been defined in contrast to the stereotype of the teacher at the front of the room lecturing and quizzing. Conservative reforms, reacting against what they perceive to be the abandonment of teaching in the liberal reforms, give us back the teacher as lecturer and quiz master. California has provided the most dramatic example of such unprogressive flip-flops. In the early 1990s they virtually outlawed direct teaching of reading and mathematics ; then they did an abrupt switch, producing guidelines that virtually outlawed everything except direct teaching. (mijn nadruk)

Carl Bereiter (2002, p. 432, paragraaf 'The concepts we need, and why we don't have them')

Ik neem aan dat deze flipflops direct met het artikel van Hook, Bishop en Hook te maken hebben. De Nederlandse politiek dreigt ook te gaan knipperbollen. Dat maakt het voorbeeld van Californië des te interessanter.

Ik heb al gezien dat HBH (Hook, Bishop en Hook) waarschijnlijk een beschikbare dataset gebruiken om een statement af te geven over de effectiviteit van van twee nogal van elkaar verschillende ovormen van wiskundeonderwijs die in Californië in de 90er jaren enige tijd tegelijk hebben bestaan. Dat levert niet echt een natuurlijk experiment op, maar het is ongetwijfeld een interessante situatie. Ook heeft Mark79 al aangekondigd dat deze auteurs heerlijke outsiders zijn wat onderwijsonderzoek betreft, en dat is een fenomeen dat ken ik langzamerhand van haver tot gort. In dit geval verwacht ik dat er op het eerste gezicht adequate statistische analyses op de beschikbare gegevens zijn uitgevoerd, en dat de interpretatie van een en ander op het eerste gezicht ook heel aannemelijk is. De problemen zullen pas echt blijken bij herlezen van het artikel, en om het artikel heen lezen in andere publicaties over mogelijk dezelfde dataset. Het zou kunnen dat er robuuste verschillen zijn gevonden, dan zou dat als onderzoeksresultaat ondanks wat vreemde analyses gewoon overeind blijven staan. Dat wat betreft methode van evalueren, wat op zich allemaal heel interessant kan zijn voor methodologen, maar verdomd weinig zal zeggen over kwaliteiten van het wiskundeonderwijs.

Ik verwacht op zijn minst een theoretisch kader waarin helder wordt wat de issues zijn bij de vormgeving van onderwijs, in dit geval nog in het bijzonder het wiskundeonderwijs. Het zou best eens kunnen zijn dat echt didactische zaken die de wiskunde betreffen (laten we even veronderstellen dat we weten wat dat zijn) helemaal niet aan de orde zijn in Californië, omdat de inrichting van de curricula vrijwel uitsluitend politiek gestuurd is. Daar komen we wel uit, anders helpt mark79 wel een handje. Voor mij staat of valt het artikel met de deugdelijkheid van het theoretisch kader: mist dat kwaliteit, dan blijft alleen wat Spielerei met scores op de SAT over. Tja, want de Scholastic Aptitude Test is het criterium in het HBH-onderzoek. De SAT is een test die een cruciale rol speelt bij de selectie-aan-de-poort voor ongeveer een kwart van de Amerikaanse colleges, wie zich wil informeren kan even bladeren in mijn annotaties van Camara en Kimmel (2005) html. Overigens, in wezen is het een intelligentietest (Sternberg, 2005), niet echt een handig soort test om als effectiviteitsmaat voor onderwijs te gebruiken.

Sternberg, of course, is the star researcher in the field of human intelligence (interview). (Gardner is another one, not quite in the same league, but working together with Sternberg on 'tacit intelligence.'). Well, yes, the SAT in the eyes of Sternberg is an intelligence test, "a 3-hour examination currently measuring verbal comprehension and mathematical thinking skills". It surely is a fantastic instrument to predict success in almost no matter what, including success in college. That is not the merit of the SAT: any other qualified intelligence test will do the same trick. This predictive validity of intelligence tests is a global finding, it would apply in the Netherlands as well. Happily, the Dutch need not have their souls searched by intelligence tests in applying for higher education. The rare exception is the Dutch Police Academy; its admission procedure was evaluated in 1989, using the known predictive value of intelligence tests.

from http://www.benwilbrink.nl/literature/camarakimmel.htm

Het instrument dat Bishop en Hook gebruiken is de SAT9, dat is nieuw voor me, dat zoeken we dus ook verder uit. De SAT is in de VS de Scholastic Aptitude Test, dat is de SAT waarover Sternberg in zijn hoofdstuk spreekt. De SAT 9 is Stanford Achievement Test 9e editie, een heel andere test, bij een andere uitgever (Harcourt, de club die in Nederland Swets & Zeitlinger heeft overgenomen, en dus ook voor veel Nederlandse tests tekent). Ik was wel even stomverbaasd, moet ik bekennen. (De huidige editie is SAT 10. Veel te kort ook: Wiki) Deze SAT 9 is mogelijk voor Sternberg, en voor mij, eveneens de facto een intelligentietest. Maar dat mag de pret niet drukken: als beter wiskundeonderwijs de intelligentie verbetert, wat in de 19e eeuw meen ik een gangbare gedachte was, dan is dat ook prachtig, toch? kijk, hier klinkt al wat cynisme door, ik moet oppassen.

Er is over de SAT 9, ook in Californië, wel meer onderzoek online te vinden. Bijvoorbeeld Butler, Orr, Bousquet Gutiérrez en Hakuta (2000 pdf)

HBH theoretisch kader

Ik zoek mijn weg voorzichtig van buiten naar binnen, en kijk eerst wat er in HBH's literatuurlijst staat.

Een stukje van Bishop uit 2002, zonder verdere literatuur.
Bishop en Hook 2004, enkele literatuurverwijzingen zijn identiek aan die in 2007, verder een website voor ouders http://star.cde.ca.gov/ en een dode link naar 'Institute for Learning, San Diego's K-12 Mathematics Framework'.
Een artikeltje uit de American Educator, summer 2002 http://www.aft.org/pubs-reports/american_educator/summer2002/lostatsea.html (deze link werkt wel); leuk stukje, populair, maar dat is ook de bedoeling want het is getrokken uit 'Lost at Sea: New Teachers' Experiences with Curriculum and Assessment,' Teachers College Record, Vol. 104(2), pp. 273-300; auteurs Kauffman., Johnson, Kardos., Liu, en Peske zijn betrokken bij het Project on the Next Generation of Teachers van Harvard Graduate School of Education (the educational research establishment, Mark79! Hun taak heeft overigens weinig met de inhoud van HBH te maken, vermoed ik).
D. Klein: A brief history of American K-12 mathematics education in the 20th century. Dit is hoofdstuk 7 in J. Royer (2003) Mathematical cognition. Ik kan dit hoofdstuk niet boven water krijgen, maar de titel is duidelijk genoeg. James M. Royer is een oude rot in onderwijsonderzoek, over taal.
Leung, over wiskundeklassen in Azië "In sum, the overall quality of the teaching in this East Asian country [Hong Kong, bw] was judged to be high. The findings show that high quality teaching and learning can take place even in a teacher directed classroom. It is argued that these East Asian classroom practices are deeply rooted in the underlying cultural values of the classroom and the wider society. The paper ends by drawing some implications of the study for the mathematics education community in other cultures." Ik heb geen pdf van dit artikel, jammer. Leung is onderzoeker van wiskundeonderwijs (in China, werk gepubliceerd in het Engels), U. of Hong Kong
L. Ma (1999). Knowing and teaching elementary arithmetic. Erlbaum. Helaas niet op questia.com beschikbaar. Ik twijfel over de juistheid van deze referentie. Picarta geeft: Liping Ma (1999). Knowing and teaching elementary mathematics : teachers' understanding of fundamental mathematics in China and the United States. Erlbaum. questia, met een aardig voorwoord van Lee Shulman, dat wijst op het belang van dit boek voor vooral teacher education. Ma, p. 144: "It does not seem to be an accident that not one of a group of above average U.S. teachers displayed a profound understanding of elementary mathematics. In fact, the knowledge gap between the U.S. and Chinese teachers parallels the learning gap between U.S. and Chinese students revealed by other scholars ( Stevenson et al., 1990; Stevenson & Stigler, 1992). " Rijke literatuurlijst, vooral ook internationale vergelijkingen (waar ook de publicaties van Stevenson over gaan).
Quick e.a. interimrapport html. Dit is onvindbaar op de betreffende website; Ah, op een andere URL wel, ws het definitieve rapport. Op p. 71 en 72 wat grafiekjes, om straks op terug te grijpen, want het zijn San Diego data (Californië).
Artikel door Schmidt e.a., de URL moet zijn: http://www.aft.org/pubs-reports/american_educator/summer2002/curriculum.pdf, een uitgebreid artikel afkomstig uit de VS TIMSS-stal.
Dan is er een uitvoerige afzonderlijke lijst referenties te vinden in de bijna twee pagina's Notes, over specifieke tests, schoolboeken, personal communications. Dit materiaal is ongetwijfeld niet online beschikbaar; of er een voorbeeld-test van de SAT-9 is, zoek ik nog uit.

HBH zetten dus zwaar in op internationale vergelijking, en wel in het bijzonder op die tussen de VS en China, wat betreft wiskundeonderwijs. En daarbinnen valt het accent weer op de kwalificaties van de leraren. Dat kan in de opzet van de HBH-analyse nog alle kanten uitgewerkt blijken, we zullen zien. Er lijkt geen belangstelling te zijn voor problemen van methodologische aard bij al dit evaluatieve en comparatieve onderzoek, we zijn gewaarschuwd.

HBH hebben geen afzonderlijke paragraaf voor hun theoretisch kader: het is waarschijnlijk opgenomen in de Inleiding. Dat begint met de sorry state of education in the US, zoals in TIMSS 1995 gedocumenteerd. Als ik èrgens geen zin in heb, is het gefrut over TIMSS en ander comparatief onderzoek, dat is een zee om leeg te drinken. Ik begrijp dat men zich in de VS iedere keer weer rot schrikt over hun belazerde prestaties in internationale vergelijkingen; of dat een goede basis is voor onderwijsvernieuwing? Ik vraag het u af. Kindersterfte is in de VS ook rampzalig, bijvoorbeeld vergeleken met Canada. Hoe zou dat nu toch komen? Een belangrijke verkalring voor achterblijvende schoolprestaties in de VS ligt in het achterblijvende welzijn van de jeugd (UNICEF 2007 'Child poverty in perspective' pdf).

De inleiding leent in feite het theoretisch kader van het Schmidt, Houang, en Cogan (SHC in het vervolg), en stapelt daar een aantal nogal bizarre claims bovenop. Met de beste wil van de wereld kan ik dit geen adequate presentatie van onderwijsonderzoek noemen. oordeel zelf, neem bijvoorbeeld de volgende uitspraak:

This research is relevant to any entity which wishes to change to a quality curriculum in order to improve learning."

Fantastisch. Natuurlijk, de nog te presenteren data en hun analyse kunnen deze claim waar maken. Maar dat is alleen een theoretische mogelijkheid.

HBH gaan uit van de analyse van SHC. De conclusie daarvan is, in de weergave van HBH, dat de 21 deelnemende staten van de VS wiskundeprogramma's hebben die zich van van die in de landen in de top van TIMSS 1995 (grade 8) onderscheiden door:

teveel onderwerpen (not focused), vooral in de lagere klassen
die bovendien te vroeg en te oppervlakkig worden behandeld, en dan eindeloos herhaald
in een onsamenhangende volgorde
op een laag niveau, vooral in de eerste high school jaren

Merk op dat die SHC-analyse helemaal is gesteld in termen van het wiskundeprogramma. Geen sprake van mogelijk grote groepen achterstandsleerlingen die niet mee zouden kunnen komen in een overigens goed wiskundeprogramma. Het gekke is dat HBH daar een heel eigen draai aan geven: "no data was presented to show how hard-to-teach students, such as economically disadvantaged or immigrant students, would respond to a quality curriculum." Wat bedoelen ze daar mee, ik begrijp daar niets van. Het is kennelijk een cruciaal punt, want meteen beginnen HBH zich op de borst te kloppen: "The original research described in this paper provides data on the above undocumented issues, and focuses on the introduction of a quality curriculum into four low-performing jurisdictions, as well as one high performing one." HBH zijn ongelovige Thomassen, verwijten SHC dat ze geen experimentele gegevens ophoesten om te bewijzen dat wegwerken van de gesignaleerde tekorten werkelijk leidt tot betere prestaties, en gaan dat varkentje hier dus zelf even wassen. Prima om empirische gegevens te verzamelen, maar is daar de fanfare ook voor nodig?

Debbie Baofeng Wang (2004) presenteert een secundaire analyse op TIMSS gegevens om de verschillen in prestaties van Amerikaanse en Chinese (Hong Kong) leerlingen te verklaren. Dat is heel leerzaam ter vergelijking met het artikel van HBH. Om te beginnen noemt Wang de studie van SHC niet, en spreekt zij ook overigens op geen enkele manier over kenmerken van wiskundige methoden. Wang denkt dus verschillen te kunnen verklaren zonder te kijken naar de wiskundige methoden zoals in de klassen (grade 7 en 8) gebruikt. Amazing, in feite neemt zij dus impliciet aan dat die methoden gelijk zijn, wat ze waarschinjlijk niet zijn. Het wordt nog gekker: TIMSS is een momentopname, hoeveel andere variabelen er in dat onderzoek ook gelijktijdig worden meegenomen. In beginsel kunnen er op basis van zo'n momentopname geen conclusies over oorzakelijke verbanden worden getrokken, er valt met andere woorden dus niets te verklaren, alleen te beschrijven. Wang trekt zich daar niets van aan, en legt ongehinderd door rede of ratio de ene oorzakelijke relatie na de andere. Dan komt er dus een moment waarop er onzin ontstaat, waar zij vindt dat het nemen van bijlessen en andere bijspijkeractiviteiten samengaat met lagere wiskundeprestaties, in haar optiek die 'dus' veroorzaken. U mag precies een keer raden wat ongetwijfeld de juiste hypothese over de achter deze correlatie liggende oorzakelijkheid is. Wang gaat inderdaad niet zo ver dat ze aanraadt deze activiteiten maar liever te verbieden, maar voor tal van andere correlationele verbanden adviseert ze wel doodleuk wat bijdraagt aan verbetering van wiskundeprestaties. Kunt u het nog volgen? Het is gewoon statistiek die hier met voeten is getreden.
Wang is gespecialiseerd in onderwijsevaluatie, en bovendien in multivariate analyses, hoort de valkuilen dus te kennen (de valkuil heet in dit geval: aggregation error. Relaties die op groepsniveau lijken te bestaan, kunnen op subgroeps- of individueel niveau heel anders liggen, bijvoorbeeld omgekeerd. Kiezen voor bijspijkeronderwijs doe je alleen als je dat wel heel erg nodig hebt, dus slecht scoort op je wiskunde) Evenals het andere onderzoek in de Paik (2004) bundel is dit gesponsord door de American Educational Research Association (Grants Program), het boek is de hemel in geprezen door Walberg en Shavelson, onderzoekers die bepaald wel een naam hebben te verliezen. En toch gaat het waanzinnig fout. Ik moet HBH misschien geen te harde verwijten maken? Dat zou de wereld op zijn kop zijn. Onderzoek kent altijd zijn beperkingen, en hoe ernstig die soms ook zijn, ze rechtvaardigen niet dat er onzin wordt beweerd. HBH hadden er goed aan gedaan het onderzoek van Wang in hun artikel mee te nemen. Dan moet je het boek wel ergens vandaan kunnen halen, bij je antiquaar bijvoorbeeld, zoals in mijn geval.

In plaats van dat theoretisch kader presenteren HBH vier 'principiële kanten' (ik kan er niets aan doen, het staat er echt) van hun onderzoek. Ze vertellen gewoon hoe ze het gaan doen, dat dat geslaagd is bovendien, maar niet waarom dat om te beginnen zinvol zou zijn om te doen. Die punten zijn de volgende

We gaan bewijzen dat een kwaliteitsprogramma uit een andere cultuur kan worden overgenomen (want SHC en Leung (2005) zouden gesuggereerd hebben dat zoiets heel riskant of lastig is. Ik geloof daar niets van, maar dat moet ik bij SHC en Leung nog nakijken). Met alle respect, dit komt mij voor als ten principale een opgerichte stroman die makkelijk overhoop geknald kan worden.
Het twee beginsel is een variant op het eerste, met een voorschot op de resultaten erbij: "Our research, using experimental data, clearly demonstrates that a quality Asian/European curriculum can be successfully transplanted virtually intact to North America and gives superior results almost immediately."
Een beter curriculum werkt ook goed uit voor achterstandsleerlingen. Ik val werkelijk van mijn stoel.
Een variant op c): dat geldt ook voor immigranten. Nou breekt ook mijn klomp nog.

Dit is van een hoog gehalte aan trivialiteit. Zeg liever dat er, natuurlijk, positieve effecten van een op de HSC-punten aanzienlijk verbeterd programma zullen zijn, dat daar op zich geen onderzoek voor nodig is, maar dat het van enig belang kan zijn empirisch uit te vinden hoe groot die effecten zijn, voor subgroepen, onder verschillende condities van implementatie. Dat zou ik graag accepteren, dat zou redelijk zijn.

Dit is dus geweldig irritant, want waar het natuurlijk om gaat is hoe je dan een programma, met teacher training, and all the rest of it, in elkaar zet die de door SHC gesignaleerde tekortkomingen effectief wegwerkt. Geen woord daarover in deze Inleiding. Ik vermoed dat anderen dat 'kwaliteitsprogramma' in elkaar hebben gezet, maar dat zal verderop nog wel blijken. Het is niet gebruikelijk dat onderzoekers impliciet claimen dingen gedaan en gemaakt te hebben, die in feite door anderen zijn gedaan en gemaakt, dus ik ben wel benieuwd hoe dit in elkaar blijkt te steken. Dat HBH de strijd doodserieus nemen, blijkt wel uit dit citaat:

None of this is to take away from the powerful and well-researched [SHC] paper. Rather, our paper is the next logical step in the process started by [SHC], where we investigate important and specific time-dependent research topics or characteristics not covered by the [SHC] paper. (p. 127)

Mijn applaus krijgen ze daar niet voor. Het ziet er eerder naar uit dat er een dataset voorhanden was, en dat daar een statistische analyse op is gedaan. Dat is dus de volgende sectie in dit artikel.

Even hernemen. Waar ben ik nu?

Waar gaat het bij de BON-discussie om: wat is kwalitatief goed wiskundeonderwijs, en wat is de rol of zijn de mogelijkheden van onderwijsonderzoek om dat onderwijs te vinden, te bouwen, te begeleiden? Bas Braams heeft dergelijk onderwijsonderzoek niet kunnen vinden, maar hij heeft zijn vraagstelling (onbedoeld) beperkt tot TIMSS-achtig onderzoek. Mark79 volgt Braams daarin, maar meent dat HBH nu juist een voorbeeld is van het onderzoek dat het wiskundeonderwijs nodig heeft.

Mijn insteek is niet om het ongelijk van Mark79 wat betreft het HBH-onderzoek te laten zien, maar om aan de hand van een scherpe bespreking van het HBH-onderzoek beter zicht te krijgen op de relatie tussen wiskundeonderwijs, onderzoek daarvoor of daarvan, en wat kwaliteit van een en ander is. Het HBH-onderzoek gaat waarschijnlijk kopje onder, maar de winst is hopelijk dat er zicht komt bij de wiskunde-discussianten op de mogelijke rollen van onderwijsonderwijsonderzoek voor het wiskundeonderwijs dat hen zo ter harte gaat.

Wat ik nu zie opdoemen is mogelijk een probleem dat enigszins specifiek is voor wiskundigen: een gemis aan gevoel voor de rol van onderwijsonderzoek naar hun onderwijs. Dat zou een beroepsdeformatie kunnen zijn die voortvloeit uit het abstracte karakter van het vak. Het is de worsteling die je bij Hans Freudenthal in zijn didactische publicaties ziet, een onvermogen om redelijk in te schatten wat er vanuit andere disciplines over het onderwijs in de wiskunde aan welke groepen studenten valt te melden, en dat is echt iets anders dan wat er over de betreffende wiskunde valt te melden. Hetzelfde kun je zien gebeuren bij de huidige cTWO-voorstellen. Ik veroordeel dat niet, verre van dat, ik heb zelf ook zo mijn tekortkomingen. Maar het zou helpen op een punt als dit tot enige zelf-reflectie te komen. (Iedere discipline heeft zo wel zijn eigenaardigheden. Dat is op zich ook weer een veld van wetenschappelijk onderzoek, bijvoorbeeld Tony Becher (1989). Academic tribes and territories. Intellectual enquiry and the cultures of disciplines.) HBH missen, gezien de tekst van hun Inleiding, het besef dat voor wetenschappelijk onderzoek een adequaat theoretisch kader een noodzakelijke voorwaarde is. Sla je zo'n stap over in je onderzoek, dan is er geen waarborg tegen onvoorzichtige of onjuiste analyses en interpretaties.

Zouden HBH wat meer tijd hebben genomen voor reflectie, dan zouden zij bijvoorbeeld in hun Inleiding de analyse van Schmidt, Houang, and Cogan over de tekortkomingen van de Amerikaanse wiskundeprogramma's als kern van de zaak hebben genomen, met als daaruit waarschijnlijk voortvloeiende vraag of die geanalyseerde tekorten in de nieuwe programma's inderdaad zijn weggewerkt, en hoe dan wel? Internationaal onderzoek zoals TIMSS is dan alleen zijdelings van belang omdat het die SHC-analyse scherper maakt.

De beschikbare gegevens

De SAT 9 is de test die de cruciale gegevens voor HBH levert. Wat is bekend over de SAT 9? De National Council on Measurement in Education (27 november 2000) Flaws reported on SAT 9 html bericht n.a.v. de Los Angeles Times die de beschikking kreeg over een 'gelekte' test, naar aanleiding daarvan merkt James Popham (een grijze held op toetsgebied in de VS, om hem kan echt niemand heen) op:

"The truth is it's a fundamentally flawed testing system," said Popham. "Students' scores are almost certain to be meaningfully contaminated by factors that have little to do with the effectiveness of a teaching staff's instructional efforts."
The test measures inherited aptitudes, rather than what has been taught at school, Popham explained.
The test cores on the Stanford 9, TAP and ITBS do not show mastery of a subject matter; they show how students rank on a national bell-curve. Half of the test takers will be below the national average. In additional to the misuse of test scores, the exams themselves are faulty, say experts.
"If the public could look at the content of these exams, people would be appalled at what's being used to measure educational quality," Schaeffer said.

Substance, September 2000, p.53. html

By the way, James Popham (2005) heeft een bijtend boekje voor ouders geschreven, over de gevolgen die de No-Child-Left-Behind Act van George Bush zal hebben voor de praktijk dat scholen steeds meer training voor de toetsen gaan geven, in plaats van het onderwijs waarvoor ze zijn opgericht. Dit boekje kan nog van pas komen, het geeft de mechanismen aan waardoor stijging van resultaten op tests zoals de SAT 9 mogelijk is zonder dat er een spat verbetering van kwaliteit in het onderwijs is.

In questia.com levert zoeken op "Stanford Achievement Test" 173 hits voor boeken, 182 artikelen, 24 berichten. Het meeste natuurlijk niet over de test zelf, maar omdat testgegevens zijn gebruikt in onderzoek.

De SAT 9 is dus een test die in feite een verkapte intelligentietest is. Ik weet niet of het een geldig tegenargument van HBH zou zijn dat die landelijke normering bij hun onderzoek geen rol speelt omdat ze scores vergelijken over jaren heen, or what not, waarmee dat probleem is kwijtgespeeld. Dit zijn zaken waar je niet luchtig overheen kunt stappen, dus ik ga HBH des te scherper lezen.

secundaire analyse, en wat betekent dat?

HBH maken gebruik van een dataset die door Californië's onderwijsdepartement site voor iedereen ter inzage is gesteld. Denk daar even over na, wat kan dat betekenen voor een artikel dat van zichzelf zegt 'onderzoek van wiskundeonderwijs' te zijn? In de sociale wetenschappen heet onderzoek dat gebruik maakt van een door anderen verzamelde dataset secundair onderzoek. De lezer van dat soort onderzoek weet dan dat de onderzoeker geen controle heeft gehad over de dataverzameling, niet in het veld is geweest, geen bijzonderheden kent, etcetera. Dat betekent dus ook dat secundair onderzoek op een koopje kan, omdat de kosten van de dataverzameling door anderen zijn gedragen. In deze tijden van publicatiedwang is het gebruiken van anderman's data een manier om in korte tijd veel artikelen gepubliceerd te krijgen. Secundaire analyse ligt ook makkelijker binnen bereik van outsiders. Dat hoeft allemaal geen bezwaar te zijn, omdat sommige secundaire analyses kwalitatief heel goed zijn en belangrijke resultaten opleveren (zoals in Paik (2004)). Maar dat kan ook anders liggen. Zo was Jaap Dronkers onlangs nog uitvoerig in het nieuws omdat hij eindexamencijfers had geanalyseerd en concludeerde dat scholen met schoolonderzoeken aan het rommelen zijn. Had hij daarvoor scholen bezocht? Nee. Dronkers is een uitstekend onderzoeker, maar mist hier passende bescheidenheid bij het zoeken van publiciteit over uitkomsten van zijn secundaire analyses. (De Lange en Dronkers 2006 over eindexamens html). Over rommelen met eindexamencijfers: het Cito past routineus de beoordeling van eindexamens aan bij het niveau van de geëxamineerden, zoals het Cito deze week in het geval van eindexamens Frans en Duits bekend maakte (Marlies Hagers: Luistervaardigheid Frans en Duits daalt. NRC 14 april 2007 p. 49). Dat is precies wat met de normering van de SAT 9 ook gebeurt, trouwens.

Concreet betekent het feit dat HBH slechts secundaire analyses doen, dat dit onderzoek never ever kan tellen als voorbeeldig empirisch onderzoek, een secundaire analyse is immers op zich geen empirisch onderzoek. Natuurlijk kan ook een secundaire analyse belangrijke inzichten of resultaten opleveren, dus ik ga gewoon door met het besturen van het HBH-artikel. Maar de stormvlag is gehesen, want HBH kunnen dus geen zicht hebben gehad op wat er in diverse klaslokalen mogelijk is gebeurd in de vorm van teaching to the test, selectief niet mee laten doen van bepaalde leerlingen, etcetera.

[20 april Ik ben even een paar dagen met een WRR-rapport over jeugdbeleid in de slag. Ik heb het HBH-artikel nog steeds niet verder gelezen dan wat ik besproken heb. Ik word zelf toch ook wel nieuwsgieriger, en heb de paragraaf met de conclusies dan toch maar vast gelezen. Ik word er niet vrolijk van, de auteurs strooien met groeicijfers alsof dit tot in de hemel door zouden kunnen gaan. Wat werkelijk aan de hand is: Californië introduceert de SAT9 in 1997 (of 1998, daar wil ik vanaf zijn), niemand kende die test, dus in de eerste jaren gaan die testscores als een raket omhoog omdat leraren uitvinden hoe je in je instructie de leerlingen op die test kunt voorbereiden (teaching to the test, geen fenomeen dat alleen in de ogen van columnisten bestaat, maar overtuigend in wetenschappelijk onderzoek gedocumenteerd. Overigens ook in de 19e eeuw in Engeland al een misstand). Het enige dat in de paragraaf 'conclusies' relevant is: districten die een bepaald nieuw wiskundeprogramma hebben geadopteerd, stijgen sneller dan districten die een oud programma zijn blijven gebruiken. In die context is de presentatie van grote groeicijfers voor Engels dan wonderlijk, en in de korte vorm in de 'Conclusions' onbegrijpenlijk. Ze hadden HBH achterdochtig moeten maken. Afijn, gegeven dat zo'n nieuwe test over de eerste jaren van zijn inzet een voorspelbare groei in hoogte van de scores (beter: percentielscores, volgens landelijke normen, dus heel Amerika en niet alleen Californië), zit het er dik in dat je ook bij de introductie van een nieuw wiskunde-programma beducht moet zijn op zo'n effect: leraren moeten op de methode inspelen, leerlingen ook trouwens. In de 'Conclusions' geen woord daarover van HBH, ik ben dus benieuwd wat er in de body van het artikel over is te vinden. Ik klink hier erg zuur, en dat ben ik ook, maar dat laat onverlet dat mijn eigen hypothese is dat een curriculum dat niet de grote fouten maakt die in een oud curriculum zijn vastgesteld, het beter zal doen dan dat oude programma, ook als oppervlakkig empirisch onderzoek dat niet aantoont (de Dubin en Taveggia paradox, die natuurlijk geen paradox is).

[even geduld, de bespreking is tot dit punt gevorderd. Het kan in het vervolg van het HBH artikel nog blijken dat ik in het bovenstaande te snel conclusies heb getrokken, wat ik hoop dat inderdaad het geval is. Mijn probleem is bij deze close reading van HBH dat zij simpelweg te ver buiten de grenzen van adequate onderzoekverslaglegging gaan, daar valt dan geen redelijke commentaar meer aan op te hangen. Wat het dan weer iets makkelijker maakt: dat HBH zelf de pretenties hemelhoog opschroeven.]

Literature

Carl Bereiter (2002). Education and Mind in the Knowledge Age. Erlbaum. questia

Een sterk statement over de stand van zaken in wat cognitieve wetenschappen en hedendaagse filosofie over de inrichting van de leeromgeving te melden hebben.
My summary and annotations in a special page

Yuko Goto Butler, Jennifer Evelyn Orr, Michele Bousquet Gutiérrez, and Kenji Hakuta (2000). Inadequate Conclusions from an Inadequate Assessment: What Can SAT-9 Scores Tell Us about the Impact of Proposition 227 in California? Bilingual Research Journal, 24 pdf

abstract Proponents of Proposition 227 in California have argued for the effectiveness of English-only instruction over bilingual programs based on the increase in SAT-9 scores in the years since its implementation. Based on analyses of SAT-9 scores from 1998 to 2000, this article argues that: scores increased for all students, not just for English-learning students; scores increased for most districts regardless of the types of programs implemented; increases could be attributed to a number of possible factors, but it is not possible to separate out the impact of Proposition 227; and SAT-9 is not an appropriate measure for assessing English-learning students.

Wayne J. Camara and Ernest W. Kimmel (Eds) (2005). Choosing students; Higher education admissions tools for the 21st century. Erlbaum. questia

Ik heb een uitvoerige annotatie op de hoofdstukken gemaakt html

Ellen Condliffe Lagemann (2000). An elusive science: The troubling history of education research. University of Chicago Press.

Geen online tekst beschikbaar, maar Google op de titel en er is veel te vinden dat in haar lijn ligt (of juist niet).

Bruno Latour (1987). Science in action. How to follow scientists and engineers through society. Milton Keynes: Open University Press.

Niet online, maar zoeken in questia.com levert bijvoorbeeld de volgende recente reader op: Sheila Jasanoff (Ed.) (2004). States of Knowledge: The Co-Production of Science and Social Order. Routledge. questia

Susan J. Paik (Ed.) (2004). Advancing educational productivity. Policy implications from national databases. Information Age Publishing.

from the contents: Using an Educational Productivity Model to Construct Process Models for Mathematics Achievement and Attitudes Among Ethnic Minorities, John Thomas - The Impact of Parent Involvement and Authoritativeness on Academic Achievement: A Cross-Ethnic Comparison, Eunai Park and Gregory Palardy - Application of Event History Modeling for Examining College Student Departure Behavior. Terry Ishitani - Improving Inferences about Student Achievement: A Multidimensional Perspective, Laura Hamilton - A Cross-National Analysis of Student Victimization: School System Effects on School Violence, Motoko Akiba - Toward an Understanding of Hong Kong and United States Students' Mathematics Achievement, Debbie Baofeng Wang

W. James Popham (2005). America's 'failing' schools. How parents and teachers can cope with No Child Left Behind. Routledge.

Niet iedereen heeft dit boekje bij de hand. Voor een idee, lees zijn stukje Trouble with testing
of http://www.apapdc.edu.au/archive/ASPA/conference2000/papers/art_3_6.htm [dead link?], o.a. "One US landmark study, conducted at Michigan State University in the early 1980s, suggests that on the basis of test-versus-textbook mismatches, there are many instances in which 50 per cent or more of what's tested by standardized achievement tests is simply not taught in a particular school. How can the caliber of a principal's staff be accurately assessed via students' test scores if much of the tested content wasn't even supposed to be taught?"
An impending avalanche of achievement testing. Harvard Education Letter, 18, 2002, 1-3. pdf

Robert J. Sternberg en The Rainbow Project associates (2005). Augmenting the SAT through assessments of analytical, practical, and creative skills. In Wayne J. Camara and Ernest W. Kimmel: Choosing students; Higher education admissions tools for the 21st century. Erlbaum. questia

Debbie Baofeng Wang (2004). Toward an Understanding of Hong Kong and United States Students' Mathematics Achievement. In Susan J. Paik: Advancing educational productivity. Policy implications from national databases (pp. 225-245). Information Age Publishing.

Geary, D. C., Liu, F., Chen, G.-P., Saults, S. J., & Hoard, M. K. (1999). Contributions of computational fluency to cross-national differences in arithmetical reasoning abilities. Journal of Educational Psychology, 91, 716-719. abstract only pdf

Chinese and American students compared. "After controlling for IQ and computational fluency, the Chinese advantage on the arithmetical reasoning tests was still significant but substantively smaller in magnitude. "
I'd like to see this article: what exactly is 'mathematical reasoning' and how is it tested?

Jordan, N. C. , Kaplan, D., & Hanich, L. B. (2002). Achievement growth in children with learning difficulties in mathematics: Findings of a two-year longitudinal study. �Journal of Educational Psychology, 94, 586-597. pdf

Illustrates how complex the issues are. Even this well-designed research does not offer clear conclusions on the issues researched.

Links

http://www.mathematicallycorrect.com/: basic skills protagonists - veel materiaal en verdere links - veel woede, ook - aparte sectie Californië

http://www.beteronderwijsnederland.nl/?q=node/2080

Waar blijft het vervolg van deze oefening? Ik ben even afgeleid door problematiek die verwant is aan wat er in California zoal aan de hand is met wiskunde-onderwijs. Dat gaat over de mogelijkheid dat leerlingen met Nederlands als tweede taal bij de Cito Basistoets rekenopgaven worden gediscrimineerd door de redactiesommen in die toets. Dat kan dus nogal maatschappelijk explosief zijn. De directe aanleiding dat ik met dat probleem aan de slag ben gegaan, is een hoofdstuk van Paul Lesemann, in een recent rapport van de WRR (Wetenschappelijke Raad voor het Regeringsbeleid), waarin hij op die mogelijkheid wijst. Ik ben ondertussen een webpagina hier op het onderwerp redactiesommen gestart, omdat ik eerst de onderzoekbasis voor dit probleem helder moet krijgen.

Ik kan ondertussen dus wat mijmeren over dat onderzoek van Hook c.s., en de opvatting van Braams dat er helemaal geen behoorlijk onderzoek naar wiskundeonderwijs bestaat. Wat Braams betreft, ik begin te vermoeden dat dit een misvatting is die onder wiskundigen breder leeft. Wiskunde is een vak met weinig onzekerheden, behalve dan over de fundamentals. De toepassingen waarmee wiskundigen het best vertrouwd zijn, zijn in de sfeer van natuurkunde, waar doorgaans de onzekerheden beperkt zijn (Nancy Cartwright denkt dar overigens heel anders over). Hoe anders is dat in de sociale wetenschappen: die zijn zo verdomde complex, daar bestaat überhaupt geen 'perfect' onderzoek zoals wiskundigen dat graag zouden zien. Empirisch onderzoek is hier altijd een kwestie van compromissen aangaan, en geen geringe compromissen bovendien. Het gaat dus helemaal niet aan om een empirisch onderzoek aan te vallen op van alles en nog waarop mogelijk net iets te veel compromissen zijn gesloten. Het onderzoek van Hook c.s. lijdt onder meer gebreken dan overigens in sociaal-wetenschappelijk onderzoek zijn te vinden, omdat het niet helemaal professioneel is opgezet (sterker: het is helemaal geen onderzoek, het is een analyse van toevallig aanwezige data). Dat geeft op zich niet, daarmee kan het nog best belangrijke resultaten opleveren.
Wat het onderzoek van Hook c.s. betreft, kom ik waarschijnlijk uit op andere conclusies dan die van de onderzoekers zelf, en zal mijn belangrijkste en beslissende kritiek waarschijnlijk zijn dat er weliswaar veel gegevens zijn geanalyseerd, maar over de kenmerken van het onderwijs zelf, inhoudelijk zeg maar, weinig bekend is uit het artikel zelf, en mogelijk evenmin uit andere bronnen. Ik ben benieuwd, maar zoals gezegd, dit moet nog even wachten.

30mei 2007 \ contact ben apenstaartje benwilbrink.nl

http://www.benwilbrink.nl/literature/hook.bishop.hook.htm