Wie graag huidige rekenprestaties met die van vroeger wil vergelijken, kan een goede indruk krijgen van de situatie in de twintiger jaren uit een publicatie van Oort.
Oort, Dr A. H. (1928). — Proeven over verstandelijke ontwikkeling op Leidsche scholen. — Leiden: Van Doesburg — Tweede druk aangevuld met nieuwe proeven en proeven in het Nederlandsche leger. 124 blz, daarin veel tabellen. Mogelijk is dit boek identiek aan de publicatie in Psychiatrische en Neurologische Bladen jaargang 21 nummer 6. Een opvolgende publicatie in hetzelfde tijdschrift, 1923 no. 3 en 4
Om meteen maar een mogelijk verkeerde indruk weg te nemen: dit is een buitengewoon interessant onderzoek omdat het dezelfde toetsen voorlegt aan een groot aantal klassen uit zowel lager als middelbaar onderwijs in Leiden, inclusief verpleegkundigen in krankzinnigengestichten, en later dus eveneens aan dienstplichtigen.
Het waardevolle van deze publicatie is dat er nu eens niet alleen maar (een deel van) de gebruikte opgaven in zijn vermeld, maar dus ook de gedetailleerde resultaten. Ik zal voor de rekenproef die resultaten overnemen.
“In het najaar van 1920 werd aan Dr. E. de Vries en aan mij, door de Gezondheids-commissie te Leiden verzocht of wij bereid waren een onderzoek in te stellen naar vermoeidheidsverschijnselen bij de Leidsche schooljeugd. Vragen over de schadelijkheid van veel huiswerk, over de wenschelijkheid van langere vacanties, van korter lesuren bij jongere leerlingen, over het aantal lesuren dat achtereen mag gegeven worden waren bij de school-commissie gerezen en men hoopte dat de experimenteele psychologie bij de oplossng van die vraagstukken den weg zouden kunnen wijzen."
Die vraagstelling vinden Oort en De Vries niet geweldig zinvol: natuurlijk zijn leerlingen na vier uur les vermoeid.
“Maar bij de gehouden besprekingen kwam iets anders ter sprake: de schadelijkheid voor het onderwijs van de examens en toen kwam bij mij de gedachte op of het niet mogelijk zou zijn die examens geheel of gedeeltelijk te vervangen door een experimenteel onderzoek. Hiervoor zouden de leerlingen niet gedrild kunnen worden, hierdoor zou wellicht opgeheven kunnen worden die plaag der latere schooljaren, welke zonder zulk een dreigende stok achter de deur zoo mooi zouden kunnen zijn (...) De eindexamens beletten vooral dat de algemeene ontwikkeling en vorming van de leerling tot haar recht komt, terwijl deze juist in de hoogste klasse bij de ouder wordende leerlingen zoo bijzonder nuttig zou kunnen zijn. ’
Oort was onder de indruk van de tests die voor de recrutering voor het Amerikaanse leger waren gebruikt — de Army Alpha test — en stelde voor om vergelijkbaar testmateriaal te ontwikkelen en daarmee de Leidse scholen te onderzoeken. De Commissie ging daarmee accoord.
De door Oort ontwikkelde testbatterij bestond uit acht onderdelen, het eerste was een rekentest. Let op: de rekentest, waarvan de door Oort genoemde opgaven in de box zijn te vinden, is een test op snelheid: de leerlingen krijgen vijf minuten de tijd om de twintig opgaven in deze test te maken, met de instructie om snel te werken, en opgaven die ze niet weten dan over te slaan. Vijf minuten! Zoals vaak het geval bij dergelijke tests, zijn de opgaven gerangschikt naar opklimmende moeilijkheid. Oort geeft geen tabellen waarin de resultaten per opgave zijn vermeld, er valt dus niets te zeggen over de statistische kenmerken van de afzonderlijke opgaven. Maar des te meer over de resultaten van van elkaar verschillende groepen leerlingen.
Oort geeft een punt voor iedere goed beantwoorde vraag. Het zijn open vragen, geen keuzevragen, dus de rol van raden is beperkt. In later onderzoek maakt Oort wel gebruik van vierkeuzevragen, en hij bespiegelt daarover (p. 113) dat raden dan invloed op de score kan hebben, zodat eigenlijk het aantal goed met 1 punt verminderd zou moeten worden bij iedere drie foute antwoorden. Waarschijnlijk ziet u de redeneerfout hierin over het hoofd, zoals de meeste of alle deskundigen in de vorige eeuw eveneens hebben gedaan. Als u de redeneerfout wilt ontdekken, stop dan hier met lezen. Ik zal onder de box uitleg over deze redeneerfout geven.
proef 1 (bloemlezing uit de opgegeven vraagstukken [helaas is dit alles wat Oort geeft, zodat geen vergelijkend onderzoek met 1922 mogelijk is :-( ])
1. Hoeveel zijn 30 man en 7 man samen?
2. Hoeveel bespaart men in vier maanden, wanneer men per maand ƒ 7,— overhoudt?
9. Als ik twee sigaren koop van 7 cent het stuk en een pijpje van 55 cent, hoeveel krijg ik dan terug van een rijksdaalder?
10. Als 7 boeren in 2 dagen een sloot kunnen graven van 42 M., hoeveel man zijn dan noodig om datzelfde werk in ½ dag te doen?
14. Als 3½ M. laken ƒ 14,— kost, wat kost dan 6½ M.?
15. Een schip heeft zooveel voedsel aan boord dat 700 menschen er 2 maanden van kunnen leven. Hoe lang kunnen 400 menschen leven van dat voedsel?
19. Bij een leger hooren 6000 man artillerie, 15000 man infanterie en 1000 cavalerie. Wanneer nu van die troep ieder wapen naar evenedigheid wordt vergroot tot er samen 24,200 [sic] man zijn, hoeveel man zijn er dan bij de artillerie bijgekomen?
20. Een groothandelaar heeft aan verschillende afnemers 1897 tonnen appelen geleverd. Hij moet nu nog aan 38 klanten ieder 45 tonnen leveren. Hoeveel ton heeft hij in het geheel geleverd?
p. 8.
De redeneerfout bij de correctie voor raden is een fout-bij-omissie: dat ziet over het hoofd dat vragen ook gewoon fout gemaakt worden, dus niet fout geraden. Maar dat betekent dat uit het aantal foute antwoorden op vierkeuzevragen niet valt af te leiden welk deel daarvan fout is geraden, welke deel fout is gemaakt. Er is dus geen correctie voor raden mogelijk. Een ramp is dat niet, omdat die vermaledijde correctie voor raden alleen een statistische correctie is: er kan immers voor een individuele score nooit een juiste correctie voor raden worden gegeven (nog afgezien van fout gemaakte opgaven). Het wordt dus de hoogste tijd om raden tegen te gaan door leerlingen en studenten te instrueren om niet geweten keuzevragen maar liever onbeantwoord te laten, tegen een bonus die iets beter is dan domweg raden zou rechtvaardigen. De reden voor dat laatste, een gunstige bonus, is natuurlijk dat er vaak toch wel deelkennis aanwezig is: bij niet weten van et antwoord op een vierkeuzevraag kan de kandidaat meestal toch wel een of twee van de alteratieven als onjuist afstrepen. Het interessante van deze vindplaats bij Oort is dat al vroeg in de 20e eeuw hetzelfde misvestand blijkt te bestaan, dat later bijvoorbeeld in het boek van De Groot en Van Naerssen (1969) Studietoetsen terugkomt, en in de erop volgende decennia niet wordt gecorrigeerd.
Tabel 1. Gemiddeld aantal goed op de 20-item rekentoets
8,4 6,9 IIIe klas scholen, 11e klassen n=48 jongens n=60 meisjes 9,6 7,8 IIIe klas scholen, 12e klassen n=48 jongens n=53 meisjes 9,7 8,8 IIIe klas scholen, 13e klassen n=13 jongens n=6 meisjes 10,9 8,9 IIe klas scholen, 6e klassen n=101 jongens n=61 meisjes 11,4 12,3 Ie klas school, 6e klas n=39 jongens n=32 meisjes 10,9 9,3 M.U.L.O. scholen, 6e klassen n=106 jongens n=72 meisjes 12,2 10,3 M.U.L.O. scholen, 7e klassen n=123 jongens n=118 meisjes 12,7 11,0 M.U.L.O. scholen, 8e klassen n=71 jongens n=76 meisjes 14,0 12,0 M.U.L.O. scholen, 9e klassen n=42 jongens n=39 meisjes 14,7 13,1 M.U.L.O. scholen, 10e klassen n=34 jongens n=12 meisjes 12,8 11,9 Gymnasium en 3 Hoogere Burgerscholen Ie klassen n=55 jongens n=47 meisjes 12,9 12,5 Gymnasium en 3 Hoogere Burgerscholen IIe klassen n=60 jongens n=52 meisjes 13,8 13,7 Gymnasium en Rijks H.B.S. IIIe klassen n=50 jongens n=26 meisjes 14,3 13,6 Gymnasium en Rijks- en Meisenjes H.B.S. IVe klassen n=31 jongens n=22 meisjes 13,5 14,3 Gymnasium Ve klas n=13 jongens en Meisjes H.B.S. Ve klassen n=21 meisjes 14,3 14,8 Gymnasium VIe klas n=12 jongens n=5 meisjes 12,6 11,1 verplegers n= 63 verpleegsters n=11,1
p. 92 e.v. Tabel II. Tabel III p. 100 e.v. geeft details voor individuele leerlingen in enkele klassen. Daarin valt mij de leeftijdsopbouw van de zesde klas gymnasium, jongens, op: 2 17-jarigen, 3 18-jarigen, 4 19-jarigen en 3 20-jarigen. De verklaring hiervoor kan toch niet liggen in de mobilisatie in W.O. I, terwijl een effect van de Spaanse griep ook in andere klassen merkbaar zou moeten zijn. Ik wijs op het artikel van Posthumus in De Gids van 1940 (integraal beschikbaar op dbnl.nl), waarin hij laat zien hoe bij de klasovergangen in de HBS het percentage zittenblijvers altijd heeft geschommeld tegen de 25%, dat zal voor de gymnasia zeker niet lager zijn geweest.
Op deze powertest, dat is een toets waarin het op snel werken aankomt, is het wel van belang een indruk te hebben van het aandeel fouten in het totaal van de gemaakte opgaven. Oort besteedt daar veel aandacht aan. Bijvoorbeeld p. 54 concluderend:
Voor de groep verplegenden kan Oort een interessant contrast maken met de resultaten op door hen afgelegd examentoets rekenen (p. 54-56), waarvoor overigens meer dan 50% ‘onvoldoende’. Oort geeft een scatterplot van examencijfers en de rekentoetsscores.
examentoets rekenen, in 55 minuten te maken (elke goede oplossing één punt
Los in 55 min. de volgende vraagstukken op en laat goed zien hoe gij de uitkomsten verkregen hebt, anders wordt de som niet goed gerekend:
p. 55. Op die pagina ook scatterplots van uitslagen op deze examentoets tegen de powertoets rekenen van Oort.
p. 54-55.
Uit de kruistabellen van oort blijkt dat 34 % van de verplegenden tenminste 3 sommen goed oplosten en daarmee een ‘voldoende’ resultaat boekten. Vergelijk dat met de resultaten op de rekentoets voor verpleegkunddigen, zoals gerapporteerd in Examens, Tijdschrift voor de Toetspraktijk, 2012, #3 (een door het Cito ontwikkelde test, met assessmentcenter-achtige rekenopgaven voor verpleegkundigen: de ontexten zijn verpleegkundig, zeg maar, al betwijfel ik of ervan uitgegaan kan worden dat iedere verpleegkundige vertrouwd is met hetzelfde scale van verpleegkundige situaties).
Het zal allicht zijn opgevallen dat meisjes het bijna overal gemiddeld minder goed doen dan jongens, in dezelfde klas. Oort gaat niet echt op dit verschil in. Het valt wel op dat voor de kandidaten voor H.B.S. en Gymnasium geen verschil tussen jongens en meisjes bestaat, of de meisjes doen het beter (p. 104). “De beide schoolhoofden vonden dit niet vreemd ; zij verklaarden dat op beide scholen de meisjes inderdaad meer wisten dan de jongens en zij schreven dat daaraan toe dat de jongens niet in het minst onder de indruk schenen te zijn van het naderende toelatingsexamen, zij voetbalden er lustig op los, terwijl de meisjes hard aan het blokken waren. Dat een dergelijk blokken en voorbereiden tot een naderend examen in staat is het gemiddelde cijfer bij mijn proeven te verhoogen, is weer een bewijs dat niet uitsluitend de verstandelijke aanleg gemeten wordt, maar ook een geschiktheid voor geestelijken arbeid, die door oefening ontwikkeld kan worden. Overigens bevestigt deze ervaring mijn meening dat de meisjes over het geheel minder van mijn proeven terecht brengen dan de jongens, want niettegenstaande haar meerderen ijver en meer werken, is het gemiddelde toch maar zeer weinig boven dat der jongens gestegen, veel minder dan het bedrag der gemiddelde variatie.”
Oort komt in 1928 dus niet op het idee dat er misschien een scheefheid — bias of partijdigheid — in zijn tests kan zitten, die meisjes benadeelt. Wie geen scheefheid vermoedt, zoekt er ook niets over uit. Aan de door Oort gerapporteerde data valt niets te analyseren dat met mogelijke scheefheid heeft te maken, tenzij de feitelijke vraagstellingen in de afzonderlijke toetsjes. Wie heel drastische cijfers zoekt over ongelijke behandeling van meisjes t.o.v. jongens in het lager onderwijs, kan terecht bij het Brabantonderzoek (o.a. door M. A. J. M. Matthijssen ) dat in de vijftiger jaren is uitgevoerd (dat cohort is later opgevolgd, het is dus bekend hoe hun verdere loopbaan is geworden; o.a. onderzoek door Joop Hartog)
[Rapport over een onderzoek naar de stand van het gewoon lager onderwijs in de provincie Noord-Brabant in 1952 en 1955 verricht in opdracht van de Provinciale Staten van Noord-Brabant.]
A. H. Oort (1928) Proeven over verstandelijke ontwikkeling op Leidsche scholen. Leiden: Van Doesburgh. p. 108, 115-116.
A. H. Oort (1928). Proeven over verstandelijke ontwikkeling op Leidsche scholen. Leiden: Van Doesburg. [Tests of intellectual development in schools in Leiden] info
Bij Oort vinden we testgegevens uitgesplitst voor het lager onderwijs naar scholen van klasse 1, 2 en 3.
Some results from Oort: tweet. Results reported as mean raw total scores on the tests. Black: boys. Grey: girls. Of special interest: primary schools (upper left & upper):
Primary schools are SES / class defined. Class III: for the poor; class II: middle class; class I: upper class. Class III schools have 12 grades, each one a half year, plus a 13th grade. Yes, grade retention is a big issue, in all types of school, in pre-WO II Netherlands. Third class pupils are not suppposed to continue in secondary education (there are vocational tracks outside of secondary ed). Second class pupils continue their education in the lower tier of secondary education (MULO, nowadays HAVO). Primary class pupils visit HBS or Gymnasium (nowadays VWO [includes Gymnasium]). There is a strong gradient of mean scores over pupil age, of course; also over schol types; as well as over pupil sex (in the lower class school types only).
The question then is: are differences in intelligences the cause of different positions in education as well as in society, or is the direction of causality the other way round. See Mulder & Heyting (abstract) on this question as answered in the pre-war Netherlands.
http://www.benwilbrink.nl/literature/oort_1928.htm