annotatie Oort 1928

Wie graag huidige rekenprestaties met die van vroeger wil vergelijken, kan een goede indruk krijgen van de situatie in de twintiger jaren uit een publicatie van Oort.

Oort, Dr A. H. (1928). — Proeven over verstandelijke ontwikkeling op Leidsche scholen. — Leiden: Van Doesburg — Tweede druk aangevuld met nieuwe proeven en proeven in het Nederlandsche leger. 124 blz, daarin veel tabellen. Mogelijk is dit boek identiek aan de publicatie in Psychiatrische en Neurologische Bladen jaargang 21 nummer 6. Een opvolgende publicatie in hetzelfde tijdschrift, 1923 no. 3 en 4

Om meteen maar een mogelijk verkeerde indruk weg te nemen: dit is een buitengewoon interessant onderzoek omdat het dezelfde toetsen voorlegt aan een groot aantal klassen uit zowel lager als middelbaar onderwijs in Leiden, inclusief verpleegkundigen in krankzinnigengestichten, en later dus eveneens aan dienstplichtigen.

Het waardevolle van deze publicatie is dat er nu eens niet alleen maar (een deel van) de gebruikte opgaven in zijn vermeld, maar dus ook de gedetailleerde resultaten. Ik zal voor de rekenproef die resultaten overnemen.

“In het najaar van 1920 werd aan Dr. E. de Vries en aan mij, door de Gezondheids-commissie te Leiden verzocht of wij bereid waren een onderzoek in te stellen naar vermoeidheidsverschijnselen bij de Leidsche schooljeugd. Vragen over de schadelijkheid van veel huiswerk, over de wenschelijkheid van langere vacanties, van korter lesuren bij jongere leerlingen, over het aantal lesuren dat achtereen mag gegeven worden waren bij de school-commissie gerezen en men hoopte dat de experimenteele psychologie bij de oplossng van die vraagstukken den weg zouden kunnen wijzen."

Die vraagstelling vinden Oort en De Vries niet geweldig zinvol: natuurlijk zijn leerlingen na vier uur les vermoeid.

“Maar bij de gehouden besprekingen kwam iets anders ter sprake: de schadelijkheid voor het onderwijs van de examens en toen kwam bij mij de gedachte op of het niet mogelijk zou zijn die examens geheel of gedeeltelijk te vervangen door een experimenteel onderzoek. Hiervoor zouden de leerlingen niet gedrild kunnen worden, hierdoor zou wellicht opgeheven kunnen worden die plaag der latere schooljaren, welke zonder zulk een dreigende stok achter de deur zoo mooi zouden kunnen zijn (...) De eindexamens beletten vooral dat de algemeene ontwikkeling en vorming van de leerling tot haar recht komt, terwijl deze juist in de hoogste klasse bij de ouder wordende leerlingen zoo bijzonder nuttig zou kunnen zijn. ’

Oort was onder de indruk van de tests die voor de recrutering voor het Amerikaanse leger waren gebruikt — de Army Alpha test — en stelde voor om vergelijkbaar testmateriaal te ontwikkelen en daarmee de Leidse scholen te onderzoeken. De Commissie ging daarmee accoord.

De door Oort ontwikkelde testbatterij bestond uit acht onderdelen, het eerste was een rekentest. Let op: de rekentest, waarvan de door Oort genoemde opgaven in de box zijn te vinden, is een test op snelheid: de leerlingen krijgen vijf minuten de tijd om de twintig opgaven in deze test te maken, met de instructie om snel te werken, en opgaven die ze niet weten dan over te slaan. Vijf minuten! Zoals vaak het geval bij dergelijke tests, zijn de opgaven gerangschikt naar opklimmende moeilijkheid. Oort geeft geen tabellen waarin de resultaten per opgave zijn vermeld, er valt dus niets te zeggen over de statistische kenmerken van de afzonderlijke opgaven. Maar des te meer over de resultaten van van elkaar verschillende groepen leerlingen.

Oort geeft een punt voor iedere goed beantwoorde vraag. Het zijn open vragen, geen keuzevragen, dus de rol van raden is beperkt. In later onderzoek maakt Oort wel gebruik van vierkeuzevragen, en hij bespiegelt daarover (p. 113) dat raden dan invloed op de score kan hebben, zodat eigenlijk het aantal goed met 1 punt verminderd zou moeten worden bij iedere drie foute antwoorden. Waarschijnlijk ziet u de redeneerfout hierin over het hoofd, zoals de meeste of alle deskundigen in de vorige eeuw eveneens hebben gedaan. Als u de redeneerfout wilt ontdekken, stop dan hier met lezen. Ik zal onder de box uitleg over deze redeneerfout geven.

proef 1 (bloemlezing uit de opgegeven vraagstukken [helaas is dit alles wat Oort geeft, zodat geen vergelijkend onderzoek met 1922 mogelijk is :-( ])

1. Hoeveel zijn 30 man en 7 man samen?

2. Hoeveel bespaart men in vier maanden, wanneer men per maand ƒ 7,— overhoudt?

9. Als ik twee sigaren koop van 7 cent het stuk en een pijpje van 55 cent, hoeveel krijg ik dan terug van een rijksdaalder?

10. Als 7 boeren in 2 dagen een sloot kunnen graven van 42 M., hoeveel man zijn dan noodig om datzelfde werk in ½ dag te doen?

14. Als 3½ M. laken ƒ 14,— kost, wat kost dan 6½ M.?

15. Een schip heeft zooveel voedsel aan boord dat 700 menschen er 2 maanden van kunnen leven. Hoe lang kunnen 400 menschen leven van dat voedsel?

19. Bij een leger hooren 6000 man artillerie, 15000 man infanterie en 1000 cavalerie. Wanneer nu van die troep ieder wapen naar evenedigheid wordt vergroot tot er samen 24,200 [sic] man zijn, hoeveel man zijn er dan bij de artillerie bijgekomen?

20. Een groothandelaar heeft aan verschillende afnemers 1897 tonnen appelen geleverd. Hij moet nu nog aan 38 klanten ieder 45 tonnen leveren. Hoeveel ton heeft hij in het geheel geleverd?

p. 8.

De redeneerfout bij de correctie voor raden is een fout-bij-omissie: dat ziet over het hoofd dat vragen ook gewoon fout gemaakt worden, dus niet fout geraden. Maar dat betekent dat uit het aantal foute antwoorden op vierkeuzevragen niet valt af te leiden welk deel daarvan fout is geraden, welke deel fout is gemaakt. Er is dus geen correctie voor raden mogelijk. Een ramp is dat niet, omdat die vermaledijde correctie voor raden alleen een statistische correctie is: er kan immers voor een individuele score nooit een juiste correctie voor raden worden gegeven (nog afgezien van fout gemaakte opgaven). Het wordt dus de hoogste tijd om raden tegen te gaan door leerlingen en studenten te instrueren om niet geweten keuzevragen maar liever onbeantwoord te laten, tegen een bonus die iets beter is dan domweg raden zou rechtvaardigen. De reden voor dat laatste, een gunstige bonus, is natuurlijk dat er vaak toch wel deelkennis aanwezig is: bij niet weten van et antwoord op een vierkeuzevraag kan de kandidaat meestal toch wel een of twee van de alteratieven als onjuist afstrepen. Het interessante van deze vindplaats bij Oort is dat al vroeg in de 20e eeuw hetzelfde misvestand blijkt te bestaan, dat later bijvoorbeeld in het boek van De Groot en Van Naerssen (1969) Studietoetsen terugkomt, en in de erop volgende decennia niet wordt gecorrigeerd.

p. 92 e.v. Tabel II. Tabel III p. 100 e.v. geeft details voor individuele leerlingen in enkele klassen. Daarin valt mij de leeftijdsopbouw van de zesde klas gymnasium, jongens, op: 2 17-jarigen, 3 18-jarigen, 4 19-jarigen en 3 20-jarigen. De verklaring hiervoor kan toch niet liggen in de mobilisatie in W.O. I, terwijl een effect van de Spaanse griep ook in andere klassen merkbaar zou moeten zijn. Ik wijs op het artikel van Posthumus in De Gids van 1940 (integraal beschikbaar op dbnl.nl), waarin hij laat zien hoe bij de klasovergangen in de HBS het percentage zittenblijvers altijd heeft geschommeld tegen de 25%, dat zal voor de gymnasia zeker niet lager zijn geweest.

Op deze powertest, dat is een toets waarin het op snel werken aankomt, is het wel van belang een indruk te hebben van het aandeel fouten in het totaal van de gemaakte opgaven. Oort besteedt daar veel aandacht aan. Bijvoorbeeld p. 54 concluderend:

Het feit dat het aantal fouten niet noemenswaard toeneemt met het grooter aantal sommen dat afgewerkt wordt, krijgt veel meer beteekenis, wanneer men bedenkt dat de sommen steeds moeilijker worden naar het einde toe. Hij, die veel doet, maakt in die moeilijker sommen gem. evenveel fouten dan de langzame in de eerste, zeer eenvoudige sommen. De sneller denkende, heeft de eerste sommen in veel korter tijd moeten doornemen om aan de latere toe te komen en heeft er minder fouten in gemaakt. Dus: snel werken is goed werken.

Voor de groep verplegenden kan Oort een interessant contrast maken met de resultaten op door hen afgelegd examentoets rekenen (p. 54-56), waarvoor overigens meer dan 50% ‘onvoldoende’. Oort geeft een scatterplot van examencijfers en de rekentoetsscores.

examentoets rekenen, in 55 minuten te maken (elke goede oplossing één punt

Los in 55 min. de volgende vraagstukken op en laat goed zien hoe gij de uitkomsten verkregen hebt, anders wordt de som niet goed gerekend:

Hoeveel Meter is 3 H. M. + 16 D. M. + 27 M. + 19 d.M. + 25 c.M.?
Iemand heeft 100 balen rijst gekocht Daar hij contant betaalt, kort hij 2 % en betaald [sic] alzoo de geheele partij met ƒ 3920,—. Hoeveel kost 1 K. G. bij inkoop, waar iedere baal 100 K. G. weegt?
Drie personen koopen ieder een stuk land. De stukken A en B kosten ƒ 4000,— samen, die van B en C ƒ 3275,— en die van A en C ƒ 5725,—. Hoeveel kost ieder stuk?
A verdient in eene week ƒ 9.18 en B ƒ 12.42. Zij werken daags 9 uur. Wat verdient elk per uur?
Een sublimaatpastille bevat 1 Gram sublimaat. Hoeveel van die pastilles moet men doen in 10 L. water om een oplossing te krijgen van 3 op duizend?
p. 55. Op die pagina ook scatterplots van uitslagen op deze examentoets tegen de powertoets rekenen van Oort.

p. 54-55.

Uit de kruistabellen van oort blijkt dat 34 % van de verplegenden tenminste 3 sommen goed oplosten en daarmee een ‘voldoende’ resultaat boekten. Vergelijk dat met de resultaten op de rekentoets voor verpleegkunddigen, zoals gerapporteerd in Examens, Tijdschrift voor de Toetspraktijk, 2012, #3 (een door het Cito ontwikkelde test, met assessmentcenter-achtige rekenopgaven voor verpleegkundigen: de ontexten zijn verpleegkundig, zeg maar, al betwijfel ik of ervan uitgegaan kan worden dat iedere verpleegkundige vertrouwd is met hetzelfde scale van verpleegkundige situaties).

Het zal allicht zijn opgevallen dat meisjes het bijna overal gemiddeld minder goed doen dan jongens, in dezelfde klas. Oort gaat niet echt op dit verschil in. Het valt wel op dat voor de kandidaten voor H.B.S. en Gymnasium geen verschil tussen jongens en meisjes bestaat, of de meisjes doen het beter (p. 104). “De beide schoolhoofden vonden dit niet vreemd ; zij verklaarden dat op beide scholen de meisjes inderdaad meer wisten dan de jongens en zij schreven dat daaraan toe dat de jongens niet in het minst onder de indruk schenen te zijn van het naderende toelatingsexamen, zij voetbalden er lustig op los, terwijl de meisjes hard aan het blokken waren. Dat een dergelijk blokken en voorbereiden tot een naderend examen in staat is het gemiddelde cijfer bij mijn proeven te verhoogen, is weer een bewijs dat niet uitsluitend de verstandelijke aanleg gemeten wordt, maar ook een geschiktheid voor geestelijken arbeid, die door oefening ontwikkeld kan worden. Overigens bevestigt deze ervaring mijn meening dat de meisjes over het geheel minder van mijn proeven terecht brengen dan de jongens, want niettegenstaande haar meerderen ijver en meer werken, is het gemiddelde toch maar zeer weinig boven dat der jongens gestegen, veel minder dan het bedrag der gemiddelde variatie.”

Oort komt in 1928 dus niet op het idee dat er misschien een scheefheid — bias of partijdigheid — in zijn tests kan zitten, die meisjes benadeelt. Wie geen scheefheid vermoedt, zoekt er ook niets over uit. Aan de door Oort gerapporteerde data valt niets te analyseren dat met mogelijke scheefheid heeft te maken, tenzij de feitelijke vraagstellingen in de afzonderlijke toetsjes. Wie heel drastische cijfers zoekt over ongelijke behandeling van meisjes t.o.v. jongens in het lager onderwijs, kan terecht bij het Brabantonderzoek (o.a. door M. A. J. M. Matthijssen ) dat in de vijftiger jaren is uitgevoerd (dat cohort is later opgevolgd, het is dus bekend hoe hun verdere loopbaan is geworden; o.a. onderzoek door Joop Hartog)

[Rapport over een onderzoek naar de stand van het gewoon lager onderwijs in de provincie Noord-Brabant in 1952 en 1955 verricht in opdracht van de Provinciale Staten van Noord-Brabant.]

“.... men kan toch wel besluiten dat de schoolhoofden hun leerlingen hoogere cijfers meegeven dan bij het toelatingsexamen behaald worden. (...) is het negatieve verband tusschen proefuitslag [een soort Cito-basistoetsje, b.w.] en cijfers door de schoolhoofden medegegeven, waardoor vrijstelling van examens plaats had, wel zonderling. Is er aan die cijfers wel groote waarde te hechten?” Uit een onderzoekje van Van Beuningen van Helsdingen (1926, Nederl. Tijdschr. voor geneeskunde, eerste helft no. 18) bleek een correlatie van 0,47 tussen intelligentieproeven en rapportcijfers HBS 1e jaar, tegen 0,27 tussen intell proeven en door schoolhoofden meegegeven cijfers. “Maar in de tweede plaats toont de uitkomst te Rotterdam dat er betere samenhang is tusschen de proef en het rapportcijfer, dan tusschen de proef en de meegegeven cijfers der schoolhoofden. Dit komt eenigszins overeen met wat ik vond bij mijn onderzoek op bladz. 107 vermeld, waar de correlatie tussen proef en cijfer van schoolhoofd negatief was, terwijl er een goede correlatie bestond tusschen proef en uitslag van het toelatingsexamen.”

A. H. Oort (1928) Proeven over verstandelijke ontwikkeling op Leidsche scholen. Leiden: Van Doesburgh. p. 108, 115-116.

A. H. Oort (1928). Proeven over verstandelijke ontwikkeling op Leidsche scholen. Leiden: Van Doesburg. [Tests of intellectual development in schools in Leiden] info

Hoe gelijkwaardig zijn rekenopgaven anno 2009 met die van 1928?

Ben Wilbrink

Naar aanleiding van Paul van Dam, in De Volkskrant van 5 december. pdf