Tijdschrift voor Onderwijsresearch, 1985, 10, 141-144. Notities en Commentaren

Bewijs van het omgekeerde
(voor Schmidt et al.)


Ben Wilbrink

Centrum voor Onderzoek van het Wetenschappelijk Onderwijs (COWO)
Universiteit van Amsterdam


Opmerkelijke ontdekkingen komen nogal eens voort uit de confrontatie met absurde onderzoeksresultaten, waardoor de onderzoeker wordt gedwongen te speuren naar niet eerder opgemerkte fouten in theorie of methode. In de onderwijsresearch zien we af en toe het wonderlijke verschijnsel dat de richting van de attributie diametraal anders wordt gekozen: de absurditeit wordt toegeschreven aan een stand van zaken in de wereld, niet aan een eigen misvatting. Een aardig voorbeeld is de onderzoeksconclusie van Crombag, Gaff en Chang (1975) dat in het w.o. studieresultaten niet afhangen van de manier waarop studenten werken, noch van capaciteiten of motivatie, zoals ouders naievelijk aannemen. Crombag et al. stellen vast dat studieresultaten in aanzienlijke mate een kwestie van toeval zijn, of grotendeels afhankelijk van irrelevante factoren, of beide. Het zou maar een rommeltje zijn in het w.o.

Crombag et al. onderzoeken hoe waargenomen verschillen tussen studenten samenhangen met verschillen tussen hun studieresultaten. Uit dergelijk onderzoek kan niets worden geconcludeerd over de studieresultaten van Piet, Marie of Hans, wanneer Piet iets slimmer zou zijn geweest, Marie iets harder zou hebben gewerkt, of Hans een andere vooropleiding zou hebben gevolgd. Wat u en ik daar naievelijk voor effecten van verwachten is in dit onderzoek allerminst weerlegd.

Publicatie van bizarre conclusies heeft echter ook iets uitdagends. Crombag et al. stellen dat zo: wanneer zinvolle verbanden niet spontaan verschijnen, moeten we manieren proberen te vinden om correlaties aan te tonen daar waar zij zouden moeten zijn als het onderwijs een redelijke onderneming is. In de eerste jaargangen van dit tijdschrift zijn velen op de uitdaging ingegaan, zonder te betwijfelen of de conclusies van Crombag et al. wel pasten op het uitgevoerde onderzoek. Een notitie van Crombag (1981) betreft zo'n 'zinvolle samenhang' hij vindt bij toeval dat ouderejaarsstudenten het bij tentamens beter doen dan jongerejaarsstudenten, in een situatie waarin zij hetzelfde onderwijs volgen en hetzelfde tentamen afleggen. Een fijn resultaat: onderwijs lijkt dan toch verschil te maken. Maar het is een triviaal resultaat: denk aan wat er zou gebeuren wanneer in de studie wiskunde de vakken van het eerste jaar van plaats zouden verwisselen met die in het vierde jaar. De eerstejaars moeten het stellen zonder drie jaar wiskundige voorkennis, en wat donder, natuurlijk blijkt dat.

Schmidt, de Volder, Gijselaers en Kerkhofs (1984) interpreteren het resultaat van Crombag (1981) zo dat met het vorderen van de studie de tentamenscores beter zouden worden. 'Beter' wil zeggen: een hoger percentage goed. In data van de opleiding geneeskunde in Maastricht meenden zij een dergelijk fenomeen waar te nemen. Dat lijkt zinnig vanwege de oppervlakkige associatie dat met het vorderen in de studie de geneeskundige kennis groter wordt. Maar daar gaat het niet om: de tentamens bestrijken alleen de stof van het betreffende vak, en zijn geen afspiegeling van het artsexamen. In hetzelfde nummer van het TOR laat Verstralen (1984) zien hoe er op zinvolle wijze gesproken kan worden over het toetsen van kennisvermeerdering over meerdere studieonderdelen heen. Maar daarbij kan niet worden volstaan met turven van goed beantwoorde vragen per tentamen.
 
Tabel 1. Hoe de wijze van scoren verschil maakt.


'80-'81 toets goed goed - fout gemaakt fout goed - fout + raadscore

1 (jaar)49%29%69%20%44,5%
2 46 30 62 16 49
3 50 35 65 15 52,5
4 42 24 60 18 44
5 48 31 65 17 48,5
6 49 34 64 15 52
1 (jaar 2)46 28 64 18 46
2 45 30 60 15 50
4 49 32 66 17 49
5 42 22 62 20 41
6 44 28 60 16 48
1 (jaar 3)48 28 68 20 44
2 56 28 84 28 34
3 62 41 83 21 49,5
4 60 42 78 18 53
1 (jaar 4)63 46 80 17 56
3 50 28 72 22 42
6 52 32 72 20 46

Kendall-tau .32.14.35.35-.0l


Schmidt et al. proberen de eigen toevallige waarneming in nader onderzoek te bevestigen. De tweede stap zou dan zijn te onderzoeken of toegenomen voorkennis er een verklaring voor biedt. De stilzwijgende veronderstelling hierbij is dat toenemende voorkennis noodzakelijkerwijs tot hogere percentages goede antwoorden op achtereenvolgende tentamens zal leiden. Wie zwijgt vraagt zich niet af op welke (theoretische) gronden dat het geval zou moeten zijn. Daar steekt wijsheid in: ik zie geen enkele mogelijkheid voor de noodzaak van zo'n grillige relatie. Toch concluderen zij uit het verrichte onderzoek dat er een positief verband bestaat tussen studiejaar en percentage goed op tentamens. Zonder enige aanduiding van de zin van een dergelijk resultaat, kan dat slechts duiden op een significante toevalligheid, een Limburgse eigenaardigheid met enige standvastigheid van jaar tot jaar. Dat zou bijvoorbeeld een eigenaardigheid in het curriculum kunnen zijn: een verband als door Schmidt et al. gerapporteerd, kan bepaald worden door een enkel moeilijk vak in het eerste jaar, en een gemakkelijk in het vierde. Daar wordt niets over gezegd, hoewel de gepresenteerde figuur in die richting lijkt te wijzen. Het is niet onmogelijk dat de vondst van Schmidt et al. een artefact is van de wijze van scoren, ook al benadrukken zij zelf dat daarvan in ieder geval geen sprake kan zijn. Dat valt na te gaan. Er blijkt enig gescharrel mogelijk met de wijze van scoring: alleen het aantal goed, of goed min fout. Voor goed-fout scores is het aangetoonde verband minder sterk dan voor de goed scores, voor een achterdochtig mens reden genoeg om op dit punt dieper in te gaan.

De auteurs vermelden dat de studenten vragen open mochten laten, maar daar worden geen kwantitatieve gegevens over verstrekt. Nu geven Schmidt, de Volder en Gijselaers (1982, p. 126) per tentamen zowel de gemiddelde goed score, als de goed-fout score; daaruit valt af te leiden wat het percentage beantwoorde vragen is, en het percentage foute antwoorden, zie tabel 1. Met het vorderen in de studie blijken er minder vragen onbeantwoord te worden gelaten. En ja hoor, ook het percentage fout beantwoorde vragen blijkt in de loop der jaren te stijgen.

Aan de hand van dezelfde data, en dezelfde 'methode' volgend, kan precies het omgekeerde eveneens 'aangetoond' worden. In Maastricht leren de toekomstige artsen kennelijk fouten maken. Een redenering die tot deze evidente nonsens leidt, kan niet deugdelijk zijn. Misschien is het mogelijk het onderzoek te redden door de gangbare scoring bij tweekeuzevragen te bezien. Dan zou van de open gelaten vragen de helft worden geraden; maar die raadscore moet bij de goed-fout score opgeteld worden, en niet bij de goed score (om het met overtuiging maken van fouten te ontmoedigen). Het resultaat van deze exercitie is ook in tabel 1 te vinden: een bijna symbolische correlatie van -0.01. Een rommelig onderzoek, om een geliefkoosde conclusie overeind te kunnen houden?

Crombag et al. (1975) verrichtten goed onderzoek, en trokken conclusies die voor eenieder herkenbaar absurd waren. De aansporing aan toekomstige onderzoekers om manieren te bedenken om onderzoeksresultaten beter te laten sporen met rationele verwachtingen, kan verschillend opgevat worden. Zo wees Elshout (1977) op een breed scala aan maatregelen die ertoe kunnen leiden dat werkelijk bestaande samenhangen beter in onderzoeksresultaten tot uiting komen. Het punt van Elshout is correct, maar blijft beperkt tot de implementatie van reeds gekozen onderzoeksvragen. Van meer belang is de vraag: wat mag redelijkerwijs van het onderwijs verwacht worden? De armoede van de onderwijsresearch is niet gelegen in een tekort aan empirische data, maar in te weinig aandacht voor model- en theorievorming. Zelfs met simpele modellen zoals bijvoorbeeld door Tromp en Wilbrink (1977) voorgesteld voor studieresultaten, zijn al opmerkelijke resultaten te boeken. De Gruijter paste een variant van een dergelijk model toe op tijdbestedingsgegevens in relatie tot studieresultaten, zodoende redelijk hoge correlaties producerend waar eerder slechts lage correlaties werden gevonden. Het werk van De Gruijter is onderdeel van Crombag, De Gruijter, Van der Ende en Vos (1980), en Crombag merkt erover op dat het:


"impliceert dat tentamenresultaat ( ... ) voor een groot deel op begrijpelijke en acceptabele wijze tot stand komt, en dat is immers wat men in een welontworpen curriculum wenst." (Crombag et al, 1980, p. 51).


Met wat meer aandacht voor theorievorming neemt de aandrang tot het doen van bizarre uitspraken over het onderwijs af. Met een tikkeltje meer theoretische argwaan zouden Schmidt et al. (1984) zich niet hebben vertild aan een artefact dat de schijn verspreidde een zinvol verband in een redelijk functionerend onderwijs te zijn.

LITERATUUR


Crombag, H.F.M. (1981). Studiejaar en tentamenresultaat. Tijdschrift voor Onderwijsresearch, 6, 247-248. pdf

Crombag, H.F.M., Gaff, J.G., & Chang, T.M. (1975). Study behavior and academic performance. Tijdschrift voor Onderwijsresearch, 1, 3-14. pdf

Crombag, H.F.M., De Gruijter, D.N.M., Van der Ende. P., en Vos, P. (1980). De nieuwe propedeuse in de faculteit der Rechtsgeleerdheid: Verslag over het eerste semester. Leiden: Bureau Onderzoek van Onderwijs R.U. Leiden, Rapport nr. 20. pdf

Elshout, J. (1977). Predicting the validity of predictors of academic performance. Tijdschrift voor Onderwijsresearch, 2, 24- 31. Hele jaargang 1984 als scan beschikbaar: pdf

Schmidt, H.G., de Volder, M.L., & Gijselaers, W.H. (1982)., De relatie tussen studiejaar en tentamenresultaat. In H.G. Schmidt. Activatie van voorkennis, intrinsieke motivatie en de verwerking van tekst. Academisch proefschrift. Apeldoorn: Van Walraven.

Schmidt. H.G., de Volder, M.L., Gijselaers, W.H., & Kerkhofs, L.M.M. (1984). Een positief verband tussen studiejaar en tentamenresultaat, en de rol van toenemende voorkennis. Tijdschrift voor Onderwijsresearch. 9. 183-188. Hele jaargang 1984 als scan beschikbaar: pdf

Tromp, D., & Wilbrink, B. (1977). Het meten van studietijd. Congresboek Onderwijs Research Dagen, 186-189.

Verstralen, R. (1984). Rasch scales for extended curricula. Tijdschrift voor Onderwijsresearch, 9, 149-160. Hele jaargang 1984 als scan beschikbaar: pdf



Voor de dupliek op de hier geuite bezwaren zie: H. G. Schmidt, M. L. de Volder, W. H. Gijselaers en L. M. M. Kerkhofs (1985). Wat bewijst Wilbrink eigenlijk? Tijdschrift voor Onderwijsresearch, 10, 145-147. Ook beschikbaar als pdf-scan op 'Keur der wetenschap' https://ep.eur.nl/bitstream/1765/2740/1/18427.pdf. Hele jaargang 1985 als scan beschikbaar: pdf

Het verschil van inzicht tussen Amsterdam en Maastricht moet ook weer niet te zwaar worden aangezet. Daarom is afgezien van een reactie op de dupliek van Henk Schmidt en de zijnen. Ben ik het dan eens met de reactie? Nee, natuurlijk niet. Ik ben niet zo dom als Henk en de zijnen plagend suggereren. Ook wie niet meegaat met de logica van de goed - fout + raadscore heeft nog uit te leggen waarom de goed - fout score vrijwel geen variantie verklaart over de 'jaren' heen.

Overigens is het een uitstekende methode om, zoals in Maastricht gebeurt, studenten in de gelegenheid te stellen niet te raden op keuzevragen, door ze dan aan te laten geven dat ze bepaalde vragen gewoon niet weten. Ik bereid een publicatie voor over het afschaffen van gedwongen raden, zie www.benwilbrink.nl/projecten/raden.htm - daar gaat de discussie niet over.




J. Cohen-Schotanus, C. P. M. van der Vleuten en W. Bender (1996). Een betere cesuur bij tentamens. Onderzoek van Onderwijs, september, 54-55.


30-12-2011 \ ontact ben apenstaartje benwilbrink.nl

Valid HTML 4.01!   http://www.benwilbrink.nl/publicaties/85VoortgangstoetsTOR.htm