De auteur is freelance adviseur en onderzoeker, over toetsen, examens, selectie, en arbeidsmarkt
Hoe lang onderwijs en examens ook al samengaan (zie Wilbrink, 1997), de kwaliteitsproblemen bij het beoordelen zijn er niet minder om. Wat hier kwaliteit is, hangt af van beoordelingssituaties en is daarom een afgeleide van wat kwaliteit van onderwijs is. Dat doortrekt opvattingen van docenten en bakent af wat verantwoord beoordelen is. Beoordelen is zeker de laatste eeuw kunstmatig uit het geheel van onderwijzende taken losgemaakt, wat een pseudo-wetenschap over beoordelen heeft doen ontstaan waarin de relatie tot onderwijs uit het zicht is geraakt. Toch bepaalt die relatie wat verantwoord beoordelen is, en wat verantwoorde opvattingen daarover zijn.
Tegen deze achtergrond zijn is een onderzoek gedaan naar opvattingen van docenten (zie over dergelijk onderzoek Kane, Sandretto & Heath, 2002).
Beoordelen is op zich een psychologisch onderwerp (zie daarvoor Hofstee 1999), dat in de context van het onderwijs vorm moet krijgen via een onderwijskundig ontwerp. Hoe dat kan voor het ontwerpen van toetsvragen laat Wilbrink (1983) zien.
Omdat het om onderwijs gaat, is een kenmerk van beoordelen dat student en docent zich voorafgaand inspannen om er iets van te maken. Het gaat niet om het meten van intelligentie of persoonlijkheid: die liggen immers buiten het bereik van de eigen inspanning. Daarom is voorspelbaarheid of kenbaarheid (Cohen, 1981) zo belangrijk, het richt die eigen inspanning.
De analogie met de psychologische diagnostiek en testleer, dominant in De Groot en Van Naerssen (1969), zet de toetspraktijk op het verkeerde been, omdat voor diagnostische doelen een goede test een geheimzinnige test is. In het onderwijs zijn adequate methoden die, waarin transparantie (De Groot, 1970) juist een strategische voorbereiding uitlokt, het tegenovergestelde van geheimzinnigheid. Tentamenmodellen (zie Van Naerssen, 1970, en Wilbrink 1998) stellen in staat deze strategische voorbereiding te operationaliseren, en bieden een potentieel krachtig beleidsinstrumentarium.
Gesproken is met negen docenten die verschillende studiejaren en toetsvormen representeren in twee universitaire opleidingen. De interviews zijn neutraal gehouden door werkwijzen en opvattingen zonder discussie te registreren. Dit artikel laat die neutraliteit los en analyseert de resultaten binnen het gestelde theoretische kader. De opvattingen zijn daarbij onderscheiden in de drieslag integer, vervreemd en realistisch, dat legt makkelijker uit. Opvattingen en praktijken die onderwijs en beoordelen integreren, deze als een geheel zien, duidt dit artikel aan als onderwijsvolgend of kortweg integer. Daartegenover staan regelvolgende opvattingen, kortweg vervreemd genoemd, omdat de regels niet op de kerntaken van het onderwijs blijken te slaan. Tussen beide uitersten bevinden zich pragmatische opvattingen, die beoordelingssituaties realistisch bezien. De vele uitspraken over intellectuele vaardigheden, een thematiek die docenten hoog zit, vormen geen categorie apart, maar zijn vervreemd, omdat intellectuele vaardigheden geen doelen vormen, maar integendeel de talenten waarmee het onderwijs heeft te woekeren.
De interviews beginnen met een vrije oefening: verwoord uw toetsfilosofie.
Onderwijs moet een feest zijn. Keuzetoetsen zouden deze docent een gruwel zijn, die laten studenten immers in verwarring achter over hun prestatie. Er zijn meer van deze integere uitspraken gedaan dat de toets een gelegenheid is voor de student om een mooie prestatie neer te zetten, te laten zien dat een bepaalde mate van inzicht in de stof is bereikt.
Ook zijn er uitspraken over het minimumniveau, zonder uit te werken wat ‘minimum’ is. Deze groep uitspraken verabsoluteren technische regels. Of het volgen van die regels kwaliteit bevordert hangt van het onderwijskundig ontwerp af, maar omdat dat ontwerp typisch ontbreekt, zijn deze opvattingen vervreemd van de kerntaken van het onderwijs.
Deze realistische opvattingen zien het beoordelen als een spel tussen student(en) en docent. De laatste uitspraak brengt dat onder woorden zoals een tentamenmodel dat doet.
Tenslotte is er een groep uitspraken dat beoordelen gaat over: verbanden leggen, formuleren, kennis, geen kennis maar inzicht, niet alleen maar kunnen opzoeken maar weten, de ‘wijze van omgaan met wetenschappelijke ideeën.’ Wat in deze groep opvattingen ontbreekt om ze van harte als een integere ambitie te kunnen bestempelen, is de notie van het domein van het betreffende vak, voor onderwijs noodzakelijk verengd tot de leerstof. De ambities drukken een zekere kwaliteit in de wijze van beheersen uit, maar doen dat zo abstract dat het eigenlijk vervreemd is: meer vorm dan inhoud.
Toetsvragen staan dicht bij de stof, bijna integere opvattingen zoals bovenstaande komen vaker voor, zeker daar waar de toets bestaat uit te maken werkstukken. Maar het idee ontbreekt dat toetsvragen maken een ontwerpopdracht is. Door het ontbreken van het ontwerp ontbreekt ook de mogelijkheid om belangrijke kwaliteiten van toetsvragen te controleren.
Nogal wat docenten benadrukken het vragen van verbanden, zoals het vergelijken van theorieën. Zij vragen studenten daarmee de stof actief te bestuderen door deze te schematiseren. Het is niet altijd duidelijk of schematiseren ook in het onderwijs zelf die pregnante positie krijgt, opvattingen elders in het interview wijzen eerder op het tegendeel.
Iedere docent maakt een vertaalslag van leerstof naar vragen erover. De uitspraken geven aan dat men vaak blijft steken in het begin van de vertaalslag, op het niveau van vrije associatie met het opgegeven drukwerk. Soms is er het besef dat dit vertaalslagje problematisch is.
Wat zich hier wreekt is het ontbreken van een onderwijskundig ontwerp, van het besef dat abstracties op zichzelf genomen zinledig zijn. Docenten zijn deze doodlopende steeg makkelijk uit te leiden, maar dan moeten ze het dode eind wel kunnen zien.
Integere opvattingen over eisen ontbreken. Zodra het over eisen gaat stellen docenten zich regelvolgend op, niet wetend dat de literatuur op dit thema nauwelijks meer dan pseudo-wijsheid heeft te bieden. Docenten spreken minder over het afstemmen van de toetsen op studenten die de stof adequaat hebben verwerkt, dan over het onderscheiden tussen onvoldoende en minimaal aanvaardbaar. Zij zien wel dat de goede studenten daarmee niet aan hun trekken komen.
Docenten zijn te vanzelfsprekend bezig met selecteren, en besteden daar veel tijd en zorg aan. Niemand signaleert dat afsluitende toetsen die selecterende functie niet hebben, dat is immers een van de functies van het examen in zijn geheel. Dit is niet het enige probleem dat zij zichzelf aandoen. Ook is er een onwezenlijk vertrouwen in de nauwkeurigheid van de toets. De statistiek van de kleine steekproef is docenten onbekend, maar enige nattigheid voelen zij wel degelijk, ze zijn dan niet al te streng, of hanteren herkansingen als ontsnappingsmechanisme.
Zowel docenten als studenten blijken gevangen in een systeem dat ze kunnen doorzien noch doorbreken. Dat traditionele systeem, dat in beginsel ieder vak ‘voldoende’ moet zijn, is zelf als ‘vervreemd’ te typeren, is in zichzelf strijdig en aantoonbaar ondoelmatig. Ondervraagde docenten vermoeden hier geen kwaliteitsprobleem, en als zij het al zouden zien, dan is het systeem alleen op het niveau van de examenregeling te doorbreken.
Docenten ontkomen er niet aan verklaringen te poneren voor de grote verschillen tussen studenten. Verleidelijk is het dan om intelligentie als verklaring te nemen. Inderdaad zijn verschillen in intelligentie groot, maar dat zouden ze na selectie ook nog zijn, en na verdere selectie, enzovoort en zo verder. Intelligentie is een weliswaar noodzakelijke, maar niet voldoende voorwaarde om te presteren. Dit terrein is drijfzand voor docenten: rekening willen houden met de talenten van individuele student, zonder deze door stereotypering kansen te ontnemen.
Inderdaad, er zijn ruwweg twee manieren om te presteren: door talent of door inspanning. Combineer ze, dan is er een enorme spreiding in prestaties mogelijk. Dat lost nog niet het probleem op dat gelijke prestaties gelijk belonen, ongelijk belonen van inspanningen betekent, dus ongelijke kansen op ontplooiing van talent.
Na het basisonderwijs zijn leerlingen zelf verantwoordelijk, de toets rekent hen daarop af. Dan moeten zij hun resultaten wel kunnen voorspellen, anders is het voorbereiden op een toets op voorhand vergeefse moeite. De toets moet kenbaar zijn. De reden voor deze eis reikt verder dan alleen fair play tegenover studenten: het succes van het onderwijs hangt er mede van af. Docenten zien in dat zij deze eis niet naar adequaat beoordelen kunnen vertalen, en gooien deze handdoek in de ring.
In het voorgaande is al gebleken dat docenten juist op zakken of slagen hun aandacht richten, niet op het evident goede niveau van presteren. Deze scheefheid in aandacht versluiert het zicht op de kenbaarheid van hun toets, op de mate waarin studenten een goede strategie kunnen kiezen.
Integriteit van onderwijs en beoordeling is iets anders dan onderwijs te degraderen tot toetsgericht studeren. Als toetsgericht studeren past in het onderwijsontwerp, is dat natuurlijk prima, want gewild.
Natuurlijk zijn de toetsen voor studenten wel enigszins voorspelbaar, anders zou het onderwijs anarchie zijn. Maar tot eigen nadeel weten docenten voorspelbaarheid niet uit te buiten als een krachtige factor in het ontwerp van hun onderwijs: het blijft steken in realisme, terwijl integriteit de uitdaging is.
De opvattingen mogen vervreemd heten, omdat geen evenwicht wordt gezocht tussen onderwijzen en beoordelen: ‘objectief’ beoordelen krijgt ten onrechte een absolute waarde. De eerste uitspraak vat aardig samen hoe docenten de eigen positie zien. Het sluit aan bij hun visie op de eisen die de toets moet stellen, en in die zin doen docenten zichzelf dit leed, dat nakijken heet, aan.
Maar dan nog, is al die inspanning om goed na te kijken goed besteed? De crux is dat ieder examenonderdeel maar een kleine steekproef is van wat de student kan. De toevalligheden van die steekproef zijn zo groot, dat ze alles overschaduwen wat docenten achteraf kunnen bereiken met ‘beter’ of ‘objectiever’ nakijken.
De experimentele literatuur leert dat een collega van elders, die hetzelfde werk echt onafhankelijk nakijkt, wel degelijk tot stevig afwijkende resultaten kan komen. Heeft zo’n onafhankelijke collega dan training nodig om op dezelfde lijn als die van de docent te komen? Nee, want dat zou verminking van de beoordeling opleveren. Maar accepteer dan ook de subjectiviteit, pas de toets aan, en plaats deze midden in het onderwijs. Er zijn docenten die de toets zodoende meer integer maken: de studenten geen afsluitende toets, maar begeleid een of meer werkstukken laten maken. Dat wint bovendien de anders voor onderwijs verloren nakijktijd, in feite van de student gestolen, terug als onderwijstijd.
Docenten slagen er zelden in om van het nakijken een feest te maken, iets dat voor het onderwijs van waarde is. Zorgvuldig, objectief, en rechtvaardig nakijken lijkt mooi, maar kan studenten van goed onderwijs beroven. Ook de buitenwereld legt nadruk op objectief en rechtvaardig toetsen: beleidsmakers, studenten zelf, en colleges van beroep denken zo iets moois te bevorderen, doend alsof het allemaal niets kost.
Aan het slot van het interview verwoorden docenten de doelen voor het eigen vak. Het opmerkelijke van deze groep opvattingen is dat het domein van het eigen vak, het samenstel van kennis, technieken en ideeën, is verdampt uit deze doelen. Het ultieme doel is hier vervreemd verwoord als training van intellectuele vaardigheden als zodanig. Maar dat is niet de opdracht voor het onderwijs, evenmin als testen van intelligentie de plaats kan innemen van beoordelen van domeinbeheersing. Deze docenten hebben kennelijk de woorden niet om over domeinbeheersing te kunnen spreken. Zij maken een categoriefout door over intellect te spreken in plaats van over beheersing, en dat is riskant. Studenten groeien niet in intellect, maar in beheersing. Het lokt de nu weer actuele misvatting uit dat selectiviteit tal van onderwijsproblemen op kan lossen, maar selectie is geen productieve factor en brengt wel hoge kosten met zich mee.
Achter de opvattingen van docenten over beoordelen gaan ernstige kwaliteitsproblemen schuil, die zij zelf niet als zodanig signaleren of vermoeden.
De doelmatigheid en doeltreffendheid van het onderwijs zelf zijn in het geding, daar waar beoordelen gebeurt naar intellect en niet naar domeinkennis, waar studenten maar vaag weten waarop ze zich moeten voorbereiden, en waar beoordelingsvormen mede op verkeerd begrepen regels berusten. Hoewel deze problemen deels institutioneel van aard zijn en niet aan individuele docenten verwijtbaar zijn, geven integere opvattingen van sommige docenten aan dat er op de werkvloer wel degelijk alternatieven aanwezig zijn.
Het eigen onderwijs ontbeert de openheid die het eigen wetenschappelijke onderzoek juist als wezenskenmerk doortrekt. Als het al wenselijk is dat docenten examineren wat zij zelf hebben onderwezen, dan kan intercollegiale toetsing sleur en kwaliteitverlies daarbij helpen voorkomen. Komt er meer openheid over beoordelen, dan kan dat leiden tot meer ontvankelijkheid voor betere praktijken, al zijn dat altijd andere praktijken dan wat modieuze trends, zoals die van ‘competenties,’ aangeven.
Cohen, M. J. (1981). Studierechten in het wetenschappelijk onderwijs. Zwolle: Tjeenk Willink.
Groot, A. D. de (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. html
Groot, A. D. de, & R.F. van Naerssen (redactie) (1969). Studietoetsen: construeren, afnemen, analyseren. Den Haag: Mouton.
Hofstee, W. K. B. (1999). Principes van beoordeling: Methodiek en ethiek van selectie, examinering en evaluatie. Lisse: Swets & Zeitlinger.
Kane, R., S. Sandretto, & C. Heath (2002). Telling half the story: A critical review of research on the teaching beliefs and practices of university academics. Review of Educational research, 72, 177-228.
Naerssen, R. F. van (1970). Over optimaal studeren en tentamens combineren. Openbare les. Amsterdam: Swets & Zeitlinger. html
Wilbrink, B. (1983). Toetsvragen schrijven. Utrecht: Het Spectrum. Nu: publiek domein, op website auteur. pdf Aula 809 html herziening
Wilbrink, B. (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23, 31-48. html
Wilbrink, B. (1998). Inzicht doorzichtig toetsen. In Th.H. Joostens en G.W.H. Heijnen (Red.): Beoordelen, toetsen en studeergedrag (p. 13-29). Groningen: COWOG. html
Het materiaal is verzameld in het SCO-Kohnstamm Instituut project 5301, 1999, en niet eerder gepubliceerd.
Liisa Postareff, Viivi Virtanen, Nina Katajavuori, Sari Lindblom-Ylänne (2012 accepted). Academics’ conceptions of assessment and their assessment practices. Studies in Educational Evaluation xxx (2012) xxx–xxx abstract
Paul Black, Christine Harrison, Jeremy Hodgen, Bethan Marshall & Natasha Serret (2010). Validity in teachers’ summative assessments. Assessment in Education: Principles, Policy & Practice, 17, 215-232.
Jacqueline P. Leighton, Rebecca J. Gokiert, M. Ken Cor & Colleen Heffernan (2010): Teacher beliefs about the cognitive diagnostic information of classroom versus large scale tests: implications for assessment literacy, Assessment in Education: Principles, Policy & Practice, 17, 7-21. abstract
Claire Wyatt-Smith, Val Klenowski & Stephanie Gunn (2010): The centrality of teachers’ judgement practice in assessment: a study of standards in moderation, Assessment in Education: Principles, Policy & Practice, 17, 59-75. abstract
Lois R. Harris & Gavin T.L. Brown (2009): The complexity of teachers’ conceptions of assessment: tensions between the needs of schools and students, Assessment in Education: Principles, Policy & Practice, 16, 365-381. abstract
Gavin T.L. Brown, Kerry J. Kennedy, Ping Kwan Fok, Jacqueline Kin Sang Chan & Wai Ming Yu (2009): Assessment for student improvement: understanding Hong Kong teachers’ conceptions and practices of assessment, Assessment in Education: Principles, Policy & Practice, 16, 347-363. abstract
Lin Norton and Bill Norton (2006). Writing for exams : how clear do university teachers make their assessment criteria? Sig Writing 10th International Conference on the EARLI Special Interest Group on Writing. September 20-22 University of Antwerp. Proposal
Kate Ashcroft and David Palacio (1996). Researching into assessment and evaluation in colleges and universities. London: Kogan Page. isbn 0749417692.
Richard P. Phelps (2003). Kill the messenger. The war on standardized testing. London: Transaction Publishers.
Lorrie Shepard (2000). The role of assessment in a learning culture. Educational Researcher, 29, no. 7, 1-14. html or pdf
Richard S. Prawat (1992). Teachers' Beliefs about Teaching and Learning: A Constructivist Perspective. American Journal of Education, 100, 354-395. jstor
H. T. G. van den Hurk, A. A. M. Houtveen & W. J. C. M. van de Grift (2012). Kennis van leraren over leesdidactiek. Pedagogische Studiën, 89, 191-206. samenvatting
Victor Sampson & Margaret R. Blanchard (2012). Science teachers and scientific argumentation: Trends in views and practice. Journal of Research in Science Teaching, 49, 1122-1148. abstract
Harm Tillema & Lily Orland-Barak (2006). Constructing knowledge in professional conversations: The role of beliefs on knowledge and knowing. Learning and Instruction 16, 592-608. abstract
James H. McMillan (Ed.) (2013). SAGE Handbook of Research on Classroom Assessment. SAGE. [UB Leiden PEDAG. 51.e.85] [3 juni 2013 nog niet als eBook beschikbaar, dus ook niet in KB] site - detailed contents. (maar voor auteurs zie de de contents op de site)
Dit enorme handboek is gericht op onderzoekers. In de meeste hoofdstukken is direct of indirect de thematiek van opvattingen van leraren aan de orde. Een goudmijn, dus, met goede verwijzingen naar de literatuur. Zie voor meer informatie hier.
http://www.benwilbrink.nl/publicaties/99Toetsopvattingen.htm
http://www.benwilbrink.nl/publicaties/99ToetsopvInterview.htm
http://www.benwilbrink.nl/publicaties/04toetsopvattingen.htm