Ben Wilbrink: Goede bedoelingen alleen zijn niet voldoende. Toetsopvattingen van docenten.

De auteur is freelance adviseur en onderzoeker, over toetsen, examens, selectie, en arbeidsmarkt

Op complexe en zachte terreinen als politiek, onderwijs, en examineren straft kennisgebrek zichzelf zelden. De kwaliteit van beoordelen in het onderwijs is daardoor kwetsbaar. Dit artikel maakt dat zichtbaar door in een Amsterdamse faculteit vergaarde opvattingen van docenten af te zetten tegen een strengere visie op beoordelen.

Hoe lang onderwijs en examens ook al samengaan (zie Wilbrink, 1997), de kwaliteitsproblemen bij het beoordelen zijn er niet minder om. Wat hier kwaliteit is, hangt af van beoordelingssituaties en is daarom een afgeleide van wat kwaliteit van onderwijs is. Dat doortrekt opvattingen van docenten en bakent af wat verantwoord beoordelen is. Beoordelen is zeker de laatste eeuw kunstmatig uit het geheel van onderwijzende taken losgemaakt, wat een pseudo-wetenschap over beoordelen heeft doen ontstaan waarin de relatie tot onderwijs uit het zicht is geraakt. Toch bepaalt die relatie wat verantwoord beoordelen is, en wat verantwoorde opvattingen daarover zijn.

Tegen deze achtergrond zijn is een onderzoek gedaan naar opvattingen van docenten (zie over dergelijk onderzoek Kane, Sandretto & Heath, 2002).

Theoretisch kader

De analogie met de psychologische testleer zet de toetspraktijk op het verkeerde been.

Beoordelen is op zich een psychologisch onderwerp (zie daarvoor Hofstee 1999), dat in de context van het onderwijs vorm moet krijgen via een onderwijskundig ontwerp. Hoe dat kan voor het ontwerpen van toetsvragen laat Wilbrink (1983) zien.

Omdat het om onderwijs gaat, is een kenmerk van beoordelen dat student en docent zich voorafgaand inspannen om er iets van te maken. Het gaat niet om het meten van intelligentie of persoonlijkheid: die liggen immers buiten het bereik van de eigen inspanning. Daarom is voorspelbaarheid of kenbaarheid (Cohen, 1981) zo belangrijk, het richt die eigen inspanning.

De analogie met de psychologische diagnostiek en testleer, dominant in De Groot en Van Naerssen (1969), zet de toetspraktijk op het verkeerde been, omdat voor diagnostische doelen een goede test een geheimzinnige test is. In het onderwijs zijn adequate methoden die, waarin transparantie (De Groot, 1970) juist een strategische voorbereiding uitlokt, het tegenovergestelde van geheimzinnigheid. Tentamenmodellen (zie Van Naerssen, 1970, en Wilbrink 1998) stellen in staat deze strategische voorbereiding te operationaliseren, en bieden een potentieel krachtig beleidsinstrumentarium.

Resultaten

Gesproken is met negen docenten die verschillende studiejaren en toetsvormen representeren in twee universitaire opleidingen. De interviews zijn neutraal gehouden door werkwijzen en opvattingen zonder discussie te registreren. Dit artikel laat die neutraliteit los en analyseert de resultaten binnen het gestelde theoretische kader. De opvattingen zijn daarbij onderscheiden in de drieslag integer, vervreemd en realistisch, dat legt makkelijker uit. Opvattingen en praktijken die onderwijs en beoordelen integreren, deze als een geheel zien, duidt dit artikel aan als onderwijsvolgend of kortweg integer. Daartegenover staan regelvolgende opvattingen, kortweg vervreemd genoemd, omdat de regels niet op de kerntaken van het onderwijs blijken te slaan. Tussen beide uitersten bevinden zich pragmatische opvattingen, die beoordelingssituaties realistisch bezien. De vele uitspraken over intellectuele vaardigheden, een thematiek die docenten hoog zit, vormen geen categorie apart, maar zijn vervreemd, omdat intellectuele vaardigheden geen doelen vormen, maar integendeel de talenten waarmee het onderwijs heeft te woekeren.

Beoordelingsfilosofie

integer

‘Met het tentamen moeten studenten zelf kunnen zien wat ze hebben opgestoken.’

Onderwijs moet een feest zijn. Keuzetoetsen zouden deze docent een gruwel zijn, die laten studenten immers in verwarring achter over hun prestatie. Er zijn meer van deze integere uitspraken gedaan dat de toets een gelegenheid is voor de student om een mooie prestatie neer te zetten, te laten zien dat een bepaalde mate van inzicht in de stof is bereikt.

vervreemd

‘Het tentamen moet duidelijk differentiëren tussen studenten. Onze tentamens doen dat heel goed, zeg van 1 tot 10.’
‘De toets moet een redelijke dekking van de stof zijn.'

Ook zijn er uitspraken over het minimumniveau, zonder uit te werken wat ‘minimum’ is. Deze groep uitspraken verabsoluteren technische regels. Of het volgen van die regels kwaliteit bevordert hangt van het onderwijskundig ontwerp af, maar omdat dat ontwerp typisch ontbreekt, zijn deze opvattingen vervreemd van de kerntaken van het onderwijs.

realistisch

Waar is het voor nodig: ‘omdat studenten opgegeven literatuur niet zomaar gaan lezen,’
‘stok achter de deur.’
‘De toets heeft een sturende werking op het gedrag van studenten, in die zin wordt de toets in de didactiek ingepast, bijvoorbeeld met deeltoetsen.’

Deze realistische opvattingen zien het beoordelen als een spel tussen student(en) en docent. De laatste uitspraak brengt dat onder woorden zoals een tentamenmodel dat doet.

vorm of inhoud

Tenslotte is er een groep uitspraken dat beoordelen gaat over: verbanden leggen, formuleren, kennis, geen kennis maar inzicht, niet alleen maar kunnen opzoeken maar weten, de ‘wijze van omgaan met wetenschappelijke ideeën.’ Wat in deze groep opvattingen ontbreekt om ze van harte als een integere ambitie te kunnen bestempelen, is de notie van het domein van het betreffende vak, voor onderwijs noodzakelijk verengd tot de leerstof. De ambities drukken een zekere kwaliteit in de wijze van beheersen uit, maar doen dat zo abstract dat het eigenlijk vervreemd is: meer vorm dan inhoud.

Toetsvragen ontwerpen

integer

‘Het gaat om het aanbrengen van context, het leggen van verbindingen, het actief met de stof bezig zijn.’
‘We hebben ons wel eens afgevraagd of we niet meer en kleinere vragen zouden moeten stellen. Het lijkt mij een heidense klus, en wat toets je dan? Het zou een veel schoolsere manier van de stof doorwerken opleveren.’
‘Ik vind het in ieder geval wel leuk, om de stof op deze bepaalde manier te bekijken, met verschillende mogelijke vormen van vragen te werken. Krijgt het docentschap weer een impulsje.’

Toetsvragen staan dicht bij de stof, bijna integere opvattingen zoals bovenstaande komen vaker voor, zeker daar waar de toets bestaat uit te maken werkstukken. Maar het idee ontbreekt dat toetsvragen maken een ontwerpopdracht is. Door het ontbreken van het ontwerp ontbreekt ook de mogelijkheid om belangrijke kwaliteiten van toetsvragen te controleren.

Nogal wat docenten benadrukken het vragen van verbanden, zoals het vergelijken van theorieën. Zij vragen studenten daarmee de stof actief te bestuderen door deze te schematiseren. Het is niet altijd duidelijk of schematiseren ook in het onderwijs zelf die pregnante positie krijgt, opvattingen elders in het interview wijzen eerder op het tegendeel.

vervreemd

‘Het niveau en de aard van de vragen ligt op dat van de titels, kopjes en cursiveringen in de tekst, waarover vragen worden gesteld.’
‘Ik lees de stof door, ga na wat in een bepaald betoog de grote lijn is, en stel daar een vraag over.’
‘Inhoudsvaliditeit door uit iedere paragraaf te vragen,’
‘Geprobeerd wordt vragen ongeveer even moeilijk te maken.’
‘Ik vind het geen heel goede vragen, omdat ze een tamelijk algemeen karakter hebben.’
‘Omdat de vragen erg abstract zijn is de stof met een klein aantal vragen al gedekt; er is zorg over dat kleine aantal vragen.’

Iedere docent maakt een vertaalslag van leerstof naar vragen erover. De uitspraken geven aan dat men vaak blijft steken in het begin van de vertaalslag, op het niveau van vrije associatie met het opgegeven drukwerk. Soms is er het besef dat dit vertaalslagje problematisch is.
Wat zich hier wreekt is het ontbreken van een onderwijskundig ontwerp, van het besef dat abstracties op zichzelf genomen zinledig zijn. Docenten zijn deze doodlopende steeg makkelijk uit te leiden, maar dan moeten ze het dode eind wel kunnen zien.

Eisen stellen

vervreemd

‘Het niveau is 60% weten.’
‘Meestal heb ik te weinig onvoldoendes.’
'Na drie gelegenheden is zo’n 90% er doorheen.’
‘Mijn vragen zijn te makkelijk, ik onderschat de studenten. Hun algemene ontwikkeling vind ik zo laag, ik heb het idee dat ze het anders niet trekken.’
‘De eisen voor het tentamen zijn niet hoog.’
‘Het blijkt dus een moeilijk tentamen te zijn, 50% slaagt bij de eerste keer, terwijl de studenten hoog worden belast. Desondanks vind ik dat de vragen qua moeilijkheid goed zijn zoals ze zijn.’

Integere opvattingen over eisen ontbreken. Zodra het over eisen gaat stellen docenten zich regelvolgend op, niet wetend dat de literatuur op dit thema nauwelijks meer dan pseudo-wijsheid heeft te bieden. Docenten spreken minder over het afstemmen van de toetsen op studenten die de stof adequaat hebben verwerkt, dan over het onderscheiden tussen onvoldoende en minimaal aanvaardbaar. Zij zien wel dat de goede studenten daarmee niet aan hun trekken komen.

Docenten zijn te vanzelfsprekend bezig met selecteren, en besteden daar veel tijd en zorg aan. Niemand signaleert dat afsluitende toetsen die selecterende functie niet hebben, dat is immers een van de functies van het examen in zijn geheel. Dit is niet het enige probleem dat zij zichzelf aandoen. Ook is er een onwezenlijk vertrouwen in de nauwkeurigheid van de toets. De statistiek van de kleine steekproef is docenten onbekend, maar enige nattigheid voelen zij wel degelijk, ze zijn dan niet al te streng, of hanteren herkansingen als ontsnappingsmechanisme.

Zowel docenten als studenten blijken gevangen in een systeem dat ze kunnen doorzien noch doorbreken. Dat traditionele systeem, dat in beginsel ieder vak ‘voldoende’ moet zijn, is zelf als ‘vervreemd’ te typeren, is in zichzelf strijdig en aantoonbaar ondoelmatig. Ondervraagde docenten vermoeden hier geen kwaliteitsprobleem, en als zij het al zouden zien, dan is het systeem alleen op het niveau van de examenregeling te doorbreken.

ook vervreemd: intelligentie prima donna

‘Het gaat in dit vak om abstracte, niet-natuurlijke begrippen. Om daar mee om te kunnen gaan is een zekere intelligentie nodig waar niet iedereen over beschikt. Dus niet iedereen kan de stof leren op het niveau dat ik vraag.’
‘Het niveau is aan de lage kant voor academisch gevormden, dat kan en mag niet nog lager.’

Docenten ontkomen er niet aan verklaringen te poneren voor de grote verschillen tussen studenten. Verleidelijk is het dan om intelligentie als verklaring te nemen. Inderdaad zijn verschillen in intelligentie groot, maar dat zouden ze na selectie ook nog zijn, en na verdere selectie, enzovoort en zo verder. Intelligentie is een weliswaar noodzakelijke, maar niet voldoende voorwaarde om te presteren. Dit terrein is drijfzand voor docenten: rekening willen houden met de talenten van individuele student, zonder deze door stereotypering kansen te ontnemen.

realistisch

‘Studenten die onvoldoendes halen besteden mogelijk te weinig tijd.’
‘Er zijn blokkers die hogere cijfers halen dan op grond van de indrukken verwacht.’
‘Het tentamen geeft mij inzicht in wie heeft gewerkt, en wie inzicht heeft.’

Inderdaad, er zijn ruwweg twee manieren om te presteren: door talent of door inspanning. Combineer ze, dan is er een enorme spreiding in prestaties mogelijk. Dat lost nog niet het probleem op dat gelijke prestaties gelijk belonen, ongelijk belonen van inspanningen betekent, dus ongelijke kansen op ontplooiing van talent.

Voorspelbaarheid

niet integer

Voorspelbaarheid: Geen flauw idee, ik weet het niet. Er zijn wel reacties na afloop in de trant van: dat viel verschrikkelijk tegen. Ze vinden het tentamen heel erg moeilijk. Er zijn wel studenten die verschrikkelijk opgelucht waren bij het horen van de uitslag. Het zou beter zijn wanneer studenten het tentamen beter zouden kunnen inschatten.’
‘Studenten kennen beoordelingscriteria niet, hebben weinig informatie om een voorspelling te kunnen doen. (...) De student die niet kan schatten, weet ook niet of de voorbereiding voldoende is geweest, dat is een problematisch punt.’
‘Studenten weten niet wat ze boven het hoofd hangt. Na afloop kunnen ze wel zeggen wat het onderscheid tussen voldoende en onvoldoende niveau is. Meestal onderschatten ze zichzelf.’
‘Ik weet niet of studenten hun score kunnen voorspellen, ook niet als het om het verschil tussen een 4 en een 8 gaat. (...) De student kan wel een inschatting maken, op basis van de opdrachten, tot de bovenkant van de groep te horen of niet.’

Na het basisonderwijs zijn leerlingen zelf verantwoordelijk, de toets rekent hen daarop af. Dan moeten zij hun resultaten wel kunnen voorspellen, anders is het voorbereiden op een toets op voorhand vergeefse moeite. De toets moet kenbaar zijn. De reden voor deze eis reikt verder dan alleen fair play tegenover studenten: het succes van het onderwijs hangt er mede van af. Docenten zien in dat zij deze eis niet naar adequaat beoordelen kunnen vertalen, en gooien deze handdoek in de ring.

In het voorgaande is al gebleken dat docenten juist op zakken of slagen hun aandacht richten, niet op het evident goede niveau van presteren. Deze scheefheid in aandacht versluiert het zicht op de kenbaarheid van hun toets, op de mate waarin studenten een goede strategie kunnen kiezen.

evenmin integer

‘Zelf heb ik er wel moeite mee als blijkt dat de hele studie tentamengericht wordt. Zelf zeg ik dan: als je het gewoon goed leest, dan haal je ook je tentamen. (...) De lees-, denk- en schrijfvaardigheden oefenen we niet. We vragen dus wel dingen die ze op het tentamen voor het eerst moeten laten zien. Aanspraak doen op intelligentie in plaats van op voorbereiding: Inderdaad, die vorm van ondoorzichtigheid zit wel in ons tentamen.’

Integriteit van onderwijs en beoordeling is iets anders dan onderwijs te degraderen tot toetsgericht studeren. Als toetsgericht studeren past in het onderwijsontwerp, is dat natuurlijk prima, want gewild.

realistisch

‘Voorspelbaarheid is geen probleem voor de studenten; als ze het niet zouden kunnen voorspellen, zou ik dat heel vervelend vinden.’
‘De gegeven cijfers sporen mijns inziens met wat de studenten daarover verwachten, en wat ik ervan verwacht.’

Natuurlijk zijn de toetsen voor studenten wel enigszins voorspelbaar, anders zou het onderwijs anarchie zijn. Maar tot eigen nadeel weten docenten voorspelbaarheid niet uit te buiten als een krachtige factor in het ontwerp van hun onderwijs: het blijft steken in realisme, terwijl integriteit de uitdaging is.

Objectiviteit

vervreemd

‘Essaytentamens en werkstukken vragen veel nakijktijd. Dat doe ik dan maar gewoon, dat is mijn plicht, studenten hebben er recht op. Ik moet het gewoon zo intensief doen. Het zou me heel welkom zijn wanneer daar toch iets aan valt te doen.’
‘Ieder tentamen wordt door mij en mijn collega nagekeken. We zijn het met elkaar meestal eens in deze oordelen, en kunnen het studenten achteraf ook uitleggen. De grens tussen voldoende en onvoldoende, (...) de vrijheden in de criteria spelen daar een bepaalde rol. Ik ben blij dat we met ons tweeën werken, zo kunnen we tot een faire beoordeling komen.’

De opvattingen mogen vervreemd heten, omdat geen evenwicht wordt gezocht tussen onderwijzen en beoordelen: ‘objectief’ beoordelen krijgt ten onrechte een absolute waarde. De eerste uitspraak vat aardig samen hoe docenten de eigen positie zien. Het sluit aan bij hun visie op de eisen die de toets moet stellen, en in die zin doen docenten zichzelf dit leed, dat nakijken heet, aan.

Maar dan nog, is al die inspanning om goed na te kijken goed besteed? De crux is dat ieder examenonderdeel maar een kleine steekproef is van wat de student kan. De toevalligheden van die steekproef zijn zo groot, dat ze alles overschaduwen wat docenten achteraf kunnen bereiken met ‘beter’ of ‘objectiever’ nakijken.

De experimentele literatuur leert dat een collega van elders, die hetzelfde werk echt onafhankelijk nakijkt, wel degelijk tot stevig afwijkende resultaten kan komen. Heeft zo’n onafhankelijke collega dan training nodig om op dezelfde lijn als die van de docent te komen? Nee, want dat zou verminking van de beoordeling opleveren. Maar accepteer dan ook de subjectiviteit, pas de toets aan, en plaats deze midden in het onderwijs. Er zijn docenten die de toets zodoende meer integer maken: de studenten geen afsluitende toets, maar begeleid een of meer werkstukken laten maken. Dat wint bovendien de anders voor onderwijs verloren nakijktijd, in feite van de student gestolen, terug als onderwijstijd.

realistisch

‘De kosten zijn hoog. Het nakijken van tentamens is puur dienstbaarheid. Het levert geen meerwinst op, zoals bij scripties wel het geval is.’

Docenten slagen er zelden in om van het nakijken een feest te maken, iets dat voor het onderwijs van waarde is. Zorgvuldig, objectief, en rechtvaardig nakijken lijkt mooi, maar kan studenten van goed onderwijs beroven. Ook de buitenwereld legt nadruk op objectief en rechtvaardig toetsen: beleidsmakers, studenten zelf, en colleges van beroep denken zo iets moois te bevorderen, doend alsof het allemaal niets kost.

Doelen

vervreemd

‘We vinden dat de studenten toch wel de logica van de literatuur als leidraad moeten nemen, en niet de in partjes geknipte stof zoals die in de tentamenvragen zit.’
‘wetenschappelijk leren denken, de empirische cyclus begrijpen.’
‘Basisdenkwijzen. Hoe weet je dat dit waar is? Iets van sociaal-wetenschappelijk redeneren. Iets minder goedgelovig worden.’
‘Het trainen van analytisch vermogen, van begripsgebruik, van synthetisch vermogen (dingen combineren), en het leveren van een betoog.’
‘Cognitieve vaardigheden zoals begrippen, schematiseren, standpunten vergelijken. Deze vaardigheden zijn niet specifiek voor deze stof.’

Aan het slot van het interview verwoorden docenten de doelen voor het eigen vak. Het opmerkelijke van deze groep opvattingen is dat het domein van het eigen vak, het samenstel van kennis, technieken en ideeën, is verdampt uit deze doelen. Het ultieme doel is hier vervreemd verwoord als training van intellectuele vaardigheden als zodanig. Maar dat is niet de opdracht voor het onderwijs, evenmin als testen van intelligentie de plaats kan innemen van beoordelen van domeinbeheersing. Deze docenten hebben kennelijk de woorden niet om over domeinbeheersing te kunnen spreken. Zij maken een categoriefout door over intellect te spreken in plaats van over beheersing, en dat is riskant. Studenten groeien niet in intellect, maar in beheersing. Het lokt de nu weer actuele misvatting uit dat selectiviteit tal van onderwijsproblemen op kan lossen, maar selectie is geen productieve factor en brengt wel hoge kosten met zich mee.

Discussie

Achter de opvattingen van docenten over beoordelen gaan ernstige kwaliteitsproblemen schuil, die zij zelf niet als zodanig signaleren of vermoeden.

De doelmatigheid en doeltreffendheid van het onderwijs zelf zijn in het geding, daar waar beoordelen gebeurt naar intellect en niet naar domeinkennis, waar studenten maar vaag weten waarop ze zich moeten voorbereiden, en waar beoordelingsvormen mede op verkeerd begrepen regels berusten. Hoewel deze problemen deels institutioneel van aard zijn en niet aan individuele docenten verwijtbaar zijn, geven integere opvattingen van sommige docenten aan dat er op de werkvloer wel degelijk alternatieven aanwezig zijn.

Het eigen onderwijs ontbeert de openheid die het eigen wetenschappelijke onderzoek juist als wezenskenmerk doortrekt. Als het al wenselijk is dat docenten examineren wat zij zelf hebben onderwezen, dan kan intercollegiale toetsing sleur en kwaliteitverlies daarbij helpen voorkomen. Komt er meer openheid over beoordelen, dan kan dat leiden tot meer ontvankelijkheid voor betere praktijken, al zijn dat altijd andere praktijken dan wat modieuze trends, zoals die van ‘competenties,’ aangeven.

Gerefereerde literatuur

Cohen, M. J. (1981). Studierechten in het wetenschappelijk onderwijs. Zwolle: Tjeenk Willink.

Groot, A. D. de (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. html

Groot, A. D. de, & R.F. van Naerssen (redactie) (1969). Studietoetsen: construeren, afnemen, analyseren. Den Haag: Mouton.

Hofstee, W. K. B. (1999). Principes van beoordeling: Methodiek en ethiek van selectie, examinering en evaluatie. Lisse: Swets & Zeitlinger.

Kane, R., S. Sandretto, & C. Heath (2002). Telling half the story: A critical review of research on the teaching beliefs and practices of university academics. Review of Educational research, 72, 177-228.

Naerssen, R. F. van (1970). Over optimaal studeren en tentamens combineren. Openbare les. Amsterdam: Swets & Zeitlinger. html

Wilbrink, B. (1983). Toetsvragen schrijven. Utrecht: Het Spectrum. Nu: publiek domein, op website auteur. pdf Aula 809 html herziening

Wilbrink, B. (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23, 31-48. html

Wilbrink, B. (1998). Inzicht doorzichtig toetsen. In Th.H. Joostens en G.W.H. Heijnen (Red.): Beoordelen, toetsen en studeergedrag (p. 13-29). Groningen: COWOG. html

Het materiaal is verzameld in het SCO-Kohnstamm Instituut project 5301, 1999, en niet eerder gepubliceerd.

andere literatuur

Liisa Postareff, Viivi Virtanen, Nina Katajavuori, Sari Lindblom-Ylänne (2012 accepted). Academics’ conceptions of assessment and their assessment practices. Studies in Educational Evaluation xxx (2012) xxx–xxx abstract

Paul Black, Christine Harrison, Jeremy Hodgen, Bethan Marshall & Natasha Serret (2010). Validity in teachers’ summative assessments. Assessment in Education: Principles, Policy & Practice, 17, 215-232.

Jacqueline P. Leighton, Rebecca J. Gokiert, M. Ken Cor & Colleen Heffernan (2010): Teacher beliefs about the cognitive diagnostic information of classroom versus large scale tests: implications for assessment literacy, Assessment in Education: Principles, Policy & Practice, 17, 7-21. abstract

Claire Wyatt-Smith, Val Klenowski & Stephanie Gunn (2010): The centrality of teachers’ judgement practice in assessment: a study of standards in moderation, Assessment in Education: Principles, Policy & Practice, 17, 59-75. abstract

Lois R. Harris & Gavin T.L. Brown (2009): The complexity of teachers’ conceptions of assessment: tensions between the needs of schools and students, Assessment in Education: Principles, Policy & Practice, 16, 365-381. abstract

Gavin T.L. Brown, Kerry J. Kennedy, Ping Kwan Fok, Jacqueline Kin Sang Chan & Wai Ming Yu (2009): Assessment for student improvement: understanding Hong Kong teachers’ conceptions and practices of assessment, Assessment in Education: Principles, Policy & Practice, 16, 347-363. abstract

Lin Norton and Bill Norton (2006). Writing for exams : how clear do university teachers make their assessment criteria? Sig Writing 10th International Conference on the EARLI Special Interest Group on Writing. September 20-22 University of Antwerp. Proposal

Kate Ashcroft and David Palacio (1996). Researching into assessment and evaluation in colleges and universities. London: Kogan Page. isbn 0749417692.

Richard P. Phelps (2003). Kill the messenger. The war on standardized testing. London: Transaction Publishers.

Lorrie Shepard (2000). The role of assessment in a learning culture. Educational Researcher, 29, no. 7, 1-14. html or pdf

Richard S. Prawat (1992). Teachers' Beliefs about Teaching and Learning: A Constructivist Perspective. American Journal of Education, 100, 354-395. jstor

H. T. G. van den Hurk, A. A. M. Houtveen & W. J. C. M. van de Grift (2012). Kennis van leraren over leesdidactiek. Pedagogische Studiën, 89, 191-206. samenvatting

Samenvatting “Er is een toets ontwikkeld voor het meten van de kennis van leraren over leesdidactiek. Items over fonologisch bewustzijn, alfabetisch principe en vloeiend lezen zijn voorgelegd aan een panel van 30 leesdeskundigen. Dit resulteerde in een toets met 45 items die is afgenomen bij 215 basisschoolleraren. De toets blijkt betrouwbaar in termen van de klassieke testtheorie en voldoet ook aan de assumpties van het Raschmodel. Veel leraren scoren hoog op de toets, maar ze blijken beter te weten wat wel werkt, dan wat niet werkt in leesdidactiek.”

Victor Sampson & Margaret R. Blanchard (2012). Science teachers and scientific argumentation: Trends in views and practice. Journal of Research in Science Teaching, 49, 1122-1148. abstract

Harm Tillema & Lily Orland-Barak (2006). Constructing knowledge in professional conversations: The role of beliefs on knowledge and knowing. Learning and Instruction 16, 592-608. abstract

James H. McMillan (Ed.) (2013). SAGE Handbook of Research on Classroom Assessment. SAGE. [UB Leiden PEDAG. 51.e.85] [3 juni 2013 nog niet als eBook beschikbaar, dus ook niet in KB] site - detailed contents. (maar voor auteurs zie de de contents op de site)

Dit enorme handboek is gericht op onderzoekers. In de meeste hoofdstukken is direct of indirect de thematiek van opvattingen van leraren aan de orde. Een goudmijn, dus, met goede verwijzingen naar de literatuur. Zie voor meer informatie hier .

Goede bedoelingen alleen zijn niet voldoende
Toetsopvattingen van docenten

Ben Wilbrink

Theoretisch kader

Resultaten

Beoordelingsfilosofie

integer

vervreemd

realistisch

vorm of inhoud

Toetsvragen ontwerpen

integer

vervreemd

Eisen stellen

vervreemd

ook vervreemd: intelligentie prima donna

realistisch

Voorspelbaarheid

niet integer

evenmin integer

realistisch

Objectiviteit

vervreemd

realistisch

Doelen

vervreemd

Discussie

Gerefereerde literatuur

andere literatuur

projectstukken

Interimrapportage (geanonimiseerd) van het project: interviewfase, intervisie-opzet, instrumentjes daarbij

Interview

Goede bedoelingen alleen zijn niet voldoendeToetsopvattingen van docenten

Ben Wilbrink

Theoretisch kader

Resultaten

Beoordelingsfilosofie

integer

vervreemd

realistisch

vorm of inhoud

Toetsvragen ontwerpen

integer

vervreemd

Eisen stellen

vervreemd

ook vervreemd: intelligentie prima donna

realistisch

Voorspelbaarheid

niet integer

evenmin integer

realistisch

Objectiviteit

vervreemd

realistisch

Doelen

vervreemd

Discussie

Gerefereerde literatuur

andere literatuur

projectstukken

Interimrapportage (geanonimiseerd) van het project: interviewfase, intervisie-opzet, instrumentjes daarbij

Interview

Goede bedoelingen alleen zijn niet voldoende
Toetsopvattingen van docenten