Ben Wilbrink
Beoordelen: liever objectief dan subjectief?
Nee. Daar hoort wel een verhaal bij. De essentie is dat streven naar objectiviteit vaak ten koste gaat van tijd die anders aan onderricht besteed zou worden, en dat intensief onderricht het juist mogelijk maakt met subjectieve oordelen te werken die zijn gebaseerd op de vakkennis van de docent in combinatie intensief contact van de docent met de betreffende student. Oordelen wordt gerekend tot het 'vak' van de docent, als er iemand is die dat zou kunnen, is zij het. Vanzelf volgt dan dat het materiaal/de situaties waar die oordelen op berusten, veel natuurlijker kunnen zijn dan de per definitie gekunstelde situaties die op objectiviteit gerichte procedures met zich meebrengen. Dan kunnen we eindelijk ook van de fictie af dat iedereen dezelfde opgaven voorleggen zou behoren tot de eisen van behoorlijke objectieve beoordeling. Quod non, want de ene groep krijgt andere opgaven voorgelegd dan de andere.
Clinisch versus statistisch oordelen
Er is een oppervlakkig gezien verwant probleem, dat beschikbaar onderzoek er juist op wijst dat 'objectieve' (want actuariële) oordelen beter presteren dan subjectieve (door professionals persoonlijk gegeven) oordelen. Op dit thema bestaat al zeer lang een controverse tussen de empirische bevindingen van harde wetenschappers zoals Paul Meehl, en de praktijk van alle dag waarin echte en zelfbenoemde professionals hardnekkig volhouden dat hun persoonlijke oordeel beter is dan welke standaardformule ook. Dat het hier niet om een academisch probleem gaat illustreert meteen al het oudst bekende onderzoek: dat naar het verlenen van proefverlof aan gevangenen. Een eenvoudige objectieve formule bleek een betere voorspelling van mislukkingen te zijn dan de oordelen van de professionals die over exact dezelfde informatie konden beschikken. (Voor een 2004 artikel zie hier). Op het moment dat ik dit schrijf, juni 2005, heeft de minister van justitie, Jan Hein Donner, juist een crisisdebat in het parlement achter de rug over fouten die bij het verlenen van proefverlof aan TBR-gedetineerden worden gemaakt (door gedragsdeskundigen en door rechters).
Ik sluit niet uit dat het mogelijk is onderwijs te ontwerpen waarin gedurende de rit over de individuele leerlingen eenvoudige 'objectieve' gegevens worden verzameld die in een of andere doorzichtige beslisregel tot betere, althans geen slechtere, beslissingen leiden dan de subjectieve oordelen van hun docenten op basis van diezelfde gegevens. Dat zou dan een situatie zijn die vergelijkbaar is met wat Meehl heeft beschreven.
Het punt is evenwel dat mijn thema subjectief versus objectief beoordelen een heel bijzondere zou zijn in de ogen van Meehl: de professionals hebben het eigen subjectieve oordeel ingeruild voor een min of meer objectieve toets die zij in beginsel zelf hebben opgesteld. Die verondersteld meer objectieve vorm van beoordelen is vervolgens een eigen leven gaan leiden, wat ook historisch wel aannemelijk is te maken, waardoor aanvankelijk ongetwijfeld aanwezige voordelen die in lijn liggen met de Meehl-bevindingen, in hun tegendeel zijn verkeerd.
Alan Lesgold (2008). Assessment to steer the course of learning. In Eva Baker, Jan Dickieson, Wallace Wulfeck and Harold F. O'Neil: Assessment of problem solving using simulations (pp. 19-36). Lawrence Erlbaum Associates. [PEDAG. 50.B.175] - contents
- Alan Lesgold behandelt hier deels dezelfde thematiek, in een beschouwing over waar het in de toekomst met het beoordelen naartoe zou moeten/kunnen. Weg met de krampachtigheid van vooral eerlijk en objectief willen beoordelen. Omarm het idee van beoordelen voor onderwijs. De rode draad in dit verhaal is dat je voor goede monitoring van de voortgang van individuele studenten (microtesting) juist wel een beetje ruis in de toetsdata kunt gebruiken, dus de subjectieve oordelen van de docent kunnen geen kwaad, integendeel zelfs. Of dat nu zo'n briljante gedachte is weet ik niet, maar het is een heel aardig hoofdstuk.
David M. Williamson, Robert J. Mislevy and Isaac J. Bejar (Eds) (2006). Automated scoring of complex tasks in computer-based testing. Erlbaum. [PSYCHO B7.1.-24.]- p. 2: "By automated scoring we mean any computerized mechanism that evaluates qualities of performances or work products."
- Deze benadering is helemaal niet zo gek als ze op het eerste gezicht lijkt: zie het werk van Meehl over de clinische blik versus de statistische regel. Omdat onderwijs onderwijs is, is de statistische beoordeling lastig inzetbaar, omdat de regels niet volkomen transparant zijn uit te leggen. Het laatste woord is er dus voorlopig nog niet over gezegd. Overigens is een en ander eigenlijk alleen interessant voor omvangrijke landelijke examens, en daar is Nederland misschien ook nog te klein voor.
William M. Grove and Paul E. Meehl (1996). Comparative efficiency of informal (subjective, impressionistic) and formal (mechanical, algoritmic) prediction procedures: The clinical-statistical controversy. Psychology, Public Policy, and Law, 2, 293-323. pdf
- abstract Given a data set about an individual or group (e.g., interviewer ratings, life history or demographic facts, test results, self-descriptions), there are two modes of data combination for a predictive or diagnostic purpose. The clinical method relies on human judgment that is based on informal contemplation and, sometimes, discussion with others (e.g., case conferences). The mechanical method involves a formal, algorithmic, objective procedure (e.g., equation) to reach the decision. Empirical comparisons of the accuracy of the two methods (136 studies over a wide range of predictands) show that the mechanical method is almost invariably equal to or superior to the clinical method: Common antiactuarial arguments are rebutted, possible causes of widespread resistance to the comparative research are offered, and policy implications of the statistical methodÕs superiority are discussed.
Randy Elliot Bennett, William C. Ward (1993). CONSTRUCTION VERSUS CHOICE IN COGNITIVE MEASUREMENT: Issues in Constructed Response, Performance Testing, and Portfolio Assessment. Erlbaum,
- p. xi, the editors: "Important contrasts between the narrowly psychometric and social policy perpectives are evident in these chapters. (...) From the policy perspective, better measurement involves tasks that have versimilitude, that send the right messages to those concerned with education, and that help directly and indirectly to cause increased success for learners. From the psychometric 'better' means more reliable or more representative of cognitive skills underlying an achievement, or perhaps less susceptible to contamination by construct-irrelevant group differences. From the first of these perspectives, it may make good sense to trade some accuracy of measurement for a superior assessment; from the second, that proposiiton is almost a contradiction in terms." How well said.
-
There is no chapter on equity issues. In the context of the other chapters, the equity issues would be to find a balance between between fair summative assessment, and fair instructional quality. 'Fair' being a qualification regarding the individual student, the issue becomes one of a balanced distribution of scarce resources between the instructional process itself, and 'testing' its outcomes. One possible position to take in this issue is that all resources should be spent in the instructional process, much alike medieval university teaching, but supported now by scientific insights and technological possibilities.
Norman Frederiksen (1984). The real test bias: Influences of testing on teaching and learning. American Psychologist, 39, 193-202.
- abstract Notes that there is evidence that tests influence teacher and student performance and that multiple-choice tests tend not to measure the more complex cognitive abilities. The more economical multiple-choice tests have nearly driven out other testing procedures that might be used in school evaluation. It is suggested that the greater cost of tests in other formats might be justified by their value for instruction (i.e., to encourage the teaching of higher level cognitive skills and to provide practice with feedback). (56 ref) (PsycINFO Database Record (c) 2006 APA, all rights reserved)
Charles Crook, Harriet Gross, Roy Dymott (2006). Assessment relationships in higher education: the tension of process and practice. British Educational Research Journal, 32(1), 95-114. doc 1st draft
- abstract It is argued that the auditing demands of quality assurance have encouraged a greater proceduralisation of university coursework assessment. Interviews with academics from a cross-section of Psychology departments illustrated how assessment had acquired the tightly scripted character of an organisational process. Yet undergraduate focus group conversations suggested that this proceduralisation obstructed the experience students sought from assessment as a form of educational practice. It is argued that educational contexts can create a distinctive form of process/practice tension. In particular, formalising assessment into a process may conceal students' unease, inhibit the expression of that unease, and create a distracting focus on study products rather than study practices. A striking interpersonal dissociation of author and reader (student and tutor) was apparent in the organisational processes documented here. This was identified as the source of significant student discontent, and the likely starting point for its repair.
Robyn M. Dawes (2000?). Statistical Prediction Rules: Using the Best Possible Predictions, but Potentially Causing Social Harm Due to Regression Effects.Ê.doc
William M. Grove and Paul E. Meehl (1996). Comparative efficiency of informal (subjective, impressionistic) and formal (mechanical, algoritmic) prediction procedures: The clinical-statistical controversy. Psychology, Public Policy, and Law, 2, 293-323. pdf
Paul E. Meehl (1954). Clinical Versus Statistical Prediction: A Theoretical Analysis and a Review of the Evidence. Minneapolis: University of Minnesota Press.
Paul E. Meehl (1965). Seer over sign: The first good example. Journal of Experimental Research in Personality, 1, 27-32.
Dylan Wiliam (1998). Construct-referenced assessment of authentic tasks: alternatives to norms and criteria. EARLI, 1997; IAEA (International Association for Educational Assessment) 1998 pdf
- It is argued that the technology of norm- and criterion-referenced assessment have unacceptable consequences when used in the context of high-stakes assessment of authentic performance. Normreferenced assessments (more precisely, norm-referenced inferences arising from assessments) disguise the basis on which the assessment is made, while criterion-referenced assessments, by specifying the assessment outcomes precisely, create an incentive for Ôteaching to the testÕ in Ôhigh-stakesÕ settings.
An alternative underpinning of the interpretations and actions arising from assessment outcomes - construct-referenced assessment - iis proposed, which mitigates some of the difficulties identified with norm-and criterion-referenced assessments.
In construct-referenced assessment, assessment outcomes are interpreted by reference to a shared construct among a community of assessors. Although construct-referenced assessment is not objective, evidence is presented that the agreement between raters (ie intersubjectivity) can, in many cases, be sufficiently good even for high-stakes assessments, such as the certification of secondary schooling or college selection and placement.
Kate Chanock (2000). Comments on Essays: do students understand what tutors write? Teaching in Higher Education
- abstract This paper looks at the problem of students misunderstanding what tutors write on their essays. Students often consult academic skills units for help with interpreting markers' comments and this study sought to gauge how widespread such confusion may be. Students and tutors in selected Humanities subjects were asked what they thought was meant by a common marking comment - 'Too much description; not enough analysis' - to discover how far their understandings coincided. Almost half of the students who responded did not interpret this comment in the way their tutors intended it. The paper discusses possible reasons for this discrepancy, including ambiguities in the term 'analysis' and differences in its meaning for different disciplines. It concludes that marking comments need to be carefully explained with examples from the discourse of lectures, tutorials and readings in the disciplines.
Nicol, D. J. & Milligan, C. (2006), Rethinking technology-supported assessment in terms of the seven principles of good feedback practice. In C. Bryan and K. Clegg (Eds), Innovative Assessment in Higher Education, Taylor and Francis Group Ltd, London doc
K. Danziger (1990). Constructing the subject: Historical origins of psychological research. Cambridge University Press. UP PSYCHO D1.2.-39 & UB Leiden Studiezaal Sociale Wetenschappen ter inzage S.PSY. 11 0127 [Genoemd in Joel Michell, 1999, p. 98]
M. N. Wise (1995). The values of precision. Princeton University Press. UB Leiden 6230 F 5 [Genoemd in Joel Michell, 1999, p. 97] >
Theodore M. Porter (1995). Trust in numbers. The pursuit of objectivity in science. Princeton University Press. UP questiaUB Leiden 6282 A 7 [Genoemd in Joel Michell, 1999, p. 97]
http://www.benwilbrink.nl/projecten/objectiefsubjectief.htm