Jay P. Greene and Marcus A. Winters (2006). Getting ahead by staying behind. Education Next, 65-69 pdf.
Populair verslag van onderzoek naar effecten van gericht beleid voor zittenblijven in Florida.
Our findings from Florida suggest that the use of standardized testing policies to end social promotion can help low-performing students make modest improvements in reading and substantial improvements in math.
Er zijn een paar problemen met dit onderzoek: er zijn nog geen effecten op langere termijn bekeken (het is voorspelbaar dat kleine winsten op korte termijn, op langere termijn wegsmelten; de auteurs zien dat wat minder somber in, maar verwijzen wel naar resultaten van onderzoek in Chicago dat wijst op geen effect op langere termijn), er is geen rekening gehouden met leeftijd of intelligentie (vgl. onderzoek Doornbos over geboortemaand), en tenslotte is dit zittenblijven een nogal generieke maatregel waar het erop neer komt dat een jaar gewoon nog een keer wordt gedaan, in plaats van het kind een gericht programma aan te bieden.
Gertrude N. Smit (1995). De beoordeling van professionele gespreksvaardigheden. Constructie en evaluatie van rollenspel, video- en schriftelijke toetsen. Baarn: Nelissen. Proefschrift RU Groningen.
Of zie: Gertrude Smit (1994). De beoordeling van professionele gespreksvaardigheden. De Psycholoog, 266-269. "Trainingen in gespreksvaardigheden maken bij tal van opleidingen deel uit van het curriculum. Toetsen om na te gaan of studenten na afloop van de training in staat zijn de geleerde gespreksvaardigheden adequaat toe te passen zijn vaak niet voorhanden. In dit artikel wordt de constructie van een mogelijke toetsvorm besproken: de rollenspeltoets. Ook wordt verslag gedaan van een eerste onderzoek naar de betrouwbaarheid en begripsvaliditeit van deze toets."
Vaardigheden zijn lastiger met traditionele toetsvragen te toetsen dan kennis en inzicht. Wat is er mogelijk als alles uit de kast wordt gehaald? Want dat laatste is in dit onderzoek wel gebeurd. De nadruk ligt op de toetsing achteraf, wat onderwijskundig volgens Smit toch nog zinvol kan zijn omdat het de studenten houvast geeft bij hun studie. De auteur signaleert ook dat de constructie van toetsen zoals in dit onderzoek gedaan, voor de gewone onderwijspraktijk onbetaalbaar is, en door zijn omvang ook belastend voor docenten en studenten. Hoe kan het dan anders? Dat is de vraag waar de lezer mee blijft zitten. Het moet anders natuurlijk, maar het is misschien wel wijs dat Gertrude Smit daarover niet speculeert. Zij zou dan immers het verwijt krijgen dat zij dan toch een ander soort onderzoek had moeten doen, waarin docenten het beoordelen weer terugveroveren op de psychometrici, ten voordele van de kwaliteit van het instructieproces. Hoe dat ook zij, dit onderzoek kan wel als een soort bench mark fungeren - zij het niet als norm of standaard opgevat - bij experimenten met vormen van beoordeling die beter in het onderwijs zelf zijn geïntegreerd, want Smit heeft wel alle mogelijke moeite gedaan inhoud van onderwijs en beoordeling op een lijn te krijgen.
Albert Burgos (2004). Guessing and gambling. Economics Bulletin, 4, No. 4 pp. 1−10. pdf
E. Matthew Schulz, Won-Chan Lee, Ken Mullen (2005). A Domain-level Approach to Describing Growth in Achievement. Journal of Educational Measurement, 32, 1-26. html.
Lorrie Shepard (1991). Psychometricians' beliefs about learning. Educational Researcher, 20, 2-16. Voor uitvoerige citaten uit dit belangrijke artikel zie de literatuur in het moduul leren van het SPA model.
Andrew Davis (1998) The Limits of Educational Assessment. Oxford: Blackwell. isbn 0631210202. Special Issue: The limits of educational assessment. Journal of Philosophy of Education, 32(1), 1-155.
"Education is increasingly expected to support the flourishing of competitive industrial economies. It is held to account by means of assessment in an attempt to ensure that it delivers the goods. This book argues that assessment cannot in principle detect much of the real learning required in this scenario."
full contents
Er is een kritiek op gepubliceerd (Randall Curren (2004) Educational measurement and knowledge of other minds Theory and Research in Education 2 3 pp 235 -253), en een dupliek: http://k1.ioe.ac.uk/pesgb/x/Davis,%20A..pdf.
Het is wel amusant te lezen hoe iemand van een andere planeet tegen high stakes testing (lead tables and all the rest of it) aan kijkt. Maakt op mij geen geweldige indruk, maar wie ben ik? Wel nuttig eens door een heel andere bril naar toetsen te kijken. De pretentie van Davis is die van de filosoof als therapeut: de bezem halen door de Babylonische spraakverwarring in toetsland. Dat is altijd nuttig, maar is natuurlijk ook een hoge prioriteit van empirisch onderzoek. Van dat laatste begrijpt Davis trouwens weinig (p. 10):
"My philosophical opposition to educational assessment of various kinds has a sharply contrasting character. It is designed to establish points of principle. My central contentions will not in any way rest upon political or value positions which might be seen as problematic. To the extent my claims are accepted, it becomes clear that it is useless to devote money and resources to 'improve' certain aspects of assessment. (mijn nadruk. Chapeau, Davis) There are certain tricks which assessment simply cannot bring off. It will be urged that my conclusions are not only 'unpopular' but unworldly and unrealistic. Such criticism might apply to the results of empirical research [sic]. However, it cannot be used to set aside fundamental logical argument of the kind which I intend to offer here."
Wat het wel weer een heel stuk minder navelstaarderig maakt is dat Davis de Britse politiek op het matje roept (daar is er veel meer bemoeienis met examens etc. dan we in Nederland gewend zijn) en vergelijkingen maakt met andere verre landen.
Ik heb het boek niet gelezen. Mijn probleem ermee is dat het teveel nadruk op kritiseren legt, en te weinig of constructie van alternatieven. Ik zal dat uitleggen. Je kunt ernstige kritiek hebben op de bureaucratisering van de beoordeling in naam van eerlijkheid en wat niet al (zal Davis ongetwijfeld ook hebben), waaruit direct volgt dat 'verbeteren' van eerlijkheid etc. van procedures een dead end alley is (Davis' stelling). Mijn idee is dan: houd die kritiek kort en vooral ook empirisch gebaseerd, en laat vervolgens zien dat de overmaat aan middelen die nu in zogenaamd 'eerlijke' beoordeling achteraf worden gestopt, beter in het onderrichten zelf kunnen worden gestoken met een meer globale individuele beoordeling. Die beoordeling kan best makkelijk 'oneerlijk' zijn, maar zal de individuele leerlingen veel meer intellectueel kapitaal opleveren. (dit is overigens een project dat ik anno 2005 nog moet uitvoeren, tenzij anderen dat op willen pakken).
Nieuwsgierig? Haal het bovengenoemde artikel van internet.
Richard Shepard and Dean W. Owen Jr. (1995). Thinking Critically about Performance Assessment and Education Reform. Inquiry. Critical thinking across the disciplines, vol. 14. html.
The purpose of this paper is to examine several of the assumptions underlying education reform in general, and performance assessment in particular, and to highlight areas of practical or theoretical inconsistency. Specific assumptions to be addressed will include (1) the belief that present reform efforts are completely new and original, (2) the belief that all students can become proficient in all areas of academic performance, (3) the belief that students should be evaluated using authentic, real-life tasks, and (4) the belief that all instruction and evaluation should be geared toward deeper, more complex forms of learning.
NB: het gaat hier om richtlijnen voor kwaliteit en goed gedrag, zal ik maar zeggen. Dat is iets anders dan van buiten af opgelegde performance standards zoals die - tenminste impliciet - voortvloeien uit hitlijsten en stelsels van performance indicators
Noel Wilson (1998). Educational Standards and the Problem of Error. Education Policy Analysis Archives, 6. (A book-length treatment, html)
Joint Committee on Testing Practices (xxxx). Code of fair testing practices in education. Available on the website.
The Code of Fair Testing Practices in Education states the major obligations to test takers of professionals who develop or use educational tests. The Code is meant to apply broadly to the use of tests in education (admissions, educational assessment, educational diagnosis, and student placement). The Code is not designed to cover employment testing, licensure or certification testing, or other types of testing. Although the Code has relevance to many types of educational tests, it is directed primarily at professionally developed tests such as those sold by commercial test publishers or used in formally administered testing programs. The Code is not intended to cover tests made by individual teachers for use in their own classrooms.
Chapter One summarizes the leading professionally recognized standards of sound testing practices within the educational measurement field. They include those described in the Joint Standards, which represents the primary statement of professional consensus regarding educational testing. Other leading professionally recognized standards of sound testing practices within the educational measurement field include the Code of Fair Testing Practices in Education (1988) and the Code of Professional Responsibilities in Educational Measurement (1995). The guide also cites recent reports from the NRC's Board on Testing and Assessment, including: High Stakes: Testing for Tracking, Promotion and Graduation (High Stakes, 1999); Myths and Tradeoffs: The Role of Tests in Undergraduate Admissions (Myths and Tradeoffs, 1999);Testing, Teaching, and Learning: A Guide for States and School Districts (Testing, Teaching, and Learning, 1999); Improving Schooling for Language-Minority Children: A Research Agenda (Improving Schooling for Language-Minority Children, 1997); and Educating One & All: Students with Disabilities and Standards-Based Reform (Educating One & All, 1997).15 These reports help explain or elaborate on principles that are stated in the Joint Standards.
Deci, E. L., Spiegel, N. H., Ryan, R. M., Koestner, R., & Kauffman, M. (1982). Effects of performance standards on teaching styles: behavior of controlling teachers. Journal of Educational Psychology, 74, 852-859.
backwash effecten, nu eens via gedrag van de docent! Maar ook interessant als analyse van de effecten van autoritair (controlerend) lesgeven. Waar het in dit onderzoek om gaat is dat docenten die onder druk staan van performance standards, veel meer ‘controlerend’ lesgeven, en als dat niet zo is zijn zij geneigd meer ‘informational’ te werk te gaan, individuele leerlingen meer zinvolle feedback te geven. Dit onderzoek toont beide effecten aan, en de effecten die deze stijlen van lesgeven hebben op de intrinsieke motivatie van leerlingen (controlerend: neemt af; informational: bevordert). Het onderzoek gaat niet zo ver dat ook leereffecten zijn onderzocht, wel een discussie daarover (de waarschijnlijkheid dat intrinsieke motivatie positiever effecten heeft). ( feedforward)
Thed N. van Leeuwen (2004). Second generation bibliometric indicators. The improvement of existing and development of new bibliometric indicators for research and journal performance assessment procedures. Proefschrift Universiteit Leiden.
De wereld van de bibliometrie is door en door bad. Op zijn best is het bureaucratische beoordeling, en dat is niet goed hoor, geloof mij op m'n woord. Zijn onbedoelde neveneffecten zijn klein maar talrijk, en daardoor op termijn enorm, en vooral bad (anders zouden we er wel mee kunnen leven, niet?). Het is hoogmoed, zal ik maar zeggen. En daarom is dit proefschrift dan ook weer interessant, om te zien hoe deze slechterikken zelf met hun stiel van pseudowetenschap omgaan. Wat moet je er verder van zeggen? Dit type onderzoek is nu eenmaal technisch mogelijk, wat niet wil zeggen dat je er dan ook ooit aan zou moeten beginnen. Stel je voor. Ah, maar er is in de duistere grotten onder onze samenleving een volkje dat belangstelling heeft voor soort onderzoek, en de stokken die het oplevert om hun honden mee te slaan. Het is niet aardig tegenover Thed van Leeuwen, en wel des te meer niet omdat ik het proefschrift maar vluchtig heb bekeken. Ik kom er geen spoor van fundamentele, laat staan ethische, reflectie in tegen op deze technieken, die toch wel heel ver zijn afgedwaald van wat nog integere en geldige beoordeling van wetenschappelijke prestaties mag heten. Let wel, we hebben het hier niet over de tegenstelling tussen clinische en actuariële diagnostiek, dat gaat tenminste nog ergens over. Het tellen van publicaties is een van de ergernissen waardoor ik opgelucht was slangenkuil-academia te kunnen verlaten. Neem nu zoiets als verkeer tussen disciplines: interdisciplinariteit. Waanzinnig interessant, zie bv. Ackermans en de Jong (1990) 'De technische universiteiten. Pre-advies.' En deze tellers denken dat ze daar iets zinnigs over te melden hebben, maar mij houden ze daarmee niet voor de gek, zal ik maar zeggen. Het lijkt waarachtig wel een vorm van kabbalistiek. Als iemand mij uit kan leggen wat de verdiensten van bibliometrische indicatoren zijn, of ze nu van de eerste, de tweede of god weet welke generatie zijn, laat hij of zij zich melden. Overtuig mij, en er komt hier een vlammend stukje te staan over de bijdrage die dit gepeuter aan ons aller welzijn levert., geheel volgens Rawls (een behoorlijk inkomen voor bibliometrici is gerechtvaardigd als dat dat met zich meebrengt dat ook het inkomen van alle andere groeperingen in deze samenleving verbetert. Vervang 'inkomen' door 'welzijn' als je wilt.)
David Gijbels, Filip Dochy en Mien Segers (2005). Effects of Problem-Based Learning : A Meta-Analysis From the Angle of Assessment. Review of Educational Research, 75, 27-62.
"This meta-analysis investigated the influence of assessment on the reported effects of problem-based learning (PBL) by applying Sugrue's (1995) model of cognitive components of problem solving. Three levels of the knowledge structure that can be targeted by assessment of problem solving are used as the main independent variables: (a) understanding of concepts, (b) understanding of the principles that link concepts, and (c) linking of concepts and principles to conditions and procedures for application. PBL had the most positive effects when the focal constructs being assessed were at the level of understanding principles that link concepts. The results suggest that the implications of assessment must be considered in examining the effects of problem-based learning and probably in all comparative education research."
Rick Stiggins and Jan Chappuis (2005). Using student-involved classroom assessment to close achievement gaps. Theory Into Practice, Wntr, 2005. html
Dit is werk dat voortbouwt op Bloom's mastery learning ( Bloom, B. (1984). The search for methods of group instruction as effective as one-to-one tutoring. Educational Leadership, 41(8), 4-17.). Dit werk van Bloom is ideologisch gekleurd en methodologisch gemankeerd. Gebruik het artikel om even up to date te komen, maar geloof niet wat er aan effecten wordt beloofd, behalve datgene dat triviaal waar is, check dat zelf. De achtergrond van dit geschrijf lijkt te zijn dat Amerika de weg kwijt is waar het om beoordelen van studieprestaties gaat. De plaag van nationale en internationale tests is zo omvangrijk, dat er in het onderwijs steeds minder plaats is voor beoordeling die direct functioneel is in het leerproces zelf. Voor mij is dat dan weer interessant, omdat het op een meta-niveau als het ware nog eens heel dik een probleem reproduceert dat op de onderwijsvloer zelf ook al bestaat: dat beoordeling steeds meer een achteraf controleren en zo eerlijk mogelijke moet zijn, met als gevolg dat de kwaliteit van het onderwijs zelf in elkaar stort omdat er de middelen steeds meer aan worden onttrokken. De auteurs noemen als ondersteunende gegevens voor hun eigen stellingname:
Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Educational Assessment: Principles, Policy and Practice, 5(1), 7-74. Also summarized in an article entitled, Inside the black box: Raising standards through classroom assessment. Phi Delta Kappan, 80, 139-148 online. Lees dit. Black and William (4e alinea) lijken niet in de gaten te hebben dat de vrije-markt ideologie ook het onderwijs keihard treft: die ideologie is dat het volstaat om de prestaties van scholen te vergelijken en te publiceren, dan zal de tucht van de markt er wel voor zorgen dat kwaliteit wordt verbeterd, of gebrek aan kwaliteit afgestraft. Het geweld van high stakes testing gaat samen met het volledig in de steek laten van de docenten die de kwaliteit van het onderwijs moeten garanderen en bevorderen, dat is het gevaolg dat Black en Williams dan wel signaleren. Om daar dan iets aan te doen, volgen een aantal open deuren, dat houd je als Nederlander niet voor mogelijk. Onthullend voor het Amerikaanse onderwijs, dat wel. Dylan William, van Educational Testing Service, is adviseur van de Assessment and Learning Review Group, zie site waarvan William Black, King's College London, lid is.
onderzoek
Rodriguez, M. C. (2004). The role of classroom assessment in student performance on TIMSS. Applied Measurement in Education, 17, 1-24. Voor een absurd bedrag is de pdf te downloaden. Ik heb geen idee of dat de moeite waard is, ik zou zeggen: doe het niet.
abstract " The authors argue that the failure of 60 years of total reliance on assessment via standardized tests to help reduce achievement score gaps must compel us to rethink the role of assessment in this endeavor They advocate rebalancing assessment priorities to bring classroom assessment into the equation. Evidence gathered over decades from around the world reveals strong achievement gains and reduced achievement score gaps when teachers implement student-involved classroom assessment practices in support of student learning in their classrooms. Five standards of sound classroom assessment practice are described that, if put in place, would permit teachers and schools to draw upon a heretofore untapped reservoir of motivation in ways that benefit students, especially low performers."
Martin V. Covington (1992). Making the grade: a self-worth perspective on motivation and school reform. Cambridge: Cambridge University Press.
Degelijk empirisch onderzoek is hier in boekvorm bewerkt tot lering van iedereen die betrokken is bij vergelijkende processen in het onderwijs. Geen handboek voor hoe toetsen en examens moeten worden samengesteld, maar hoe leerlingen het hele circus beleven en er hun gedrag en eigendunk bij aanpassen. En daar valt dan weer een handboek toetsen uit af te leiden, maar zo ver gaat Covington niet. Onmisbaar boek.
Een meer recente publicatie van Covington over dit thema:
Martin V. Covington (2000). Goal Theory, Motivation, and School Achievement: An Integrative Review. In Annual Review of Psychology vol. 51, 171-200. pdf for pay http://arjournals.annualreviews.org/doi/pdf/10.1146/annurev.psych.51.1.171, in universiteitsbibliotheken aanwezig. abstract:
The purpose of this review is to document the directions and recent progress in our understanding of the motivational dynamics of school achievement. Based on the accumulating research it is concluded that the quality of student learning as well as the will to continue learning depends closely on an interaction between the kinds of social and academic goals students bring to the classroom, the motivating properties of these goals and prevailing classroom reward structures. Implications for school reform that follow uniquely from a motivational and goal-theory perspective are also explored.
gerelateerde publicaties:
Dit boek is gericht op docenten en wat zij zelf aan onderzoek op dit thema kunnen doen. Neemt het thema zeer breed, maar daardoor nog niet oppervlakkig. Is gericht op het genereren van vraagstellingen waar individuele onderzoekers mee aan de slag kunnen gaan: deze zijn in talrijke boxen bijeengebracht.
Martin V. Covington and Carol L. Omelich (1984). Task-oriented versus competitive learning structures: motivational and performance consequences. , 1038-1050. (From the abstract: As part of an introductory psychology course, college students were assigned either to a norm-referneced (competitive) or a criterion-referenced grading system end to either e single-test or retest condition. Results indicated that the performance superiority of mastery instruction occurred primarily because of the retest option, with enhanced motivation due to both retesting opportunities and criterion-referenced standards. Moreover, path analysis confirmed a complex interrelationship among these factors such that increased performance (caused by the retesting option) enhanced motivational involvement, which in turn fostered further learning goals.)
Kate Ashcroft and David Palacio (1996). Researching into assessment and evaluation in colleges and universities. London: Kogan Page. isbn 0749417692. overheid
Geva M. Blenkin en A. V. Kelly (1992). Assessment in early childhood education. London: Paul Chapman. isbn 1-85396-153-1
Op de flap: "Assessment has always been a major feature of education in the early years. It has been a planning toll, employed internally by schools and teachers to develop forms of curriculum appropriate to pupils’ needs. It has been formative rather than summative, judgemental rather than statistical, holistic rather than incremental, building on strengths rather than identifying weaknesses. However, the National Curriculum with its elaborate arrangements for assessment, has imposed a different assessment model on early education, a model which is incremental, summative, externally directed and designed to measure rather than guide the performance of pupils, teachers and schools. There is thus a conflict between these two approaches to assessment. In this context, the authors of this book set out to do three things - to identify the essential features of forms of assessment which will be genuinely supportive of education in the early years; to help teachers in their search for such forms; and to evaluate the likely impact of the systems of external assessment currently being imposed."
Dit boek is, gezien het afsluitende hoofdstuk, een aanklacht tegen stompzinnige politiek die een centraliserende greep op het onderwijs probeert te krijgen en daar gedetailleerde voorschriften voor centrale toetsen voor gebruikt. Dat alles in het kader van 1988 National Curriculum. Zie verder over dit boek de annotatie in mijn (1995). Kwalificaties van jongeren: risico's of kansen? Toekomstmogelijkheden. Amsterdam: SCO Kohnstamm Instituut. Advies in opdracht van VWS, niet afzonderlijk gepubliceerd. [72 k html]
o.a.: Geva Blenkin: Progression, observation and assessment in early education: the context - Victoria Hurst and Margaret Lally: Assessment and the nursery curriculum - Margaret Lally and Victoria Hurst: Assessment in nursery education: A review of approaches - Marian Whitehead: Assessment at Key Stage 1: Core subjects and the development curriculum - Sue Pidgeon: Assessment at Key Stage 1: Teacher assessment through record-keeping - Eve Gregory and Clare Kelly: Bilingualism and assessment.
Hae-joang Cho (1995). Children in the examination war in South Korea: A cultural analysis. In Sharon Stephens (Ed.). Children and the politics of culture. Princeton: Princeton University Press. (p. 141-168
This is a highly insightful and personal account of examination hell in South Korea by a mother who also knows the Amrican school system. You should read the full text, it is absolutely impossible to abstract it, even the author didn't do that.
The text is available on internet www.haja.net/users/cho/db20/vi.asp?idx=24, on the author's homepage. However, I had to use the cache to get the text. If you do have problems getting this download, let me know, and I will send you my copy.
Assessment and Learning Review Group site. Een Britse denktank die veel materiaal publiceert dat op de website is te downloaden.
http://www.benwilbrink.nl/projecten/toetsen_examens_literatuur.htm