Gifford, Bernard R. Gifford (Ed.) (1989). Test policy and the politics of opportunity allocation: the workplace and the law. National Commission on Testing and Public Policy. Kluwer Academic Publishers. isbn 0792390156 info and previews
Gifford, Bernard R. Gifford (Ed.) (1989). Test policy and test performance: education, language and culture. National Commission on Testing and Public Policy. Kluwer Academic Publishers. isbn 0792390148 info and previews
Lindquist, E. F. Lindquist (Ed.) (1951). Educational measurement. American Council on Education. Walter W. Cook: The functions of measuement in the facilitaion of learning 3-46; Ralph W. Tyler: The functions of measurement in improving instruction 47-67; John G. Darley & Gordon V. Anderson: The fucntions of measurement in counseling 68-84; Henry Chancey & Norman Frederiksen: The functions of measurement in educational placement 85-117; E. F. Lindquist: Preliminay considrations in objective test construction 119-158; K. W. Vaugh: Planning the objective test 159-184; Robert L. Ebel: Writing the test item 185-149; Herbert S. Conrad: The experimental tryout of test materials 250-265; Frederick B. Davis: Item selection techniques 266-328; Arthur E. Traxler: Administering and scoring the objective test 329-416; Geraldine Spaulding: Reproducing the test 417-454; David G. Ryans & Norman Frederiksen: Performance tests of educational achievement 455-494; John M. Stalnaker: The essay type of examination 495-530; Irving Lorge: The fundamental nature of measurement 533-559; Robert L. Thorndike: Reliability 360-620; Edward E. Cureton: Validity 621-694; John C. Flanagan: Units, scoes and norms 695-763; Charles I. Mosier: Batteries and profiles 764-809
E. F. Lindquist (1969). The impact of machines on educational measurement. 351-369. [Separate publication: The impact of machines on educational measurement - a monograph. AERA-pdk award lecture annual meeting American Educational Research Association, Chicago February 9, 1968] In Ralph W. Tyler (Ed.) (1969). Educational evaluation: New roles, new means. The Sixty-eighth Yearbook of the National Society for the Study of Education. NSSE. paywalled https://nsse-chicago.org/yearbooks.asp?cy=1969
Christopher Stray (2009). From oral to written examinations. In R. Lowe (Ed.) The history of higher education: Major themes in education, volume 4 (159-207). Routledge. concept version
I am listed in the acknowledgement, thanks Chris. Refers to Assessment in historical perspective, 1997.
Gwyneth Hughes (2014). Ipsative assessment. Motivation through marking progress. Palgrave Macmillan. [nog? niet als eBook in KB] info
Ik heb juli 2014 enkele aantekeningen bij dit boek gegeven op Twitter, vooral in de vorm van online beschikbare publicaties waar Hughes naar verwijst, of waar ze juist niet verwijst ;-).
Gordon Stobart (2008).
Dominique Sluijsmans, Sabine van Eldik, Desirée Joosten-ten Brinke & Linda Jakobs (2014). Bewust en bekwaam toetsen Wat zouden lerarenopleiders moeten weten over toetsing? pdf
Jo-Anne Baird, Therese N. Hopfenbeck, Paul Newton, Gordon Stobart & Anna T. Steen-Utheim (2014). Assessment and learning. State of the field review. Norwegian Knowledge Center for Education. pdf An interesting vhapter 7 on PISA tests. Everything about them gets criticized, except its constructivist bias, even though the constructivisme/situationism of the PISA tests has been described adequately. p. 74.
George F. Madaus (1988). The influence of testing on the curriculum. In Laurel N. Tanner (Ed.) (1988). Critical issues in Curriculum (83-121). NSSE. [onmiddellijk daarop volgend: Daniel Tanner (1988). The textbook controversies. pp 122-147. [feedforward, backwash, washback] paywalled
James E. Carlson & Matthias von Davier (2013). Item response theory. ETS SPC-13-05
pdf
Saskia Wools (2007). Evaluatie van een instrument voor kwaliteitsbeoordeling van competentieassessments. pdf
Michèle Lamont (2009). How professors think. Inside the curious world of academic judgment. Harvard University Press. isbn 9780674057333 info
Matthew Jensen Hays, Nate Kornell & Robert A. Bjork (2013). When and why a failed test potentiates the effectiveness of subsequent study. Journal of Experimental Psychology: Memory, and Cognition, 39, 290–296. abstract
Stefan Johansson , Eva Myrberg & Monica Rosn (2012) Teachers and tests:
assessing pupils' reading achievement in primary schools, Educational Research and Evaluation: An
International Journal on Theory and Practice, 18:8, 693-711. abstract from the abstract
Marjorie C. Kirkland (1971). The effects of tests on students and schools. Review of Educational Research, 41, 303-350.
Yigal Attali & Don Powers (2010). Immediate Feedback and Opportunity to Revise Answers to Open-Ended Questions. Educational and Psychological Measurement, 70, 22-35 abstract Dit is nu eens een intrigerend idee: geef kandidaten meteen na het antwoorden op een toetsvraag informatie over de jusitheid, en geef ze ook de gelegenheid om het antwoord te verbeteren! Dat ik daar zelf nog nooit aan heb gedacht. Ik heb het ongetwijfeld al wel eens zien langskomen in de vorm van ‘the answer-until-correct method for MC items
(Pressey, 1926)’.
Gregory Ethan Stone, Kristin L. K. Koskey and Toni A. Sondergeld (2011). Comparing Construct Definition in the Angoff and Objective Standard Setting Models : Playing in a House of Cards Without a Full Deck. Educational and Psychological Measurement, 71 942abstract Dit is een onderzoeklijn van Gregory Stone. Het bevalt me helemaal niet dat hij spreekt van objectief afgeleide standaarden. Ik moet daar zeker eens een keer goed naar kijken. De enige juiste methode is die welke ik in 1980 in het TOR heb beschreven. Zo moeilijk is dat trouwens niet, voor een selectiepsycholoog met enige affiniteit met besliskunde.
George Engelhardt, Jr. (2011). Evaluating the Bookmark Judgments of Standard-Setting Panelists.
David Spendlove (2009). Putting Assessment for Learning into Practice. Continuum. site Misschien een heel aardig boekje, maar de aanbevelingen zijn autoritair, dat is: zonder enige bronvermelding. Er is wel een lijstje met verder te lezen publicaties. Dat is misschien een keuze die past bij een boekje met tips, van bescheiden omvang, maar ik prefereer toch tips met een specifieke bronvermelding zodat de lezer zelf kan nagaan wat de strekking/onderbouwing van de tip is.
Natalia Karelaia & Robin M. Hogarth (2008). Determinants of Linear Judgment: A Meta-Analysis of Lens Model Studies. Psychological Bulleting, 134, 404-426. pdf
Grant Wiggins (1994). The immorality of test security. Educational Policy, 8, 157-182. abstract
Grant P. Wiggins (1993). Assessing student performance. Exploring the purpose and limits of testing. Jossey-Bass. isbn 1555425925
Ron J. Pat El (2012). Lost in Tranlation. Congruency of teacher and student perceptions of assessment as a predictor of intrinsic motivation in ethnodiverse classrooms. Proefschrift Universiteit Leiden. availability of chapters; samenvatting De promovendus schrijft over ‘eikpunten’, wat niet wijst op een overdreven mate van zorgvuldigheid. De ideologie is die van het sociaal-constructivisme, wat mij toch wat minder passend lijkt bij een academisch werkstuk. Maar ja, de hoofdstukken zijn deels al gepubliceerd in gerefeerde wetenschappelijke tijdschriften. Wie tekenen er voor dit proefschrift: promotoren Paul Vedder en Mien Segers, co-promotor: Harm Tillema. Commissieleden: Roel Bosker, P. van den Broek, P. den Brok, C. Espin. Grote afwezige in dit onderzoek: de vakinhouden van het onderwijs. Dit is een overbodig onderzoek., en dan druk ik mij vriendelijk uit (onvriendelijk zou zijn: dit is een schadelijk onderzoek, het bevestigt wanbeleid in het onderwijsveld).
Dirk Ifenthaler, Deniz Eseryel & Xun Ge (Eds.) (2012). Assessment in Game-Based Learning. Foundations, Innovations, and Perspectives. Springer.
Lorrie A. Shepard (2000). The role of classroom assessment in teaching and learning. CSE Technical Report 517 Published in V. Richardson (Ed.) (2001), Handbook of research on teaching (4th ed). Washington, DC: American Educational Research Association. pdf" target='_blank'>pdf
Robert L. Brennan (Ed.) (2006). Educational Measurement. National Council on Measurement in Education; American Council on Education.
Satomi Mizutani (2009). The Mechanism of Washback on Teaching and Learning. A thesis submitted in partial fulfilment of the requirements for the degree of Doctor of Philosophy in Educational Psychology, The University of Auckland, 2009. (supervisors: Professor John Hattie, Dr. Christine Rubie-Davies, and Dr. Jenefer Philp)
pdf
Greaney, V., & Kellaghan, T. (1996). Monitoring the learning outcomes of educational systems. Washing D. C.: The World Bank. [geen directe aandacht voor washback]
Kathleen M. Bailey (1999). Washback in language testing. Educational Testing Service MS-15 june 1999 pdf
Eleana Shohamy, Smadar Donitsa-Schmidt & Irit Ferman (1996). Test impact revisited: washback effect over time. Language Testing, 13, 298-317.
abstract
Mary Spratt (2005). Washback and the classroom: the implications for teaching and learning of studies of washback from exams. Language Teaching Research, 9, 5-29.
abstract
Er is een bestand op internet beschikbaar:
pdf
Shahrzad Saif (2006). Aiming for positive washback: a case study of international teaching assistants. Language Testing, 23, 1-34
abstract
Ana P. Muñoz and Marta E. Álvarez (2010). Washback of an oral assessment system in the EFL classroom. Language Testing, 27, 33-49. abstract
M. L. Smith (1991). Put to the test: The effects of external testing on teachers. Educational Researcher, 20(5), 8-11. eerste pagina
M. L. Smith and C. Rottenberg (1991). Unintended consequences of external testing in elementary schools. Educational Measurement: Issues and Practice, 10(4), 7-11. [Zie ook Gregory J. Cizek (2011). More unintended consequences of high-stakes testing. Educational Measurement: Issues and Practice, 20, 19-27 final draft]
David R. Krathwohl (2002). A revision of Bloom’s taxonomy: An overview. Theory into Practice, 41, 212-264. pdf
Ineke Huibregtse en Wilfried Admiraale (2000). D score op een ja/nee-woordenschattoets: correctie voor raden en persoonlijke antwoordstijl. TOR, 24, 110- . online
F. M. Edens, F. Rink & M. J. Smilde (2000). De studentenrechtbank: een evaluatieonderzoek naar beoordelingslijsten voor prestatievaardigheden. Tijdschrift voor Onderwijsresearch, 24, 265-274. online
Mary E. Lunz, Betty A. Bergstrom & Richard C. Gershon (1994). Computer adaptive testing. International Journal of Educational Research, 21, 623-634. [Relevant voor de rekentoets, WisCat, etc.]
Martin Brunner, Cordula Artelt, Stefan Krauss, Jürgen Baumert (2007). Coaching for the PISA test.
Learning and Instruction. 18, 321-336.
P. Vedder (1992). Het Cito-leerlingvolgsysteem. Pedagogische Studiën, 69, 284-290. Met repliek: P. Gillijns & P. Verhoeven (1992). Het Cito-leerlingvolgsysteem: met het oog op de praktijk. Pedagogische Studiën, 69, 291-296.
Hartmut von Hentig (1980). Die Krise des Abiturs und eine Alternative. Klett-Cotta. Stuttgart, Ernst Klett.
Harold L. Kleinert, Diane M. Browder & Elizabeth A. Towles-Reeves (2009). Models of Cognition for Students With Significant Cognitive Disabilities: Implications for Assessment. Review of Educational Research, 79, 301-326.
Maarten van Gils (1977). De onbetrouwbaarheid van selektieve tekstbegriptoetsen. Pedagogiche Studiën, 54, 52-61.
Willem K. B. Hofstee (2009). Promoting intersubjectivity: a recursive-betting model of evaluative judgments. Netherlands Journal of Psychology, 65.
abstract Aantekeningen: toetsmodellen.htm#Hofstee_intersubjectivity
Jean-Yves Rochex (2006). Social, Methodological, and Theoretical Issues Regarding Assessment: Lessons From a Secondary Analysis of PISA 2000 Literacy Tests Review of Research in Education January 2006 30: 163-212,
Maarten Pinxten, Bieke De Fraine*, Jan Van Damme and Ellen D’Haenens Causal ordering of academic self-concept and achievement: Effects of type of achievement measure British Journal of Educational Psychology (2010), 80, 689- -709 download UBUw
Ana Maria Pazos Rego (2009?). The aphabetic principle, phonics, and spelling. In Jeanne Shay Schumm: Reading assessment and instruction for all learners. The Guilford Press.
Elana Shohamy (2008). Assessment in multicultural societies: Applying democratic principles and practices to language testing. In Charles A. MacArthur, Steve Graham & Jill Fitzgerald: Handbook of writing research. The Guilford Press. 72-92.
Evert Gijsbert Harskamp & Conradus Johannes Maria Suhre (1997?). Toetsen basisvorming: Een onderzoek onder scholen, ouders en leerlingen.. GION. isbn 9789066904446 SVO-project 96080 (ik heb dat aanbesteed)
Paul Black & Dylan Wiliam (2009). Developing the theory of formative assessment. Educational assessment, evaluation and accountability, 21 concept
Paul E. Newton (2012). Clarifying the Consensus Definition of Validity. Measurement: Interdisciplinary Research
and Perspectives, 10, 1-29. abstract
Robert J. Mislevy, Linda S. Steinberg and Russell G. Almond (2003). On the structure of educational assessments. CSE Technical Report 597 pdf>.
James W. Pellegrino, Naomi Chudowsky, and Robert Glaser (Eds.) (2001). Knowing what students know. The Science and Design of Educational Assessment. The Science and Design of Educational Assessment. Board on Testing and Assessment, Center for Education, Division of Behavioral and Social Sciences and Education, National Research Council. pdf van heel het boek hier ophalen
Shepard, L. (1991). Psychometricians’ beliefs about learning. Educational Researcher, 20, 2-16. (Integraal online als html of direct te downloaden pdf)
Harry Torrance (2012): Formative assessment at the crossroads: conformative,
deformative and transformative assessment, Oxford Review of Education, 38:3, 323-342
To link to this article: http://dx.doi.org/10.1080/03054985.2012.689693
Caroline V. Gipps (1994). Beyond testing. Towards a theory of educational assessment. Falmer Press. [boek niet meer beschikbaar]
Tom Dousma & Ad Horsten (1989). Tentamineren. Wolters-Noordhoff. isbn 9001243908
John Gardner (Ed.) (2012 2nd). Assessment and Learning. Sage. http://www.uk.sagepub.com/books/Book235374 Ik heb geen tijd om dit te lezen. Het is allemaal niet strak. Is het gericht op docententrainers?
Greet Fastré (2011). Improving sustainable assessment skills in vocational education. proefschrift open universiteit. pdf
Neal Kingston & Brooke Nash (2011). Formative assessment: a meta-analysis and a call for research. Educational Measurement: Issues and Practice, 30 #4, 28-37. abstract De effecten zijn veel kleiner dan in de literatuur vaak beweerd. Ik moet dit nog vergelijken met Hattie, zou een leuk onderwerp zijn.
AERA, APA & NCME (1999). The Standards for Educational and Psychological Testing. zie hier - niet geautoriseerde samenvatting
Mary E. Lunz, Betty A. Bergstrom & Benjamin D. Wright (1992). The Effect of Review on Student Ability and Test Efficiency for Computerized Adaptive Test. Applied Psychological Measurement,16, 33-40.abstract
Ronald K. Hambleton (1980). Contributions to Criterion-Referenced Testing Technology: An Introduction. Applied Psychological Measurement 4, 421-424. abstract
Rand R. Wilcox (1980). Determining the Length of a Criterion-Referenced Test. Applied Psychological Measurement 4, 425-446. abstract
Lorrie Shepard (1980). Standard Setting Issues and Methods. Applied Psychological Measurement 4, 447-467. abstract
Wim J. van der Linden (1980). Decision Models for Use with Criterion-Referenced Tests. Applied Psychological Measurement 4, 469-492. abstract
George B. Macready & C. Mitchell Dayton (1980). The Nature and Use of State Mastery Models. Applied Psychological Measurement 4, 493-516. abstract
Ross E. Traub & Glenn L. Rowley (1980). Reliability of Test Scores and Decisions. Applied Psychological Measurement 4, 517-545. abstract
Robert L. Linn (1980). Issues of Validity for Criterion-Referenced Measure. Applied Psychological Measurement 4, 547-561. abstract
Ronald A. Berk (1980). A Framework for Methodological Advances in Criterion-Referenced Testing. Applied Psychological Measurement 4, 563-573. abstract
Samuel Livingston (1980). Comments on Criterion-Referenced Testing. Applied Psychological Measurement 4, 575-581. abstract
Alan D. Mead & Fritz Drasgow (1993). Equivalence of Computerized and Paper-and-Pencil Cognitive Ability Tests: A Meta-Analysis. Psychological Bulletin, 114, 449-458. abstract
Angus S. McDonald (2002). The impact of individual differences on the equivalence of computer-based and paper-and-pencil educational assessments. Computers & Education, 39, 299-312. abstract
Shudong Wang, Hong Jiao, Michael J. Young, Thomas Brooks & John Olson (2008). Comparability of Computer-Based and Paper-and-Pencil Testing in K–12 Reading Assessments. A Meta-Analysis of Testing Mode Effects. Educational and Psychological Measurement, 68, 5-24.
abstract
Friedrich Scheuermann & Angela Guimarães (Eds.) (2008). Towards a Research Agenda on Computer Based Assessment. Challenges and needs for European Educational Measurement. European Commission; Joint Research Centre; Institute for the Protection and Security of the Citizen. abstract
" target='_blank'>pdf
Spencer S. Swinton & Donald E. Powers (1983). A study of the effects of special preparation on GRE analytical scores and item types. Journal of Educational Psychology, 75, 104-115
abstract en pdf ophalen feedforward coaching toetstraining
Joop Hendricx, Jan de kanter & Gerrit Roest (z.j.). Centraal schriftelijke examens 1979 natuurkunde. Cito-memo nr. 398. Projekt open vragen. 171 blz. offset quarto.
J. M. Wijnstra: Verantwoording Eindtoets Basisonderwijs 1981 (met een historisch overzicht over de periode 1966-1980). Cito, januari 1984. Specialistisch Bulletin nr. 25.
[ zie ook hier Veel informatie, maar niets van enig belang over de toetsvragen zelf. Hoe kom ik erachter welke vragen er typisch in de Citoetsen van de zeventiger jaren zaten?
Andrew C. Porter, Robert L. Linn, & C. Scott Trimble (2005). The Effects of State Decisions About NCLB Adequate Yearly Progress Targets. Educational Measurement: Issues and Practice, 24 winter, 32-39. pdf en
James H. McMillan (Ed.) (2013). SAGE Handbook of Research on Classroom Assessment. SAGE. [UB Leiden PEDAG. 51.e.85] [3 juni 2013 nog niet als eBook beschikbaar, dus ook niet in KB]
site - detailed contents. (maar voor auteurs zie de de contents op de site) Het ziet er allemaal heel indrukwekkend uit. Wel 544 bladzijden dichte informatie, literatuurverwijzingen ook. Het is bedoeld om verder onderzoek uit te lokken, dus niet als voorlichting aan leraren. Ik krijg wel een beetje de indruk, al bladerend, dat van leraren veel te veel wordt verwacht. De vele schetsen van tekortkomingen in beoordelen en toetsen in school zijn wel terecht, maar daar volgt mijns inziens niet uti dat deze kwalen te verhelpen zouden zijn door betere opleiding, begeleiding, en instrumenten, hoewel dat alles natuurlijk wel enig nut zal hebben. Dit beoordelen in de klas is een rampgebied waar betere technieken helemaal niets aan gaan veranderen, andere onderwisjculturen waarschijnlijk wel. Een stap in de goede richting is ongetwijfeld het benadrukken van formatieve beoordeling ten koste van summatieve testerij. Maar er is veel meer nodig. Ik ben juist bang dat de horden onderzoekers die zich op het beoordelen in het onderwijs storten, leiden tot bevestiging van bestaande beroerde praktijken, in plaats van radicale veranderingen daarin. De macht van de getallen zal hier de doorslag geven, niet de kwaliteit van het onderzoek van enkelingen. p. 252
Mary Henning-Stout (1994). Responsive Assessment. A New Way of Thinking About Learning. Jossey-Bass. isbn 155542645X
Dit boek lijkt constructivisme te ademen. Ik citeer de eerste alinea uit het hoofdstuk dat veelbetekenend Mathematical reasoning heet. p. 178
Chester W. Harris, Marvin C. Alkin, & W. James Popham (Eds.) (1974). Problems in criterionreferenced measurement. (CSE Monograph no 3). Los Angeles: Center for the study of evaluation, University of California.
Henny Uiterwijk (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Cito. Proefschrift KUB. pdf
P. Holmes (2002). Multiple evaluation versus multiple choice. Feasibility, reliability and validity in practice. Enschede: Universiteit Twente, 2002, proefschrift, 140 pagina’s ISBN 90 3651757 5.
pdf Trefwoorden: raadkansen, raden, zekerheidsscoring, Shuford, Dirkzwager
A. H. van der Hoeve, Ph. Kohnstamm & G. van Veen (1935). Sil-lees-stof als denk-materiaal en denk-maatstaf. Een onderzoek aangaande de vorming en toetsing van 'theoretische intelligentie'. J. B. Wolters' Uitgeversmaatschappij. Mededelingen van het Nutsseminarium voor Paedagogiek aan de Universiteit van Amsterdam. [aanwezig: KB; UB Leiden in de reeks Mededelingen van het Nutsseminarium] 208-245 - 246-261 - 262-288
Mary Ann Dzuback (1991). Robert M. Hutchins. Portrait of an educator. University of Chicago Press. [boek is ondertussen naar Amnesty gegaan] The tweede geciteerde passage hierbeneden vind ik toch wel heel treffend: intensief contactonderwijs, en dan toch afsluitende toetsen houden, terwijl de staf in de gaten heeft dat al dat toetsen kostbare instructietijd afsnoept. Kennelijk de geest van de tijd: toetsgekte. Ralph Tyler kwam op deze manier mooi binnen in de universiteit, waar hij lang zou blijven. ( . . )Because total enrollments were low, classes were small, allowig a high level of contact between students and instructors and a variety of pedagogical approaches, inclusing discussions and laboratory work in the sciences. The program was never free from faculty criticissm. For example,divisional examinations, faculty members argued, provided a limited basis for grading studnets and required a great deal of faculty time to design. In addition, administering them reduced the number of class meetings in the spring. Despite the criticism, there was enough support for the examinations to keep and improve them. Hutchins recruited Ralph Tyler to head the department of education in 1938 and to act as university examiner. Tyler worked with the divisional faculty to redesign examinations that tested the objectives of their courses. p. 128-129
Crombag, Hans F., & Dato N. De Gruyter (Eds) (1974). Contemporary issues in educational testing. The Hague: Mouton. isbn 9027975213.
Ik heb aan dit congres deelgenomen, als ik me goed herinner: de dollar werd gedevalueerd of kelderde in waarde, waardoor veel congresdeelnemers acuut in problemen raakten.
The Effect of Testing Versus Restudy on Retention: A Meta-Analytic Review of the Testing Effect. Rowland, Christopher A. Psychological Bulletin, Aug 25 , 2014, No Pagination Specified. abstract
Frederic M. Lord & Martha L. Stocking (1976). An interval estimate for making statistical inferences about true scores. Pm 1976, 41, 79-87. preview pp 79-80
Moreland, R., J. Miller, & F. Laucka (1981) Academic achievement and self-evaluations of academic performance. Journal of Educational Psychology 1981, 73, 335-344. [studieresultaten voorspellen]
abstract Klein aantal ppn, dus meer interessant vanwege theoretisch kader.
Robert F. van Naerssen (1978). A systems approach to examinations. Annals of Systems Research, 6, 63-72.
scan
OAT Announces QTI® Compliance for Its TAO Open Source Assessment Platform.
Kyle Silera, Kirby Leeb & Lisa Beroc (2014). Measuring the effectiveness of scientific gatekeeping. PNAS (ahead of print)abstract
Darren Grant & William B. Green (2009). The simple economics of thresholds: grades as incentives. Sam Houston State University, Department of Economics and International Business, Working Paper Series No. 09-01. Via
Researchgate William Green
Fabienne M. Van der Kleij, Jorine A. Vermeulen, Kim Schildkamp & Theo J.H.M. Eggen (2015): Integrating data-based decision making, Assessment for Learning and diagnostic testing in formative assessment. Assessment in Education: Principles, Policy & Practice (published online)
abstract
Daniel Koretz (2008). Measuring up. What educational testing really tells us. Harvard University Press
reviewed by Paul W. Holland. And another review by Mark Fetler. Hoofdstuk 1 gelezen. Helemaal oké. Dekt ongeveer de inhoud, lijkt me. Hier ben ik dusgehinderd door een gebrek aan kennis van achtergronden van Koretz. Zie o.a. een review door Philip Staradamskis: here [via Richard Phelps]"authentic assessment
p. 345 from the review by Holland
James A. Bovaird, Kurt F. Geisinger & Chad W. Buckendahl (Eds.) (2011). High-stakes testing in education. Science and practice in K-12 settings. American Psychological Association.
info
Richard P. Phelps (2009). Correcting fallacies about educational and psychological testing.
Richard P. Phelps (2007). The source of Lake Wobegon. Nonpartisan Education Review, 1 #2.
pdf
Richard P. Phelps (2003). Kill the messenger. The war on standardized testing. isbn 0765801787 <
info Reviewed by Howard Wainer in JEM 2006, zie wainer.2006
Richard P. Phelps (Ed.) (). Defending standardized testing. Educational Testing Service. [eBook in KB]
Kim J. H. Dirkx (2014). Putting the testing-effect to the test. Thesis Open University Heerlen. PEDAG 70.A.56
pdf of summary and references download I don’t know; is this useful? The references list contains interesting items, however. p. 15
J. H. Dijkhuis (1961). Het beoordelen in de psychologie. Utrecht: Bijleveld. Proefschrift Utrecht. 160 blz. (144 blz in handelsuitgave), stellingen, ex-lib, De Utrechtse aandacht voor kwaliteit van het beoordelen is waarschijnlijk best wel belangrijk geweest voor ontwikkelingen in de Nederlandse psychologie. Daar kan het onderwijsveld nog een puntje aan zuigen, vermoed ik (zowel beoordelen van leerlingen, als van leraren, en niet te vergeten: van lessen).
Dominique Sluijsmans, Desirée Joosten-ten Brinke, Tamara van Schilt-Mol (Red.) (2015). Kwaliteit van toetsing onder de loep. Handvatten om de kwaliteit van toetsing in het hoger onderwijs te analyseren, verbeteren en borgen. Apeldoorn: Garant. isbn 9789044132403
De auteurs benaderen het onderwerp veel te abstract, op een systemisch niveau, en onkritisch wat betreft volgen van de Amerikaanse literatuur op dit gebied en volgen van psychometrische halve waarheden. Ik had graag een boek gezien gevuld met glasheldere casuïstiek van wat er zoal in de praktijk vaak helemaal fout gaat en toch eenvoudig is te voorkomen of onder controle te krijgen. In discussie dan maar, met de auteurs.
Patricia Broadfoot (1996). Education, assessment and society. Buckingham: Open University Press. [als eBook in KB]
Vergelijkende studie Engeland-Frankrijk. Toetsen in de nationale context Assessment and the emergence of modern society. Lijkt me een prachtig boek.
Andrew Davis (1998) The Limits of Educational Assessment. Oxford: Blackwell. isbn 0631210202. Special Issue: The limits of educational assessment. Journal of Philosophy of Education, 32(1), 1-155.
full contents Er is een kritiek op gepubliceerd (Randall Curren (2004) Educational measurement and knowledge of other minds Theory and Research in Education 2 3 pp 235 -253), en een dupliek: http://k1.ioe.ac.uk/pesgb/x/Davis,%20A..pdf.
Adriaan D. de Groot & Robert F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Mouton.
Gaea Leinhardt (1980). Modeling and measuring educational treatment in evaluation. Review of Educational Research, 50, 393-420. abstract
Niels H. Veldhuijzen (1980). Difficulties with difficulties. On the betabinomial model. TOR 1980, 5, 145-
online Shows that equal item difficulties are not required for the beta-binomial model to hold.
Niels H. Veldhuijzen (1979). Cesuurbepaling in het beta-binomiale model. Cito no. 4 bulletinreeks
online Kent nut toe aan vier beslissingsuitkomsten bij zakken/slagen. Goochelt met formules, maar is begripsmatig duister. Onnodig ingewikkeld.
Robert Ladd Thorndike (1971). Educational Measurement. Washington: American Council on Education. isbn 0826812716
Gideon J. Mellenbergh & Wim J. van der Linden (1978). Decisions based on tests: Some results with a linear loss function. Paper presented at the European Meeting on Psychometrics and Mathematical Psychology, University of Uppsala, Uppsala, Sweden, June 15-17, 1978. Kwantitatieve Methoden, 4, 51-61.
Two questions, reading the abstract: 1) is the resit properly modeled in decision-theoretic terms? 2) Is it really the case that personnel selection is an analogue?
Ad 1.1: the intention is to predict on the basis of the raw test scores.
Ad 1.2. No, correction. The to be ‘predicted’ scores turn out to be true scores of a variable ‘suitable’. How is it possible to predict platonic scores?
Ad 1.3 Introduces a linear loss function, following Mellenbergh & Van der Linden (1977). I will first annotate that one!
Mellenbergh, G.J., & Van der Linden, W.J. (1981). The linear utility model for optimal selection. Psychometrika, 46, 283 - 293.
Wim J. van der Linden & Gideon J. Mellenbergh (1977). Optimal cutting scores using a linear loss function. Applied Psychological Measurement, 1, 593-599.pdf This is an exercise in reliability, as Wim van der Linden will call it later (1980, Applied Psychological Measurement). Does finding ‘optimal’ cutting scores, given one has ‘fixed in advance’ a latent cutting score solve any real problem? The article might present some useful techniques, or demonstrate some techniques to be not useful at all. Let’s see.
References: Hambleton & Novick (1973); Meskauskas (1976); Huynh (1976).
The analysis will be over the total group of testees. This particular choice is not discussed by the authors. An alternative analysis is to consider only the testees scoring x = c, c being the particular cutting score considered for analysis. Would that model choice have made a difference? Sure: an order of magnitude, much and much simpler, better transparency. See my 1980 in Tijdschrift voor Onderwijsresearch.
One may wonder how it is possible and why it could be useful to specify utility on a variable that is latent. This is a serious objection; especially so where experimental subjects are being asked to specify their utilities. They will do so, of course, obligingly. (see dissertation Van der Gaag on this issue)
Reference to Huynh (1976) & Mellenbergh, Koppelaar & Van der Linden (1976) for threshold loss analysis: minimizing the risk. I will have to annotate these articles, too: searching for the ancestry of the concepts of loss and risc as used by Mellenbergh & Van der Linden. A shorcut: Mellenbergh & Gode 2005, last chapter on decision-theoretic analysis.
G. J. Mellenbergh & M. Gode (2006). Beslissend testgebruik. In W. P. van den Brink & G. J. Mellenbergh: Testleer en testconstructie (399-427). Boom. isbn 9053522395
info boek
I will comment in English, even though the book is in Dutch. The reason is that I expect the problematic aspects in this chapter to be typical of the decision-theoretic literature in the field of educational measurement.
The chapter identifies Cronbach & Gleser’s classification, allocation and selection, as well as Van der Linden’s (1985) mastery. In the latter case the prediction is of the latent trait or true score. Wow! This is 1977. Totally unacceptable, because is does not offer any practical solution? Let’s see. Mellenbergh & Gode here define allocation as classification; classification with Cronbach & Gleser is categorical (with the testee, not with the treatment): man/woman; healthy/cancer. I really am disappointed, already on the first page of the chapter. Will have to talk to Don about this, I suppose. The Van der Linden ‘mastery’ category is phoney and therefore superfluous (I have shown as much in my 1980 articles). The chapter does not treat the mastery decision at all; why then introduce this dubious distinction? Utility functions get introduced on p. 405. Regrettably, this introduction is faulty. The text states: “A utility function represents what the ‘results’ are of the selection procedure’ [my translation, b.w.]. Expected utility gets mistaken voor utility. These concepts are categorically different! This is the kind of mistake that is rather typical of the literature on decision making in testing situations, regrettably.
The next problem is dat suitability is declared to be absolute: either the employee turns out to be suitable, or not. This kind of rationalizing is not unusual in selection psychology, yet it is very clumsy and above all it is unnecessary. It is also unnecessary if one has to take pass-fail decisions, as will be the case in, f.e., the situation depicted in Figure 12.1.
Here threshold loss gets introduced. The reference is Hambleton & Novick 1973. I will now annotate that one, it is pretty basic to pretty much all that has been published later on utility models for achievement tests.
Wim J. van der Linden (1985). Decision theory in educational research and testing. In T. Husen & T. N. Postlethwaite (Eds.), International encyclopedia of education: Research and studies (pp. 1328-1333). Oxford: Pergamon Press.
Lee J. Cronbach & Goldine C. Gleser (1957/1965 ). Psychological tests and personnel decisions. University of Illinois Press.
Ronald K. Hambleton & Melvin R. Novick (1972). Toward an integration of theory and method for criterion-referenced tests. ACT Research Report 53. Journal of Educational Measurement, 1973, 10, 159-170.
pdf The basic paradigm, believe or not, is sketched verbally in the following citation. It has been followed stubbornly by many researchers not asking some critical but simple questions. The formal apparatus follows the next description (see the report).
Basically then, the examiner's problem is to locate each examinee in the correct category. There are two kinds of errors that occur in this classification problem: false positives and false negatives. A false-positive error occurs when the examiner estimates an examinee's ability to be above the cutting score when, in fact, it is not. A false-negative error occurs when the examiner estimates an examinee's ability to be below the cutting score when the reverse is true. The seriousness of making a false-positive error depends to some extent on the structure of the instructional objectives. It would seem that this kind of error has the most serious effect on program efficiency when the instructional objectives are hierarchical in nature. On the other hand, the seriousness of making a false-negative error would seem to depend on the length of time a student would be assigned to a remedial program because of his low test performance. (Other factors would be the cost of materials, teacher time, facilities, etc.) The minimization of expected loss would then depend, in the usual way, on the specified losses and the probabilities of incorrect classification. This is then a straightforward exercise in the minimization of what we would call threshold loss.
p. 4 The formal model then gets presented in a formalistic way that makes it rather difficult to understand. Let me therefore first report in my own words what the authors propose here, and the extensions of the model that in my opinion are necessary to avoid any fuzziness..
The test supposedly is a rather short one, the authors never suggest a specific number of items, however. Yet the model has been used in later years for more serious testing in, for example, higher education. Will that make a difference? Supposedly so, but I do not know of any analyses on the subject (they should be available in the literature, I suppose).
Let me first take a look at the following: “Basically then, the examiner's problem is to locate each examinee in the correct category.” This is problematic, it runs counter to the intention to find an acceptable utility function on the goal variable that is relevant to the situation. The goal variable is not correct classification, it is mastery. The problem then is to optimize the level of mastery, using the instrument of extended instruction/learning and a second test., implying a cutoff score on the first test.
Another problem here is the decision to reduce the criterium variable ‘mastery’ to a dichotomy, for no good reason whatsoever. In fact, no reason is given at all, except implicitly that the talk of the town has it that there should be a very special point on the dimension of mastery: so special, in fact, that we speak of masters for those above this magical point, and non-masters for those still below it. I ridicule the thinking of Hambleton and Novick here, because they are smuggling in threshold utility. A mortgage on the house of decision theoretic test psychology. Categories are, f.e., man-woman; cancer yes-no; cat or dog. What Hambleton and Novick are doing is introducing a pseudo category that seems to come in handy in a situation where pass-fail decisions have to be taken.
See here above also the already familiar mistake of calling an expected utility (or loss) simply utility (or loss). Yet these are fundamentally different. Utility is a function over the goal variable, in this case the goal variable is mastery. Expected utility is what obtains for the options in your decision problem, in this case passing or retaining students with a score X=c. In fact it is really simple: whether the decision is to pass or fail this person, her mastery π stays the same and has one definite utility. Meaning also: there is no way to construct a loss here, there are no differences in utility at all, for this person. Therefore the decision model needs to be developed further: failing the student means she has to sit the test again, after some extra time spent in preparation and thus ameliorating her mastery π. The loss in passing this student is then the absolute difference between the utilities of both levels of mastery.
Allow me one more comment on the sentence cited above. The authors have it that (some) decisions are ‘incorrect’. How can that be? Should other decisions have been taken? This is all very clumsy. If decisions have been taken reckoning with the information available, how is it that they can be ‘incorrect’? Herbert Simon was quite explicit on this point: if two alternatives have expected utilities near each other, choose the one with the somewhat higher expected utility. It might turn out that the outcome is disappointing; does that make the decision ‘incorrect’? I don’t think so.
There is quite another problem yet with this decision model: the decision maker is not the student. Yet students will adapt their preparation strategies contingent on where the cutting score will be placed (assuming the difficulty of the test will remain the same). See Van Naerssen (1970), or on this website my SPA-model. For the student as decision maker, the model is also one of threshold utility; assuming a pass will have utility 1, a fail utility 0, expected utility for the student is simply the probability to pass. That probability depends on her mastery. For the institution or the teacher the optimalization problem therefore is quite another one than Hamilton and Novick try to let us believe: it is to find that threshold on the test as well as the retest that will result in the highest mastery (for individuals or for the group of testees) in some sense (expected utility that is).
W. K. B. (1970). De betrouwbaarheid van slaag-zak-beslissingen. Nederlands Tijdschrift voor de Psychologie, 25, 380-383.
Mooi ondoordacht gebruik van terminologie ‘missers’. Wim Hofstee mist hier de kans om de beperkingen van het model van terecht/onterecht beslissen te signaleren. Hij stipt wel aan dat studietoetsen steekproeven zijn, maar trekt daar niet de consequenties uit zoals Edgeworth dat eind 19e eeuw al wel deed: rond de aftestgrens zijn belsissingen niet inhoudelijk te rechtvaardigen, maar in dit type situaties is het wel het geval dat betere voorbereiding de kans op slagen verhoogt.
John S. J. Hsu, Tom Leonard & Kam-Wah Tsui (1991). Statistical inference for multiple choice tests. Psychometrika, 56, 327-348.
preview
Huynh Huynh (1977). Two simple classes of mastery scores based on the beta-binomial model. Psychometrika, 42, 601-608. !--hardcopy bak toetsen betabinomiaal-->
preview See Huynh (1976) on the idea of the referral task.
abstract
Huynh Huynh & Joseph C. Saunders (1980). Accuracy of two procedures for estimating reliability of mastery tests. Journal of Educational Measurement, 17, 351-358.
abstract I do not think it correct that the betabinomial presumes equal item difficulties. Is that also true in appliations to groups of studens?
Huynh Huynh (1976). On the reliability of decisions in domain referenced testing. JEM , 13, 265-276.
preview bivariate beta-binmial model. In fact, an exercise in threshold loss with criterion referenced tests.
Huynh Huynh (1980). Statistical inference for false positive and false negative error rates in mastery testing. Psychometrika, 45: 107-120. abstract
Huynh Huynh (1982). Assessing efficiency of decisions in mastery testing. JESt, 7, 47-63.
preview False positive error, false negative error. The torture never stops.
Huynh Huynh (1976). Statistical consideration of mastery scores. Psychometrika, 41, 65-78. Ik heb hier uitvoerig aantekeningen bij gemaakt (16 juni 1979). Dit stuk moet ik nog doorwerken
abstract
Huynh Huynh (1982). A Bayesian procedure for mastery decisions based on multivariate normal test data. Psychometrika, 47: 309.
abstract
Huynh Huynh (1980). A non-randomized minimax solution for passing scores in the binomial error model. Pm, 45, 167.
abstract
Huynh Huynh (1979). Statistical inference for two reliability indices in mastery testing based on the beta-binomial model. JESt, 4, 231-246.
preview
Huynh Huynh (1976). On the reliability of decisions in domain-referenced testing. Journal of Educational Measurement, 13, 253-264 .
abstract
Goro Ishii & Reiko Hayakawa (1960). On the compound binomial distribution. AmInstStMath, 12, 69-80.
abstract
Michael T. Kane & Robert L. Brennan (1980). Agreement coefficients as indices of dependability for domain-referenced tests. APM, 4, 105-126. (loss functions)
pdf
Koretz, D., Stecher, B., Klein, S., & McCaffrey, D. (1994). The Vermont portfolio assessment program: findings and implications. Educational Measurement, fall, 5-16. (performance assessment) fc nog even gehouden map t/srm
abstract
Julius Kuhl (1978). Standard setting and risk preference: an elaboration of the theory of achievement motivation and an empirical test. Psychological Review, 85, 239-248. abstract
J. B. Kuhlemeier, E. J. J. Kremers & F. G. M. Kleintjes. Gebruik en moeilijkheidsgraad van de eerste generatie afsluitingstoetsen basisvorming in het schooljaar 1994/95 / J.B. Kuhlemeier, E.J.J. Kremers en F.G.M. Kleintjes. - Arnhem : Cito, 1996. - 54 p. : Niet beschikbaar op website Cito
Wouter Schoonman (1989). An applied study on computerized adaptive testing. Amsterdam: Swets & Zeitlinger. isbn 9026510470
abstract
10 Real SAT's. New York: College Entrance Examination Board, 2003, 685 blz. quarto pb, monsterachtig, bizar ook.
L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. isbn 9036510899.
Cremers-van Wees, L. M. C. M., Knuver, J. W. M., Vos, H. J., & Van der Linden, W. J. M. (1998). Toetsen, beoordelen en beslissen in het voortgezet onderwijs. Ontwikkeling van een gedragscode voor leraren. Enschede: OCTO.isbn 9036510902.
Hans Kuhlemeier & Huub van den Bergh (1989). De Proefpeiling Nederlands: een onderzoek naar de haalbaarheid van peilingsonderzoek in het Voortgezet Onderwijs.Cito Bulletinreeks nr 74. -- 363 + 102 blz. quarto (zie o.a.: http://taalunieversum.org/onderwijs/onderzoek/publicatie/195/de_proefpeiling_nederlands )
Gerard Heijnen en Sanne Meeder (Red.) (1999). Toetsen en ICT in het hoger onderwijs. Stichting SURF. isbn 9074256104
Starren, J. Starren, S. J. Bakker, en A. Van der Wissel (Red.) (1988 1e; 1995 2e). Inleiding in de onderwijspsychologie. Bussum: Coutinho. isbn 9062837158
Rob Schoonen (1991). De evaluatie van schrijfvaardigheidsmetingen. Een empirische studie naar betrouwbaarheid, validiteit en bruikbaarheid van schrijfvaardigheidsmetingen in de achtste groep van het basisonderwijs. proefschrift UvA. [promotor: Don Mellenbergh]
Jelle van Lenthe (1993). ELI. The use of proper scoring rules for eliciting subjective probability distributions. dissertation Groningen. Leiden: DSWO-Press.
Dit werk past slecht op mijn ATM (Algemeen ToetsModel, zie SPA model), omdat onzekerheden in hetgeen bij Van Lenthe wordt geschat eigenlijk geen rol spelen: dat zijn CBS-statistieken. Voor het voorspellen van de eigen tentamenscore is er dus een heel andere situatie. Voor docenten zou e.e.a. wel bruikbaar kunnen zijn. Ik moet nagaan of het afbeelden van proper scoring rules als alternatief voor het laten zien van aannemelijkheid of voorspellende toetsverdeling overweging verdient (ik denk het niet). Trouwens, de aannemelijkheid is al een soort functie die halverwege een kansverdeling en een 'proper scoring rule' plot staat! I.v.m. risico-attitude, p. 63 3e a.: 'subjects appeared to be remarkably cautious.' Daar staat dan weer tegenover (p. 68, 2e a.): the widely observed overconfidence bias (Fischer). p. 70, 2e a. eind: het onderzoek dat er is over proper scoring rules gaat over heel beperkte situaties. p. 81 3e a.: 'score representation of uncertain knowledge more compatible with the capabilities of the human judge than a probability representation'. Is dat relevant voor het ATM? Ik denk het niet, want ik gebruik niet de verdelingen zelf, maar hun gewogen verwachte waarde. Ik zie het dus voorlopig zo: wat in het ATM telt, tegen de achtergrond van deze proper scoring rules, is: het hele stochastische apparaat zit onder de motorkap, de input is een inschatting van de huidige beheersing (proeftoetsresultaat) en het leertraject (hoeveel ronden al gedaan), de output is een functie van verwacht nut, die afgezet kan worden tegen functis van verwacht nut voor alternatieve tijdbesteding. Het is natuurlijk denkbaar om experimenten op te zetten waarin scholieren met hulp van het programma van Van Lenthe voorspellingen doen, terwijl ook de ATM-voorspelling wordt gegenereerd. Die twee kunnen een leuk contrast opleveren. Er zijn meer experimenten of grappen mogelijk: pp laten kiezen tussen twee verschillende voorspellende toetsscoreverdelingen of curven van verwacht nut, de ene de ATM-voorspelling, de andere een verstoring daarvan. Dat zou zelfs kunnen uitmonden in een trainingsprogramma waarin leerlingen of leraren leren om daarin steeds fijnere onderscheidingen te maken.
Ellen Boekkooi-Timminga (1989). Models for computerized test construction. De Lier: Academisch Boeken Centrum. isbn 9072015398 (ingevoegd: Boekkooi-Timminga, E. (1990). Toetsconstructie met behulp van de computer. IDEE, 11, 176-178.) Boekkooi-Timminga, E. (1990). A cluster-based method for test construction. APM 14, 341-354.
Ven, A. H. G. S. van der Ven (1969). The binomial error model applied to time-limit tests. Proefschrift K.U. Nijmegen.
Hans Verheij (1992). Measuring utility, a psychometric approach. Proefschrift UvA (Mellenbergh, co: Van den Brink). 130 blz pb--> Willingness to pay for dentistry treatments with uncertain outcomes.
Brink, W. P. van den Brink (1982). Binomiale modellen in de testleer. Proefschrift (Mellenbergh; coreferenten: Molenaar Van Naerssen) Universiteit van Amsterdam.
W. J. van der Linden (1985). tumblr. 400-411. In Testtheorie. Themanummer Nederlands Tjdschrift voor de Psychologie en haar Grensgebieden, 40, 379-451.
Wayne H. Holtzman (Ed.) (1970). Computer-assisted instruction, testing, and guidance. Harper & Row. lccc 77-84078 [UB Leiden 2038 A 12] This leads me to perhaps the most dangerous pitfall of all, which is the unconscious reinforcement of the values of efficiency and achievement that can result from technological improvement of present educational processes. ( . . . ) The power of truth—of technology, science, knowledge—is very great these days. Those who seek after it, therefore, have a duty to measue their contribution in the context of truths that often transcend the two-valued logic of the computer. p. 391 [Emmanuel G. Mesthene (1970). Computers and purposes of education, in Wayne H. Holtzman: Computer-assisted instruction, testing, and guidance. Harper & Row.]
Ronald K. Hambleton (Ed.) (1989). Applications of item response theory. Special Issue International Journal of Educational Research, 13 #2, 121-220.
Geva M. Blenkin en A. V. Kelly (Eds.) (1992). Assessment in early childhood education. London: Paul Chapman. isbn 1853961531
Kate Ashcroft and David Palacio (1996). Researching into assessment and evaluation in colleges and universities. London: Kogan Page. isbn 0749417692
Een wonderlijk boek, ik heb er zelf denk ik niets aan, maar het zou aardig kunnen zijn als handleiding voor docenten die iets met hun beoordelen willen gaan doen in onderzoekende zin?
Harold F. O’Neill, Jr. (Ed.) (1979). Procedures for Instructional Systems Development. Academic Press.
Benoît Dompnier, Céline Darnon, Emanuele Meier, Catherine Brandner, Annique Smeding, Fabrizio Butera (2015 accepted). Improving Low Achievers' Academic Performance at University by Changing the Social Value of Mastery Goals. American Education Research Journal, 52, 720-749.
abstract
Charles W. Daves (Ed.) (1984). The uses and misuses of tests. Examining current issues in educational and psychological testing. Jossey-Bass.
David Owen (1999). None of the above. The truth behind the SATs. Revised and updated. New York: Rowman & Littlefield. isbn 0847695077
W. James Popham (2005). America's 'failing' schools. How parents and teachers can cope with No Child Left Behind. Routledge. isbn 0415451283
The remarkable thing in the above informal definition is that Popham knows bloody well that the kind of testing and especially of test questions, will determine what it is that the students will prepare for. Therefore, the purpose of testing would be to make sure that students learn the right kind of thing. Calling that 'inference making' does not seem to be one hundred percent truthful.
Popham is keeping all options open here. The restriction is to in-school testing.
A most important point, and Popham is so right to mention it in the forceful way he does. He does however not try to explain that it is inherent in the character of assessment - sampling right-wrong items from the student's imperfect mastery - that there are relatively large swings possible in the test result for the individual student. This radically and fundamentally differs from the prototypical kind of measurement in the physical world: that of length and weight.
W. James Popham (2001). The truth about testing. An educator's call to action. Association for Supervision and Curriculum Development ASCD. isbn 0871205238, 167 pp. paperback belangrijke hoofdstukken online beschikbaar; ook beschikbaar in questia
Martin V. Covington (1992). Making the grade: a self-worth perspective on motivation and school reform. Cambridge University Press. isbn 052134803X
Dominique Sluijsmans, Desirée Joosten-ten Brinke & Cees van der Vleuten (2013). Toetsen met leerwaarde. Een reviewstudie naar de effectieve kenmerken van formatief toetsen. pdf
Robert Reinier Gras (1967). Studietoetsen voor moderne talen. Proefschrift RU Utrecht (Promotor A. D. de Groot). Het 'talenproject' stond onder supervisie van A. D. de Groot.
Alexander W. Astin (1993). Assessment for excellence: the philosophy and practice of assessment and evaluation in higher education. American Council on Education / Oryx series on higher education. isbn 0897748050
Nicholas Lemann (1999). The big test. The secret history of the American meritocracy. Farrar, Strauss and Giroux. isbn 0374299846
De geschiedenis van Educational Testing Service in Princeton, mede gebaseerd op de archieven van ETS zelf. Nicholas Lemann interview op de html 'secrets of the SAT.'
Henk van Berkel (1999). Zicht op toetsen. Toetsconstructie in het hoger onderwijs. Van Gorcum. isbn 9023234642
Dylan Wiliam (3 September 2015). On formative assessment.
youtube 13:25 minutes Here Dylan Wiliam emphasizes teacher work quality; flipside: students learn more, are more attentive, in this formative approach. The interview ends on the small ‘difference’ made by schools/teachers. Do not forget, though, the absolute level: take teachers out of school and results then will drop to near nothing. Flipside: there is unexpected room for better results. This is a clear exposition, in a few minutes, of some strong points of formative questioning in class. Must see.
Het pedagogisch opstel. Leidraad bij 't maken van pedagogische opstellen voor hoofdakte-candidaten en de hoogste klassen der kweekschool. Purmerend: J. Muusses.
Bevat door zijn vele onderwerpenschma’s feitelijk een overzicht van het pedagogisch-didaktisch denken begin dertiger jaren in Nederland.
Ton Luijten (1993). Het Cito tussen Schiermonnikoog en Maastricht. Ton Luijten in gesprek met A. D. de Groot en Wynand Wijnen over 25 jaar Cito en andere zaken. Cito. geen isbn, geen pdf op de website van het Cito. blz. 12, De Groot blz. 12, De Groot
TL Was de Amsterdamse Schooltoets niet de voorloper van wat later de Citotoets aan het einde van het basisonderwijs is geworden?
Allerlei weerstanden moesten overwonnen worden. Het Amsterdamse schoolparlement bijvoorbeeld was faliekant tegen: ‘hef kind in de computer’, je kent die kreten wel, ze worden nog steeds geslaakt. Onder pedagogen was weinig waardering te vinden. Selectie lag ook politiek niet lekker. Hoe dan ook: met de steun van ldenburg kwamen we toch een heel eind. We hadden goede argumenten, daar lag het niet dan. Uiteindelijk slaagden we. In ellenlange vergaderingen konden de belangrijkste bezwaren worden weggenomen. Prachtige vergaderingen konden de belangrijkste bezwaren worden weggenomen. Prachtige vergaderingen, je zou daarvan nu nog eens de verslagen moeten lezen.
In die periode was ook Ko van Calcar bij ons gekomen. Die was in Amsterdamse kringen onverdacht links van signatuur en hij betekende een goede steun voor ons. Hij maakte dan wel niet op onze manier reclame voor de nieuwe ontwikkeling, maar toch. Uiteindelijk wilde het Amsterdamse schoolparlement dan wel meewerken, zij het onder protest. blz. 14, De Groot
TL De Amsterdamse schooltoets was in feite nog steeds een regionaal gebeuren. Hoe kwam het
Cilo uiteindelijk in beeld?
Op een ander niveau was het ontstaan van SVO belangrijk. Dat was voornamelijk ldenburgs werk, en daarin heb ik hèm gesteund. Onder meer als lid van een soort lobby-groep bij O. en W., bestaande uit vijf hoogleraren. Toen SVO er eenmaal was - ldenburg werd voorzitter, ik medebestuurslid - werd al vrij snel de oprichting van het Cito aangepakt. Op dat moment kon ik dat oude verhaal uit 1958 weer tevoorschijn halen, het acroniem CITO stond er al in!
In die jaren kon er veel. Het onderwijs was in beweging, de Mammoetwet werd van kracht en er was plotseling ook politieke steun voor de oprichting van het Cito. Bij de politiek moet je het juiste moment afwachten om zoiets van de grond te krijgen.
Wat de Amsterdamse schooltoets betreft: die kon meteen worden overgenomen. En dat moest ook. Het RITP was een instituut voor onderwijsresearch en voor ons was toetsontwikkeling in de eerste plaats een hulpmiddel. Bovendien waren wij niet toegerust om het blijvend en grootschalig - landelijk - aan te pakken. Zo'n taak hoort ook niet bij een universiteit. Daar kwam nog bij het verschijnen van 'Vijven en Zessen' in 1966. Het samenvallen van gunstige factoren was voor een deel het gevolg van onze strategie. Voor een ander deel - zoals altijd - van een dosis geluk, met name wat het politieke klimaat betreft. blz. 14-15, De Groot
TL Er klinkt enthousiasme door in zijn uitspraken. Het is daarom met enige terughoudendheid dat ik hem vraag of zijn gevoelens louter positief zijn.
De aarzeling om verschillende prestatieniveaus te erkennen leeft nog steeds: in de basisvorming, maar ook in het hoger onderwijs, WO versus HBO is er een voorbeeld van. Ook de neiging het onderwijs de schuld te geven als blijkt dat grote aantallen leerlingen heel ‘eenvoudige’ dingen niet geleerd hebben, komt uit die droom voort. Het Cito, dat tenslotte de hele dag bezig is met het differentiëren tussen prestaties van leerlingen, ook in predictieve zin, had daar best wat meer tegengas kunnen geven. Bijvoorbeeld alleen al door meer concrete informatie te verstrekken - op itemniveau dus - over hoe moeilijk een aantal ‘eenvoudige’ dingen blijkt te zijn. Leraren uit het voortgezet onderwijs, van VBO tot en met Gymnasium, weten dat, maar politici nog steeds niet, vrees ik.
Wat ik ook jammer vind - en dat hangt met het voorgaande samen - is dat het Cito zelf zich zo weinig met doelstellingenonderzoek heeft beziggehouden. In de discussie over en in die rare ontwikkeling van de basisvorming heb ik de stem van het Cito niet gehoord. Vanuit jullie expertise in differentiatie en in vragen naar de haalbaarheid van doelstellingen had toch iets verstandigs, iets waarschuwends gezegd kunnen worden? Bijvoorbeeld over de aanvankelijk beloofde ‘algehele verhoging van het peil van het jeugdonderwijs’ en over de nadruk op het midden van de ‘leervermogen-verdeling’ die in de opzet besloten ligt, zonder veel aandacht voor de ‘top-10%’ en de ‘bottom-20%’.
blz. 16, De Groot
Gertrude N. Smit (1995). De beoordeling van professionele gespreksvaardigheden. Constructie en evaluatie van rollenspel, video- en schriftelijke toetsen. Baarn: Nelissen. Proefschrift RU Groningen. 195 blz. (promotoren o.a. Hofstee) (ingevoegd: Gertrude Smit (1994). De beoordeling van professionele gespreksvaardigheden. De Psycholoog, 266-269. "Trainingen in gespreksvaardigheden maken bij tal van opleidingen deel uit van het curriculum. Toetsen om na te gaan of studenten na afloop van de training in staat zijn de geleerde gespreksvaardigheden adequaat toe te passen zijn vaak niet voorhanden. In dit artikel wordt de constructie van een mogelijke toetsvorm besproken: de rollenspeltoets. Ook wordt verslag gedaan van een eerste onderzoek naar de betrouwbaarheid en begripsvaliditeit van deze toets.") Wat mij verbaast: ik zie geen discussie over de vraag of toetsen wel verstandig is. Het gaat tenslotte om een practicum-activiteit, mag ik aannemen (boekenwijsheid toetsen lijkt hier toch wel buiten de orde, of vergis ik me daarin?). De docenten voor dit vak gespreksvaadigheid moeten on the fly knnen beoordelen waar de student nog aan moet werken. Waarom zou dat niet voldoende zijn? Kortom: ik mis een uiteenzetting met de opvatting van A.D. de Groot over P- en H-onderdelen (uit mijn hoofd: dat staat in zijn Selektie vor en in het hoger onderwijs, 1972. Dat is inderdaadniet genoemd in de literatuurlijst van Smt). Het verbaast ook hierom: promotor Wim Hofstee staat niet bekend als voorvechter van onnodig toetsen. Maar nut en noodzaak zijn in dit proefschrift geen onderwerp van discussie/onderzoek.
William D. Hedges (1966). Testing and evaluation for the sciences in the secondary school. Wadsworth. lccc66-13465
W. H. F. W. Wijnen (1972). Onder of boven de maat; een methode voor het bepalen van de grens voldoende onvoldoende bij studietoetsen. Amsterdam: Swets & Zeitlinger.
Kurt Ulbricht (1979). Theorie und Praxis lernzielorientierter Prüfungen in Schule und Hochschule. Frankfurt a/M: Peter Lang. isbn 3820463313 (mastery learning, criterion referenced testing)
A. D. Groot (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: J. B. Wolters. blz. 149
Charles Tilly (2006). Why? What happens when people give reasons . . . and why. Princeton University Press. isbn 9780691125213 info
Daniel Starch (1916). Educational measurements. New York: Macmillan.
https://archive.org/details/educationalmeas01stargoog Grappig boek, bevat veel opgaven, weinig tekst. De diverse hoofdstukken gaan over het meten van abilities (!), van schrijven, spellen, rekenen, latijn, duits, natuurkunde etc. Overlap van abilities tussen klassen (p. 41)
Banesh Hoffmann (1962/78). The tyranny of testing. Crowell-Collier. Reprint 1978. Westport, Connecticut: Greenwood Press. isbn 0313200971
kind of a review? Obituary http://www.nytimes.com/1986/08/06/obituaries/banesh-hoffmann-an-author-and-collaborator-of-einstein.html
A. R. Gilliland, R. H. Jordan & Frank S. Freeman (1931 2nd). Educational measurements and the class-room teacher. The Century Co. archive.org online
Charles W. Odell (1927). Educational tests for use in high schools, second revision. University of Illinois Bulletin, 24 No. 33.
pdf
G. M. Ruch and George D. Stoddard (1927). Tests and measurements in high school instruction. New-York: World Book Company. [not available online]
Cor Sluijter (1998). Toetsen en beslissen: Toetsing bij doorstroombeslissingen in het voortgezet onderwijs. Proefschrift Universiteit van Amsterdam. pdf
N. v.d. Gaag (1990). Empirische utiliteiten voor psychometrische beslissingen. Proefschrift UvA 22 november 1990 (promotor: Don Mellenbergh).
mijn notitie d.d. 4-2002: Dan blijkt dat van proefpersonen heel vreemde dingen worden gevraagd, en dat ze keurige antwoorden geven die bij benadering lineaire nutsfucnties (inderdaad: twee, over ware beheersing) opleveren. Dit zijn experimenten die heel bruikbaar zijn om te illustreren hoe volgzaam proefpersonen zijn (niet alle proefpersonen, trouwens, er is wel een enkele opstandige proefpersoon geweest). Bijzonder problematisch, maar dat gaat al terug tot op het onderzoek van Vrijhof (1981) (zie Psychon aanvraag, 1986, van Mellenbergh), is dat studenten, als student, en docenten, als docent, tot dezelfde nutsfuncties komen. Dat suggereert dat de resultaten van deze onderzoeken artefactueel kunnen zijn
Dit moet ik uitzoeken, want risico is nu juist inbegrepen in de nutsfunctie (Keeney & Raiffa! Bv. risicomijdende, risicozoekende functies). vd Gaag gaat uit van de misvatting dat voor besliskundige cesuurbepaling de cesuur op de onderliggende trek to al bekend moet zijn. Hfdst. 3: vd Gaag gaat ook uit van de bijzondere opvatting over wat utiliteit is (einde par. 3.1): Dat is beggging the question. In par. 4.5 weer verwoord dat de ware cesuur al bekend moet zijn: Nou ja. éénmaal fout gestart, blijft het behelpen. par. 4.6: Hfdst. 5: het is mij een raadsel wat de rechtvaardiging is om studenten te vragen nutsfuncties te specificeren voor beslissingen die zij zelf niet nemen of hoeven te nemen. Ook heel wonderlijk is dat bij de vage opdrachten die de proefpersonen voorgelegd krijgen, in het merendeel van de gevallen keurige functies verschijnen die in overeenstemming zijn met de foute theorie (geven eerdere publicaties over dit type experimentjes misschien een aanwijzing of er uiteindelijk methoden gekozen zijn die opleveren wat ervan werd verwacht?). p. 66 onderaan: ik begrijp niets van het makkelijke switchen van testscores naar onderliggende trek. Leuke opmerking is hier: Hier zit misschien ook een aanwijzing voor wat de manco is in de methode: de proefpersonen waarderen de mogelijke uitkomst van de beslissing. Je hebt dat hele gedoe met nutsfuncties nu juist nodig om die beslissing te kunnen nemen. par. 5.2.4 vd Gaag voelt nattigheid: Ze zegt daarmee in het tweede vooronderzoek rekening gehouden te hebben, maar dat ontgaat mij toch. Ik denk dat de ‘methode Direct’ gewoon niet deugt: Ik vind dit wonderlijk, en enkele proefpersonen ook: par. 5.3.1 De methode Bechtel leidt dan tot de volgende vraag aan proefpersonen: Dat is een merkwaardige vraagstelling. Er is immers maar één waar kennisniveau, en dat is onbekend. Wat zou er omgaan in de grijze hersencellen van deze proefpersonen? par. 9.2, p. 122: par. 9.4, p. 125: Jammer dat dit opmerkingen na afloop van het onderzoek zijn. Ik heb onvrede met het soort beslissingen waar dit type onderzoek over gaat: dat zijn guillotine-beslissngen, keuzen tussen dood of leven: eenmaal dood, altijd dood. Dat is niet realistisch genoeg, het tentamenmodel van Van Naerssen is dan toch een heel eind verder op de goede weg. Deze uitspraak getuigt ook overigens van een hoog ivoren toren gehalte, wat juist voor besliskundige analyses niet nodig is. In deze aanvraag wordt op p. 3 kort het onderzoek van Vrijhof weergegeven, waarbij studenten nutsfuncties moeten specificeren voor een kunstmatige situatie van geslaagd of gezakt te zijn (vignet-methode), waarvan ik de zin niet kan inzien. Bijzonder probleem is voor de beslissing gezakt en ook voor de beslissing geslaagd (alsof het om twee verschillende beslissingen zou gaan!) een nutsfunctie wordt aangegeven (maar het APM-artikel 1983 laat zien wat daar de voorgeschiedenis van is). Boeiend is de samenvatting bovenaan blz. 4 van de onderzoeken van Vrijhof en van der Gaag (scripties): (1) nutsfuncties specificeren kan betrouwbaar gebeuren (maar wat is de zin daarvan, wat is de validiteit?), (2) er zijn geen systematische verschillen tussen de nutsfuncties van docenten en leerlingen (dat verbaast mij; waarom zou je verwachten dat deze actoren identieke nutsfuncties hebben?; (3) minstens 70% van de empirisch bepaalde utiliteitsfuncties kan redelijk benaderd worden met een lineaire functie (dat is unbelievable).
G. M. Ruch (1924). The improvement of the written examination. New York: Scott, Foresman and Company.
[not online]
Functions of written examinations 1-12 The criteria of a good examination 13-39 Sources of error in written examinations 40-64 Types and construction of the newer objective examinations 65-105 Experimental sudies of several types of objective examinations 106-130 Statistical considerations related to examination technique 131-148 appendices 154-190
R. F. van Naerssen (1971). Het mondelinge examen als sekwentiële beslissingsprocedure. Nederlands Tijdschrift voor de Psychologie, 26, 568-579. [hardcopy ] Omstandigheden waarin het mondeling de voorkeur verdient.
W. K. B. Hofstee (1971). Begripsvalidatie van studietoetsen: een aanbeveling. Nederlands Tijdschrift voor de Psychologie, 26, 491-500.
D. N. M. de Gruijter (1971). Het handhaven van normen bij studietoetsen door toetsvergelijking. Nederlands Tijdschrift voor de Psychologie, 26, 480-490.
Wat halen we ons toch een hoop gedoe op de hals door net te doen alsof studietoetsen psychologische tests zijn. Een goede studietoets gaat immers over de kern van de stof, een kern die de studenten uiteraard horen beheersen. Het handhaven van normen is hier helemaal niet aan de orde!
R. F. van Naerssen (1968). Het bepalen van de caesuur voldoende/onvoldoende. Memorandum AET-245. stencil in bak ex ces
R. F. van Naerssen (1968). Waarom de kernitemmethode faalt en hoe deze verbeterd kan worden. AET memorandum 253. Stencil in bak ex ces.
R. F. van Naerssen (1974). Psychometrische aspecten van de kernitemmethode. Nederlands Tijdschrift voor de Psychologie, 29, 421-430.
Tegenkracht organiseren. Lessen uit de kredietcrisis. RMO.
pdf Over de Cito-Eindtoets-Basisonderwijs, over de rekenmethode Wizwijs, zie blz. 28 e.v.
p. 30-31
Ronald K. Hambleton, Hariharan Swaminathan, James Algina& Douglas Bill Coulson (1978). Criterion-referenced testing and measurement: a review of technical issues and developments. Review of Educational research, 48, 1-47.
JSTOR read online free Authors think in terms of classification. Philosophers would call this an category mistake. The better approach: decision-theoretic without artificial classificatory cutting scores.
Hambleton & Powell (1981). Standards for standard setters. paper AERA. [I have dumped my hardcopy; is of no use for me]
Hambleton, R. K., Swaminathan, H., Algina, J. & Coulson, D.B. Criterion referenced testing and measurement: a review of technical issues and developments. RER 1978, 48, 147.
Category mistake: thinking in terms of ckassification, while there are no classes (other than being artificially so defined).
Wim J. van der Linden (1980). Psychometric contributions to the analysis of criterion-referenced measurements. Doctoral dissertation, University of Amsterdam. (promotor: Don Mellenbergh)
Repeats the important misconceptions regarding utility functions, and classification as a model. The category mistake is that testees would belong to different categories—they do not. They get sorted into different categories (treatments), something different altogether. The category mistake does not help to identify the misconception regarding utility functions: not distinguishing between utility functions proper, and expected utility functions; see, f.e., chapter 7 or Psychometrika p. 261 “For the purpose of this paper, it is sufficiently general to consider the utility U as a function of the criterion Y, which is allowed to assume a different shape for each treatment.”. On the goal variable Y there can be, of course, only ONE utility function. Trying to specify treatment-dependent utility functions is messing up the one utility function on the goal variable with fuzzy costs or utilities really belonging to other goal variables. Van der Linden and any researchers with hem have not been able to se that they artificually and cruelly are reducing problems with multiple goal variables (treated extensively by Keeney and Raiffa, 1976) to problems with only one goal variable. Unbelievable. Didn‘t I explain the problem to Van der Linden and Mellenbergh, then? Sure, I did, in discussing my own 1980 papers in the working group headed by Van der Linden.
http://www.benwilbrink.nl/literature/toetsen.htm#Luijten_1993
http://goo.gl/1K3Uc
Stone compared the Angoff and objective standard setting (OSS) models and found that Angoff failed to define a legitimate and stable construct.
[geen online bestanden beschikbaar?]
Editor¿s Preface
1. Perspectives on the Evolution and Future of Educational Measurement
Robert L. Brennan
Part I: Theory and General Principles
2. Validation
Michael T. Kane
3. Reliability,
Edward H. Haertel
4. Item Response Theory
Wendy M. Yen and Anne R. Fitzpatrick
5. Scaling and Norming
Michael J. Kolen
6. Linking and Equating
Paul W. Holland and Neil J. Dorans
7. Test Fairness
Gregory Camilli
8. Cognitive Psychology and Educational Assessment
Robert J. Mislevy
Part II: Construction, Administration, and Scoring
9. Test Development
Cynthia B. Schmeiser and Catherine J. Welch
10. Test Administration, Security, Scoring, and Reporting
Allan S. Cohen and James A. Wollack
11. Performance Assessment
Suzanne Lane and Clement A. Stone
12. Setting Performance Standards
Ronald K. Hambleton and Mary J. Pitoniak
13. Technology and Testing
Fritz Drasgow, Richard M. Luecht, and Randy E. Bennett
Part III: Applications
14. Old, Borrowed and New Thoughts in Second Language Testing
Micheline Chalhoub-Deville and Craig Deville
15. Testing for Accountability in K-12
Daniel M. Koretz and Laura S. Hamilton
16. Standardized Assessment of Individual Achievement in K-12
Steve Ferrara and Gerald E. DeMauro
17. Classroom Assessment
Lorrie A. Shepard
18. Higher Education Admissions Testing
Rebecca Zwick
19. Monitoring Educational Progress With Group-Score Assessments
John Mazzeo, Stephen Lazer, and Michael J. Zieky
20. Testing for Licensure and Certification in the Professions
Brian E. Clauser, Melissa J. Margolis, and Susan M. Case
21. Legal and Ethical Issues
S. E. Phillips and Wayne J. Camara
Index
Romain Martin: New Possibilities and Challenges for Assessment
through the Use of Technology................................................................................ 6
Julius Björnsson: Changing Icelandic national testing from traditional paper and pencil based tests to computer based assessment: Some background, challenges and problems to overcome......................................... 10
Denise Whitelock: Accelerating the Assessment Agenda: Thinking outside the Black Box............................................................................... 15
Martin Ripley: Technology in the service of 21st century learning and assessment – a UK perspective........................................................... 22
René Meijer: Stimulating Innovative Item Use in Assessment.............................................. 30 Dave Bartram: Guidelines and Standards for Psychometric Tests and Test Users.......... 37
Mark Martinot: Examinations in Dutch secondary education - Experiences with CitoTester as a platform for Computer-based testing........................ 49
Annika Milbradt: Quality Criteria in Open Source Software for Computer-Based Assessment................................................................................. 53
Nicola Asuni: Quality Features of TCExam, an Open-Source Computer-Based Assessment Software............................................ 58
Thibaud Latour & Matthieu Farcot: An Open Source and Large-Scale Computer Based Assessment Platform: A real Winner....................................................................... 64
Friedrich Scheuermann & Angela Guimarães Pereira: Which software do we need? Identifying Quality Criteria for Assessing Language Skills at a Comparative Level......... 68
Oliver Wilhelm & Ulrich Schroeders: Computerized Ability Measurement: Some substantive Dos and Don’ts............................................................................ 76
Jim Ridgway & Sean McCusker: Challenges for Research in e-Assessment.................... 85
Gerben van Lent: Important Considerations in e-Assessment: An Educational Measurement Perspective on Identifying Items for an European Research Agenda........ 97
Het is wel amusant te lezen hoe iemand van een andere planeet tegen high stakes testing aan kijkt. Maakt op mij geen geweldige indruk, maar wie ben ik? Wel nuttig eens door een heel andere bril naar toetsen te kijken.
S. Sandbergen: Appendix I. Eenvoudige itemanalyse: bewerkingsrecepten. 311-320
S. Sandbergen: Appendix II. Voorbeelden van items over verschillende vakken. 321-345
Appendix III De juiste alternatieven van items. 346-348
The figure is from Wilbrink 1980b, Figure 3. It illustrates the situation pretty well. I did not succeed in 1980 to get rid of the fuzzy ‘costs’ of the resit, however ;-)
Popham 2005, p. 49
Popham 2005, p. 50
Popham 2005, p. 54-55
Dat is juist. De oorsprong lag in het toen veel besproken aansluitingsprobleem van leerlingen van de zesde klas lagere school naar het VHMO. Door heerste veel onvrede over. Er was soms een forse discrepantie tussen de adviezen van het schoolhoofd en de behaalde prestaties bij toelatingsexamens. Ik meen dat medio zestiger jaren bij Koninklijk Besluit bepaald werd dat naast het advies van het schoolhoofd een ander, zo objectief mogelijk gegeven aanwezig moest zijn. De precieze formulering weel ik niet meer, maar P.J. Koets, die toen al een paar jaar voorzitter was van het RITP-bestuur, wees ons erop dat onder die formulering de uitslag van een schoolvorderingentest kon vallen. Koren op onze molen natuurlijk. Koets stond erachter dat wij zo'n toets zouden samenstellen in en voor de Amsterdamse scholen. Haast was geboden. Wij gingen aan de slag met enkele onderwijzers als producenten van item-onderwerpen en als adviseurs. Alleen, zonder medewerking van pedagogen konden wij zo'n toets niet presenteren. Op de valreep is daar een oplossing voor gevonden doordat wij professor ldenburg ervan konden overtuigen dat zijn Kohnstamminstituut moest meedoen aan de operatie. Zo kwam de eerste Amsterdamse schooltoets tot stand: haastwerk en nog vrij amateuristisch van opzet. Maar er was een begin en ook een betere relatie met de pedagogiek trouwens.
Er was, al jarenlang trouwens, een niet aflatende animositeit tussen psychologen en pedagogen. Pedagogen vonden dat psychologen van het onderwijs af moesten blijven. Dat was hun gebied. Die strijd heeft heel lang geduurd totdat de onderwijskunde er kwam, met twee ‘ingangen’ om het zo maar uit te drukken. Die strijd laait ook nu nog wel eens op trouwens.
Dat was achter de schermen al in beeld. Vergeet niet dat de Amsterdamse schooltoets het zo veelsie RITP project was. Wiskunde en taaltoetsprojecten - de laatste gericht op eindexamen niveau - waren eraan voorafgegaan of nog in gang. De idee van toetsen was in de eerste helft van de jaren zestig in VHMO kringen en in Den Haag al niet zo vreemd meer. Aan de Universiteit van Amsterdam werd hard gewerkt aan psychometrica en dan toetsconstructie in het bijzonder. We hadden daar een afdeling Examen-Techniek, waar onder meer het vroege werk van Van Naerssen en Mellenbergh tot stand kwam. We kregen invloed.
TL Was Grosheide toen niet staatssecretaris van Onderwijs?
Ik dacht het wel ja. Hij was de politiek verantwoordelijke bewindsman. Den Haag wilde een centraal instituut, zo los mogelijk van de Amsterdamse Universiteit. Arnhem leek een geschikte neutrale plaats ervoor. En zo ontstond in 1968 - ik zat zelf een jaar in Amerika en, zoals bekend, deed Sjeng Kremers het oprichtingswerk - de Stichting Centraal Instituut voor Toelsontwikkeling, gevestigd te Arnhem.
TL Als je nu terugkijkt naar de ideeën van toen. Hoe zijn je gevoelens daar dan nu over?
Het Cito leek en lijkt mij nog steeds een zeer geslaagde onderneming. Het pakte onder Solberg de zaken aan zoals ik die toen ook beoogde. De eindexamens kwamen in beeld. Eerst experimenteel, later officieel. In een later stadium ontstond het periodiek peilingsonderzoek. Dat vond ik met name een schitterend initiatief: beleidsinformatie en publieksinformatie over leerlingenprestaties. Zoiets betekende toch een grote winst voor het onderwijs, vergeleken met de jaren daarvoor.
Niet over de hele linie. Punten van kritiek heb ik ook wel. De belangrijkste vraag in dit verband is of het Cito de afgelopen vijfentwintig jaar wel voldoende geijverd heeft voor de verbreiding van de verworven meer algemene inzichten die het werk heeft opgeleverd. Ik denk hierbij aan inzicht in de grote verschillen in prestatievermogen van leerlingen die telkens weer uit scoreverdelingen naar voren komen. En dan de onmiskenbare hoofdoorzaak daarvan: grote verschillen in leervermogen, in aanleg. De tijd van het geloof in ‘iedereen kan alles leren’ - door veel wereldvreemde intellectuelen en bureaucraten, inclusief beleidsmakers, heftig beleden - is weliswaar voorbij, maar de egalitaire wensdroom is nog lang niet uitgewerkt. En juist die droom staat een goed onderwijsbeleid in de weg.
TL De terughoudende stellingname van het Cito is onder andere het gevolg van de positie die het instituut inneemt: het mede uitvoering geven aan het onderwijsbeleid. Zo wordt in Zoetermeer ook tegen het Cito aangekeken.
Ja, dat is natuurlijk waar wat je zegt. ‘Het Cito moet gewoon doen wat wij willen’, dat is de overheidsgedachte geworden, begrijp ik. Niet het onderwijsbeleid kritisch volgen en als dat nodig is van minder welkome data voorzien, maar het beleid uitdragen en uitvoeren en verder geen onzin. Niettemin: als er dan weinig speelruimte geboden wordt dan zou het Cito die zelf moeten creëren. En aan de andere kant vind ik dat de overheid zijn eigen instrumentarium beter moet benutten.