Literatuur over toetsen (itt tests)


Ben Wilbrink


zie dus ook testpsychologie.htm




Gifford, Bernard R. Gifford (Ed.) (1989). Test policy and the politics of opportunity allocation: the workplace and the law. National Commission on Testing and Public Policy. Kluwer Academic Publishers. isbn 0792390156 info and previews




Gifford, Bernard R. Gifford (Ed.) (1989). Test policy and test performance: education, language and culture. National Commission on Testing and Public Policy. Kluwer Academic Publishers. isbn 0792390148 info and previews




Lindquist, E. F. Lindquist (Ed.) (1951). Educational measurement. American Council on Education. Walter W. Cook: The functions of measuement in the facilitaion of learning 3-46; Ralph W. Tyler: The functions of measurement in improving instruction 47-67; John G. Darley & Gordon V. Anderson: The fucntions of measurement in counseling 68-84; Henry Chancey & Norman Frederiksen: The functions of measurement in educational placement 85-117; E. F. Lindquist: Preliminay considrations in objective test construction 119-158; K. W. Vaugh: Planning the objective test 159-184; Robert L. Ebel: Writing the test item 185-149; Herbert S. Conrad: The experimental tryout of test materials 250-265; Frederick B. Davis: Item selection techniques 266-328; Arthur E. Traxler: Administering and scoring the objective test 329-416; Geraldine Spaulding: Reproducing the test 417-454; David G. Ryans & Norman Frederiksen: Performance tests of educational achievement 455-494; John M. Stalnaker: The essay type of examination 495-530; Irving Lorge: The fundamental nature of measurement 533-559; Robert L. Thorndike: Reliability 360-620; Edward E. Cureton: Validity 621-694; John C. Flanagan: Units, scoes and norms 695-763; Charles I. Mosier: Batteries and profiles 764-809



Christopher Stray (2009). From oral to written examinations. In R. Lowe (Ed.) The history of higher education: Major themes in education, volume 4 (159-207). Routledge. concept version


I am listed in the acknowledgement, thanks Chris. Refers to Assessment in historical perspective, 1997.



Gwyneth Hughes (2014). Ipsative assessment. Motivation through marking progress. Palgrave Macmillan. [nog? niet als eBook in KB] info


Ik heb juli 2014 enkele aantekeningen bij dit boek gegeven op Twitter, https://mobile.twitter.com/benwilbrink/status/493050613291552768?p=v vooral in de vorm van online beschikbare publicaties waar Hughes naar verwijst, of waar ze juist niet verwijst ;-).



Gordon Stobart (2008). Testing testing: uses and abuses of assessment. Routledge. [als eBook in KB] info (30 pp preview)




Dominique Sluijsmans, Sabine van Eldik, Desirée Joosten-ten Brinke & Linda Jakobs (2014). Bewust en bekwaam toetsen Wat zouden lerarenopleiders moeten weten over toetsing? pdf




Jo-Anne Baird, Therese N. Hopfenbeck, Paul Newton, Gordon Stobart & Anna T. Steen-Utheim (2014). Assessment and learning. State of the field review. Norwegian Knowledge Center for Education. pdf


An interesting vhapter 7 on PISA tests. Everything about them gets criticized, except its constructivist bias, even though the constructivisme/situationism of the PISA tests has been described adequately.



George F. Madaus (1988). The influence of testing on the curriculum. In Laurel N. Tanner (Ed.) (1988). Critical issues in Curriculum (83-121). NSSE. [onmiddellijk daarop volgend: Daniel Tanner (1988). The textbook controversies. pp 122-147. [feedforward, backwash, washback] paywalled




James E. Carlson & Matthias von Davier (2013). Item response theory. ETS SPC-13-05 pdf




Saskia Wools (2007). Evaluatie van een instrument voor kwaliteitsbeoordeling van competentieassessments. pdf







Michèle Lamont (2009). How professors think. Inside the curious world of academic judgment. Harvard University Press. isbn 9780674057333 info


Notes and documentation like a scholarly work. The topic: peer review. Lamont is a sociologist. A social study of evaluation? Looks quite interesting.



Matthew Jensen Hays, Nate Kornell & Robert A. Bjork (2013). When and why a failed test potentiates the effectiveness of subsequent study. Journal of Experimental Psychology: Memory, and Cognition, 39, 290-296. abstract




Stefan Johansson , Eva Myrberg & Monica Rosn (2012) Teachers and tests: assessing pupils' reading achievement in primary schools, Educational Research and Evaluation: An International Journal on Theory and Practice, 18:8, 693-711. abstract




Marjorie C. Kirkland (1971). The effects of tests on students and schools. Review of Educational Research, 41, 303-350.


backwash, feedforward



Yigal Attali & Don Powers (2010). Immediate Feedback and Opportunity to Revise Answers to Open-Ended Questions. Educational and Psychological Measurement, 70, 22-35 abstract


Dit is nu eens een intrigerend idee: geef kandidaten meteen na het antwoorden op een toetsvraag informatie over de jusitheid, en geef ze ook de gelegenheid om het antwoord te verbeteren! Dat ik daar zelf nog nooit aan heb gedacht. Ik heb het ongetwijfeld al wel eens zien langskomen in de vorm van ‘the answer-until-correct method for MC items (Pressey, 1926)’.



Gregory Ethan Stone, Kristin L. K. Koskey and Toni A. Sondergeld (2011). Comparing Construct Definition in the Angoff and Objective Standard Setting Models : Playing in a House of Cards Without a Full Deck. Educational and Psychological Measurement, 71 942abstract


Dit is een onderzoeklijn van Gregory Stone. Het bevalt me helemaal niet dat hij spreekt van objectief afgeleide standaarden. Ik moet daar zeker eens een keer goed naar kijken. De enige juiste methode is die welke ik in 1980 in het TOR heb beschreven. Zo moeilijk is dat trouwens niet, voor een selectiepsycholoog met enige affiniteit met besliskunde.



George Engelhardt, Jr. (2011). Evaluating the Bookmark Judgments of Standard-Setting Panelists. Educational and Psychological Measurement, 71, 909-924abstract




David Spendlove (2009). Putting Assessment for Learning into Practice. Continuum. site


Misschien een heel aardig boekje, maar de aanbevelingen zijn autoritair, dat is: zonder enige bronvermelding. Er is wel een lijstje met verder te lezen publicaties. Dat is misschien een keuze die past bij een boekje met tips, van bescheiden omvang, maar ik prefereer toch tips met een specifieke bronvermelding zodat de lezer zelf kan nagaan wat de strekking/onderbouwing van de tip is.



Natalia Karelaia & Robin M. Hogarth (2008). Determinants of Linear Judgment: A Meta-Analysis of Lens Model Studies. Psychological Bulleting, 134, 404-426. pdf



Grant P. Wiggins (1993). Assessing student performance. Exploring the purpose and limits of testing. Jossey-Bass. isbn 1555425925

Wiggins analyzes some time-honored but morally and intellectually problematic practices in test design, such as the use of secrecy, distracters,scoring on a curve, and formats that allow no explanation by students of their answers. He explains how many test-design standards serve technical experts and their needs rather than students and their interests.



Ron J. Pat El (2012). Lost in Tranlation. Congruency of teacher and student perceptions of assessment as a predictor of intrinsic motivation in ethnodiverse classrooms. Proefschrift Universiteit Leiden. availability of chapters; samenvatting


De promovendus schrijft over ‘eikpunten’, wat niet wijst op een overdreven mate van zorgvuldigheid. De ideologie is die van het sociaal-constructivisme, wat mij toch wat minder passend lijkt bij een academisch werkstuk. Maar ja, de hoofdstukken zijn deels al gepubliceerd in gerefeerde wetenschappelijke tijdschriften.

De docent heeft in een sociaal-constructivistische leeromgev- ing meer de rol van ondersteuner van het leerproces, dan van kennisoverdrager. Regelmatige (informele) evaluaties kunnen als eikpunten dienen voor zowel leer- lingen, die informatie krijgen over te verbeteren punten, als voor leerkrachten, die inzicht krijgen waar aan gewerkt moet worden in volgende lessen.

Wie tekenen er voor dit proefschrift: promotoren Paul Vedder en Mien Segers, co-promotor: Harm Tillema. Commissieleden: Roel Bosker, P. van den Broek, P. den Brok, C. Espin.

Grote afwezige in dit onderzoek: de vakinhouden van het onderwijs. Dit is een overbodig onderzoek., en dan druk ik mij vriendelijk uit (onvriendelijk zou zijn: dit is een schadelijk onderzoek, het bevestigt wanbeleid in het onderwijsveld).



Dirk Ifenthaler, Deniz Eseryel & Xun Ge (Eds.) (2012). Assessment in Game-Based Learning. Foundations, Innovations, and Perspectives. Springer.



Lorrie A. Shepard (2000). The role of classroom assessment in teaching and learning. CSE Technical Report 517 Published in V. Richardson (Ed.) (2001), Handbook of research on teaching (4th ed). Washington, DC: American Educational Research Association. pdf




Robert L. Brennan (Ed.) (2006). Educational Measurement. National Council on Measurement in Education; American Council on Education.



Satomi Mizutani (2009). The Mechanism of Washback on Teaching and Learning. A thesis submitted in partial fulfilment of the requirements for the degree of Doctor of Philosophy in Educational Psychology, The University of Auckland, 2009. (supervisors: Professor John Hattie, Dr. Christine Rubie-Davies, and Dr. Jenefer Philp) pdf



Greaney, V., & Kellaghan, T. (1996). Monitoring the learning outcomes of educational systems. Washing D. C.: The World Bank. [geen directe aandacht voor washback]



Kathleen M. Bailey (1999). Washback in language testing. Educational Testing Service MS-15 june 1999 pdf



Eleana Shohamy, Smadar Donitsa-Schmidt & Irit Ferman (1996). Test impact revisited: washback effect over time. Language Testing, 13, 298-317. abstract



Mary Spratt (2005). Washback and the classroom: the implications for teaching and learning of studies of washback from exams. Language Teaching Research, 9, 5-29. abstract Er is een bestand op internet beschikbaar: pdf



Shahrzad Saif (2006). Aiming for positive washback: a case study of international teaching assistants. Language Testing, 23, 1-34 abstract



(Ana P. Muñoz and Marta E. Álvarez 2010). Washback of an oral assessment system in the EFL classroom. Language Testing, 27, 33-49. abstract



M. L. Smith (1991). Put to the test: The effects of external testing on teachers. Educational Researcher, 20(5), 8-11. eerste pagina



M. L. Smith and C. Rottenberg (1991). Unintended consequences of external testing in elementary schools. Educational Measurement: Issues and Practice, 10(4), 7-11. [Zie ook Gregory J. Cizek (2011). More unintended consequences of high-stakes testing. Educational Measurement: Issues and Practice, 20, 19-27 final draft]



David R. Krathwohl (2002). A revision of Bloom’s taxonomy: An overview. Theory into Practice, 41, 212-264. pdf



Ineke Huibregtse en Wilfried Admiraale (2000). D score op een ja/nee-woordenschattoets: correctie voor raden en persoonlijke antwoordstijl. TOR, 24, 110- . online



F. M. Edens, F. Rink & M. J. Smilde (2000). De studentenrechtbank: een evaluatieonderzoek naar beoordelingslijsten voor prestatievaardigheden. Tijdschrift voor Onderwijsresearch, 24, 265-274. online



Mary E. Lunz, Betty A. Bergstrom & Richard C. Gershon (1994). Computer adaptive testing. International Journal of Educational Research, 21, 623-634. [Relevant voor de rekentoets, WisCat, etc.]



Martin Brunner, Cordula Artelt, Stefan Krauss, Jürgen Baumert (2007). Coaching for the PISA test. Learning and Instruction. 18, 321-336.



P. Vedder (1992). Het Cito-leerlingvolgsysteem. Pedagogische Studiën, 69, 284-290. Met repliek: P. Gillijns & P. Verhoeven (1992). Het Cito-leerlingvolgsysteem: met het oog op de praktijk. Pedagogische Studiën, 69, 291-296.



Hartmut von Hentig (1980). Die Krise des Abiturs und eine Alternative. Klett-Cotta. Stuttgart, Ernst Klett.



Harold L. Kleinert, Diane M. Browder & Elizabeth A. Towles-Reeves (2009). Models of Cognition for Students With Significant Cognitive Disabilities: Implications for Assessment. Review of Educational Research, 79, 301-326.



Maarten van Gils (1977). De onbetrouwbaarheid van selektieve tekstbegriptoetsen. Pedagogiche Studiën, 54, 52-61.



Willem K. B. Hofstee (2009). Promoting intersubjectivity: a recursive-betting model of evaluative judgments. Netherlands Journal of Psychology, 65. abstract


Aantekeningen: toetsmodellen.htm#Hofstee_intersubjectivity



Maarten Pinxten, Bieke De Fraine*, Jan Van Damme and Ellen D’Haenens Causal ordering of academic self-concept and achievement: Effects of type of achievement measure British Journal of Educational Psychology (2010), 80, 689- -709 download UBUw



Ana Maria Pazos Rego (2009?). The aphabetic principle, phonics, and spelling. In Jeanne Shay Schumm: Reading assessment and instruction for all learners. The Guilford Press.



Elana Shohamy (2008). Assessment in multicultural societies: Applying democratic principles and practices to language testing. In Charles A. MacArthur, Steve Graham & Jill Fitzgerald: Handbook of writing research. The Guilford Press. 72-92.



Evert Gijsbert Harskamp & Conradus Johannes Maria Suhre (1997?). Toetsen basisvorming: Een onderzoek onder scholen, ouders en leerlingen.. GION. isbn 9789066904446 SVO-project 96080 (ik heb dat aanbesteed)



Paul Black & Dylan Wiliam (2009). Developing the theory of formative assessment. Educational assessment, evaluation and accountability, 21 concept



Paul E. Newton (2012). Clarifying the Consensus Definition of Validity. Measurement: Interdisciplinary Research and Perspectives, 10, 1-29. abstract



Robert J. Mislevy, Linda S. Steinberg and Russell G. Almond (2003). On the structure of educational assessments. CSE Technical Report 597 pdf.



James W. Pellegrino, Naomi Chudowsky, and Robert Glaser (Eds.) (2001). Knowing what students know. The Science and Design of Educational Assessment. The Science and Design of Educational Assessment. Board on Testing and Assessment, Center for Education, Division of Behavioral and Social Sciences and Education, National Research Council. pdf van heel het boek hier ophalen Shepard, L. (1991). Psychometricians’ beliefs about learning. Educational Researcher, 20, 2-16. (Integraal online als html of direct te downloaden pdf)

p. 9: Conclusion: Implications for Measurement Practice Three main points are made in the respective sections of this artide: 1. On the basis of qualitative analysis of interview data from a representative sample of 50 district testing directors, it is asserted that approximately half of all measurement specialists operate from implicit learning theories that encourage close alignment of tests with curriculum and judicious teaching of tested content. 2. These beliefs, associated with criterion-referenced testing, derive from behaviorist learning theory, which requires sequential mastery of constituent skills and behaviorally explicit testing of each learning step. 3. The sequential, facts-before-thinking model of learning is contradicted by a substantial body of evidence from cognitive psychology. My argument is that hidden assumptions about learning should be examined precisely because they are covert. What we believe about learning and the intended effect of testing on learning should be considered directly, not "smuggled in" by the adoption of a popular test theory. (..) This article is an exercise in making implicit beliefs explicit so that they become available for debate and evaluation.



Harry Torrance (2012): Formative assessment at the crossroads: conformative, deformative and transformative assessment, Oxford Review of Education, 38:3, 323-342 To link to this article: http://dx.doi.org/10.1080/03054985.2012.689693



Tom Dousma & Ad Horsten (1989). Tentamineren. Wolters-Noordhoff. isbn 9001243908



John Gardner (Ed.) (2012 2nd). Assessment and Learning. Sage. http://www.uk.sagepub.com/books/Book235374 Ik heb geen tijd om dit te lezen. Het is allemaal niet strak. Is het gericht op docententrainers?



Greet Fastré (2011). Improving sustainable assessment skills in vocational education. proefschrift open universiteit. pdf



Neal Kingston & Brooke Nash (2011). Formative assessment: a meta-analysis and a call for research. Educational Measurement: Issues and Practice, 30 #4, 28-37. abstract


De effecten zijn veel kleiner dan in de literatuur vaak beweerd. Ik moet dit nog vergelijken met Hattie, zou een leuk onderwerp zijn.



AERA, APA & NCME (1999). The Standards for Educational and Psychological Testing. zie hier - niet geautoriseerde samenvatting



Mary E. Lunz, Betty A. Bergstrom & Benjamin D. Wright (1992). The Effect of Review on Student Ability and Test Efficiency for Computerized Adaptive Test. Applied Psychological Measurement,16, 33-40.abstract



Ronald K. Hambleton (1980). Contributions to Criterion-Referenced Testing Technology: An Introduction. Applied Psychological Measurement 4, 421-424. abstract



Rand R. Wilcox (1980). Determining the Length of a Criterion-Referenced Test. Applied Psychological Measurement 4, 425-446. abstract



Lorrie Shepard (1980). Standard Setting Issues and Methods. Applied Psychological Measurement 4, 447-467. abstract



Wim J. van der Linden (1979). Criteriumgeoriënteerd toetsen. In Egbert Warries (Red.) Beheersingsleren een leerstrategie. Wolters-Noordhoff. 156-187.



Wim J. van der Linden (1980). Decision Models for Use with Criterion-Referenced Tests. Applied Psychological Measurement 4, 469-492. abstract



George B. Macready & C. Mitchell Dayton (1980). The Nature and Use of State Mastery Models. Applied Psychological Measurement 4, 493-516. abstract



Ross E. Traub & Glenn L. Rowley (1980). Reliability of Test Scores and Decisions. Applied Psychological Measurement 4, 517-545. abstract



Robert L. Linn (1980). Issues of Validity for Criterion-Referenced Measure. Applied Psychological Measurement 4, 547-561. abstract



Ronald A. Berk (1980). A Framework for Methodological Advances in Criterion-Referenced Testing. Applied Psychological Measurement 4, 563-573. abstract



Samuel Livingston (1980). Comments on Criterion-Referenced Testing. Applied Psychological Measurement 4, 575-581. abstract



Alan D. Mead & Fritz Drasgow (1993). Equivalence of Computerized and Paper-and-Pencil Cognitive Ability Tests: A Meta-Analysis. Psychological Bulletin, 114, 449-458.



Angus S. McDonald (2002). The impact of individual differences on the equivalence of computer-based and paper-and-pencil educational assessments. Computers & Education, 39, 299-312. abstract



Shudong Wang, Hong Jiao, Michael J. Young, Thomas Brooks & John Olson (2008). Comparability of Computer-Based and Paper-and-Pencil Testing in K-12 Reading Assessments. A Meta-Analysis of Testing Mode Effects. Educational and Psychological Measurement, 68, 5-24. abstract



Friedrich Scheuermann & Angela Guimarães (Eds.) (2008). Towards a Research Agenda on Computer Based Assessment. Challenges and needs for European Educational Measurement. European Commission; Joint Research Centre; Institute for the Protection and Security of the Citizen. download



Spencer S. Swinton & Donald E. Powers (1983). A study of the effects of special preparation on GRE analytical scores and item types. Journal of Educational Psychology, 75, 104-115 abstract en pdf ophalen


feedforward coaching toetstraining



J. M. Wijnstra: Verantwoording Eindtoets Basisonderwijs 1981 (met een historisch overzicht over de periode 1966-1980). Cito, januari 1984. Specialistisch Bulletin nr. 25. [ zie ook hier


Veel informatie, maar niets van enig belang over de toetsvragen zelf. Hoe kom ik erachter welke vragen er typisch in de Citoetsen van de zeventiger jaren zaten?



Andrew C. Porter, Robert L. Linn, & C. Scott Trimble (2005). The Effects of State Decisions About NCLB Adequate Yearly Progress Targets. Educational Measurement: Issues and Practice, 24 winter, 32-39. pdf en




James H. McMillan (Ed.) (2013). SAGE Handbook of Research on Classroom Assessment. SAGE. [UB Leiden PEDAG. 51.e.85] [3 juni 2013 nog niet als eBook beschikbaar, dus ook niet in KB] site - detailed contents. (maar voor auteurs zie de de contents op de site)


Het ziet er allemaal heel indrukwekkend uit. Wel 544 bladzijden dichte informatie, literatuurverwijzingen ook. Het is bedoeld om verder onderzoek uit te lokken, dus niet als voorlichting aan leraren. Ik krijg wel een beetje de indruk, al bladerend, dat van leraren veel te veel wordt verwacht. De vele schetsen van tekortkomingen in beoordelen en toetsen in school zijn wel terecht, maar daar volgt mijns inziens niet uti dat deze kwalen te verhelpen zouden zijn door betere opleiding, begeleiding, en instrumenten, hoewel dat alles natuurlijk wel enig nut zal hebben. Dit beoordelen in de klas is een rampgebied waar betere technieken helemaal niets aan gaan veranderen, andere onderwisjculturen waarschijnlijk wel. Een stap in de goede richting is ongetwijfeld het benadrukken van formatieve beoordeling ten koste van summatieve testerij. Maar er is veel meer nodig. Ik ben juist bang dat de horden onderzoekers die zich op het beoordelen in het onderwijs storten, leiden tot bevestiging van bestaande beroerde praktijken, in plaats van radicale veranderingen daarin. De macht van de getallen zal hier de doorslag geven, niet de kwaliteit van het onderzoek van enkelingen.



Mary Henning-Stout (1994). Responsive Assessment. A New Way of Thinking About Learning. Jossey-Bass. isbn 155542645X


Dit boek lijkt constructivisme te ademen. Ik citeer de eerste alinea uit het hoofdstuk dat veelbetekenend Mathematical reasoning heet.



Chester W. Harris, Marvin C. Alkin, & W. James Popham (Eds.) (1974). Problems in criterionreferenced measurement. (CSE Monograph no 3). Los Angeles: Center for the study of evaluation, University of California.




Henny Uiterwijk (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Cito. Proefschrift KUB. pdf




P. Holmes (2002). Multiple evaluation versus multiple choice. Feasibility, reliability and validity in practice. Enschede: Universiteit Twente, 2002, proefschrift, 140 pagina’s ISBN 90 3651757 5. pdf


Trefwoorden: raadkansen, raden, zekerheidsscoring, Shuford, Dirkzwager



A. H. van der Hoeve, Ph. Kohnstamm & G. van Veen (1935). Sil-lees-stof als denk-materiaal en denk-maatstaf. Een onderzoek aangaande de vorming en toetsing van 'theoretische intelligentie'. J. B. Wolters' Uitgeversmaatschappij. Mededelingen van het Nutsseminarium voor Paedagogiek aan de Universiteit van Amsterdam. [aanwezig: KB; UB Leiden in de reeks Mededelingen van het Nutsseminarium] 208-245 - 246-261 - 262-288




Mary Ann Dzuback (1991). Robert M. Hutchins. Portrait of an educator. University of Chicago Press. [boek is ondertussen naar Amnesty gegaan]


The tweede geciteerde passage hierbeneden vind ik toch wel heel treffend: intensief contactonderwijs, en dan toch afsluitende toetsen houden, terwijl de staf in de gaten heeft dat al dat toetsen kostbare instructietijd afsnoept. Kennelijk de geest van de tijd: toetsgekte. Ralph Tyler kwam op deze manier mooi binnen in de universiteit, waar hij lang zou blijven.



Hans F. Crombag & Dato N. de Gruyter (1974). Contemporary issues in educational testing Mouton. 9027975213





The Effect of Testing Versus Restudy on Retention: A Meta-Analytic Review of the Testing Effect. Rowland, Christopher A. Psychological Bulletin, Aug 25 , 2014, No Pagination Specified. abstract




Robert F. van Naerssen (1974). Psychometrische aspecten van de kernitemmethode. NTvdPs 29, 421-430



OAT Announces QTI® Compliance for Its TAO Open Source Assessment Platform.




Kyle Silera, Kirby Leeb & Lisa Beroc (2014). Measuring the effectiveness of scientific gatekeeping. PNAS (ahead of print)abstract




Darren Grant & William B. Green (2009). The simple economics of thresholds: grades as incentives. Sam Houston State University, Department of Economics and International Business, Working Paper Series No. 09-01. Via Researchgate William Green




Fabienne M. Van der Kleij, Jorine A. Vermeulen, Kim Schildkamp & Theo J.H.M. Eggen (2015): Integrating data-based decision making, Assessment for Learning and diagnostic testing in formative assessment. Assessment in Education: Principles, Policy & Practice (published online) abstract




Daniel Koretz (2008). Measuring up. What educational testing really tells us. Harvard University Press reviewed . And another review by Mark Fetler.


Hoofdstuk 1 gelezen. Helemaal oké. Dekt ongeveer de inhoud, lijkt me. Hier ben ik dusgehinderd door een gebrek aan kennis van achtergronden van Koretz. Zie o.a. een review door Philip Staradamskis: here [via Richard Phelps]"authentic assessment



James A. Bovaird, Kurt F. Geisinger & Chad W. Buckendahl (Eds.) (2011). High-stakes testing in education. Science and practice in K-12 settings. American Psychological Association. info




Richard P. Phelps (2009). Correcting fallacies about educational and psychological testing.




Richard P. Phelps (2007). The source of Lake Wobegon. Nonpartisan Education Review, 1 #2. pdf




Richard P. Phelps (2003). Kill the messenger. The war on standardized testing. isbn 0765801787 < info


Reviewed by Howard Wainer in JEM 2006, zie wainer.2006



Richard P. Phelps (Ed.) (). Defending standardized testing. Educational Testing Service. [eBook in KB]




Kim J. H. Dirkx (2014). Putting the testing-effect to the test. Thesis Open University Heerlen. PEDAG 70.A.56 pdf of summary and references download


I don’t know; is this useful? The references list contains interesting items, however.



Dominique Sluijsmans, Desirée Joosten-ten Brinke, Tamara van Schilt-Mol (Red.) (2015). Kwaliteit van toetsing onder de loep. Handvatten om de kwaliteit van toetsing in het hoger onderwijs te analyseren, verbeteren en borgen. Apeldoorn: Garant. isbn 9789044132403


De auteurs benaderen het onderwerp veel te abstract, op een systemisch niveau, en onkritisch wat betreft volgen van de Amerikaanse literatuur op dit gebied en volgen van psychometrische halve waarheden. Ik had graag een boek gezien gevuld met glasheldere casuïstiek van wat er zoal in de praktijk vaak helemaal fout gaat en toch eenvoudig is te voorkomen of onder controle te krijgen. In discussie dan maar, met de auteurs.



Patricia Broadfoot (1996). Education, assessment and society. Buckingham: Open University Press. [als eBook in KB]


Vergelijkende studie Engeland-Frankrijk. Toetsen in de nationale context Assessment and the emergence of modern society. Lijkt me een prachtig boek.



Andrew Davis (1998) The Limits of Educational Assessment. Oxford: Blackwell. isbn 0631210202. Special Issue: The limits of educational assessment. Journal of Philosophy of Education, 32(1), 1-155. full contents




Adriaan D. de Groot & Robert F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Mouton.




Gaea Leinhardt (1980). Modeling and measuring educational treatment in evaluation. Review of Educational Research, 50, 393-420. abstract




Robert Ladd Thorndike (1971). Educational Measurement. Washington: American Council on Education. isbn 0826812716




W. K. B. Hofstee (1970). De betrouwbaarheid van slaag-zak-beslissingen. Nederlands Tijdschrift voor de Psychologie, 25, 380-383.


Mooi ondoordacht gebruik van terminologie ‘missers’. Wim Hofstee mist hier de kans om de beperkingen van het model van terecht/onterecht beslissen te signaleren. Hij stipt wel aan dat studietoetsen steekproeven zijn, maar trekt daar niet de consequenties uit zoals Edgeworth dat eind 19e eeuw al wel deed: rond de aftestgrens zijn belsissingen niet inhoudelijk te rechtvaardigen, maar in dit type situaties is het wel het geval dat betere voorbereiding de kans op slagen verhoogt.



Huynh Huynh (1976). Statistical consideration of mastery scores. Psychometrika, 41, 65-78. DOI: 10.1007/BF02291698 Ik heb hier uitvoerig aantekeningen bij gemaakt (16 juni 1979). Dit stuk moet ik nog doorwerken. Nou ja, in ieder geval toch maar bewaard, ik kan er nog eens op moeten terugvallen omdat ik e.e.a. in mijn TOR-artikelen heb verwerkt? . abstract




Niels H. Veldhuijzen (1979). Cesuurbepaling in het beta-binomiale model. Cito no. 4 bulletinreeks



Kent nut toe aan vier beslissingsuitkomsten bij zakken/slagen. Goochelt met formules, maar is begripsmatig duister. Onnodig ingewikkeld.



Huynh Huynh (1979). Statistical inference for two reliability indices in mastery testing based on the beta-binomial model. JESt, 4, 231-246. preview




Huynh Huynh (1976). On the reliability of decisions in domain-referenced testing. Journal of Educational Measurement, 13, 253-264 . abstract [the bivariate beta-binomial model




Huynh Huynh (1976). Statistical considerations of mastery scores. Pm 41, 65-78. [beta-binomial] abstract




Huynh Huynh (1980). Statistical inference for false positive and false negative error rates in mastery testing. Psychometrika, 45: 107-120. abstract




Huynh Huynh & Joseph C. Saunders (1980). Accuracy of two procedures for estimating reliability of mastery tests. Journal of Educational Measurement, 17, 351-358. abstract


I do not think it correct that the betabinomial presumes equal item difficulties. Is that also true in appliations to groups of studens?



Huynh Huynh (1982). A Bayesian procedure for mastery decisions based on multivariate normal test data. Psychometrika, 47: 309. abstract




Huynh, H. (1980). A nonrandomized minimax solution for passing scores in the binomial error model. Pm, 45, 167. cesuur binomial abstract




Huynh, H. (1982). A Bayesian procedure for mastery decisions based on multivariate normal test data. Psychometrika, 47: 309. abstract




Huynh Huynh (1990). Computation and statistical inference for decision consistency indices based on the Rasch model. JEdSt, 15, 353-368. simulatie



Huynh Huynh (1978). Reliability of multiple classifications. Pm 1978, 43, 317325.



Huynh Huynh (1979). Statistical inference for two reliability indices in mastery testing based on the beta-binomial model. JESt, 4, 231-246. abstract




Huynh Huynh (1980). Statistical inference for false positive and false negative error rates in mastery testing. Pm, 45, 107-120 abstract




Huynh Huynh (1990). Error rates in competency testing when test retaking is permitted. Journal of Educational Statistics, 15, 39-52. fc ces tentamenmodel srm uit abstract; under relatively general conditions and when test retaking is permitted, the probability of making a false negative error is zero. Under the same situation, and given that an examinee is a true nonmaster, the conditional probability of making a false positive error for this examinee is one. Dat lijkt me allemaal nonsens, maar des te beter om het bijv. bij drempelnut te behandelen!



Huynh Huynh & Perney (1979). Determination of mastery scores when instructional units are linearly related. EPM, 39: 317. crm



Koretz, D., Stecher, B., Klein, S., & McCaffrey, D. (1994). The Vermont portfolio assessment program: findings and implications. Educational Measurement, fall, 5-16. (performance assessment) fc nog even gehouden map t/srm abstract




J. B. Kuhlemeier, E. J. J. Kremers & F. G. M. Kleintjes. Gebruik en moeilijkheidsgraad van de eerste generatie afsluitingstoetsen basisvorming in het schooljaar 1994/95 / J.B. Kuhlemeier, E.J.J. Kremers en F.G.M. Kleintjes. - Arnhem : Cito, 1996. - 54 p. : Niet beschikbaar op website Cito



Wouter Schoonman (1989). An applied study on computerized adaptive testing. Amsterdam: Swets & Zeitlinger. isbn 9026510470 abstract




10 Real SAT's. New York: College Entrance Examination Board, 2003, 685 blz. quarto pb, monsterachtig, bizar ook.




L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. isbn 9036510899. http://goo.gl/vbbewr [scan voor persoonlijk gebruik]




Cremers-van Wees, L. M. C. M., Knuver, J. W. M., Vos, H. J., & Van der Linden, W. J. M. (1998). Toetsen, beoordelen en beslissen in het voortgezet onderwijs. Ontwikkeling van een gedragscode voor leraren. Enschede: OCTO.isbn 9036510902.




Hans Kuhlemeier & Huub van den Bergh (1989). De Proefpeiling Nederlands: een onderzoek naar de haalbaarheid van peilingsonderzoek in het Voortgezet Onderwijs.Cito Bulletinreeks nr 74. -- 363 + 102 blz. quarto (zie o.a.: http://taalunieversum.org/onderwijs/onderzoek/publicatie/195/de_proefpeiling_nederlands )




Starren, J. Starren, S. J. Bakker, en A. Van der Wissel (Red.) (1988 1e; 1995 2e). Inleiding in de onderwijspsychologie. Bussum: Coutinho. isbn 9062837158




Rob Schoonen (1991). De evaluatie van schrijfvaardigheidsmetingen. Een empirische studie naar betrouwbaarheid, validiteit en bruikbaarheid van schrijfvaardigheidsmetingen in de achtste groep van het basisonderwijs. proefschrift UvA. [promotor: Don Mellenbergh]




Jelle van Lenthe (1993). ELI. The use of proper scoring rules for eliciting subjective probability distributions. dissertation Groningen. Leiden: DSWO-Press.


Dit werk past slecht op mijn ATM (Algemeen ToetsModel, zie SPA model), omdat onzekerheden in hetgeen bij Van Lenthe wordt geschat eigenlijk geen rol spelen: dat zijn CBS-statistieken. Voor het voorspellen van de eigen tentamenscore is er dus een heel andere situatie. Voor docenten zou e.e.a. wel bruikbaar kunnen zijn. Ik moet nagaan of het afbeelden van proper scoring rules als alternatief voor het laten zien van aannemelijkheid of voorspellende toetsverdeling overweging verdient (ik denk het niet). Trouwens, de aannemelijkheid is al een soort functie die halverwege een kansverdeling en een 'proper scoring rule' plot staat! I.v.m. risico-attitude, p. 63 3e a.: 'subjects appeared to be remarkably cautious.' Daar staat dan weer tegenover (p. 68, 2e a.): the widely observed overconfidence bias (Fischer). p. 70, 2e a. eind: het onderzoek dat er is over proper scoring rules gaat over heel beperkte situaties. p. 81 3e a.: 'score representation of uncertain knowledge more compatible with the capabilities of the human judge than a probability representation'. Is dat relevant voor het ATM? Ik denk het niet, want ik gebruik niet de verdelingen zelf, maar hun gewogen verwachte waarde.

Ik zie het dus voorlopig zo: wat in het ATM telt, tegen de achtergrond van deze proper scoring rules, is: het hele stochastische apparaat zit onder de motorkap, de input is een inschatting van de huidige beheersing (proeftoetsresultaat) en het leertraject (hoeveel ronden al gedaan), de output is een functie van verwacht nut, die afgezet kan worden tegen functis van verwacht nut voor alternatieve tijdbesteding. Het is natuurlijk denkbaar om experimenten op te zetten waarin scholieren met hulp van het programma van Van Lenthe voorspellingen doen, terwijl ook de ATM-voorspelling wordt gegenereerd. Die twee kunnen een leuk contrast opleveren. Er zijn meer experimenten of grappen mogelijk: pp laten kiezen tussen twee verschillende voorspellende toetsscoreverdelingen of curven van verwacht nut, de ene de ATM-voorspelling, de andere een verstoring daarvan. Dat zou zelfs kunnen uitmonden in een trainingsprogramma waarin leerlingen of leraren leren om daarin steeds fijnere onderscheidingen te maken.



Ellen Boekkooi-Timminga (1989). Models for computerized test construction. De Lier: Academisch Boeken Centrum. isbn 9072015398 (ingevoegd: Boekkooi-Timminga, E. (1990). Toetsconstructie met behulp van de computer. IDEE, 11, 176-178.) Boekkooi-Timminga, E. (1990). A cluster-based method for test construction. APM 14, 341-354.




Ven, A. H. G. S. van der Ven (1969). The binomial error model applied to time-limit tests. Proefschrift K.U. Nijmegen.




Hans Verheij (1992). Measuring utility, a psychometric approach. Proefschrift UvA (Mellenbergh, co: Van den Brink). 130 blz pb-->


Willingness to pay for dentistry treatments with uncertain outcomes.



Brink, W. P. van den Brink (1982). Binomiale modellen in de testleer. Proefschrift (Mellenbergh; coreferenten: Molenaar Van Naerssen) Universiteit van Amsterdam.




W. J. van der Linden (1985). tumblr. 400-411. In Testtheorie. Themanummer Nederlands Tjdschrift voor de Psychologie en haar Grensgebieden, 40, 379-451.




  • Wayne H. Holtzman (Ed.) (1970). Computer-assisted instruction, testing, and guidance. Harper & Row. lccc 77-84078 [UB Leiden 2038 A 12]