zie dus ook testpsychologie.htm
Gifford, Bernard R. Gifford (Ed.) (1989). Test policy and the politics of opportunity allocation: the workplace and the law. National Commission on Testing and Public Policy. Kluwer Academic Publishers. isbn 0792390156 info and previews
Gifford, Bernard R. Gifford (Ed.) (1989). Test policy and test performance: education, language and culture. National Commission on Testing and Public Policy. Kluwer Academic Publishers. isbn 0792390148 info and previews
Lindquist, E. F. Lindquist (Ed.) (1951). Educational measurement. American Council on Education. Walter W. Cook: The functions of measuement in the facilitaion of learning 3-46; Ralph W. Tyler: The functions of measurement in improving instruction 47-67; John G. Darley & Gordon V. Anderson: The fucntions of measurement in counseling 68-84; Henry Chancey & Norman Frederiksen: The functions of measurement in educational placement 85-117; E. F. Lindquist: Preliminay considrations in objective test construction 119-158; K. W. Vaugh: Planning the objective test 159-184; Robert L. Ebel: Writing the test item 185-149; Herbert S. Conrad: The experimental tryout of test materials 250-265; Frederick B. Davis: Item selection techniques 266-328; Arthur E. Traxler: Administering and scoring the objective test 329-416; Geraldine Spaulding: Reproducing the test 417-454; David G. Ryans & Norman Frederiksen: Performance tests of educational achievement 455-494; John M. Stalnaker: The essay type of examination 495-530; Irving Lorge: The fundamental nature of measurement 533-559; Robert L. Thorndike: Reliability 360-620; Edward E. Cureton: Validity 621-694; John C. Flanagan: Units, scoes and norms 695-763; Charles I. Mosier: Batteries and profiles 764-809
Christopher Stray (2009). From oral to written examinations. In R. Lowe (Ed.) The history of higher education: Major themes in education, volume 4 (159-207). Routledge. concept version
I am listed in the acknowledgement, thanks Chris. Refers to Assessment in historical perspective, 1997.
Gwyneth Hughes (2014). Ipsative assessment. Motivation through marking progress. Palgrave Macmillan. [nog? niet als eBook in KB] info
Ik heb juli 2014 enkele aantekeningen bij dit boek gegeven op Twitter, https://mobile.twitter.com/benwilbrink/status/493050613291552768?p=v vooral in de vorm van online beschikbare publicaties waar Hughes naar verwijst, of waar ze juist niet verwijst ;-).
Gordon Stobart (2008). Testing testing: uses and abuses of assessment. Routledge. [als eBook in KB] info (30 pp preview)
Dominique Sluijsmans, Sabine van Eldik, Desirée Joosten-ten Brinke & Linda Jakobs (2014). Bewust en bekwaam toetsen Wat zouden lerarenopleiders moeten weten over toetsing? pdf
Jo-Anne Baird, Therese N. Hopfenbeck, Paul Newton, Gordon Stobart & Anna T. Steen-Utheim (2014). Assessment and learning. State of the field review. Norwegian Knowledge Center for Education. pdf
An interesting vhapter 7 on PISA tests. Everything about them gets criticized, except its constructivist bias, even though the constructivisme/situationism of the PISA tests has been described adequately.
p. 74.
George F. Madaus (1988). The influence of testing on the curriculum. In Laurel N. Tanner (Ed.) (1988). Critical issues in Curriculum (83-121). NSSE. [onmiddellijk daarop volgend: Daniel Tanner (1988). The textbook controversies. pp 122-147. [feedforward, backwash, washback] paywalled
James E. Carlson & Matthias von Davier (2013). Item response theory. ETS SPC-13-05 pdf
Saskia Wools (2007). Evaluatie van een instrument voor kwaliteitsbeoordeling van competentieassessments. pdf
Michèle Lamont (2009). How professors think. Inside the curious world of academic judgment. Harvard University Press. isbn 9780674057333 info
Notes and documentation like a scholarly work. The topic: peer review. Lamont is a sociologist. A social study of evaluation? Looks quite interesting.
Matthew Jensen Hays, Nate Kornell & Robert A. Bjork (2013). When and why a failed test potentiates the effectiveness of subsequent study. Journal of Experimental Psychology: Memory, and Cognition, 39, 290-296. abstract
Stefan Johansson , Eva Myrberg & Monica Rosn (2012) Teachers and tests: assessing pupils' reading achievement in primary schools, Educational Research and Evaluation: An International Journal on Theory and Practice, 18:8, 693-711. abstract
from the abstract
Marjorie C. Kirkland (1971). The effects of tests on students and schools. Review of Educational Research, 41, 303-350.
Yigal Attali & Don Powers (2010). Immediate Feedback and Opportunity to Revise Answers to Open-Ended Questions. Educational and Psychological Measurement, 70, 22-35 abstract
Dit is nu eens een intrigerend idee: geef kandidaten meteen na het antwoorden op een toetsvraag informatie over de jusitheid, en geef ze ook de gelegenheid om het antwoord te verbeteren! Dat ik daar zelf nog nooit aan heb gedacht. Ik heb het ongetwijfeld al wel eens zien langskomen in de vorm van ‘the answer-until-correct method for MC items (Pressey, 1926)’.
Gregory Ethan Stone, Kristin L. K. Koskey and Toni A. Sondergeld (2011). Comparing Construct Definition in the Angoff and Objective Standard Setting Models : Playing in a House of Cards Without a Full Deck. Educational and Psychological Measurement, 71 942abstract
Dit is een onderzoeklijn van Gregory Stone. Het bevalt me helemaal niet dat hij spreekt van objectief afgeleide standaarden. Ik moet daar zeker eens een keer goed naar kijken. De enige juiste methode is die welke ik in 1980 in het TOR heb beschreven. Zo moeilijk is dat trouwens niet, voor een selectiepsycholoog met enige affiniteit met besliskunde.
Stone compared the Angoff and objective standard setting (OSS) models and found that Angoff failed to define a legitimate and stable construct.
George Engelhardt, Jr. (2011). Evaluating the Bookmark Judgments of Standard-Setting Panelists. Educational and Psychological Measurement, 71, 909-924abstract
David Spendlove (2009). Putting Assessment for Learning into Practice. Continuum. site
Misschien een heel aardig boekje, maar de aanbevelingen zijn autoritair, dat is: zonder enige bronvermelding. Er is wel een lijstje met verder te lezen publicaties. Dat is misschien een keuze die past bij een boekje met tips, van bescheiden omvang, maar ik prefereer toch tips met een specifieke bronvermelding zodat de lezer zelf kan nagaan wat de strekking/onderbouwing van de tip is.
Natalia Karelaia & Robin M. Hogarth (2008). Determinants of Linear Judgment: A Meta-Analysis of Lens Model Studies. Psychological Bulleting, 134, 404-426. pdf
Grant P. Wiggins (1993). Assessing student performance. Exploring the purpose and limits of testing. Jossey-Bass. isbn 1555425925
Ron J. Pat El (2012). Lost in Tranlation. Congruency of teacher and student perceptions of assessment as a predictor of intrinsic motivation in ethnodiverse classrooms. Proefschrift Universiteit Leiden. availability of chapters; samenvatting
De promovendus schrijft over ‘eikpunten’, wat niet wijst op een overdreven mate van zorgvuldigheid. De ideologie is die van het sociaal-constructivisme, wat mij toch wat minder passend lijkt bij een academisch werkstuk. Maar ja, de hoofdstukken zijn deels al gepubliceerd in gerefeerde wetenschappelijke tijdschriften.
Wie tekenen er voor dit proefschrift: promotoren Paul Vedder en Mien Segers, co-promotor: Harm Tillema. Commissieleden: Roel Bosker, P. van den Broek, P. den Brok, C. Espin.
Grote afwezige in dit onderzoek: de vakinhouden van het onderwijs. Dit is een overbodig onderzoek., en dan druk ik mij vriendelijk uit (onvriendelijk zou zijn: dit is een schadelijk onderzoek, het bevestigt wanbeleid in het onderwijsveld).
Dirk Ifenthaler, Deniz Eseryel & Xun Ge (Eds.) (2012). Assessment in Game-Based Learning. Foundations, Innovations, and Perspectives. Springer.
Lorrie A. Shepard (2000). The role of classroom assessment in teaching and learning. CSE Technical Report 517 Published in V. Richardson (Ed.) (2001), Handbook of research on teaching (4th ed). Washington, DC: American Educational Research Association. pdf
Robert L. Brennan (Ed.) (2006). Educational Measurement. National Council on Measurement in Education; American Council on Education.
Satomi Mizutani (2009). The Mechanism of Washback on Teaching and Learning. A thesis submitted in partial fulfilment of the requirements for the degree of Doctor of Philosophy in Educational Psychology, The University of Auckland, 2009. (supervisors: Professor John Hattie, Dr. Christine Rubie-Davies, and Dr. Jenefer Philp) pdf
Greaney, V., & Kellaghan, T. (1996). Monitoring the learning outcomes of educational systems. Washing D. C.: The World Bank. [geen directe aandacht voor washback]
Kathleen M. Bailey (1999). Washback in language testing. Educational Testing Service MS-15 june 1999 pdf
Eleana Shohamy, Smadar Donitsa-Schmidt & Irit Ferman (1996). Test impact revisited: washback effect over time. Language Testing, 13, 298-317. abstract
Mary Spratt (2005). Washback and the classroom: the implications for teaching and learning of studies of washback from exams. Language Teaching Research, 9, 5-29. abstract Er is een bestand op internet beschikbaar: pdf
Shahrzad Saif (2006). Aiming for positive washback: a case study of international teaching assistants. Language Testing, 23, 1-34 abstract
(Ana P. Muñoz and Marta E. Álvarez 2010). Washback of an oral assessment system in the EFL classroom. Language Testing, 27, 33-49. abstract
M. L. Smith (1991). Put to the test: The effects of external testing on teachers. Educational Researcher, 20(5), 8-11. eerste pagina
M. L. Smith and C. Rottenberg (1991). Unintended consequences of external testing in elementary schools. Educational Measurement: Issues and Practice, 10(4), 7-11. [Zie ook Gregory J. Cizek (2011). More unintended consequences of high-stakes testing. Educational Measurement: Issues and Practice, 20, 19-27 final draft]
David R. Krathwohl (2002). A revision of Bloom’s taxonomy: An overview. Theory into Practice, 41, 212-264. pdf
Ineke Huibregtse en Wilfried Admiraale (2000). D score op een ja/nee-woordenschattoets: correctie voor raden en persoonlijke antwoordstijl. TOR, 24, 110- . online
F. M. Edens, F. Rink & M. J. Smilde (2000). De studentenrechtbank: een evaluatieonderzoek naar beoordelingslijsten voor prestatievaardigheden. Tijdschrift voor Onderwijsresearch, 24, 265-274. online
Mary E. Lunz, Betty A. Bergstrom & Richard C. Gershon (1994). Computer adaptive testing. International Journal of Educational Research, 21, 623-634. [Relevant voor de rekentoets, WisCat, etc.]
Martin Brunner, Cordula Artelt, Stefan Krauss, Jürgen Baumert (2007). Coaching for the PISA test. Learning and Instruction. 18, 321-336.
P. Vedder (1992). Het Cito-leerlingvolgsysteem. Pedagogische Studiën, 69, 284-290. Met repliek: P. Gillijns & P. Verhoeven (1992). Het Cito-leerlingvolgsysteem: met het oog op de praktijk. Pedagogische Studiën, 69, 291-296.
Hartmut von Hentig (1980). Die Krise des Abiturs und eine Alternative. Klett-Cotta. Stuttgart, Ernst Klett.
Harold L. Kleinert, Diane M. Browder & Elizabeth A. Towles-Reeves (2009). Models of Cognition for Students With Significant Cognitive Disabilities: Implications for Assessment. Review of Educational Research, 79, 301-326.
Maarten van Gils (1977). De onbetrouwbaarheid van selektieve tekstbegriptoetsen. Pedagogiche Studiën, 54, 52-61.
Willem K. B. Hofstee (2009). Promoting intersubjectivity: a recursive-betting model of evaluative judgments. Netherlands Journal of Psychology, 65. abstract
Aantekeningen: toetsmodellen.htm#Hofstee_intersubjectivity
Maarten Pinxten, Bieke De Fraine*, Jan Van Damme and Ellen D’Haenens Causal ordering of academic self-concept and achievement: Effects of type of achievement measure British Journal of Educational Psychology (2010), 80, 689- -709 download UBUw
Ana Maria Pazos Rego (2009?). The aphabetic principle, phonics, and spelling. In Jeanne Shay Schumm: Reading assessment and instruction for all learners. The Guilford Press.
Elana Shohamy (2008). Assessment in multicultural societies: Applying democratic principles and practices to language testing. In Charles A. MacArthur, Steve Graham & Jill Fitzgerald: Handbook of writing research. The Guilford Press. 72-92.
Evert Gijsbert Harskamp & Conradus Johannes Maria Suhre (1997?). Toetsen basisvorming: Een onderzoek onder scholen, ouders en leerlingen.. GION. isbn 9789066904446 SVO-project 96080 (ik heb dat aanbesteed)
Paul Black & Dylan Wiliam (2009). Developing the theory of formative assessment. Educational assessment, evaluation and accountability, 21 concept
Paul E. Newton (2012). Clarifying the Consensus Definition of Validity. Measurement: Interdisciplinary Research and Perspectives, 10, 1-29. abstract
Robert J. Mislevy, Linda S. Steinberg and Russell G. Almond (2003). On the structure of educational assessments. CSE Technical Report 597 pdf.
James W. Pellegrino, Naomi Chudowsky, and Robert Glaser (Eds.) (2001). Knowing what students know. The Science and Design of Educational Assessment. The Science and Design of Educational Assessment. Board on Testing and Assessment, Center for Education, Division of Behavioral and Social Sciences and Education, National Research Council. pdf van heel het boek hier ophalen Shepard, L. (1991). Psychometricians’ beliefs about learning. Educational Researcher, 20, 2-16. (Integraal online als html of direct te downloaden pdf)
Harry Torrance (2012): Formative assessment at the crossroads: conformative, deformative and transformative assessment, Oxford Review of Education, 38:3, 323-342 To link to this article: http://dx.doi.org/10.1080/03054985.2012.689693
Tom Dousma & Ad Horsten (1989). Tentamineren. Wolters-Noordhoff. isbn 9001243908
John Gardner (Ed.) (2012 2nd). Assessment and Learning. Sage. http://www.uk.sagepub.com/books/Book235374 Ik heb geen tijd om dit te lezen. Het is allemaal niet strak. Is het gericht op docententrainers?
Greet Fastré (2011). Improving sustainable assessment skills in vocational education. proefschrift open universiteit. pdf
Neal Kingston & Brooke Nash (2011). Formative assessment: a meta-analysis and a call for research. Educational Measurement: Issues and Practice, 30 #4, 28-37. abstract
De effecten zijn veel kleiner dan in de literatuur vaak beweerd. Ik moet dit nog vergelijken met Hattie, zou een leuk onderwerp zijn.
AERA, APA & NCME (1999). The Standards for Educational and Psychological Testing. zie hier - niet geautoriseerde samenvatting
Mary E. Lunz, Betty A. Bergstrom & Benjamin D. Wright (1992). The Effect of Review on Student Ability and Test Efficiency for Computerized Adaptive Test. Applied Psychological Measurement,16, 33-40.abstract
Ronald K. Hambleton (1980). Contributions to Criterion-Referenced Testing Technology: An Introduction. Applied Psychological Measurement 4, 421-424. abstract
Rand R. Wilcox (1980). Determining the Length of a Criterion-Referenced Test. Applied Psychological Measurement 4, 425-446. abstract
Lorrie Shepard (1980). Standard Setting Issues and Methods. Applied Psychological Measurement 4, 447-467. abstract
Wim J. van der Linden (1979). Criteriumgeoriënteerd toetsen. In Egbert Warries (Red.) Beheersingsleren een leerstrategie. Wolters-Noordhoff. 156-187.
Wim J. van der Linden (1980). Decision Models for Use with Criterion-Referenced Tests. Applied Psychological Measurement 4, 469-492. abstract
George B. Macready & C. Mitchell Dayton (1980). The Nature and Use of State Mastery Models. Applied Psychological Measurement 4, 493-516. abstract
Ross E. Traub & Glenn L. Rowley (1980). Reliability of Test Scores and Decisions. Applied Psychological Measurement 4, 517-545. abstract
Robert L. Linn (1980). Issues of Validity for Criterion-Referenced Measure. Applied Psychological Measurement 4, 547-561. abstract
Ronald A. Berk (1980). A Framework for Methodological Advances in Criterion-Referenced Testing. Applied Psychological Measurement 4, 563-573. abstract
Samuel Livingston (1980). Comments on Criterion-Referenced Testing. Applied Psychological Measurement 4, 575-581. abstract
Alan D. Mead & Fritz Drasgow (1993). Equivalence of Computerized and Paper-and-Pencil Cognitive Ability Tests: A Meta-Analysis. Psychological Bulletin, 114, 449-458.
Angus S. McDonald (2002). The impact of individual differences on the equivalence of computer-based and paper-and-pencil educational assessments. Computers & Education, 39, 299-312. abstract
Shudong Wang, Hong Jiao, Michael J. Young, Thomas Brooks & John Olson (2008). Comparability of Computer-Based and Paper-and-Pencil Testing in K-12 Reading Assessments. A Meta-Analysis of Testing Mode Effects. Educational and Psychological Measurement, 68, 5-24. abstract
Friedrich Scheuermann & Angela Guimarães (Eds.) (2008). Towards a Research Agenda on Computer Based Assessment. Challenges and needs for European Educational Measurement. European Commission; Joint Research Centre; Institute for the Protection and Security of the Citizen. download
Romain Martin: New Possibilities and Challenges for Assessment through the Use of Technology................................................................................ 6 Julius Björnsson: Changing Icelandic national testing from traditional paper and pencil based tests to computer based assessment: Some background, challenges and problems to overcome......................................... 10 Denise Whitelock: Accelerating the Assessment Agenda: Thinking outside the Black Box............................................................................... 15 Martin Ripley: Technology in the service of 21st century learning and assessment - a UK perspective........................................................... 22 René Meijer: Stimulating Innovative Item Use in Assessment.............................................. 30 Dave Bartram: Guidelines and Standards for Psychometric Tests and Test Users.......... 37 Mark Martinot: Examinations in Dutch secondary education - Experiences with CitoTester as a platform for Computer-based testing........................ 49 Annika Milbradt: Quality Criteria in Open Source Software for Computer-Based Assessment................................................................................. 53 Nicola Asuni: Quality Features of TCExam, an Open-Source Computer-Based Assessment Software............................................ 58 Thibaud Latour & Matthieu Farcot: An Open Source and Large-Scale Computer Based Assessment Platform: A real Winner....................................................................... 64 Friedrich Scheuermann & Angela Guimarães Pereira: Which software do we need? Identifying Quality Criteria for Assessing Language Skills at a Comparative Level......... 68 Oliver Wilhelm & Ulrich Schroeders: Computerized Ability Measurement: Some substantive Dos and Don’ts............................................................................ 76 Jim Ridgway & Sean McCusker: Challenges for Research in e-Assessment.................... 85 Gerben van Lent: Important Considerations in e-Assessment: An Educational Measurement Perspective on Identifying Items for an European Research Agenda........ 97
Spencer S. Swinton & Donald E. Powers (1983). A study of the effects of special preparation on GRE analytical scores and item types. Journal of Educational Psychology, 75, 104-115 abstract en pdf ophalen
feedforward coaching toetstraining
J. M. Wijnstra: Verantwoording Eindtoets Basisonderwijs 1981 (met een historisch overzicht over de periode 1966-1980). Cito, januari 1984. Specialistisch Bulletin nr. 25. [ zie ook hier
Veel informatie, maar niets van enig belang over de toetsvragen zelf. Hoe kom ik erachter welke vragen er typisch in de Citoetsen van de zeventiger jaren zaten?
Andrew C. Porter, Robert L. Linn, & C. Scott Trimble (2005). The Effects of State Decisions About NCLB Adequate Yearly Progress Targets. Educational Measurement: Issues and Practice, 24 winter, 32-39. pdf en
laatste paragraaf
James H. McMillan (Ed.) (2013). SAGE Handbook of Research on Classroom Assessment. SAGE. [UB Leiden PEDAG. 51.e.85] [3 juni 2013 nog niet als eBook beschikbaar, dus ook niet in KB] site - detailed contents. (maar voor auteurs zie de de contents op de site)
Het ziet er allemaal heel indrukwekkend uit. Wel 544 bladzijden dichte informatie, literatuurverwijzingen ook. Het is bedoeld om verder onderzoek uit te lokken, dus niet als voorlichting aan leraren. Ik krijg wel een beetje de indruk, al bladerend, dat van leraren veel te veel wordt verwacht. De vele schetsen van tekortkomingen in beoordelen en toetsen in school zijn wel terecht, maar daar volgt mijns inziens niet uti dat deze kwalen te verhelpen zouden zijn door betere opleiding, begeleiding, en instrumenten, hoewel dat alles natuurlijk wel enig nut zal hebben. Dit beoordelen in de klas is een rampgebied waar betere technieken helemaal niets aan gaan veranderen, andere onderwisjculturen waarschijnlijk wel. Een stap in de goede richting is ongetwijfeld het benadrukken van formatieve beoordeling ten koste van summatieve testerij. Maar er is veel meer nodig. Ik ben juist bang dat de horden onderzoekers die zich op het beoordelen in het onderwijs storten, leiden tot bevestiging van bestaande beroerde praktijken, in plaats van radicale veranderingen daarin. De macht van de getallen zal hier de doorslag geven, niet de kwaliteit van het onderzoek van enkelingen.
p. 252
Mary Henning-Stout (1994). Responsive Assessment. A New Way of Thinking About Learning. Jossey-Bass. isbn 155542645X
Dit boek lijkt constructivisme te ademen. Ik citeer de eerste alinea uit het hoofdstuk dat veelbetekenend Mathematical reasoning heet.
p. 178
Chester W. Harris, Marvin C. Alkin, & W. James Popham (Eds.) (1974). Problems in criterionreferenced measurement. (CSE Monograph no 3). Los Angeles: Center for the study of evaluation, University of California.
Henny Uiterwijk (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Cito. Proefschrift KUB. pdf
P. Holmes (2002). Multiple evaluation versus multiple choice. Feasibility, reliability and validity in practice. Enschede: Universiteit Twente, 2002, proefschrift, 140 pagina’s ISBN 90 3651757 5. pdf
Trefwoorden: raadkansen, raden, zekerheidsscoring, Shuford, Dirkzwager
A. H. van der Hoeve, Ph. Kohnstamm & G. van Veen (1935). Sil-lees-stof als denk-materiaal en denk-maatstaf. Een onderzoek aangaande de vorming en toetsing van 'theoretische intelligentie'. J. B. Wolters' Uitgeversmaatschappij. Mededelingen van het Nutsseminarium voor Paedagogiek aan de Universiteit van Amsterdam. [aanwezig: KB; UB Leiden in de reeks Mededelingen van het Nutsseminarium] 208-245 - 246-261 - 262-288
Mary Ann Dzuback (1991). Robert M. Hutchins. Portrait of an educator. University of Chicago Press. [boek is ondertussen naar Amnesty gegaan]
The tweede geciteerde passage hierbeneden vind ik toch wel heel treffend: intensief contactonderwijs, en dan toch afsluitende toetsen houden, terwijl de staf in de gaten heeft dat al dat toetsen kostbare instructietijd afsnoept. Kennelijk de geest van de tijd: toetsgekte. Ralph Tyler kwam op deze manier mooi binnen in de universiteit, waar hij lang zou blijven.
( . . )Because total enrollments were low, classes were small, allowig a high level of contact between students and instructors and a variety of pedagogical approaches, inclusing discussions and laboratory work in the sciences.
The program was never free from faculty criticissm. For example,divisional examinations, faculty members argued, provided a limited basis for grading studnets and required a great deal of faculty time to design. In addition, administering them reduced the number of class meetings in the spring. Despite the criticism, there was enough support for the examinations to keep and improve them. Hutchins recruited Ralph Tyler to head the department of education in 1938 and to act as university examiner. Tyler worked with the divisional faculty to redesign examinations that tested the objectives of their courses.
p. 128-129
Hans F. Crombag & Dato N. de Gruyter (1974). Contemporary issues in educational testing Mouton. 9027975213
The Effect of Testing Versus Restudy on Retention: A Meta-Analytic Review of the Testing Effect. Rowland, Christopher A. Psychological Bulletin, Aug 25 , 2014, No Pagination Specified. abstract
Robert F. van Naerssen (1974). Psychometrische aspecten van de kernitemmethode. NTvdPs 29, 421-430
OAT Announces QTI® Compliance for Its TAO Open Source Assessment Platform.
Kyle Silera, Kirby Leeb & Lisa Beroc (2014). Measuring the effectiveness of scientific gatekeeping. PNAS (ahead of print)abstract
Darren Grant & William B. Green (2009). The simple economics of thresholds: grades as incentives. Sam Houston State University, Department of Economics and International Business, Working Paper Series No. 09-01. Via Researchgate William Green
Fabienne M. Van der Kleij, Jorine A. Vermeulen, Kim Schildkamp & Theo J.H.M. Eggen (2015): Integrating data-based decision making, Assessment for Learning and diagnostic testing in formative assessment. Assessment in Education: Principles, Policy & Practice (published online) abstract
Daniel Koretz (2008). Measuring up. What educational testing really tells us. Harvard University Press reviewed . And another review by Mark Fetler.
Hoofdstuk 1 gelezen. Helemaal oké. Dekt ongeveer de inhoud, lijkt me. Hier ben ik dusgehinderd door een gebrek aan kennis van achtergronden van Koretz. Zie o.a. een review door Philip Staradamskis: here [via Richard Phelps]"authentic assessment
p. 345
from the review by Holland
James A. Bovaird, Kurt F. Geisinger & Chad W. Buckendahl (Eds.) (2011). High-stakes testing in education. Science and practice in K-12 settings. American Psychological Association. info
Richard P. Phelps (2009). Correcting fallacies about educational and psychological testing.
Richard P. Phelps (2007). The source of Lake Wobegon. Nonpartisan Education Review, 1 #2. pdf
Richard P. Phelps (2003). Kill the messenger. The war on standardized testing. isbn 0765801787 < info
Reviewed by Howard Wainer in JEM 2006, zie wainer.2006
Richard P. Phelps (Ed.) (). Defending standardized testing. Educational Testing Service. [eBook in KB]
Kim J. H. Dirkx (2014). Putting the testing-effect to the test. Thesis Open University Heerlen. PEDAG 70.A.56 pdf of summary and references download
I don’t know; is this useful? The references list contains interesting items, however.
p. 15
Dominique Sluijsmans, Desirée Joosten-ten Brinke, Tamara van Schilt-Mol (Red.) (2015). Kwaliteit van toetsing onder de loep. Handvatten om de kwaliteit van toetsing in het hoger onderwijs te analyseren, verbeteren en borgen. Apeldoorn: Garant. isbn 9789044132403
De auteurs benaderen het onderwerp veel te abstract, op een systemisch niveau, en onkritisch wat betreft volgen van de Amerikaanse literatuur op dit gebied en volgen van psychometrische halve waarheden. Ik had graag een boek gezien gevuld met glasheldere casuïstiek van wat er zoal in de praktijk vaak helemaal fout gaat en toch eenvoudig is te voorkomen of onder controle te krijgen. In discussie dan maar, met de auteurs.
Patricia Broadfoot (1996). Education, assessment and society. Buckingham: Open University Press. [als eBook in KB]
Vergelijkende studie Engeland-Frankrijk. Toetsen in de nationale context Assessment and the emergence of modern society. Lijkt me een prachtig boek.
Andrew Davis (1998) The Limits of Educational Assessment. Oxford: Blackwell. isbn 0631210202. Special Issue: The limits of educational assessment. Journal of Philosophy of Education, 32(1), 1-155. full contents
Er is een kritiek op gepubliceerd (Randall Curren (2004) Educational measurement and knowledge of other minds Theory and Research in Education 2 3 pp 235 -253), en een dupliek: http://k1.ioe.ac.uk/pesgb/x/Davis,%20A..pdf.
Het is wel amusant te lezen hoe iemand van een andere planeet tegen high stakes testing aan kijkt. Maakt op mij geen geweldige indruk, maar wie ben ik? Wel nuttig eens door een heel andere bril naar toetsen te kijken.
Adriaan D. de Groot & Robert F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Mouton.
S. Sandbergen: Appendix I. Eenvoudige itemanalyse: bewerkingsrecepten. 311-320
S. Sandbergen: Appendix II. Voorbeelden van items over verschillende vakken. 321-345
Appendix III De juiste alternatieven van items. 346-348
Gaea Leinhardt (1980). Modeling and measuring educational treatment in evaluation. Review of Educational Research, 50, 393-420. abstract
Robert Ladd Thorndike (1971). Educational Measurement. Washington: American Council on Education. isbn 0826812716
W. K. B. Hofstee (1970). De betrouwbaarheid van slaag-zak-beslissingen. Nederlands Tijdschrift voor de Psychologie, 25, 380-383.
Mooi ondoordacht gebruik van terminologie ‘missers’. Wim Hofstee mist hier de kans om de beperkingen van het model van terecht/onterecht beslissen te signaleren. Hij stipt wel aan dat studietoetsen steekproeven zijn, maar trekt daar niet de consequenties uit zoals Edgeworth dat eind 19e eeuw al wel deed: rond de aftestgrens zijn belsissingen niet inhoudelijk te rechtvaardigen, maar in dit type situaties is het wel het geval dat betere voorbereiding de kans op slagen verhoogt.
Huynh Huynh (1976). Statistical consideration of mastery scores. Psychometrika, 41, 65-78. DOI: 10.1007/BF02291698 Ik heb hier uitvoerig aantekeningen bij gemaakt (16 juni 1979). Dit stuk moet ik nog doorwerken. Nou ja, in ieder geval toch maar bewaard, ik kan er nog eens op moeten terugvallen omdat ik e.e.a. in mijn TOR-artikelen heb verwerkt? . abstract
Niels H. Veldhuijzen (1979). Cesuurbepaling in het beta-binomiale model. Cito no. 4 bulletinreeks
Kent nut toe aan vier beslissingsuitkomsten bij zakken/slagen. Goochelt met formules, maar is begripsmatig duister. Onnodig ingewikkeld.
Huynh Huynh (1979). Statistical inference for two reliability indices in mastery testing based on the beta-binomial model. JESt, 4, 231-246. preview
Huynh Huynh (1976). On the reliability of decisions in domain-referenced testing. Journal of Educational Measurement, 13, 253-264 . abstract [the bivariate beta-binomial model
Huynh Huynh (1976). Statistical considerations of mastery scores. Pm 41, 65-78. [beta-binomial] abstract
Huynh Huynh (1980). Statistical inference for false positive and false negative error rates in mastery testing. Psychometrika, 45: 107-120. abstract
Huynh Huynh & Joseph C. Saunders (1980). Accuracy of two procedures for estimating reliability of mastery tests. Journal of Educational Measurement, 17, 351-358. abstract
I do not think it correct that the betabinomial presumes equal item difficulties. Is that also true in appliations to groups of studens?
Huynh Huynh (1982). A Bayesian procedure for mastery decisions based on multivariate normal test data. Psychometrika, 47: 309. abstract
Huynh, H. (1980). A nonrandomized minimax solution for passing scores in the binomial error model. Pm, 45, 167. cesuur binomial abstract
Huynh, H. (1982). A Bayesian procedure for mastery decisions based on multivariate normal test data. Psychometrika, 47: 309. abstract
Huynh Huynh (1990). Computation and statistical inference for decision consistency indices based on the Rasch model. JEdSt, 15, 353-368. simulatie
Huynh Huynh (1978). Reliability of multiple classifications. Pm 1978, 43, 317325.
Huynh Huynh (1979). Statistical inference for two reliability indices in mastery testing based on the beta-binomial model. JESt, 4, 231-246. abstract
Huynh Huynh (1980). Statistical inference for false positive and false negative error rates in mastery testing. Pm, 45, 107-120 abstract
Huynh Huynh (1990). Error rates in competency testing when test retaking is permitted. Journal of Educational Statistics, 15, 39-52. fc ces tentamenmodel srm uit abstract; under relatively general conditions and when test retaking is permitted, the probability of making a false negative error is zero. Under the same situation, and given that an examinee is a true nonmaster, the conditional probability of making a false positive error for this examinee is one. Dat lijkt me allemaal nonsens, maar des te beter om het bijv. bij drempelnut te behandelen!
Huynh Huynh & Perney (1979). Determination of mastery scores when instructional units are linearly related. EPM, 39: 317. crm
Koretz, D., Stecher, B., Klein, S., & McCaffrey, D. (1994). The Vermont portfolio assessment program: findings and implications. Educational Measurement, fall, 5-16. (performance assessment) fc nog even gehouden map t/srm abstract
J. B. Kuhlemeier, E. J. J. Kremers & F. G. M. Kleintjes. Gebruik en moeilijkheidsgraad van de eerste generatie afsluitingstoetsen basisvorming in het schooljaar 1994/95 / J.B. Kuhlemeier, E.J.J. Kremers en F.G.M. Kleintjes. - Arnhem : Cito, 1996. - 54 p. : Niet beschikbaar op website Cito
Wouter Schoonman (1989). An applied study on computerized adaptive testing. Amsterdam: Swets & Zeitlinger. isbn 9026510470 abstract
10 Real SAT's. New York: College Entrance Examination Board, 2003, 685 blz. quarto pb, monsterachtig, bizar ook.
L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. isbn 9036510899. http://goo.gl/vbbewr [scan voor persoonlijk gebruik]
Cremers-van Wees, L. M. C. M., Knuver, J. W. M., Vos, H. J., & Van der Linden, W. J. M. (1998). Toetsen, beoordelen en beslissen in het voortgezet onderwijs. Ontwikkeling van een gedragscode voor leraren. Enschede: OCTO.isbn 9036510902.
Hans Kuhlemeier & Huub van den Bergh (1989). De Proefpeiling Nederlands: een onderzoek naar de haalbaarheid van peilingsonderzoek in het Voortgezet Onderwijs.Cito Bulletinreeks nr 74. -- 363 + 102 blz. quarto (zie o.a.: http://taalunieversum.org/onderwijs/onderzoek/publicatie/195/de_proefpeiling_nederlands )
Starren, J. Starren, S. J. Bakker, en A. Van der Wissel (Red.) (1988 1e; 1995 2e). Inleiding in de onderwijspsychologie. Bussum: Coutinho. isbn 9062837158
Rob Schoonen (1991). De evaluatie van schrijfvaardigheidsmetingen. Een empirische studie naar betrouwbaarheid, validiteit en bruikbaarheid van schrijfvaardigheidsmetingen in de achtste groep van het basisonderwijs. proefschrift UvA. [promotor: Don Mellenbergh]
Jelle van Lenthe (1993). ELI. The use of proper scoring rules for eliciting subjective probability distributions. dissertation Groningen. Leiden: DSWO-Press.
Dit werk past slecht op mijn ATM (Algemeen ToetsModel, zie SPA model), omdat onzekerheden in hetgeen bij Van Lenthe wordt geschat eigenlijk geen rol spelen: dat zijn CBS-statistieken. Voor het voorspellen van de eigen tentamenscore is er dus een heel andere situatie. Voor docenten zou e.e.a. wel bruikbaar kunnen zijn. Ik moet nagaan of het afbeelden van proper scoring rules als alternatief voor het laten zien van aannemelijkheid of voorspellende toetsverdeling overweging verdient (ik denk het niet). Trouwens, de aannemelijkheid is al een soort functie die halverwege een kansverdeling en een 'proper scoring rule' plot staat! I.v.m. risico-attitude, p. 63 3e a.: 'subjects appeared to be remarkably cautious.' Daar staat dan weer tegenover (p. 68, 2e a.): the widely observed overconfidence bias (Fischer). p. 70, 2e a. eind: het onderzoek dat er is over proper scoring rules gaat over heel beperkte situaties. p. 81 3e a.: 'score representation of uncertain knowledge more compatible with the capabilities of the human judge than a probability representation'. Is dat relevant voor het ATM? Ik denk het niet, want ik gebruik niet de verdelingen zelf, maar hun gewogen verwachte waarde.
Ik zie het dus voorlopig zo: wat in het ATM telt, tegen de achtergrond van deze proper scoring rules, is: het hele stochastische apparaat zit onder de motorkap, de input is een inschatting van de huidige beheersing (proeftoetsresultaat) en het leertraject (hoeveel ronden al gedaan), de output is een functie van verwacht nut, die afgezet kan worden tegen functis van verwacht nut voor alternatieve tijdbesteding. Het is natuurlijk denkbaar om experimenten op te zetten waarin scholieren met hulp van het programma van Van Lenthe voorspellingen doen, terwijl ook de ATM-voorspelling wordt gegenereerd. Die twee kunnen een leuk contrast opleveren. Er zijn meer experimenten of grappen mogelijk: pp laten kiezen tussen twee verschillende voorspellende toetsscoreverdelingen of curven van verwacht nut, de ene de ATM-voorspelling, de andere een verstoring daarvan. Dat zou zelfs kunnen uitmonden in een trainingsprogramma waarin leerlingen of leraren leren om daarin steeds fijnere onderscheidingen te maken.
Ellen Boekkooi-Timminga (1989). Models for computerized test construction. De Lier: Academisch Boeken Centrum. isbn 9072015398 (ingevoegd: Boekkooi-Timminga, E. (1990). Toetsconstructie met behulp van de computer. IDEE, 11, 176-178.) Boekkooi-Timminga, E. (1990). A cluster-based method for test construction. APM 14, 341-354.
Ven, A. H. G. S. van der Ven (1969). The binomial error model applied to time-limit tests. Proefschrift K.U. Nijmegen.
Hans Verheij (1992). Measuring utility, a psychometric approach. Proefschrift UvA (Mellenbergh, co: Van den Brink). 130 blz pb-->
Willingness to pay for dentistry treatments with uncertain outcomes.
Brink, W. P. van den Brink (1982). Binomiale modellen in de testleer. Proefschrift (Mellenbergh; coreferenten: Molenaar Van Naerssen) Universiteit van Amsterdam.
W. J. van der Linden (1985). tumblr. 400-411. In Testtheorie. Themanummer Nederlands Tjdschrift voor de Psychologie en haar Grensgebieden, 40, 379-451.
Wayne H. Holtzman (Ed.) (1970). Computer-assisted instruction, testing, and guidance. Harper & Row. lccc 77-84078 [UB Leiden 2038 A 12]
This leads me to perhaps the most dangerous pitfall of all, which is the unconscious reinforcement of the values of efficiency and achievement that can result from technological improvement of present educational processes.
( . . . )
The power of truth—of technology, science, knowledge—is very great these days. Those who seek after it, therefore, have a duty to measue their contribution in the context of truths that often transcend the two-valued logic of the computer.
p. 391 [Emmanuel G. Mesthene (1970). Computers and purposes of education, in Wayne H. Holtzman: Computer-assisted instruction, testing, and guidance. Harper & Row.]
Ronald K. Hambleton (Ed.) (1989). Applications of item response theory. Special Issue International Journal of Educational Research, 13 #2, 121-220.
Benoît Dompnier, Céline Darnon, Emanuele Meier, Catherine Brandner, Annique Smeding, Fabrizio Butera (2015 accepted). Improving Low Achievers' Academic Performance at University by Changing the Social Value of Mastery Goals. American Education Research Journal, 52, 720-749. abstract
Charles W. Daves (Ed.) (1984). The uses and misuses of tests. Examining current issues in educational and psychological testing. Jossey-Bass.
David Owen (1999). None of the above. The truth behind the SATs. Revised and updated. New York: Rowman & Littlefield. isbn 0847695077
W. James Popham (2005). America's 'failing' schools. How parents and teachers can cope with No Child Left Behind. Routledge. isbn 0415451283
The remarkable thing in the above informal definition is that Popham knows bloody well that the kind of testing and especially of test questions, will determine what it is that the students will prepare for. Therefore, the purpose of testing would be to make sure that students learn the right kind of thing. Calling that 'inference making' does not seem to be one hundred percent truthful.
Popham is keeping all options open here. The restriction is to in-school testing.
A most important point, and Popham is so right to mention it in the forceful way he does. He does however not try to explain that it is inherent in the character of assessment - sampling right-wrong items from the student's imperfect mastery - that there are relatively large swings possible in the test result for the individual student. This radically and fundamentally differs from the prototypical kind of measurement in the physical world: that of length and weight.
W. James Popham (2001). The truth about testing. An educator's call to action. Association for Supervision and Curriculum Development ASCD. isbn 0871205238, 167 pp. paperback belangrijke hoofdstukken online beschikbaar; ook beschikbaar in questia
Martin V. Covington (1992). Making the grade: a self-worth perspective on motivation and school reform. Cambridge University Press. isbn 052134803X
Dominique Sluijsmans, Desirée Joosten-ten Brinke & Cees van der Vleuten (2013). Toetsen met leerwaarde. Een reviewstudie naar de effectieve kenmerken van formatief toetsen. pdf
Robert Reinier Gras (1967). Studietoetsen voor moderne talen. Proefschrift RU Utrecht (Promotor A. D. de Groot). Het 'talenproject' stond onder supervisie van A. D. de Groot.
twitterdraadje waarin ik signaleer dat zo vroeg al de ambitie bestond de eindexamens door studietoetsen te vervangen. En omdat het hier om taaltoetsen gaat: het toetsen van tekstbegrip krijgt volop aandacht, maar zonder dat het idee 'tekstbegrip' is geproblematiseerd. Dat vind ik toch wel bijzonder, hoewel natuurlijk niet onverwacht. Tests uit de VS dienen hier als na te vlgen voorbeelden. Zo ongeveer is het dus gekomen.
Alexander W. Astin (1993). Assessment for excellence: the philosophy and practice of assessment and evaluation in higher education. American Council on Education / Oryx series on higher education. isbn 0897748050
Nicholas Lemann (1999). The big test. The secret history of the American meritocracy. Farrar, Strauss and Giroux. isbn 0374299846
De geschiedenis van Educational Testing Service in Princeton, mede gebaseerd op de archieven van ETS zelf. Nicholas Lemann interview op de html 'secrets of the SAT.'
Henk van Berkel (1999). Zicht op toetsen. Toetsconstructie in het hoger onderwijs. Van Gorcum. isbn 9023234642
Dylan Wiliam (3 September 2015). On formative assessment.
youtube 13:25 minutes Here Dylan Wiliam emphasizes teacher work quality; flipside: students learn more, are more attentive, in this formative approach. The interview ends on the small ‘difference’ made by schools/teachers. Do not forget, though, the absolute level: take teachers out of school and results then will drop to near nothing. Flipside: there is unexpected room for better results. This is a clear exposition, in a few minutes, of some strong points of formative questioning in class. Must see.
P. van Duyvendijk, Joh. Janssen en L. van der Zweep (1934). Het pedagogisch opstel. Leidraad bij 't maken van pedagogische opstellen voor hoofdakte-candidaten en de hoogste klassen der kweekschool. Purmerend: J. Muusses.
Bevat door zijn vele onderwerpenschma’s feitelijk een overzicht van het pedagogisch-didaktisch denken begin dertiger jaren in Nederland.
Ton Luijten (1993). Het Cito tussen Schiermonnikoog en Maastricht. Ton Luijten in gesprek met A. D. de Groot en Wynand Wijnen over 25 jaar Cito en andere zaken. Cito. geen isbn, geen pdf op de website van het Cito. blz. 12, De Groot blz. 12, De Groot
TL Was de Amsterdamse Schooltoets niet de voorloper van wat later de Citotoets aan het einde van het basisonderwijs is geworden?
Allerlei weerstanden moesten overwonnen worden. Het Amsterdamse schoolparlement bijvoorbeeld was faliekant tegen: ‘hef kind in de computer’, je kent die kreten wel, ze worden nog steeds geslaakt. Onder pedagogen was weinig waardering te vinden. Selectie lag ook politiek niet lekker. Hoe dan ook: met de steun van ldenburg kwamen we toch een heel eind. We hadden goede argumenten, daar lag het niet dan. Uiteindelijk slaagden we. In ellenlange vergaderingen konden de belangrijkste bezwaren worden weggenomen. Prachtige vergaderingen konden de belangrijkste bezwaren worden weggenomen. Prachtige vergaderingen, je zou daarvan nu nog eens de verslagen moeten lezen.
In die periode was ook Ko van Calcar bij ons gekomen. Die was in Amsterdamse kringen onverdacht links van signatuur en hij betekende een goede steun voor ons. Hij maakte dan wel niet op onze manier reclame voor de nieuwe ontwikkeling, maar toch. Uiteindelijk wilde het Amsterdamse schoolparlement dan wel meewerken, zij het onder protest. blz. 14, De Groot
TL De Amsterdamse schooltoets was in feite nog steeds een regionaal gebeuren. Hoe kwam het
Cilo uiteindelijk in beeld?
Op een ander niveau was het ontstaan van SVO belangrijk. Dat was voornamelijk ldenburgs werk, en daarin heb ik hèm gesteund. Onder meer als lid van een soort lobby-groep bij O. en W., bestaande uit vijf hoogleraren. Toen SVO er eenmaal was - ldenburg werd voorzitter, ik medebestuurslid - werd al vrij snel de oprichting van het Cito aangepakt. Op dat moment kon ik dat oude verhaal uit 1958 weer tevoorschijn halen, het acroniem CITO stond er al in!
In die jaren kon er veel. Het onderwijs was in beweging, de Mammoetwet werd van kracht en er was plotseling ook politieke steun voor de oprichting van het Cito. Bij de politiek moet je het juiste moment afwachten om zoiets van de grond te krijgen.
Wat de Amsterdamse schooltoets betreft: die kon meteen worden overgenomen. En dat moest ook. Het RITP was een instituut voor onderwijsresearch en voor ons was toetsontwikkeling in de eerste plaats een hulpmiddel. Bovendien waren wij niet toegerust om het blijvend en grootschalig - landelijk - aan te pakken. Zo'n taak hoort ook niet bij een universiteit. Daar kwam nog bij het verschijnen van 'Vijven en Zessen' in 1966. Het samenvallen van gunstige factoren was voor een deel het gevolg van onze strategie. Voor een ander deel - zoals altijd - van een dosis geluk, met name wat het politieke klimaat betreft. blz. 14-15, De Groot
TL Er klinkt enthousiasme door in zijn uitspraken. Het is daarom met enige terughoudendheid dat ik hem vraag of zijn gevoelens louter positief zijn.
De aarzeling om verschillende prestatieniveaus te erkennen leeft nog steeds: in de basisvorming, maar ook in het hoger onderwijs, WO versus HBO is er een voorbeeld van. Ook de neiging het onderwijs de schuld te geven als blijkt dat grote aantallen leerlingen heel ‘eenvoudige’ dingen niet geleerd hebben, komt uit die droom voort. Het Cito, dat tenslotte de hele dag bezig is met het differentiëren tussen prestaties van leerlingen, ook in predictieve zin, had daar best wat meer tegengas kunnen geven. Bijvoorbeeld alleen al door meer concrete informatie te verstrekken - op itemniveau dus - over hoe moeilijk een aantal ‘eenvoudige’ dingen blijkt te zijn. Leraren uit het voortgezet onderwijs, van VBO tot en met Gymnasium, weten dat, maar politici nog steeds niet, vrees ik.
Wat ik ook jammer vind - en dat hangt met het voorgaande samen - is dat het Cito zelf zich zo weinig met doelstellingenonderzoek heeft beziggehouden. In de discussie over en in die rare ontwikkeling van de basisvorming heb ik de stem van het Cito niet gehoord. Vanuit jullie expertise in differentiatie en in vragen naar de haalbaarheid van doelstellingen had toch iets verstandigs, iets waarschuwends gezegd kunnen worden? Bijvoorbeeld over de aanvankelijk beloofde ‘algehele verhoging van het peil van het jeugdonderwijs’ en over de nadruk op het midden van de ‘leervermogen-verdeling’ die in de opzet besloten ligt, zonder veel aandacht voor de ‘top-10%’ en de ‘bottom-20%’.
blz. 16, De Groot
Samenwerkende Instituten (1967). Amsterdamse schooltoetsen. Verslag van het eerste onderzoek 'L.O.-Schooltoets Amsterdam, 1966'. Groningen; Wolters.
D. J. Bos (1973). De Amsterdamse schooltoets en de differentiatie van brugklasleerlingen. Pedagogische Studiën, 50, 62-69. online
Gertrude N. Smit (1995). De beoordeling van professionele gespreksvaardigheden. Constructie en evaluatie van rollenspel, video- en schriftelijke toetsen. Baarn: Nelissen. Proefschrift RU Groningen. 195 blz. (promotoren o.a. Hofstee) (ingevoegd: Gertrude Smit (1994). De beoordeling van professionele gespreksvaardigheden. De Psycholoog, 266-269. "Trainingen in gespreksvaardigheden maken bij tal van opleidingen deel uit van het curriculum. Toetsen om na te gaan of studenten na afloop van de training in staat zijn de geleerde gespreksvaardigheden adequaat toe te passen zijn vaak niet voorhanden. In dit artikel wordt de constructie van een mogelijke toetsvorm besproken: de rollenspeltoets. Ook wordt verslag gedaan van een eerste onderzoek naar de betrouwbaarheid en begripsvaliditeit van deze toets.") Wat mij verbaast: ik zie geen discussie over de vraag of toetsen wel verstandig is. Het gaat tenslotte om een practicum-activiteit, mag ik aannemen (boekenwijsheid toetsen lijkt hier toch wel buiten de orde, of vergis ik me daarin?). De docenten voor dit vak gespreksvaadigheid moeten on the fly knnen beoordelen waar de student nog aan moet werken. Waarom zou dat niet voldoende zijn? Kortom: ik mis een uiteenzetting met de opvatting van A.D. de Groot over P- en H-onderdelen (uit mijn hoofd: dat staat in zijn Selektie vor en in het hoger onderwijs, 1972. Dat is inderdaadniet genoemd in de literatuurlijst van Smt). Het verbaast ook hierom: promotor Wim Hofstee staat niet bekend als voorvechter van onnodig toetsen. Maar nut en noodzaak zijn in dit proefschrift geen onderwerp van discussie/onderzoek.
William D. Hedges (1966). Testing and evaluation for the sciences in the secondary school. Wadsworth. lccc66-13465
W. H. F. W. Wijnen (1972). Onder of boven de maat; een methode voor het bepalen van de grens voldoende onvoldoende bij studietoetsen. Amsterdam: Swets & Zeitlinger.
A. D. Groot (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: J. B. Wolters. blz. 149
Charles Tilly (2006). Why? What happens when people give reasons . . . and why. Princeton University Press. isbn 9780691125213 info
Daniel Starch (1916). Educational measurements. New York: Macmillan.
https://archive.org/details/educationalmeas01stargoog Grappig boek, bevat veel opgaven, weinig tekst. De diverse hoofdstukken gaan over het meten van abilities (!), van schrijven, spellen, rekenen, latijn, duits, natuurkunde etc. Overlap van abilities tussen klassen (p. 41)
Banesh Hoffmann (1962/78). The tyranny of testing. Crowell-Collier. Reprint 1978. Westport, Connecticut: Greenwood Press. isbn 0313200971
kind of a review? Obituary http://www.nytimes.com/1986/08/06/obituaries/banesh-hoffmann-an-author-and-collaborator-of-einstein.html
A. R. Gilliland, R. H. Jordan & Frank S. Freeman (1931 2nd). Educational measurements and the class-room teacher. The Century Co. archive.org online
Charles W. Odell (1927). Educational tests for use in high schools, second revision. University of Illinois Bulletin, 24 No. 33.
pdf
Cor Sluijter (1998). Toetsen en beslissen: Toetsing bij doorstroombeslissingen in het voortgezet onderwijs. Proefschrift Universiteit van Amsterdam. pdf
G. M. Ruch (1924). The improvement of the written examination. New York: Scott, Foresman and Company.
[not online]
Functions of written examinations 1-12 The criteria of a good examination 13-39 Sources of error in written examinations 40-64 Types and construction of the newer objective examinations 65-105 Experimental sudies of several types of objective examinations 106-130 Statistical considerations related to examination technique 131-148 appendices 154-190
W. K. B. Hofstee (1971). Begripsvalidatie van studietoetsen: een aanbeveling. Nederlands Tijdschrift voor de Psychologie, 26, 491-500.
D. N. M. de Gruijter (1971). Het handhaven van normen bij studietoetsen door toetsvergelijking. Nederlands Tijdschrift voor de Psychologie, 26, 480-490.
Wat halen we ons toch een hoop gedoe op de hals door net te doen alsof studietoetsen psychologische tests zijn. Een goede studietoets gaat immers over de kern van de stof, een kern die de studenten uiteraard horen beheersen. Het handhaven van normen is hier helemaal niet aan de orde!
R. F. van Naerssen (1968). Het bepalen van de caesuur voldoende/onvoldoende. Memorandum AET-245. stencil in bak ex ces
R. F. van Naerssen (1968). Waarom de kernitemmethode faalt en hoe deze verbeterd kan worden. AET memorandum 253. Stencil in bak ex ces.
Tegenkracht organiseren. Lessen uit de kredietcrisis. RMO.
pdf Over de Cito-Eindtoets-Basisonderwijs, over de rekenmethode Wizwijs, zie blz. 28 e.v. p. 30-31
Hambleton & Powell (1981). Standards for standard setters. paper AERA. [I have dumped my hardcopy; is of no use for me]
Hambleton, R. K., Swaminathan, H., Algina, J. & Coulson, D.B. Criterion referenced testing and measurement: a review of technical issues and developments. RER 1978, 48, 147.
Category mistake: thinking in terms of ckassification, while there are no classes (other than being artificially so defined).
Wim J. van der Linden (1980). Psychometric contributions to the analysis of criterion-referenced measurements. Doctoral dissertation, University of Amsterdam. (promotor: Don Mellenbergh)
Repeats the important misconceptions regarding utility functions, and classification as a model. The category mistake is that testees would belong to different categories—they do not. They get sorted into different categories (treatments), something different altogether. The category mistake does not help to identify the misconception regarding utility functions: not distinguishing between utility functions proper, and expected utility functions; see, f.e., chapter 7 or Psychometrika p. 261 “For the purpose of this paper, it is sufficiently general to consider the utility U as a function of the criterion Y, which is allowed to assume a different shape for each treatment.”. On the goal variable Y there can be, of course, only ONE utility function. Trying to specify treatment-dependent utility functions is messing up the one utility function on the goal variable with fuzzy costs or utilities really belonging to other goal variables. Van der Linden and any researchers with hem have not been able to se that they artificually and cruelly are reducing problems with multiple goal variables (treated extensively by Keeney and Raiffa, 1976) to problems with only one goal variable. Unbelievable. Didn‘t I explain the problem to Van der Linden and Mellenbergh, then? Sure, I did, in discussing my own 1980 papers in the working group headed by Van der Linden.
Robert Rothman (1995). Measuring up. Standards, assessment, and school reform. Jossey Bass. isbn 0787900559 Gaat over authentic measurement experiments. De Amerikanen zijn natuurlijk bezeten door hun achterstand op de rest van de wereld, dus authentiek toetsen wordt gezien als een middel om internationaal weer mee te gaan tellen. Een journalistiek boek, geeft een overzicht over ontwikkelingen in het laatste decennium.
Dato N. M. de Guijter (1982). Tentamineren en beslissen. Tentamens met goed of fout gecodeerde itemantwoorden; een cijfermatige analyse. SVO Reeks 63. Het was destijds zoeken naar een goede vorm/inhoud.
DOZ (1991). Toetsen en beoordelen. Culemborg: PHAEDON. isbn 9072456351
C. P. M. van der Vleuten (1989). Naar een rationeel systeem voor toetsing van studieprestaties in probleemgestuurd medisch onderwijs. Studies naar betrouwbaarheid en validiteit van toetsen voor praktische vaardigheden. Amsterdam: Thesis. proefschrift, isbn 9051700229 Bundeling van (aangeboden) artikelen . In Het eerste artikel begint met etaleren van de intellectuele armoede van Problem Based Learning PBL, en al helemaal waar het evaluatie van PBL betreft. Dat verhindert auteurs om het abstract te beginnen met gejubel: “Problem-based learning is now ackowledged to be a succesful educational method, and it has been adopted in many institutions in higher education. ” Wijzen op groei van de groep volgers van een onderwijsideologie bewijst natuurlijk niet dat deze ideologie ook levert wat zij belooft. ‘Erkennen van succes’ is een wonderlijke denkwijze, zeker van iemand als Wijnand Wijnen; succes moet blijken, en daarvoor is gewoon goed onderzoek nodig is. Dat is er anno 1989 niet, zoals de auteurs wel degelijk melden.
George Moerkerke (1996). Assessment for flexible learning. Performance assessment, prior knowledge state assessment and progress assessment as new tools. Proefschrift Open Universiteit. [promotoren: de Wolf & Wijnen; co-promotor: Dochy; commissieleden: De Corte, Van der Molen, Plomp] Chapter 4, on ill-structured problems. A disappointing study, from my (1983) pespective. Moerkerke does not use the line of thinking of Nwell & Simon.
Huub van den Bergh (1988), Examens geëxamineerd. 's-Gravenhage: SVO Selecta. isbn 9064721394 Gaat dus over toetsen van tekstbegrip en schrijven.
Harold Berlak, Fred M. Newman, Elizabeth Adams, Doug A. Archbald, Tyrrell Burgess, John Raven and Thomas A. Romberg (1992). Toward a new science of educational testing and assessment. Albany: NY: SUNY. isbn 0791408787 [Niet in UB Leiden]
info Alternatievelingen.
H. Wesdorp (1974). Het meten van de produktief-schriftelijke taalvaardigheid. Directe en indirecte methoden: 'opstelbeoordeling' versus 'schrijfvaardigheidstoetsen' Muusses. isbn 9023171012
W. K. B. Hofstee (1983). Selectie: begrip. theorie, procedures en ethiek. Aula 736. isbn 9027455082
Ph. Hartog and E. C. Rhodes (1936). An examination of examinations. Being a Summary of Investigations on the Comparison of Marks allotted to Examination Scripts by Independent Examiners and Boards of Examiners, together with a Section on a Viva Voce Examination. International Institute Examinations Enquiry. London: MacMillan. online: https://dspace.gipe.ac.in/xmlui/bitstream/handle/10973/32779/GIPE-058037.pdf?sequence=3
Ph. Hartog and E. C. Rhodes (1936). The marks of examiners being a comparison of marks allotted to examination scripts by independent examiners & boards of examiners. London.
Kenneth J. Arrow (1951/1963). Social choice and individual values. Yale University Press. isbn 0300013647
C-A. Staël von Holstein (Ed.) (1974). The concept of probability in psychological experiments. Reidel. isbn 9022705232
Robert Schlaifer (1959). Probability and statistics for business decisions. New York: McGraw-Hill.
Amartya Sen (Ed.) (1982/1997). Choice, welfare and measurement. Harvard University Press. isbn 0674127781
Irving LaValle (1978). Fundamentals of decision analysis. Holt, Rinehart and Winston. isbn 0030854083 Extensive form analysis. Fundamental approach.
Jack Hirshleifer & John G. Riley (1992). The analytics of uncertainty and information. Cambridge University Press. isbn 0521283698
R. Duncan Luce and Howard Raiffa (1957). Games and decisions. Introduction and critical survey. A study of the Behavioral Models project, Bureau of Applied Social Research, Columbia University. Wiley. Utility theory; Extensive and normal forms; etc.
Maynard W. Shelly II & Glenn L. Bryan (Eds) (1964). Human judgments and optimality. Wiley. Much on utility and utility functions, optimality. Lord schrijft iets aardigs over beslissen (eigenlijk veel en veel beter dan wat Wim van der Linden twintig jaar later nog eens zou schrijven over soorten beslissingsproblemen); een leuk stuk van Suppes over hoe je een lijst te leren woorden optimaal in leerblokken verdeelt, dat is een leuk paradigma voor mastery learning, en heeft mij op het idee gebracht dat niet alleen het niveau van mastery dat je voor deeltoetsen eist een variabele in deze filosofie is, maar ook de grootte van het deel dat je zo toetst.
Howard Wainer, Neil J. Dorans & Ronald Flaugher (2000). Computerized adaptive testing: A primer MIT. [eBook KB]
Cees A. W. Glas (2000). Computerized adaptive testing: Theory and practice. Kluwer. [eBook KB]
Wim J. van der Linden & Cees A. W. Glas (2010). Elements of adaptive testing. Springer. [eBook KB]previews
Duanli Yan, Alina A. von Davier & Charles Lewis (2014). Computerized multistage testing: Theory and applications. CRC Press. [eBook KB]
Robert H. Ennis (1969). Logic in teaching. Prentice Hall. lccc number 69-17479
Logic is what constrains the teacher in judging students (work of). On the one hand, the teacher should be held accountable on using correct arguments; on the other hand, there is the danger that students might be held accountable for arguing logically correct even where the tested subject is not logic at all (as most of the times or always will be the case). How is this demarcation to make? Studnets should not be forced to argue logically in work that is not logic itself. Test for knowledge, not for logic. Therefore, this book by Ennis might be quite useful to demarcate logic from knowledge, for example in desinging achievement test items and what will count as satisfactory answers.
Paul Black (2014). Assessment and the aims of the curriculum: An explorer’s journey. Prospects: quarterly review of comparative education.
abstract
Cito (mei 2015). Verschillende vormen van afname van de rekentoets. Eindrapportage. pdf Dit Cito-rapport is een ambtelijk (want anoniem) stuk, een slecht voorteken.
Wat moeten we hier nu van denken? Een anoniem Cito-rapport over een kwestie waarin het Cito zelf bepaald niet een belangeloze partij is (grote investeringen in digitale afname eindexamens). Slager keurt eigen vlees. Ik ga even aan de tekst voorbij, omdat er een onderliggende literatuurstudie is die mij van groter belang lijkt
blz. 4
Cito (mei 2015). Prestaties op papieren en digitale examens: wat is het verschil? Verslag van een literatuurstudie. Eindrapportage.
pdf Zelf even googelen (ook op Scholar) op digital or paper tests levert interessant materiaal op; de vraag is of dit anonieme Cito-rapport een goede keuze ui de literatuur heeft gemaakt. Ik zal daar later nog op terugkomen, als daar aanleiding voor is. Voordat ik deze literatuurstudie bekijk alvast mijn eigen overwegingen: (1) Even uit mijn hoofd: de richtlijn (Standards APA/NCME/AERA) is dat aanbieder moet aantonen dat zijn digitale test gelijkwaardig is aan papieren versie. Het eerste probleem is namelijk dat de digitale omgeving onvermijdelijk extra belastend is voor leerlingen, zeker bij toetsen. Belastend in de zin dat het capaciteit vergt van het korte-termijn-geheugen (KTG), capaciteit die leerlingen juist hard nodig hebben voor het rekenwerk. Dit probleem wordt vaak verergerd door stompzinnig ontwerp van zowel interface als opgaven, zoals wel heel erg evident het geval is bij de rekentoets van het CvTE. Specifiek voor rekenen zijn er bij digitaliseren orse problemen te verwachten, omdat de digitale omgeving zich slecht verhoudt tot het rekenwerk dat nu eenmaal bij rekenopgaven moet worden gedaan (op klad, of of meteen in het toetsboekje). Voorbeelden hoe dit fout kan zijn zijn in de VS te bij rekentoetsen in het Common Core State Standards programma. Dat is horror, dat wil je niet weten. Zowel digitaal als papier. Sommige problemen zijn niet eens zichtbaar, omdat er onderwerpen uit de toets worden weggelaten. De rekentoets toetst geen algoritmische vaardigheden, en trouwens evenmin geautomatiseerde basiskennis (Rekentuin kan dat laatste wel, geloof ik). Onderzoek van digitaal versus papier loopt het risico dat het ver weg raakt van waar de toets eigenlijk voor bedoeld is. Ouder maar verwant vraagstuk is of meerkeuze- en open-eindvragen wel hetzelfde toetsen. Uitgebreide onderzoekliteratuur hier. De literatuurstudie over verschillen digitaal-papier zelf dan maar. Ook dit stuk is ambtelijk/anoniem, m.a.w. er is geen Cito-wetenschapper die de studie voor persoonlijke rekening neemt. Ik begin niet bij de tekst, maar bij de literatuurlijst. Abels e.a. Basishandleiding DWO, Van: Freudenthal Instituut pdf Deze Handleiding is handleiding bij de software. Kennelijk is dit een voorbeeld van een digitale omgeving.Geen verantwoording. AERA etc. Standards. Absoluut essentieel. Nadruk: psy. tests, toetsen bungelt erbij. 2014 edition open access Meer: webpagina h Ashton e.a. abstract: Over partial credit (puntje van Bosker). zelf-promotie. paywalled pdf Béguin & Wools (Cito medew) art in boek, als eBook in KB te leen. Technisch. Afijn, kijk even: preview Benjamin et al. Over veranderen van je antwoord bij keuzetests. Schijnt een issue te zijn?paywalled [Het is leuk om dit te onderzoeken, maar het practisch belang ervan lijkt me nihil: voor specifieke testsituaties zou je zoiets helemaal opnieuw moeten onderzoeken, onbegonnen werk. Bennett et al, rekentoetsen! Lijkt me belangrijke publicatie free access. Kijk even naar het abstract. Ik kom later nog terug op dit artikel van Bennett c.s. (o.a. de verwijzingen erin), ga nu even verder met de literatuurlijst. Bergstrom & Lunz gaat over adaptief testen, dat is een ander onderwerp. NB: Het nut van adaptief testen is omstreden. Braswell & Bridgeman. Irrelevant, lijkt me. Interessant: berekeningen in klad (vgl. v Putten over PPON 2004, analyses op het kladwerk van de leerlingen)free Bunderson, C.V., Inouye, D.K., & Olsen, J.B. (1989). The four generations of computerized educational measurement. In R.L. Linn (Ed.), Educational measurement, Third Edition (pp. 367-407). London: Collier Macmillan. ea. Technisch, interessant. Tekst van deze pdf ws gelijk, zo te zien, aan de (beter leesbare) in het boek. pdf Cito (2015a). Resultaten vragenlijst Rekentoets VO 3-2015. Waar vind ik dat rapport? Aan Cito gevraagd. Ik vraag het nog een keer. pdf Cito antwoordenanalyse rekentoets ophalen: Meeste vragen zijn open eind, zie vooral ook de bijlage.ophalen Csapó ea p. 120 ev in een boek met een omineuze titel, wat goed aangeeft waar we mee hebben te maken. In Friedrich Scheuermann & Julius Björnsson: The transition to computer-based assessment. New approaches to skills assessment and implications for large-scale testing. pdf hele boek. In dit boek veel meer bijdragen op het thema digitaal versus papier. [Dit boek van Scheuermann & Björnsson kende ik nog niet, heel nuttig! Wel een iets eerder boek: zie hierboven ] College voor Examens (2014). Tussenrapportage centraal ontwikkelde examens mbo en Rekentoets VO, 2013-2014. Utrecht: College voor Examens. pdf Nuttig, maar niet direct voor digitaal vs papier, het is achtergrondinformatie. College voor Toetsen en Examens (2014). Rapportage referentiesets taal (lezen) en rekenen. Utrecht: CvTE. ophalen. Fantastisch, al die rapporten die niet eerder heb gezien! Commissie Bosker (2014). Advies over de uitwerking van de referentieniveaus 2F en 3F voor rekenen in toetsen en examens. Enschede: SLO. ophalen. De Cie die op stoel bewindslieden ging zitten (vooral doorgaan met die rekentoets). Darrah, M., Fuller, E., & Miller, D. (2010). A comparative study of partial credit assessment and computer-based testing for mathematics. Journal of Computers in Mathematics and Science Teaching, 29, 4, 373-398. paywalled. Het partial credit probleem. Wiskunde op college-niveau. Vergeet het. Dillon, A. (1992). Reading from paper versus screens: A critical review of the empirical literature. Ergonomics, 35, 1297-1326. pdf. Heel nuttig lijkt me, ook al is het van 1992 Dimock, P.H., & Cormier, P. (1991). The effects of format differences and computer experience on performance and anxiety on a computer-administered test. Measurement & Evaluation in Counseling & Development, 24, 119-126. research,net. Over toetsangst. Is dit van belang? vergeet het. Eaves, R. C., & Smith, E. (1986). The effect of media and amount of microcomputer experience on examination scores. Journal of Experimental Education, 55, 23-26. pdf een onderzoekje uit 1986. Sla het gerust over. paywalled. Evers, A., Lucassen, W., Meijer, R., & Sijtsma, K. (2009). COTAN beoordelingssysteem voor de kwaliteit van tests (geheel herziene versie). Amsterdam: Faculteit der Maatschappij- en Gedragswetenschappen. pdf. Vooral eens doorbladeren! Interessante oefening: de digitale rekentoets langs de beoordelingscriteria en puntenlijstjes van de COTAN leggen. Tijdrovend, maar zie cito_voorbeeldtoets_3F.htm de rekentoetsvragen gefileerd. Fiddes, D.J., Korabinski, A.A., McGuire, G.R., Youngson, M.A., & McMillan, D. (2002). Does the mode of delivery affect mathematics examination results? Alt-J, 10, 1, 60-69. pdf Raar onderzoek, weinig ppn. Gallagher, A., Bridgeman, B., & Calahan, C. (2000). The effect of computer-based tests on racial/ethnic, gender and language groups (RR-00-8). Princeton, NJ: Educational Testing Service. ophalen. effect digitaal testen voor subgroepen (bias, scheefheid). Ja, er zijn verschillen. Gaskill, J., & Marshall, M. (2006). Deze publicatie is online onvindbaar. Green, B.F., Bock, R.D., Humphreys, L.G., Linn, R.L, & Reckase, M.D. (1984). Technical guidelines for assessing computerized adaptive tests. Journal of Educational Measurement, 21, 347-359. Technisch, lijkt me niet direct relevant (adaptief toetsen). Paywalled. preview
Uit de verdere literatuuropgaven zijn niet direct relevant lijkende verwijzingen weggelaten
Greaud, V., & Green, B. F. (1986). Equivalence of conventional and computer presentation of speed tests. Applied Psychological Measurement, 10, 23–34. abstract and download Dit gaat over testen op snelheid en nauwkeurigheid, voor onderwijs niet direct relevant. Van de Ven deed eerder al onderzoek naar.
Hargreaves, M., Shorrocks-Taylor, D., Swinnerton, B., Tait, K., & Threlfall, J. (2004). Computer or paper? That is the question: Does the medium in which assessment questions are presented affect children’s performance in mathematics? Educational Research, 46, 29-42 paywalled. Ik vermoed dat dit een onderzoekje met weinig leerlingen is. Vergeet het. Bijvangst op Google: Noyes & Garland (2008). Computer- vs. paper-based tasks: Are they equivalent? Ergonomics, 51, 1352-1375. pdf “.... reviews the literature over the last 15 years and contrasts the results of these more recent studies with Dillon's findings. It is concluded that total equivalence is not possible to achieve, ... ”
International Test Commission (2001). International guidelines for test use. International Journal of Testing, 1, 93–114.
International Test Commission (2006). International guidelines on computer-based and Internet delivered testing. International Journal of Testing, 6, 143–172. published guidelines
Johnson, M., & Green, S. (2006). On-line mathematics assessment: The impact of mode on performance and question answering strategies. Journal of Technology, Learning, and Assessment, 4, 5, 1-34. get pdf “In this project 104 eleven-year-olds . . . . ”
Johnson, D.E., & Mihal, W.L. (1973). Performance of blacks and whites in computerized versus manual testing environments. American Psychologist, 28, 8, 694–699. abstract Onderzoekje van niks, met 20 proefpersonen. Vergeet het. Bijvangs op Google: Michael Russell a.o. (2003). Computer-based testing and validity: A look back and into the future. Dit is een literatuuroverzichtje, signaleert grote verschillen digitaal-papier in relatie tot wat leerlingen in het onderwijs zelf gewend zijn: digitaal of op papier werken. Nadruk ligt hier op schrijven. En op high stakes tests. www.intasc.org online
Keng, L., McClarty, K.L., & Davis, L.L. (2008). Item-level comparative analysis of online and paper administrations of the Texas assessment of knowledge and skills. Applied Measurement in Education, 21, 3, 207-226. abstract
Kim, J. (1999, October). Meta-analysis of equivalence of computerized and P&P tests on ability measures. Paper presented at the annual meeting of the Midwestern Educational Research Association, Chicago. full text Het abstract is abacadabra, kennelijk is het paper een methodologische oefening, en dat blijkt ook bij doornemen ervan. Afijn, de uitgebreide literatuurlijst kan informatief zijn
Kingston (2009). Comparability of computer- and paper-administered multiple-choice tests for K-12 populations: A synthesis. Applied Measurement in Education, 22, 22-37. abstract
Kolen, M.J. (1999-2000). Threats to score comparability with applications to performance assessments and computerized adaptive tests. Educational Assessment 6, 73-96. abstract paywalled. Ik vind geen online versie.
Lee, J. (1986). The effects of past computer experience on computer aptitude test performance. Educational and Psychological Measurement, 46, 727–733. Een paper van Lee en anderen 1984: The Effects of Mode of Test Administration on Test Performance. txt Bijvangst via Google: Carol Taylor, Joan Jamieson, Daniel Eignor and Irwin Kirsch (1998). The relationship between computer familiarity and performance on comuter-based TOEFL Test tasks. ETS Research Report Series. free access Hier hetzelfde probleem als bij het Cito-rapport: ETS heeft geen belang bij het vinden van verschillen digitaal-papier.
Lee, J.A., Moreno, K.E, & Sympson, J.B. (1986). The effects of test administration on test performance. Educational and Psychological Measurement, 46, 2, 467-474. Titel moet zijn: The Effects of Mode of Test Administration on Test Performance. abstract
Leeson, H.V. (2006). The mode effect: A literature review of human and technological issues in computerized testing. International Journal of Testing, 6, 1, 1-24. abstract. Een beschouwing over mogelijke redenen voor typisch gevonden verschillen.
Mason, B.J., Patry, M., & Bernstein, D.J. (2001). An examination of the equivalence between non-adaptive computer-based and traditional testing. Journal of Educational Computing Research, 24, 1, 29-39. abstract Over 27 psychologiestudenten. Vergeet het.
Mazzeo, J., & Harvey, A. L. (1988). The equivalence of scores from automated and conventional educational and psychological tests: A review of the literature (College Board Rep. No. 88-8, ETS RR No. 88-21). Princeton, NJ: Educational Testing Service. pdf Uit een ander tijdperk. Onderzoek met psychologische tests vooral. Laatste zin: "Despite the tentative nature of our conclusions, it is clear that test publishers need to perform separate equating and/or norming studies when computer-administered versions of standardized tests are introduced."
Mueller, D.J., & Wasser, V. (1977). Implications of changing answers on objective test items. Journal of Educational Measurement, 14, 1, 9–14. abstract Een overzicht van een halve eeuw onderzoek.
Pass-it (2002). Good practice guide in question and test design. Luton: CAA Centre. pdf. Schotland. Soort korte handleiding ontwerpen toetsvragen. Het lijkt me een oppervlakkig stuk (niet gerelateerd aan relevant onderzoek, zonder bronnen dus, behalve voor de voorbeeldvragen)
Passmore, T., Brookshaw, L, & Butler, H. (2011). A flexible, extensible online testing system for mathematics. Australasian Journal of Educational Technology, 27, 6, 896-906. open access Interessant, maar niet een vergelijkend onderzoek digitaal-papier.
Pearson (2009). Computer-based & paper-pencil test comparability studies. Test, Measurement & Research Services Bulletin, 9. Related, evenaans van Pearson: research.net. Vindt geen enkel probleem met computer vs papier, zoals te verwachten van een firma die het van computerafnames denkt te moeten hebben
Poggio, J., Glasnapp, D. R., Yang, X., & Poggio, A. J. (2005). A comparative evaluation of score results from computerized and paper and pencil mathematics testing in a large scale state assessment program. Journal of Technology, Learning, and Assessment 3, 6. Beschikbaar via http://www.jtla.org free access Het gaat om grade 7 students, 13-jarigen zeg maar. Vindt nauwelijks verschillen digitaal-papier.
Pommerich, M. (2004). Developing computerized versions of paper-and-pencil tests: Mode effects for passage-based tests. Journal of Technology, Learning, and Assessment 2, 6, 1-45. open access
Sandene, B., Horkay, N., Bennett, R., Allen, N., Braswell, J., Kaplan, B., & Oranje, A. (2005). Online assessment in mathematics and writing: Reports from the NAEP technology-based assessment project (NCES 2005-457). Washington, DC: Department of Education, National Center for Education Statistics. download here
Scheltens, F., Hickendorff, Eggen, Th. & Hiddink, L. (2014). Hoofdrekenen met papier - hoe zit dat met leerlingen die scoreenen? Reken-wiskundeonderwijs: onderzoek, ontwikkeling, praktijk, 33, 128-140. pdf Dit is leerzaam: kinderen kunnen nogal verschillende strategieën gebruiken bij het hoofdrekenen in de Eindtoets of de PPON. Dan wordt het dus ingewikkeld om papieren en digitale versies vergelijkbaar te krijgen.
Scheltinga, F., Keuning, J., & Kuhlemeier, H. (2014). Gericht werken aan opbrengsten in taal- en leesonderwijs: Een systematische review naar toetsvormen. Cito/Expertisecentrum Nederlands: Arnhem/Nijmegen. pdf
Spray, J.A., Ackerman, T.A., Reckase, M.D., & Carlson, J.E. (1989). Effect of the medium of item presentation on examinee performance and item characteristics. Journal of Educational Measurement, 26, 261–271. preview
Threfall, J., Pool, P., Homer, M., & Swinnerton, B. (2007). Implicit aspects of paper and pencil mathematics assessment that come to light through the use of the computer. Educational Studies in Mathematics, 66, 335-348. preview
Traub, R. (1993). On the equivalence of the traits assessed by multiple-choice and constructed-response tests. In Bennett, R., & Ward, W. (eds.). Construction versus choice in cognitive measurement (pp. 29-44). Hillsdale, NJ: Lawrence Erlbaum Associates. preview of the book
Wim van den Broeck (22 januari 2016). Examens op maat? Het kan anders. web
Benjamin Herald (Feb 3, 2016). PARCC Scores Lower for Students Who Took Exams on Computers. Education Weekwed
Roediger, H. L., Putnam, A. L., & Smith, M. A. (2011). Ten benefits of testing and their applications to educational practice. In J. Mestre & B. Ross (Eds.), Psychology of Learning and Motivation: Cognition in Education (pp. 1-36). Oxford: Elsevier. pdf
Ch. E. Harris, M. C. Alkin & W. J. Popham (Eds). Problems in criterion referenced measurement. Los Angeles: Center for the study of evaluation, University of California.
Common Core State Standards Assessments in California: Concerns and Recommendations . CARE-ED Research Brief #1: CCSS Assessments
pdf See also https://www.washingtonpost.com/news/answer-sheet/wp/2016/03/16/education-researchers-blast-common-core-standards-urge-ban-on-high-stakes-tests/?postshare=5421458247970952&tid=ss_tw-bottom
Elizabeth Ligon Bjork, Nicholas C. Soderstrom & Jeri L. Little (2015). Can multiple-choice testing induce desirable difficulties? Evidence from the laboratory and the classroom. American Journal of Psychology, 128, 229-239. [researchgate.net] preview
Cormac O’Keeffe (2016). Producing data through e-assessment: A trace ethnographic investigation into e-assessment event. European Educational Research Journal, 15, 99-116 [researchgate.net] [academia.edu] (via Ben Williamson) abstract
Backwards Assessment Explanations: Implications for Teaching and Assessment Practice. D. Royce Sadler (2015) In D. Lebler et al. (eds.), Assessment in Music Education: from Policy to Practice, Landscapes: the Arts, Aesthetics, and Education 16, DOI 10.1007/978-3-319-10274-0_2 This chapter is based on a Keynote Address to the Assessment in Music Conference held at the
Queensland Conservatorium, Griffith University, Brisbane on Tuesday 16 July 2013.pdf
Don Klinger (). Monitoring, accountability, and improvement, oh no! Assessment policies and practices in Canadian education. In book: Assessment in Education: Implications for Leadership, Chapter: 3, Publisher: Springer, Editors: Shelleyann Scott, Donal E. Scott, Charles F. Webber, pp.53-65 preview
David Carless (2015). Excellence in University Assessment: Learning from award-winning practice. info [eBook in KB]
T. Groenendijk, M. Damen, Folkert Haanstra & C. van Boxtel 2016). Beoordelingsinstrumenten in de kunstvakken - een review. Pedagogische studien, 93 62-82.
K. D. J. M. van der Drift en P. Vos (1987). Anatomie van een leeromgeving. Een onderwijseconomische analyse van universitair onderwijs. Lisse: Swets en Zeitlinger. Proefschrift Rijksuniversiteit Leiden. stellingen, 290 pp., naam op schutblad, overigens bladzijden schoon en strak-->
Gordon Joughin (2010). The hidden curriculum revisited: a critical review of research into the influence of summative assessment on learning. Assessment & Evaluation in Higher Education Vol. 35, No. 3, May 2010, 335–345.
pdf
Werkboek veilig toetsen. Hulpmiddel om het toetsproces veilig in te richten. SURF.pdf
Willem K. B. Hofstee en Frits E. Zegers (zonder datum). Het minimum aantal items in een multiple-choice of open-antwoordtoets. paper Heymans Instituut.
W. K. B. Hofstee (1996). Beoordeel liever überhaupt niet (tenzij). Commentaar op W. A. Wagenaar. De Psycholoog, 31, 410-411. Wagenaar, W. A. (1996). Beoordeel psychologen niet naar hun successen. De Psycholoog, 31, 407-410 . Hier geeft Wim nog eens kort zijn gedachten over proces- en productsturing. o.a. feedforward als motivering om niet te beoordelen; “Als je beoordeelt op output, corrumpeer je het proces.” Het leuke is natuurlijk dat ik met mijn toetsmodel juist van die vorm van ‘corrumpering’ gebruik maak. “Als het doelrationeel denken zich aldus tegen zichzelf heert .... ” “In het verlengde van de ‘overproducte van beleid” is er naar mijn indruk sprake van een tendens tot overproductie van beoordeling.” Hoewel het stukje gaat over het beoordelen van psychologen, is er niets op tegen om het ook op het beoordelen in het onderwijs toe te passen, toch?
Wendy McColskey & Mark R. Leary (1985). Differential effects of norm-referenced and self-referenced feedback on performance expectancies, attributions, and motivation. Contemporary Educational Psychology,10, 275-284. 10.1016/0361-476X(85)90024-4 predictie attributie abstract
Egbert Warries (1970). Het relatief meten van leerprestaties in het onderwijs. Nederlands Tijdschrift voor de Psychologie, 25, 429-439. Repliek: Wijnen (1971). Dupliek: NTvdPs, 26, 135-139. Nogmaals: Warries (1971). NTvdPs, 26, 596-598.
Don A. Klinger (). Monitoring, accountability, and improvement, oh no! Assessment policies and practices in Canadian education.
Refers to "(e.g., Delandshere, 2001; Ravitch, 2010; Wilbrink, 1997)". From Diana: The death and life of the great American school system. How testing and choice are undermining education
Hunter M. Breland & Judith L. Gaynor (1979). A comparison of direct and indirect assessments of writing skill. Journal of Educational Measurement, 16, 119-128. preview Direct assessment: essay. Indirect assessment: MC-questioning. p. 119
Rob Schoonen (1998). De nieuwe samenvattingsopdracht in het Centraal Examen Nederlands. Taalbeheersing, 20, 20-38. Mooi startpunt voor behandeling van het dilemma kenbaarheid (M. J. Cohen) en objectiviteit. Omdat betrouwbaarheid vooral met objectiviteit heeft te maken, in de praktische uitvoering ervan, en taakvariatie aangeeft dat er een kenbaarheidsprobleem is (althans wanneer die variatie leidt tot nogal forse verschillen in uitkomsten).
David M. Shoemaker (1975). Toward a framework for achievement testing. Review of Educational Research, 45, 127-147. 10.3102/00346543045001127 preview
Testing and Motivation for Learning
WYNNE HARLEN & RUTH DEAKIN CRICK Assessment in Education, Vol. 10, No. 2, July 2003 pdf
Andrea Gingerich, Susan E. Ramlo, Cees P. M. van der Vleuten, Kevin W. Eva, Glenn Regehr (2016). Inter-rater variability as mutual disagreement:identifying raters’ divergent points of view. Adv in Health Sci Educ DOI 10.1007/s10459-016-9711-8
read
Gavin T. L. Brown & Lois R. Harris (Eds.) (2016). Handbook of human and social conditions in assessment. Routledge. info Foreword by John Hattie.
Steven J. Howard, Stuart Woodcock, John Ehrich and
Sahar Bokosmaty (2016). What are standardized literacy and numeracy tests testing? Evidence of the domain-general contributions to students' standardized educational test performance. British Journal of Educational Psychology
abstract
Dominique Sluijsmans & René Kneyber (red.) (2016). Toetsrevolutie. Naar een feedbackcultuur in het voortgezet onderwijs. Phronese. Mooi initiatief: naast het boek is een pdf ervan als open access ter beschikking gesteld: download open access pdf Inhoudelijke bijdragen, gelardeerd met interviews met leraren. Zodra ik er tijd voor vrij kan maken, wil in verschillende bijdragen hier graag bespreken.
Marie-Josée Bisson, Camilla Gilmore, Matthew Inglis and Ian Jones (2016). [Mathematics Education Centre, Loughborough University] Measuring Conceptual Understanding Using Comparative Judgement preprint
Ian Jones & Matthew Inglis (2015). The problem of assessing problem solving: can comparative judgement help? Educ Stud Math (2015) 89:337–355 DOI 10.1007/s10649-015-9607-1
Bernard R. Gifford (Ed.) (1989). Test policy and the politics of opportunity allocation: the workplace and the law. National Commission on Testing and Public Policy. Kluwer Academic Publishers. isbn 0792390156
Bernard R. Gifford (Ed.) (1989). Test policy and test performance: education, language and culture. National Commission on Testing and Public Policy. Kluwer Academic Publishers. isbn 0792390148
Neil J. Dorans & Linda L. Cook (Eds.) (2016). Fairness in educational assessment and measurement. NCME. [PEDAG 51.e.93]
info
Tim Paramour THE ELEPHANT IN THE PRIMARY SCHOOL CLASSROOM: THE DATA IS MADE UP.
blog
W. James Popham (1999). Why Standardized Tests Don't Measure Educational Quality. Educational Leadership. pdf
Daisy Christodoulou (2017). Making good progress? The future of assessment for learning. Oxford University Press. isbn 9780198413608 info; free access Foreword and chapter 1: pdf
Greg Thompson (2013). NAPLAN, MySchool and Accountability: Teacher perceptions of the effects of testing. The International Education Journal: Comparative Perspectives, 12, 62–84 .
free
Phelps, R.P. (2016). Teaching to the test: A very large red herring. Nonpartisan Education Review/Essays, 12(1). - [See more at: http://nonpartisaneducation.org/Review/Essays/v12n1.htm#sthash.6moWYkGn.uYfP676U.dpuf ] pdf
Rob Coe, Cambridge Assessment (2016). What makes great assessment? download
Richard P Phelps [updated June, 2010]. The source of Lake Wobegon free access Monica Bulger (2016). Personalized Learning: The Conversations We’re Not Having. Working Paper 07.22.2016 9data analytics] [via Ben Williamson]
pdf
Dylan Wiliam (2007). Keeping learning on track: Formative assessment and the regulation of learning. researchgate
Gavin T. L. Brown (2017). The Future of assessment as a human and Social endeavor: addressing the inconvenient truth of error. Frontiers in Education
open access
Richard Phelps (2008). The Role and Importance of Standardized Testing in the World of Teaching and Training. Conference Paper May 2008 researchgate.net
Richard Phelps. Conference Paper · May 2008 The Role and Importance of Standardized Testing in the World of Teaching and Training
[researchgate.net]
Schoolvaardigheidstoets Rekenen-Wiskunde
Teije de Vos, Marisca Milikowski
Boom webpagina
Richard Phelps (2017). The “Teaching to the Test” Family of Fallacies. Revista Iberoamericana de Evaluación Educativa, 2017, 10(1), 33-49. pdf
Karin J. Gerritsen-van Leeuwenkamp, Desirée Joosten-ten Brinke, Liesbeth Kester (2017). Assessment quality in tertiary education: An integrative literature review. Studies in Educational Evaluation, 55, 94-116. pdf Test item quality is mostly left out. That results in the risk of ‘garbage in, garbage out’ analyses of validity etcetera.
Onmiddellijke Diagnose en Feedback voor Alle Vakken. Ed van den Berg pdf
Scholen langs de meetlat Norman Verhelst, Gerrit Staphorsius, Frans Kleintjes Citogroep Arnhem november 2003 ophalen
Richard Phelps (2012). The Effect of Testing on Student Achievement, 1910–2010. International Journal of Testing. https://doi.org/10.1080/15305058.2011.602920
paywalled
Analysis of Attendance and Graduation Outcomes at Public High Schools in the District of Columbia January 16, 2018 blog: A Bit More on the Fraudulent Grades and Promotions in DC Schools
January 28, 2018 John Merrow
Assessment and learning: fields apart? Jo-Anne Baird, David Andrich, Therese N. Hopfenbeck & Gordon Stobart (2017). Assessment in Education: Principles, Policy & Practice, 24, 317-350. abstract
Maple T.A. is an online assessment system for STEM course site
Richard P. Phelps (2012) The Effect of Testing on Student Achievement, 1910–2010, International Journal of Testing, 12:1, 21-43, DOI: 10.1080/15305058.2011.602920 abstract
Ten Benefits of Testing and Their Applications to Educational Practice Henry L. Roediger III, Adam L. Putnam and Megan A. Smith (). pdf
Mien Segers en Dominique Sluijsmans (Red.) (2018). Toetsrevolutie. Phronese. pdf
Naerssen, R. F. van, Simpele items tegenover complexe. Tijdschrift voor Onderwijsresearch, 1980, 5, 193-198.
Mouly, G. J., & L. E. Walton (1962). Schaum’s outline of test items in education. New York: McGraw-Hill, 1962.
Paul Black & Dylan Wiliam (2018): Classroom assessment and pedagogy, Assessment in Education: Principles, Policy & Practice. open
Boesman, Th. Boesman (1942). De examens in de chirurgijnsgilden. Utrecht: Kemink.
Implementing assessment innovations in higher education Boevé, Anna Jannetje (2018). Proefschrift RUG. pdf
O. O. Adesope, d. A. Trevisan & N. Sundararajan (2017). Rethinking the use of tests. A meta-analysis of practice testing. Reviwe of Eucational Research, 87,, 659-701. DOI: 10.3102/0034654316689306 [ abstract The testing effect. "Results reveal that practice tests are more beneficial for learning than restudying and all other comparison conditions."
J. D. Karpicke, A. C. Butler & H. L. Roediger (2009). Metacognitive strategies in student learning: Do students practise retrieval when they study on their own? Memory, 17, 471-479. abstract
C. L. Bae , D. J. Therriault & J. L. Redier (2018 online first). Investigating the testing effect: Retrieval practice as a characteristic of effective study strategies. Learning and Instruction abstract
ETS (1977). Educational measurement & the law. Proceedings of the 1977 ETS invitational conference. Educational Testing Service.
Lukas K. Sotola & Marcus Crede (2020). Regarding Class Quizzes: a Meta-analytic Synthesis of Studies on the Relationship Between Frequent Low-Stakes Testing and Class Performance. [meta-analysis.] Educational Psychology Review
Steven M. Downing & Thomas M. Haladyna (1996). A model for evaluating high-stakes testing programs: Why the should not guard the chicken coop. EM:IP spring 5-12. abstract en pdf
Recommended Articles about High-Stakes Tests. VAMboozled! A blog by Audrey Amrein-Beardsley page
Molenaar (1981). On Wilcox's latent structure model for guesing. BrJMStPs, 34, 224-228. Met antwoord: Wilcox (1981). Methods and recent advances in measuring achievement: a response to Molenaar. BrJMStPs, 34, 229-237. raden raadkans
= Molenaar, W. (1977). On Bayesian formula scores for random guessing in multiple choice tests. BrJMStPs, 30, 79-89. abstract
Wilmink, F. W. (1977). Publikatie van tentamenvragen en de tentamenskore. Tijdschrift voor Onderwijs Research, 2, 157-164. http://objects.library.uu.nl/reader/resolver.php?obj=000739914
Wilcox, R. R. (1977). Estimating the likelihood of falsepositive and falsenegative decisions in mastery testing: an empirical Bayes approach. Journal of Educational Statisties 1977, 2, 289307.
Wilcox, R. R. (1978). Estimating true score in the compound binomial error model. Psyohometrika, 43, 245-258.
Wilcox, R. R. (1979). A lower bound to the probability of choosing the optimal passing score for a mastery test when there is an external criterion. Pm 1979, 44, 245-249. 10.1007/BF02293976
abstract
Wilcox, R. R. (1979). Applying ranking and selection techniques to determine the length of a mastery test. EPM, 39: 13 crm
Wilcox, R. R. (1979). Comparing examinees to a control. Psychometrika 44, 55-68 setting standards; indifference zone; strong true-score models. binomial model
researchgate.net
Wilcox, R. R. (1979). On false-positive and false-negative decisions with a mastery test. JESt, 4, 59-73. crm
Wilcox, R. R. (1979). Prediction analysis and the reliability of a mastery test. EPM, 39: 825. crm
Wilcox, R. R. (1980). An approach to measuring the achievement of proficiency of an examinee. APM, 4, 241-251. 10.1177/014662168000400210
scihub pdf
Wilcox, R. R. (1981). Determining the length of a criterion-referenced test. APM, 5, 425-446. (latent trait models) crm When determining how many items to include on a criterion-referenced test, practitioners must resolve various nonstatistical issues before a particular solution can be applied. A fundamental problem is deciding which of three true scores should be used. The first is based on the probability that an examinee is correct on a "typical" test item. The second is the probability of having acquired a typical skill among a domain of skills, and the third is based on latent trait models. Once a particular true score is settled upon, there are several perspectives that might be used to determine test length. The paper reviews and critiques these solutions. Some new results are described that apply when latent structure models are used to estimate an examinee's true score.
Wilcox, R. R. (1981). Solving measurement problems with an answer-until-correct scoring procedure. APM 1981, 5, 399-414 raden
Rand R. Wilcox (1982) Some new results on an answer-until-correct scoring procedure 10.1111/j.1745-3984.1982.tb00116.x abstract
Wilcox, R. R. (1982). Some empirical and theoretical results on an answer-until-correct scoring procedure. BrJMStPs, 35, 57-70. beta-binomial raden
Wilcox, R. R. (1982). Determining the length of multiple choice criterion-referenced tests when an answer-until-correct scoring procedure is used. EPM, 42: 789. (raden) tvr crm
Wilcox, R. R. (1983). A simple model for diagnostic testing when there are several types of misinformation. JExE, 52(1), 57.
Wilcox, R. R. (1977). Estimating the likelihood of false positive and false negative decisions in mastery testing: an empirical Bayes approach. JESt, 2, 289-307. crm
Zegers, F.E., Hofstee, W.K.B. & Korbee, C.J.M. Een beleidsinstrument m.b.t. cesuurbepaling. Paper ORD 1978. R.U. Groningen, subfaculteit Psychologie, vakgroep
Nitko, A. J. (Ed.) (1991). The practical matter of setting standards. Themanummer Educational Measurement; Issues and Practice, 10(2). o.a. R. M. Jaeger: Selection of judges for standard setting abstract;Defining Minimal Competence Craig N. Mills Gerald J. Melican Nancy Thomas Ahluwalia abstract
; J. B. Reid: Training judges to generate standard-setting data abstract; K. F. Geisinger: Using standard-setting data to establish cutoff scores ; W. A. Mehrens: Facts about samples, fantasies about domains. abstract
Melvin R. Novick, Charles Lewis, Paul H. Jackson (1973). The estimation of proportions in m groups. Pm 38, 19- 46
abstract 21
Gregory J. Cizek (1996). Standard-setting guidelines. EM:IP spring 10.1111/j.1745-3992.1996.tb00802.x abstract
Lord, F. M. (1975). Formula scoring and number right scoring. Journal of Educational Measurement, 12: 7-11. #raden
Wim J. van der Linden (2005). Classical test theory. In Kimberley Kempf-Leonard: Encyclopedia of social measurement. Elsevier. 301-307. [niet online te vinden; ik heb een kopie ]
Julian C. Stanley & Marilyn D. Wang (1970). Weighting test items and testitem options, an overview of the analytical and empirical literature. EPM,30, 21-35.preview
Starren, H. (1990). De beoordeling als hefboom voor onderwijsverbetering. Optimaliseren van leerresultaten via veranderen van tentamen- en examenregels. De Psycholoog, 1990, 25, 109-113. [ik heb een hrdcopy] [verwijst naar mijn publicaties. Ha, dat is zeldzaam]
Starren, H. (1996). De toets als hefboom voor gewenst leergedrag. De Psycholoog, 294-5. [ik heb een hardcopy]
Starren, H. (1998). De toets als hefboom voor meer en beter leren. Academia. Thema? Leuk stukje, dat mij iets zou moeten zeggen over hoe ik mijn toetsmodel bij een breder publiek kan presenteren, of ook; hoe ik dat model breder kan inkaderen dan ik de laatste jaren aan het doen ben. Zal het bij de literatuur voor deel 2.2 voegen. fc
Starren, H. (2001). Incompatibiliteit van toetsing in het hoger onderwijs. Tijdschrift voor Hoger Onderwijs, 19, 120-129. open access https://www.tvho.nl/edition.php?id=60
RichardJ. Stiggins (1991). Assessment literacy. Phi Delta Kappan, 72, 534-539. (genoemd door Wiggns 1993) fc
Michael J. Subkoviak (1976). Estimating reliability from a single administration of a mastery test. Journal of Educational Measurement 13, 265-276. crm
Michael J. Subkoviak The reliability of mastery classification decisions. Unpublished paper, 1978.
Michael J. Subkoviak (19??). Decision-consistency approaches. In Berk, R. A. (Ed.). Criterion-referenced measurement: the state of the art (p. 129-185). Baltimore: The Johns Hopkins University Press. Met een idiote hoop tabellen. [niet online beschikbaar; fc houden]
Tittle, C. K. (1994). Toward an educational psychology of assessment for teaching and learning: theories, contexts, and validation arguments. Ed. Psychologist, 29, 149-162.
abstract
Howard Wainer & David Thissen (1996). How is reliability related to the quality of test scores? What is the effect of local dependence on reliability? Educational Measurement: issues and Practices, spring, 22-29.
Herbert J. Walberg, Bernadette F. Strykowski, Evangelina Rovai, & Samuel S. Hung. Exceptional performance. Review of Educational Research, 1984, 54, 87-112. JSTOR
Wiggins, G. (1993). Assessment: authenticity, context, and validity. Phi Delta Kappan, 75 no 3, 200-214.
Wiseman, S. (1949). The marking of English composition in grammar school selection. BrJEdPs, 19, 200-209. 10.1111/j.2044-8279.1949.tb01622.x abstract
Wijnen, W. H. F. W., & W. K. B. Hofstee (196?). Een poging tot tentamen-analyse. In ???? (congresboek onderwijsresearch oid?) 171-177. [ik heb een kopie]
Novick, M. R. (1980). Statistics as psychometrics. Psychometrika, 45, 411- 424.
abstract
Novick & Jackson (1970). Bayesian guidance technology. RER, 40, 459-494. JSTOR
W. James Popham (1993). Educational testing in America: what's right, what's wrong? A criterion-referenced perspective. Ed Meas, 12 #1 11-15. 10.1111/j.1745-3992.1993.tb00517.x abstract
W. James Popham (1993). Circumventing the high costs of authentic assessment. Phi Delta Kappan, 74, 470-473. [ik heb een fc] preview
W. James Popham (1999). Where large scale educational assessment is heading and why it shouldn't. Educational Measurement: Issues and Practice, Fall, 13-17. 10.1111/J.1745-3992.1999.TB00268.X
abstract
Linda Sturman (2003). Teachng to the test: science or intuition? Educational Research, 45, 261-273. abstract & pdf
Laura HamiltonFirst (2003). Assessment as a Policy Tool. 10.3102/0091732X027001025 preview & references
Bernard Weiner (1994). Ability versus effort revisited: the moral determinants of achievement evaluation and achievement as a moral system. Ed. Psychologist, 29, 163-172. academia.edu
Valerie J. Shute (2008). Focus on formative feedback. Review of Educational Research, 78, 153-189. ETS Research Report 2007 [het ETS report is niet exact gelijk aan dhet artikel] p. 154
C. C. Ross (1947 2nd). Measurement in Today's Schoolshathitrust
Richard P. Phelps (2020). Down the Memory Hole: Evidence on Educational Testing. Academic Questions, 33, 269–278 10.1007/s12129-020-09876-9 info 556
Willem K. B. Hofstee (2001). Beoordeling in het onderwijs - of niet? De Psycholoog themanummer toetsen december 2001, 640-644. Niet online te vinden. [Ik heb dit nummer van De Psycholoog, toetsen]
van der Linden, W. J. (1983). Van standaardtest naar itembank (Inaugural address). Enschede, The Netherlands: University of Twente. (In Dutch)
[Niet online beschikbaar, terwijl het toch een aardige presentatie is. Ik heb de rede, maar ikheb er wenig tot niets aan omdat ernaar verwijzen tamelijk zinloos is].
Chunliang Yang and Liang Luo, Miguel A. Vadillo, Rongjun Yu, David R. Shanks (2020). Testing (Quizzing) Boosts Classroom Learning: A Systematic and Meta-Analytic Review pdf, via Dan Willingham https://twitter.com/DTWillingham/status/1379898918700466177
Mirjam Remie (7 april 2021). De digitale surveillant staat naast je bed artikel
Van toets naar toets. BEA ROS EN MONIQUE MARREVELD (21-10-2021) (Eerder gepubliceerd in De Groene). open
Salvador Algarabel and Carmen Dasi (2001). The definition of achievement and the construction of tests for its measurement: A review of the main trends. Psicológica, 22, 43-66. download
Robert J. Mislevy, Mark R. Wilson, Kadriye Ercikan (2001). Psychometric Principles in Student Assessment. To appear in D. Stufflebeam & T. Kellaghan (Eds.), International Handbook of Educational Evaluation. Dordrecht, the Netherlands: Kluwer Academic Press.academia.edu
Schmeiser, C. B. (1992). Ethical codes in the professions. Educational Measurement: Issues and Practice, 11, #3, 5-11. abstract en pdf
James W. Pellegrino & Naomi Chudowsky (2003). The Foundations of Assessment Measurement: Interdisciplinary Research & Perspective academia.edu
Pieter Gordts (17 december 2021). Pedagoog Pedro De Bruyckere over toetsen: ‘Het gaat ook over de macht over ons onderwijs’ DeMorgen open
Zahra Javidanmehr1, Mohammad Reza Anani Sarab (2017) Cognitive Diagnostic Assessment: Issues and Considerations International Journal of Language Testing academia [applying ideas of Leighton]
Frans J. G. Janssens (1985). Toetsgebruik in de onderwijspraktijk: stand van zaken. Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 2-291. open
Dave Bartram & Ronald K. Hambleton (Eds. ) (2006). Computer-based testing and the internet. Issues and advances. academia.edu
http://www.benwilbrink.nl/literature/toetsen.htm
http://goo.gl/1K3Uc
Popham 2005, p. 49
Popham 2005, p. 50
Popham 2005, p. 54-55
Dat is juist. De oorsprong lag in het toen veel besproken aansluitingsprobleem van leerlingen van de zesde klas lagere school naar het VHMO. Door heerste veel onvrede over. Er was soms een forse discrepantie tussen de adviezen van het schoolhoofd en de behaalde prestaties bij toelatingsexamens. Ik meen dat medio zestiger jaren bij Koninklijk Besluit bepaald werd dat naast het advies van het schoolhoofd een ander, zo objectief mogelijk gegeven aanwezig moest zijn. De precieze formulering weel ik niet meer, maar P.J. Koets, die toen al een paar jaar voorzitter was van het RITP-bestuur, wees ons erop dat onder die formulering de uitslag van een schoolvorderingentest kon vallen. Koren op onze molen natuurlijk. Koets stond erachter dat wij zo'n toets zouden samenstellen in en voor de Amsterdamse scholen. Haast was geboden. Wij gingen aan de slag met enkele onderwijzers als producenten van item-onderwerpen en als adviseurs. Alleen, zonder medewerking van pedagogen konden wij zo'n toets niet presenteren. Op de valreep is daar een oplossing voor gevonden doordat wij professor ldenburg ervan konden overtuigen dat zijn Kohnstamminstituut moest meedoen aan de operatie. Zo kwam de eerste Amsterdamse schooltoets tot stand: haastwerk en nog vrij amateuristisch van opzet. Maar er was een begin en ook een betere relatie met de pedagogiek trouwens.
Er was, al jarenlang trouwens, een niet aflatende animositeit tussen psychologen en pedagogen. Pedagogen vonden dat psychologen van het onderwijs af moesten blijven. Dat was hun gebied. Die strijd heeft heel lang geduurd totdat de onderwijskunde er kwam, met twee ‘ingangen’ om het zo maar uit te drukken. Die strijd laait ook nu nog wel eens op trouwens.
Dat was achter de schermen al in beeld. Vergeet niet dat de Amsterdamse schooltoets het zo veelsie RITP project was. Wiskunde en taaltoetsprojecten - de laatste gericht op eindexamen niveau - waren eraan voorafgegaan of nog in gang. De idee van toetsen was in de eerste helft van de jaren zestig in VHMO kringen en in Den Haag al niet zo vreemd meer. Aan de Universiteit van Amsterdam werd hard gewerkt aan psychometrica en dan toetsconstructie in het bijzonder. We hadden daar een afdeling Examen-Techniek, waar onder meer het vroege werk van Van Naerssen en Mellenbergh tot stand kwam. We kregen invloed.
TL Was Grosheide toen niet staatssecretaris van Onderwijs?
Ik dacht het wel ja. Hij was de politiek verantwoordelijke bewindsman. Den Haag wilde een centraal instituut, zo los mogelijk van de Amsterdamse Universiteit. Arnhem leek een geschikte neutrale plaats ervoor. En zo ontstond in 1968 - ik zat zelf een jaar in Amerika en, zoals bekend, deed Sjeng Kremers het oprichtingswerk - de Stichting Centraal Instituut voor Toelsontwikkeling, gevestigd te Arnhem.
TL Als je nu terugkijkt naar de ideeën van toen. Hoe zijn je gevoelens daar dan nu over?
Het Cito leek en lijkt mij nog steeds een zeer geslaagde onderneming. Het pakte onder Solberg de zaken aan zoals ik die toen ook beoogde. De eindexamens kwamen in beeld. Eerst experimenteel, later officieel. In een later stadium ontstond het periodiek peilingsonderzoek. Dat vond ik met name een schitterend initiatief: beleidsinformatie en publieksinformatie over leerlingenprestaties. Zoiets betekende toch een grote winst voor het onderwijs, vergeleken met de jaren daarvoor.
Niet over de hele linie. Punten van kritiek heb ik ook wel. De belangrijkste vraag in dit verband is of het Cito de afgelopen vijfentwintig jaar wel voldoende geijverd heeft voor de verbreiding van de verworven meer algemene inzichten die het werk heeft opgeleverd. Ik denk hierbij aan inzicht in de grote verschillen in prestatievermogen van leerlingen die telkens weer uit scoreverdelingen naar voren komen. En dan de onmiskenbare hoofdoorzaak daarvan: grote verschillen in leervermogen, in aanleg. De tijd van het geloof in ‘iedereen kan alles leren’ - door veel wereldvreemde intellectuelen en bureaucraten, inclusief beleidsmakers, heftig beleden - is weliswaar voorbij, maar de egalitaire wensdroom is nog lang niet uitgewerkt. En juist die droom staat een goed onderwijsbeleid in de weg.
TL De terughoudende stellingname van het Cito is onder andere het gevolg van de positie die het instituut inneemt: het mede uitvoering geven aan het onderwijsbeleid. Zo wordt in Zoetermeer ook tegen het Cito aangekeken.
Ja, dat is natuurlijk waar wat je zegt. ‘Het Cito moet gewoon doen wat wij willen’, dat is de overheidsgedachte geworden, begrijp ik. Niet het onderwijsbeleid kritisch volgen en als dat nodig is van minder welkome data voorzien, maar het beleid uitdragen en uitvoeren en verder geen onzin. Niettemin: als er dan weinig speelruimte geboden wordt dan zou het Cito die zelf moeten creëren. En aan de andere kant vind ik dat de overheid zijn eigen instrumentarium beter moet benutten.
R. F. van Naerssen (1974). Psychometrische aspecten van de kernitemmethode. Nederlands Tijdschrift voor de Psychologie, 29, 421-430.
The social welfare function
The compensation psrinciple
The general possibility theorem for social welfare functions 46-60
The individualistic assumptions
Similarity as the basis of social welfare judgments
Notes on the theory of social choice, 1963
Starren, H. (2001). Infantilisering van de psychologieopleiding? De Psycholoog, 36, #12, 652-657. origineel onder t Hofstee opgeborgen (themanummer Psycholoog Toetsen in het onderwijs).
Starren, J. (1988). Uitspraken over onderwijsresultaten. In Starren e.a. 1988, 151-228.
Starren, J., S. J. Bakker, en A. Van der Wissel (Red.) (1995). Inleiding in de onderwijspsychologie. Bussum: Coutinho. isbn 9062837158, 2e editie, 330 pp., (O.a. ook over de Groningse (Hofstee) methode voor cexuurbepaling.)
Starren, J., S.J. Bakker, & A. van der Wissel (red.), Inleiding in de onderwijspsychologie. Muiderberg: Coutinho, 1988.