Toetsen en ICT (een spannender titel mag ook wel). Opinie

Eerste tekstdeel is concept voor een bijdrage in het tijdschrift bi-logical (ingediend 12 juni, na laatste check op de tekst)

ICT inzetten maakt het toetsen voor alle betrokkenen gecompliceerder. En er komt een nieuwe klasse van beoordelingsamateurs bij: de ict-deskundigen. Het moet al gek gaan, wil de inzet van ICT bij toetsen per saldo leiden tot enige verbetering van kwaliteit. Nieuwe technologie nodigt vaak uit om de nieuwe mogelijkheden hoog op te spelen — pas later komen ook kosten en nadelen in beeld. Laten we dat patroon eens proberen te doorbreken.

Toetsen en onderwijs, hebben die iets met elkaar? En wat zeggen antwoorden op deze vraag over kansen en risico’s van digitaliseren van toetsen? Multinationals zoals Intel en Microsoft weten het al: zij zetten hun kaarten op digitaliseren van het onderwijs, te beginnen met toetsen en examens, en lobbyen daarvoor bij regeringen wereldwijd (zie ATC21S.org). Dit grove Amerikaanse kapitalisme is tenminste wel eerlijk: het kartel, waar ook Cisco aan meedoet, zegt openlijk dat ze er aan willen verdienen. Laten wij dan ons voordeel doen met deze voorkennis. En die ‘21’ dan? Dat zit zo: de hype van het veronderstelde belang van ‘vaardigheden voor de 21e eeuw’ geeft de act21s-ondernemers een gedroomd ticket om met hun missie binnen te komen bij politici en bestuurders. Kunnen we wel een beetje kritisch blijven, mensen?

De kern van de toetszaak is dat de leraar de student een stapje verder kan helpen door eerst te toetsen wat de laatste al weet of wat daar nog aan ontbreekt. Dit toetsen is integraal onderdeel van het onderwijs, ook van een-op-een tutoronderwijs. Het is ook behoorlijk autoritair, anders heeft heel de oefening geen zin. Het oordeel van de leraar in twijfel trekken mag leuk of stoer zijn, maar het zet geen zoden aan de dijk — tenzij de leraar aan de dijk gezet moet.

In oude tijden was de reactie van de meester op fouten van de student niet altijd even subtiel: stokslagen, ezelsmuts, plak, vernedering. Middeleeuwse humanisten hadden een iets beter idee: motiveer studenten door de beste prestaties te belonen. Het gekke is dat we dit laatste model nog steeds hanteren in het onderwijs, ook al weten we al eeuwen dat het niet motiverend werkt, behalve misschien voor de beste leerlingen. Zelfs het kernmodel van onderwijs, directe terugkoppeling naar de student, is volop misbruikt vanuit onkunde, eigenbelang, of belangen van derden — voorbeeld: digitale leerlingvolgsystemen die goedbedoeld zijn om bij te dragen aan leerresultaten, maar dat vooralsnog niet blijken te doen (zie Faber & Visscher, 2014, Kennisnet). En dan hebben we het nog niet gehad over al die afgeleide vormen van toetsen, zoals daar zijn: proefwerken die meetellen voor overgangsbeslissingen, eindexamens, rekentoetsen bij die examens, en toelatingsexamens.

Begin 20e eeuw onstond er in de VS een complete toetsindustrie, die kennelijk voorzag in de behoeften van degenen die dit konden financieren: bestuurders. Het idee was ongeveer dat deze wetenschappelijke toetsen uit psychologische hoek — de Army Alpha was een intelligentietest die het mede mogelijk maakte in 1917 snel een omvangrijk leger op de been te brengen — in staat stelden om de prestaties van scholen te monitoren, en met de nodige standaardisering dus ook met elkaar te vergelijken. Een en ander is geen kwaliteitsimpuls voor het Amerikaanse onderwijs geweest, zoals beschreven door Ellen Condliffe Lagemann in An elusive science: The troubling history of education research.

Deze Amerikaanse geschiedenis laat zien dat het verstandig is om bij toetsen — en zeker bij gestandaardiseerde toetsen — niets als vanzelfsprekend aan te nemen. En hoe al vroeg technologische mogelijkheden zijn gebruikt om de directe terugkoppeling zoals die hoort bij goede instructie, om te vormen tot vaak iets anders in de sfeer van controle en repressie. Directe terugkoppeling heet in de literatuur ook wel formatieve toetsing, of bij Dylan Wiliam assessment for learning (AfL); de afdeling controle en repressie heeft summatieve toetsing (zoals in examens), high stakes testing (wanneer de belangen van instelling en leraren in het geding zijn), en als wolf in schaapskleren value added measurement.

De stelling. Toetsen digitaliseren bestendigt of versterkt misstanden in het onderwijs, en dreigt ook formatieve toetsing te vervreemden. Nog maar even niet doen.

Neem onze eindexamens in het voortgezet onderwijs. Natuurlijk moet er een garantie zijn dat leerlingen hun onderwijs behoorlijk hebben doorlopen. Maar onze eindexamens zijn een te zwaar middel, al was het maar omdat bij dit eindoordeel de informatie die jarenlang verzameld is over individuele kandidaten nauwelijks of geen gewicht in de schaal mag leggen. Van wie mag dat niet? Kostbare informatie blijft ongebruikt, hoe valt dat te verantwoorden? Herstel dat manco, en ontdek dan dat het nog niet zo’n gek idee is om over te gaan tot louter ceremoniële examens, voor kandidaten die een behoorlijk niveau al aantoonbaar hebben bereikt. Maar nee, ondertussen zijn eindexamens voor het vmbo al vrijwel geheel in digitale vorm, zijn daar grote investeringen in gedaan, en zijn er gevestigde belangen gecreëerd bij deze examenvorm.

Dichter bij huis wat de risico’s van digitaliseren betreft, is het toetsen op kunnen ‘rekenen in situaties van het dagelijks leven’: de rekentoetsen die nu deel uit maken van de eindexamens vo, en waarover grote politieke beroering bestaat (zie o.a. behandeling van het rapport van de Commissie-Bosker in de Tweede Kamer, in juni). Een impressie, kort door de bocht: deze toetsen worden digitaal afgenomen, voor het rekenen zelf mogen kandidaten de digitaal aangeboden rekenmachine gebruiken, de examenvragen blijven geheim, de resultaten op de pilots in 2012 en 2013 hebben laten zien dat de scores op deze toetsen geen verschillen in basale rekenvaardigheid, maar in intellectuele capaciteiten weerspiegelen. Bekijk vooral eens een voorbeeldrekentoets, op de site van het Cito op te halen.

Deze rekentoetsen vergen een mega-investering in het digitaal afnemen van opgaven die gaan over ‘rekenen in situaties van het dagelijks leven’. Daar is toch wel een probleempje mee, omdat dit een soort rekenen is op ideologische basis, losgezongen van wat u, ik, en wiskundigen doorgaans onder rekenvaardigheid verstaan, en van wat cognitief-psychologisch onderzoek onder rekenvaardigheid verstaat. Niets evidence-based, dus. Maar ondertussen heeft de toetsindustrie en een stoet van instituten materieel belang bij het ‘succes’ van deze digitale rekentoetsen, en hoe krijgen we dan ooit nog deze kostbare examens vervangen door eenvoudige rekentoetsen op papier, met kale rekenopgaven, in een half uur af te nemen en in weinig tijd na te kijken? Overdrijf ik? Zie in de box wat de OECD ons boven het hoofd hangt, als het gaat om digitaliseren van beoordeling in het onderwijs.

Across OECD countries, there is a shared ambition to move education systems beyond . . . . knowledge transmission and acquisition of basic skills and . . . to promote . . . 21st century skills . . . .

. . . Thus, there will be a need . . . to design, develop, deliver and evaluate more complex assessments. Many of these assessments will . . . . take place in settings using ICT, with access to the internet, in closed micro-worlds, or in game-like environments . . . .

Deborah Nusche, Henry Braun, Gábor Halász & Paulo Santiago (2014). OECD Reviews of Evaluation and Assessment in Education. The Netherlands (pp. 60-61). OECD (preliminary version). (pdf: http://goo.gl/Xu0s5A)

De high tech is indrukwekkend, de software ziet er gelikt uit, maar vooralsnog is ICT in het onderwijs een geschiedenis van meer dan een halve eeuw van nauwelijks ingeloste verwachtingen. Ooit zal ICT ook in de core business van het onderwijs een dominante plaats hebben, maar nu nog even niet. Geen experimenten meer die ten koste van leerlingen gaan, zoals die digitale rekentoetsen. Alsjeblieft.

Ben Wilbrink, www.benwilbrink.nl

niet gebruikte tekst/materialen

Het is handig om een goed gedocumenteerd casus te gebruiken om abstracte noties een concrete referentie te geven. Ik wil daarvoor de rekentoetsen bij de eindexamens in het voortgezet onderwijs nemen. In het onderwijsveld zijn deze toetsen ondertussen algemeen bekend, hoewel nog niet in de samenleving buiten de scholen. Het springende punt is: deze toetsen zijn digitaal, en ze zijn een nieuw onderdeel van de eindexamens, ook die van het mbo.

casus: de rekentoetsen

Na een moeilijk te doorgronden traject van commissies en besluitvorming worden dit jaar voorafgaand aan (maar horend bij) de eindexamens in het vo en mbo rekentoetsen afgenomen. Over de vraag of deze toetsen wel rekenvaardigheid toetsen is een heftige discussie ontbrand, waarin de maker van de rekentoetsen — het Cito — geen opening van zaken wil geven, en waarin het verantwoordelijke College van Examens zegt dat er helemaal niets aan de hand is. De pilot-afnames van deze rekentoetsen hebben ongelooflijk hoge percentages ‘onvoldoendes’ opgeleverd.

Niemand weet wat de bedoeling van deze rekentoetsen is, ook al kan iedereen er wel iets bij bedenken. Bij de kamerbehandeling van de ‘Wet op de referentieniveaus’ is wel degelijk gevraagd naar aard en oorzaken van de rekenproblemen, maar is op deze vragen geen helder antwoord gegeven [ link]. Evaluatie van deze rekentoetsen zal lastig zijn, met een wetgever die geen criteria heeft gegeven! Maar we kunnen ons wel behelpen met testpsychologie [ link] en beginselen van het ontwerpen van toetsvragen [ link]. Hoewel: als de realistische rekendidactiek een belangrijke oorzaak van rekenachterstanden is, dan is het organiseren van rekentoetsen die juist op dat gedachtengoed zijn gebaseerd niet de best denkbare actie van onze zorgzame (Grondwet) overheid.

Voorbeeldtoetsen zijn beschikbaar op de website van het Cito

Ben Wilbrink & Joost Hulshof (2011). De wet, het rekenen, en de rekentoets in de eindexamens havo/vwo. Examens, Tijdschrift voor de Toetspraktijk. 8 #3, 18-22. pdf

Ben Wilbrink, Joost Hulshof & Henk Pfaltzgraff (2012). De rekentoetsen-3F zijn niet valide. Dat wordt nog wat met die rekentoetsen! Examens, Tijdschrift voor de Toetspraktijk. 8 #3, 18-22. pdf

Jan Kastelein (2012). Rekentoetsen VO wel degelijk valide. Examens, Tijdschrift voor de Toetspraktijk. 8 #4, 29-31. [Met dupliek van Wilbrink e.a., blz. 31] link [Dit is tevens het officiële standpunt van het College voor Examens, zoals aangegeven in stukken aan OCW en de Tweede Kamer]

Het dossier van de rekentoetsen is enorm en onoverzichtelijk. Veel informatie is te vinden op mijn website, onder andere op de thuispagina onder het menu ‘actueel’

Een aantal zaken vallen onmiddellijk op bij deze rekentoetsen, ik geef een pro memorie-lijstje

De toetsen worden digitaal afgenomen, maar dat is geen wens van de Tweede Kamer, en voor zover mij bekend ook niet aan de Kamer voorgelegd.
De afname van rekentoetsen gebeurt al geruime tijd voorafgaand aan het centraal schriftelijk eindexamen.
Er is besloten (door wie? Door OCW? Geadviseerd door wie? Aan de Tweede Kamer voorgelegd?) dat de leerling maximaal een tweede keer de toets mag afleggen. OCW heeft laten weten dat wie dan definitief een niet compenseerbare onvoldoende heeft, geen eindexamen mag afleggen, en terecht kan bij het staatsexamen.
Er is besloten (door wie? Cito adviseerde alleen voldoende/onvoldoende te beoordelen) dat voor de rekentoets een cijfer zal worden gegeven.
De vragen van afgenomen rekentoetsen blijven geheim; het is leerlingen en leraren niet toegestaan kopieën van toetsvragen te maken, maar ook niet om inzage in het gemaakte werk en de beoordeling te krijgen.
De rekenopgaven zijn van een onwaarschijnlijk beroerde kwaliteit, zie bijvoorbeeld de analyse die Jan van de Craats maakte van de voorbeeldrekentoets-3F uit 2013 hier
Bij contextopgaven mag een rekenmachine worden gebruikt, digitaal beschikbaar. Dit is van een gekkigheid waar al menigeen gebroken klompen aan heeft overgehouden. Nederland dummies-land. Dat deze wantoestand kan voortbestaan is volledig te danken aan het College voor Examens, dat de minister van onderwijs met zoveel woorden adviseerde de rekenmachine in eindexamens te blijven gebruiken omdat het anders niet mogelijk zou zijn om vragen te stellen met realistische getallen. Denk bij dat laatste aan zoiets als‘een kilo zalm kost €13,98’, in plaats van €15. In welke wereld zijn we aanbeland?
In Euclides heeft Van der Zwaart het werk van zijn commissie-2F toegelicht; daarin het realistisch fundamentalisme dat er bijvoorbeeld met €13,98 moet worden gerekend, in plaats van €15
Voorjaar 2014 voor alle leerlingen serieus afgenomen. Hoewel digitaal afgenomen, laat de uitslag een week of vijf op zich wachten. Voor kamerleden nog iets langer: 3 juni vroeg Jadnanansing (PvdA) in het vragenuurtje aan Bussemaker (minister van onderwijs) de landelijke uitslagen op de rekentoetsen, maar kreeg geen antwoord.

Met dit materiaal in handen, is het wel mogelijk om een afbakening te maken in de thematiek. Als stellingen geformuleerd.

(1) Het ontwerpen van toetsvragen is nog steeds vooral een zaak voor goedwillende amateurs: de kwaliteit van toetsvragen is gegarandeerd beroerd. Anders gezegd: de kwaliteit van toetsvragen valt zo niet te garanderen.

(2) ICT inzetten bij toetsen en toetsafnames voegt een moeilijkheidsfactor toe, en een nieuwe klasse van beoordelingsamateurs: de ict-deskundigen. Het moet al heel gek gaan, wil de inzet van ICT bij toetsen per saldo leiden tot enige verbetering van kwaliteit.

(3) Het risico is nu dat de inzet van ICT bij toetsen onbedoeld de beroerde kwaliteit van de toetsvragen bestendigt. Immers, de inzet van ICT zelf eist nu heel veel aandacht op, aandacht bovendien van mensen die meestal niet in de eerste plaats ontwerpers van toetsvragen zijn, maar ICT-specialisten. De toch al kwalitatief gemankeerde toetsvragen worden nu in het ICT-Procrustusbed gedwongen. Als er door de inzet van ICT al prikkels zijn om iets aan te leveren vragen te veranderen, dan zullen dat eerder veranderingen zijn die afbreuk doen aan de vraagkwaliteit, dan daar kwaliteit aan toevoegen. Dit is analoog aan het bekende probleem bij de inzet van ICT in onderwijs: dat vertrekt vaak vanuit de mogelijkheden die ICT biedt, in plaats vanuit de eisen die een goed onderwijsontwerp stelt.

(4) Er zijn maatregelen denkbaar waar verbetering in de kwaliteit van het vraagontwerp samengaan of mogelijk worden met de inzet van ICT. De voorwaarde daartoe is dat het ontwerp van de betreffende toetsvragen wordt onttrokken aan het amateuristische, en wordt geprofessionaliseerd door te werken met cognitief-psychologische modellen. Het is in beginsel voor tenminste bepaalde inhoudelijke domeinen mogelijk om dit voor elkaar te krijgen, en daarmee ook de mogelijkheid te verwerven varianten op toetsvragen te laten genereren door daarop toegesneden software. Op dit terrein is er de laatste jaren interessant onderzoek verricht (automatic item generation dekt een deel van de onderzoekliteratuur). Nog interessanter: het basisidee heb ik in 1983 gebruikt in het boekje Toetsvragen schrijven (Aula 809, in de Onderwijskundige Reeks voor het Hoger Onderwijs).

(5) Stel dat het zodoende lukt om de basis op orde te krijgen: voldoende omvangrijke bestanden van toetsvragen van bekende kwaliteit. Dan kan het zomaar zijn dat er ook mogelijkheden zijn om toetsen hieruit digitaal af te nemen, zonder compromissen op het punt van kwaliteit te hoeven sluiten. De logische vervolgstap is dan om het automatisch genereren van toetsvragen on the fly te doen: tijdens de toetsafname zelf; maar ik schat in dat het voorlopig nog heel lang zo zal zijn dat er teveel compromissen gesloten moeten worden om dit ideaal in het onderwijsveld te kunnen realiseren.

Een uitwerking kan profiteren van raakvlakken met de analyse van de manier waarop contextrekenopgaven aanspraak doen op cognitieve functies hier.

Ellen Condliffe Lagemann (2000). An elusive science: The troubling history of education research. University of Chicago Press. site

Ben Wilbrink (1997). Levenslang leren en informatie- en communicatietechnologie (ICT). In T. T. D. Peetsma & M. L. L. Volman (Red.), Bevorderende en belemmerende factoren voor een leven lang leren. Explorarief onderzoek op microniveau (p. 171-185). Den Haag: Sdu Servicecentrum. ISBN 90 346 3541 1. webpagina

ICT inzetten bij toetsen en examens: dat lijkt best een goed idee, niet? Het is toch zo dat ICT enorme mogelijkheden biedt in het presenteren van informatie, in het registreren van antwoorden, in het on the fly inspelen op gegeven antwoorden, in het doelmatig verwerken van toetsen (scoren, waarderen, rapporteren, registreren), en wat niet al. Of is dit net iets te optimistisch?
Voor iedereen buiten de kring van degenen die belangen hebben bij ICT in onderwijs is het een probleem dat de literatuur, ook de onderzoekliteratuur, vooral bestaat uit eenzijdige aanprijzing van de inzet van ICT in het onderwijs, en dat meer bezadigde en vooral kritische literatuur bijna niet is te vinden. En al helemaal geen onderzoekliteratuur. Kennelijk zijn er wel geldschieters die ontwikkeling van ICT in onderwijs willen bekostigen, en geen geldschieters die juist willen investeren in het kwalitatief overeind houden van het onderwijs onder de toenemende druk van nieuwe technologieën.
Is de voorgaande gedachte hard te maken? Dat zal nog lastig zijn, al is het eenvoudig genoeg om waslijsten te maken van instanties en personen met expliciet eenzijdige opdrachten om ICT het onderwijs binnen te duwen. Bijvoorbeeld het Nederlandse Kennisnet.
Ook belangenclubs ontkomen er evenwel niet aan om te erkennen dat schone verwachtingen nog niet zijn gerealiseerd. Zo vinden we bij Kennisnet in tal van publicaties ook passages waarin te kennen wordt gegeven dat het eigenlijk nog niet is gelukt om ICT op enige schaal van betekenis op een geloofwaardige manier in het onderwijs in te zetten. Enkele uitzonderingen daargelaten (ik noem Rekentuin als een uitzondering; en ik noem beroepsopleidingen waar met software en ICT moet worden gewerkt als natuurlijke categorie van geslaagde toepassing).
Afijn, allemaal kruimelwerk vergeleken met de ambitie van het Intel/Cisco/Microsoft kartel dat de bedoeling heeft het onderwijs wereldwijd op de ICT-toer te laten gaan, te beginnen met inzet van ICT bij toetsen en examens.

Digitaliseren van toetsen in het onderwijs is een fenomeen dat al een eeuw oud is. We moeten namelijk onderscheid maken tussen het ondertussen oeroude digitaal scoren van toetsen, en het nieuwe verschijnsel van massaal digitaal afnemen van toetsen. Of is daar eigenlijk wel een fundamenteel onderscheid tussen? Immers, de ouderwetse meerkeuzetoets waarvan de antwoordsheets door IBM-machines werden ingelezen verschilt niet wezenlijk van de digitale toetsen zoals we die nu kennen in de vorm van bijvoorbeeld de rekentoetsen die voorafgaand aan de eindexamens in vo en mbo worden afgenomen. Die overeenkomst wordt des te duidelijker bij het lezen van een schijnbaar gedateerd hoofdstuk als dat van Lindquist (1969) over de invloed die machines hebben op beoordelen in het onderwijs. Lindquist gaat nadrukkelijk in op de schadelijke uitwerking die automatiseren heeft gehad op de kwaliteit van toetsvragen, onder andere omdat onderzoek naar vormen van toetsen die bij uitstek geschikt zijn voor specifieke doeleinden of leerstof er ernstig door is belemmerd. Iets dergelijks is in Nederland overigens ook gebeurd: bij de oprichting van het Cito is er door A. D. de Groot en anderen voor gekozen om de propaganda te richten op de studietoets als voorkeurvorm voor toetsen — want zogenaamd objectief — en de vierkeuzevraag als de enig juiste studietoetsvraag. Ik formuleer het misschien iets te scherp, maar nog heden ten dage heeft het onderwijs last van het idee dat toetsen vooral ‘objectief’ zouden moeten zijn, dat meerkeuzevragen daarvoor uitstekend geschikt zijn, en dat de vierkeuzevraag ongeveer het ideaal is. Allemaal onzin, natuurlijk. Over die veronderstelde ‘objectiviteit’ van keuzevragen zie Wilbrink (1977).

Literatuur

E. F. Lindquist (1969). The impact of machines on educational measurement. 351-369. [Separate publication: The impact of machines on educational measurement - a monograph. AERA-pdk award lecture annual meeting American Educational Research Association, Chicago February 9, 1968] In Ralph W. Tyler (Ed.) (1969). Educational evaluation: New roles, new means. The Sixty-eighth Yearbook of the National Society for the Study of Education. NSSE. paywalled https://nsse-chicago.org/yearbooks.asp?cy=1969

Kennisnet http://www.kennisnet.nl/themas/digitaal-toetsen/

Murray Levine (1976). The academic achievement test: Its historical context and social functions. American Psychologist, 31, 228-238. abstract

The achievement test was useful in providing a neutral form of evidence in resolving political and social conflict, and in rationalizing the allocation of educational resources. Methods of test construction, item analysis, and mass scoring led to biases in test content sufficiently serious to question whether achievement tests measure what schools teach. A professional consensus seems to limit unduly the perspectives from which socially important questions are studied.
from the abstract

Ben Wilbrink (1077). Verborgen vooroordeel tegen andere dan meerkeuzevraagvormen. Paper Onderwijs Research Dagen 1977. webpagina

Elinor M. Woods (1970). Recent Applications of Computer Technology to School Testing Programs. Review of Educational Research, 40, 525-539. abstract

Valerie Strauss (April 4, 2014). Teachers refuse to administer standardized tests. The Washington Post; The Answer Sheet webpage

Dit is zeker een relevant item voor het artikel: standaardiseren en schaalvergroting bedreigen immers potentieel de kwaliteit van het onderwijs. Wanneer daar dan nog bij komt dat dergelijke toetsen worden opgesteld volgens een ideologie die het contact met de onderwijsvloer volkomen kwijt is, dan zijn de rapen gaar. De situatie is in de VS dramatisch aan het worden, met de staat New York als koploper van het burgerprotest. Daar is in Nederland het verzet tegen de rekentoetsen nog niets bij vergeleken, al is de problematiek in wezenlijke trekken vergelijkbaar met de common-core-politiek in de VS (dat is inderdaad federale politiek, tegen de federale wetten in, maar daar trekt in de VS geen politicus zich nog iets van aan. Zoals ook in Nederland al lang geleden een staatsdidactiek voor reken- en wiskundeonderwijs is ingevoerd).

David B. Daniel & Daniel T. Willingham (30 March 2014). Electronic textbooks: Why the rush? Science, vol. 335, Letters, pdf

Alan C.K. Cheung, Robert E. Slavin (2013). The effectiveness of educational technology applications for enhancing mathematics achievement in K-12 classrooms: A meta-analysis Review Article Educational Research Review, Volume 9, June 2013, Pages 88-113 pdf

Highlights: The findings suggest that educational technology produced a positive, though small, effect. There were differential impacts of various types of educational technology applications. Among the three types of applications, supplemental CAI had the largest effect.

James H. Fife (2013). Automated Scoring of Mathematics Tasks in the Common Core Era: Enhancements to M-rater in Support of CBAL Mathematics and the Common Core Assessments. ETS Research Report RR-13-26 abstract and pdf download

Illustreert de aard van de investeringen die nodig zijn om automatisch scoren van digitale rekentoetsen mogelijk te maken. Er staat mij vaag iets bij dat ik dit rapport, of een rapport dat er wel heel erg op lijkt, eerder heb gebruikt in een forumdiscussie o.i.d.

“Does Entering Mathematics Questions Online Change the Construct Being Tested?
When the response to a task requires writing an equation, how does asking examinees to enter the equation on a computer instead of writing it on paper change what is being measured? Gallagher, Bennett, Cahalan, and Rock (2002) found no evidence that the use of an equation editor negatively affected student performance, but the students in their study were prospective graduate students in quantitative fields. So far, there seems to have been little attention paid to the issue of how middle school students relate to equation editors.”
p. 35

Kennisnet: Welk digitale toetssysteem past bij jou? [Een marktscan] webpagina

Een lange lijst, van Cito-volgsysteem tot Muiswerk, Rekentuin en Taalzee. Met links naar de betreffende websites. Nuttig om een beetje een idee te krijgen wat er zoal wordt aangeboden, en dat is een nogal heterogene verzameling van producten.

Discovery Education Canada abstract

[via @dstaples 27 april 2014] Pure propaganda voor een specifieke onderwijsideologie:

Discovery Education offers a breadth and depth of digital media content that is immersive, engaging and brings the world into the classroom to give every student a chance to experience fascinating people, places, and events. All content is aligned to state standards, can be aligned to custom curriculum, and supports classroom instruction regardless of the technology platform.. ( . . ) with Discovery Education teachers are truly able to give students opportunities to soar beyond the traditional textbook for endless possibilities.

Monique Marreveld, Bea Ros & Jessie van den Broek (mei 2014). Examens van de toekomst. Didactief, 44 nr 5, 17-19. blog bij dit artikel

Dat is een lastig casus: van wie is de software etc die op publieke kosten is ontwikkeld? Mijn stelling bij dit verhaal zou een heel andere zijn: belast publieke examens niet met ICT-complicaties. Stop digitaal toetsen.

Een goede reden voor terughoudendheid bij overgaan op digitaal toetsen is nu juist dat digitaliseren extra randvoorwaarden oplegt aan de bruikbare toetsvragen, de toetsen en aan alles wat om dat toetsen heen hangt. Daar hoor ik belanghebbenden zelden over, wél over de extra mogelijkheden die digitale toetsing zou bieden voor rekenmachientjes, beeld en geluid en wat niet al. Zeker, ik zal dat laatste niet ontkennen, maar gaat het hier niet om allerlei barokke versiering die op geen enkele manier essentieel is voor kwalitatief goede toetsen, en daar wellicht eerder afbreuk aan doet dan eraan bijdraagt?

Over de beperkingen die een tool voor digitale afname op kan leggen aan wat er aan toetsvragen in past, doet Peter Meijer onbedoeld een opmerkelijke uitspraak: zijn tool is noodzakelijkerwijs ontwikkeld in nauwe samenspraak met leverancier van de toetsvragen, met de Stichting Cito dus. Als zo’n nauwe samenspraak nodig is, kan dat niet anders dan betekenen dat andere ontwerpers van toetsvragen geconfronteerd worden met een afname-tool dat niet geschikt is voor de vragen die zij moeten ontwerpen. Dan zijn er aanpassingen nodig, is samenspraak met de tool-leverancier: ‘Echt één op één, anders gaat het niet,’. Wie gaat dat dan betalen? Precies, de geldschieters liggen dan op het kerkhof. Dat betekent onvermijdelijk dat de te stellen vragen dan maar aangepast moeten worden aan de tool zoals die op dat moment beschikbaar is.

Het artikel in Didactief is op het scherp van de onderwijsjournalistiek geschreven, een waar genoegen. Het Cito kan het wat minder waarderen, en heeft ervoor gekozen niet op het artikel te reageren.

Dat alles neemt niet weg dat ondertussen al een zeer groot deel van examens en toelatingstoetsen digitaal wordt afgenomen, door Cito verzorgd met de tool Examentester. Eerlijk gezegd heb ik geen idee hoe dit heeft kunnen gebeuren, of in feite is gebeurd: is daar overleg met het parlement over geweest, is dit een onderneming die volledig voor rekening van OCW en onderhandse contracten met Cito (Stichting of BV in onontwarbare kluwen) komt? Is er wel eens verantwoording over afgelegd, iets geëvalueerd misschien?

“‘Echt één op één, anders gaat het niet,’ zegt Peter Meijer, COO van Trifork.”
blog Marreveld

Ulrich Schroeders and Oliver Wilhelm (2011). Equivalence of Reading and Listening Comprehension Across Test Media. Educational and Psychological Measurement, 71, 849-869. abstract

Pas op met onderzoek waar in feite alleen maar wordt gekeken of de ene toetsvariant de kandidaten ongeveer gelijk ordent als een andere toetsvariant dat doet. Dat is een onderzoekopzet die natuurlijk irrelevant is wanneer allerlei andere variabelen met een oorzakelijk verband met prestaties, niet gecontroleerd zijn. Bijvoorbeeld. Want er zijn nog wel meer bezwaren tegen dit type onderzoek, bijvoorbeeld omdat meestal stilzwijgend ervan wordt uitgegaan dat het belang van de testafnemende instelling in het geding is, niet dat van de individuele kandidaat.

Craig N. Mills, Maria T. Potenza, John J. Fremer & William C. Ward (2002). Computer Based Testing. Building the Foundation for Future Assessments. Erlbaum. [als eBook in KB] abstract

Chapter 12 Joachim Wirth: Computer based tests: Alternatives for test and item design. pdf of chapter. Wirth belooft zowel voor- als nadelen te bespreken. Laat ik die laatste citeren. Die nadelen dan.
From each perspective, advantages of new test and item designs will be discussed as well as problems that emerge from using them.
However, using new computer-based item and test designs instead of traditional tests does not automatically lead to an improved measure (Mislevy, 1996) that covers more or new aspects of a competence. As is true for all new items and tests, the quality of computer-based items and tests has to be evaluated carefully. The more complex and dynamic a test is, and the more different media are included, the more difficult it is to evaluate which aspects of a competence are covered and how reliable the test is.
p. 222
However, authenticity does not automatically lead to higher construct validity. “Adding more realism to test items does not automatically lead to valid measures. [ . . ] Any new feature added to a test that is not essential to the variable the test is intended to measure is a potential threat to [construct] validity” (van der Linden, 2002, pp. 93.).
p. 224
Wim J. van der Linden (2002). On complexity in CBT. In C. N. Mills, M. T. Potenza, J. J. Fremer, & W. C. Ward (Eds.), Computer-based testing. Building the foundation for future assessments (pp. 89-102). Erlbaum. [als eBook in KB] Google preview

Wim J. van der Linden (2002). On complexity in CBT. In C. N. Mills, M. T. Potenza, J. J. Fremer, & W. C. Wim J. Ward (Eds.), Computer-based testing. Building the foundation for future assessments (pp. 89–102). Erlbaum. . [als e-Book te leen bij KB] Google preview p. 89 ff

Yes. Goed gebalanceerd stuk, zoals ik het (gedeeltelijk) heb gelezen. Wim van der Linden, eerste voorzitter van de Nederlandse Vereniging voor Examens, heeft tegenwoordig besognes in de VS (hoofd testonderzoek CBT-McGraw-Hill, vice-president NCME), geen beletsel voor kamerleden om hem eens uit te nodigen voor een gesprek over de problemen die deze rekentoetsen ’met authentieke contextopgaven’ geven.

Stephanie Simon (15 May 2014). Data mining your children. Blog on POLITICO. blog

WiskundE-brief 1 juni 2014. Digitaal wiskunde examen vmbo KB mag over. Wiskundebrief 672. webpagina

Sommige leerlingen hebben tijdens het digitale examen wiskunde vmbo KB problemen ondervonden met het gebruik van de digitale rekenmachine. Zij mogen er nu voor kiezen, dat examen over te doen.

Maria Konnikova (June 2, 2014). What's lost as handwriting fades. The New York Times. webpage

J. M. Faber & A. J. Visscher (2014). Digitale leerlingvolgsystemen: een review van de effecten op leerprestaties. Kennisnet. Universiteit Twente: Vakgroep Onderzoeksmethodologie, Meetmethoden en Data-analyse. pdf

De onderzoekers produceren een hoop tekst bij het kennelijk belangrijkste resultaat van hun overzichtsstudie: een effectgrootte van 0,07. Volgens de regels van de kunst, is een dergelijke effectgrootte van vrijwel geen belang. Als het dan inderdaad zo is dat DLVS geen positief effect heeft, dan ben ik geneigd de stelling te poneren dat er waarschijnlijk wel belangrijke negatieve effecten zijn: het tijdsbeslag dat dit alles legt op leraren, de kosten van het systeem, en mogelijk ook de aantasting van de professionaliteit van de leraren door systemen zoals het LVS, al dan niet digitaal.

Het effect van formatief toetsen op leerresultaten is sinds de jaren negentig veel onderzocht (Wiliam, 2011). In dit onderzoek is het effect van formatief toetsen in combinatie met het gebruiken van een DLVS door leraren onderzocht. In de analyses is een gemiddeld gewogen effect van 0.07 gevonden (Tabel 4).
p. 24

Kathleen Scalise & Bernard Gifford (2006). Computer-based assessment in e-learning: A framework for constructing 'intermediate constraint' questions and tasks for technology platforms. JTLA The Journal of Technology, Learning, and Assessment, 4 #6. webpage

Richard M. Luecht & Stephen G. Sireci (2011). A Review of Models for Computer-Based Testing. Research Report, College Board. abstract

(Paul van Meenen, Vincent Oord & Michiel Stadhouders) (oktober 2013). ICT in het onderwijs. D66. https://d66.nl/content/uploads/sites/2/2014/06/D66_ICT_in_onderwijs.pdf

Ik zie dat ‘21’ alleen voorkomt als % BTW, en dat is wel een compliment waard (geen ‘21st century skills’ dus).

Genuanceerd stuk, maar ook wel politiek naïef: belangen ICT-sector, incl adviseurs, zijn te groot om aan voorbij te gaan.

Zo kan er via digitaal toetsen ongelooflijk veel persoonlijke informatie worden binnengeharkt. Privacy? No way. Bv: timing van tijd op afzonderlijke vragen, oogbewegingen daarbij. Een soort persoonlijk paspoort geef je af. Deze gegevens komen ws in oncontroleerbare databestanden, zoals InBloom, waar New Yorkse ouders dat evenwel wisten te verhinderen. Diane Ravitch blogt over InBloom en ander ongerief in VS-onderwijsland. Zie ook bv Olga Kharif (May 01, 2014). Privacy Fears Over Student Data Tracking Lead to InBloom's Shutdown. article.

InBloom Chief Executive Officer Iwan Streichenberger says the public just didn’t understand what the company was trying to do. “We tend to be too defensive about privacy and not proactive and positive enough about the benefits of data,” he said at an industry conference the day he announced his company’s closing. “We believe in personalized learning, or the use of data to drive instruction—I do. But I think what we’ve realized is it’s still a very unknown concept for a lot of people. So they don’t understand why they should go down this path.”

abstract

12 juni 2014 \ contact ben apenstaartje benwilbrink.nl freelance advies ontwikkeling onderzoek

http://www.benwilbrink.nl/projecten/14toets_ict_bi-logical.htm