workshop objectief beoordelen 1980

WORKSHOP OBJECTIEF BEOORDELEN

inleiding op Toetsen

Ben Wilbrink, COWO - december 1980

NB. De inzichten van 1980 zijn niet onveranderd gebleven. In 1980 is een zekere mate van bureaucratisering van het boordelen nog onmiskenbaar aanwezig, zoals de starre opvatting dat het essentieel zou zijn bij het nakijken van open vragen de beschikking over modelantwoorden en scoringsvoorschriften te hebben, zeg maar de procedure die het College voor Toetsen en Examens in 2020 nog steeds volgt, met alle ellende van dien (tot aan de Hoge Raad toe). Ook ontbreekt nog het inzicht dat bij de grens tussen 'voldoende' en 'onvoldoende' het verschil in behandeling bij net voldoende, resp. net onvoldoende scores niet rationeel is te rechtvaardigen: het gaat om risico’s die studenten zelf hebben te dragen, waarbij docenten de verantwoordelijkheid hebben dat de toets doeltreffend is voor te bereiden (De Groot, 1970).

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie Transcriptie: https://benwilbrink.nl/publicaties/70degroot.htm

Bij het beoordelen van studieprestaties is het van belang dat toevallige en niet ter zake doende omstandigheden geen invoed kunnen hebben op de resultaten. In de mate waarin dat het geval is, kan het beoordelen objectief genoemd worden.

Het doel van deze workshop is: door oefening en discussie inzicht geven in de wijze waarop de objectiviteit van het beoordelen verhoogd kan worden door goede procedures, van het opstellen van toetsvragen tot en met het nemen van eindbeslissingen.

De oefening bestaat uit het invullen van een vragenlijst (toets), een activiteit die hopelijk uitlokt tot nadenken en ontdekken, en waarmee de basis onder de daarna volgende discussie gelegd wordt.

Het begrip objectiviteit wordt breed opgevat, en omvat ook de inter-subjectieve overeenstemming van deskundigen op die punten waar dat deskundige oordeel relevant is. Bijvoorbeeld: het 'juiste' antwoord op een toetsvraag is alleen dan ook objectief juist wanneer vakdeskundigen onafhankelijk van elkaar hetzelfde antwoord als juist aanwijzen.

Er zijn nogal wat pseudo-objectieve procedures die niets met objectiviteit te maken hebben behalve in triviale zin. Bijvoorbeeld: het automatisch scoren van keuzetoetsen is pseudo-objectief, want weliswaar kan de persoon van de beoordelaar op dat moment geen onbedoelde invloed meer uitoefenen, maar dat sluit geenszins uit dat de scoringssleutel waar de machine mee werkt, op subjectieve wijze is vastgesteld. Louter 'dingmatig' werken, met behulp van automaten, heeft op zich niets met objectiviteit te maken (terwijl bovendien ook automaten fouten zullen maken).

Het beantwoorden van de vragenlijst vergt ongeveer 20 minuten. Denk niet te lang over de vragen na. Leg het 2e vel van dezelfde kleur onder het 1e vel, maar zó dat de invulhokjes náást die van het 1e vel komen te liggen; vul bij iedere vraag beide hokjes gelijk in; het 2e vel kunt u behouden voor bij de discussie.

Na afloop ontvangt u het workshop book, waar alle onderwerpen op meer informatieve wijze behandeld worden, om thuis nog eens na te slaan, en om in de eigen toetspraktijk mee te werken.

==================================

Toelichting en commentaar bij de vragen.

1. Welke vraagvormen laten ruimte voor subjectieve interpretatie en beantwoording door studenten? Het opstel, het werkstuk, en essayvragen laten de student veelal ruimte voor eigen interpretatie en voor een persoonlijke tint bij de beantwoording of uitvoering. In tegenstelling daarmee worden keuzevragen en aanvulvragen juist zo ondubbelzinnig mogelijk geformuleerd om te voorkomen dat de ene student er iets anders uit begrijpt dan de andere student.

Bij het opstel etc. wordt veelal opzettelijk die ruimte voor eigenzinnige beantwoording gegeven, en het opstel is daar ook een adequate vorm voor. Het zal duidelijk zijn dat antwoorden waar een stuk subjectiviteit van de student ingebouwd wordt, nimmer geheel objectief te beoordelen zijn (tenzij op triviale wijze door aantal gebruikte woorden te tellen bijvoorbeeld). Ook al is objectiviteit bij het beoordelen niet bereikbaar, dan zijn er toch nog veel procedure mogelijkheden die tenminste tot een hogere mate van objectiviteit bijdragen.

Bij meerkeuzevragen kunnen ongelukkig gekozen afleiders er toe leiden dat van de student afwegingen (in de keuze tussen alternatieven) gevraagd worden waar het onderwijs niet op gericht is geweest.

Ook matchingvragen kunnen onbedoeld van de student zo moeilijke vergelijkingen vragen dat er subjectieve interpretaties aan te pas gaan komen.

Aanvulvragen sluiten ook bij ondubbelzinnige formulering niet geheel de mogelijkheid van eigenzinnige, onvoorziene maar toch goed te oordelen, antwoorden uit.

Essayvragen e.d. laten de student naar de vorm wel vrij, maar kunnen ook best vragen om een beantwoording die in veel opzichten objectief van aard is (denk bijv. aan randvoorwaarden waarbinnen gewerkt moet worden, kennis en inzicht die tenminste moeten blijken, opgegeven criteria waaraan het werkstuk moet voldoen, e.d.)

2. Welke gevraagde activiteiten leveren meer objectief beoordeelbare antwoorden op? Globaal genomen zal reproductie van kennis leiden tot antwoorden die makkelijker objectief te beoordelen zijn, en zal probleemoplossen in dat opzicht wat meer moeilijkheden geven. Daarmee is natuurlijk niet gezegd dat toetsen bij voorkeur uit kennisvragen zouden moeten bestaan, integendeel. Er wil wél mee gezegd zijn dat bij opgaven die om interpretatie, evaluatie, of probleemoplossen vragen, extra zorg aan een aanvaardbaar objectieve beoordeling besteed moet worden.

Bij het herkennen van een gegeven voorbeeld gaat het om een nieuw voorbeeld van een bepaald begrip, wet, etc., dat als zodanig herkend moet worden. Dat levert doorgaans objectief beoordeelbare antwoorden op.

Moet de student een nieuw voorbeeld geven, dan zullen deskundigen het, onafhankelijk van elkaar, er veelal over eens zijn of zo'n nieuw voorbeeld juist is, of niet. Er is altijd de kans dat de student een voorbeeld geeft dat in het 'randgebied' zit, een 'twijfelgeval' is; dat hoeft zo'n voorbeeld nog niet minder correct te maken (tenzij gevraagd is om 'typische' voorbeelden).

Klassificeren en diagnosticeren: hier geldt hetzelfde van een nieuw voorbeeld werd opgemerkt.

Interpretatie, evaluatie, en probleemoplossen zijn activiteiten die leiden tot antwoorden met meer of minder sterke subjectieve elementen, waar dan ook bij het beoordelen rekening mee te houden is.

3. Formulering van de toetsvragen. Onvolkomenheden in de formulering van vragen leiden er toe dat die vragen niet meer zuiver op de graat zijn, dat ze niet meer alleen de bedoelde kennis etc, 'meten', maar dat goed of fout beantwoorden ervan afhangt of de student door de onvolkomen formulering heen de bedoeling van de vragensteller heeft kunnen peilen. Formuleringsfouten doen daarmee afbreuk aan de objectiviteit van de toetsing, omdat niet terzakedoende persoonlijke factoren (bij de student) het antwoord (mede) bepalen.

4. Welke procedures bij het nakijken dragen bij aan de objectiviteit? Bij het nakijken gaat het erom dat de persoon van de beoordelaar geen rol kan spelen, althans niet in hinderlijke mate. Geprobeerd wordt om persoonlijke opvattingen van de beoordelaar uit te sluiten, voorkennis omtrent de te beoordelen persoon geen invloed te laten hebben, en om ongewenste beoordelaarseffecten (strengheid, halo-effect, volgorde effecten, etc.) tegen te gaan.

Bij voorkeur wordt anoniem werk nagekeken, netheid en layout van het werk buiten de beoordeling gehouden, de beoordeling niet op het werk zelf aangetekend, een modelantwoord gebruikt, dat modelantwoord ook aan studenten uitgereikt, een argumentatie bij het modelantwoord gegeven, van twee of meer beoordelaars gebruik gemaakt, aan studenten een kopie van het eigen werk en van de beoordeling uitgereikt.

Afhankelijk van de aard van de gestelde vragen zullen deze procedures méér of minder omvattend, en méér of minder belangrijk zijn. Het nakijken van aanvulvragen is procedureel heel makkelijk objectief te maken, terwijl dat voor het nakijken van opstellen heel anders zal liggen.

5. Welke procedures bij het scoren van beoordeelde antwoorden dragen bij aan de objectiviteit? Deze vraag is een kopie van vraag 4; nadat een antwoord beoordeeld is, moeten er punten aan toegekend worden. Dat gebeurt bij voorkeur aan de hand van een scoringsvoorschrift (gekoppeld aan het modelantwoord). Bij objectieve vragen (keuzevragen en aanvulvragen) zal beoordeling en scoring meestal tegelijk gebeuren: een goed antwoord is immers een punt. Bij essayvragen is het aan te raden het beoordelen en het scoren afzonderlijk te behandelen (eventueel door verschillende personen te laten doen). Dezelfde aanbevelingen als boven voor het beoordelen gegeven, gelden ook hier. Zorg er bijvoorbeeld voor dat bij meerkeuzevragen de studenten de beschikking krijgen over 1) de gestelde vragen, 2) een kopie van de gegeven antwoorden, en 3) de scoringssleutel. Dan kunnen studenten het eigen werk scoren, en hebben daarmee de controle op de juiste scoring van hun werk in eigen handen. Bovendien beschikken ze heel snel over de uitslag.

6. Wat draagt bij aan de objectiviteit van de eindbeslissing 'gezakt, geslaagd'? Het gaat er om dat de zak-slaag grens, de cesuur, een objectief karakter heeft. Dat betekent dat de cesuur inhoudelijk beargumenteerd moet zijn, zo mogelijk in een procedure waarin deskundigen onafhankelijk van elkaar via dezelfde inhoudelijke overwegingen tot redelijk overeenstemmende cesuren zijn gekomen. Tot de overwegingen behoren zowel argumenten die de mate van gewenste beheersing van de leerstof betreffen, als argumenten die de aard van de tentamenregeling betreffen (zgn. tentamenmodel overwegingen, zie Wilbrink 1978, 1980). Géén v, de alternatieven bij vraag 6 genoemd draagt aan de objectiviteit bij een tevoren bekend gemaakte norm is pseudo-objectief; de argumentatie achter de tevoren gegeven cesuur moet objectief zijn).

7. Wat er over de stof gevraagd het zal worden. Twee docenten, die hetzelfde onderwijs over dezelfde leerstof verzorgd hebben voor dezelfde studenten, kunnen bij het opstellen van vragen over die stof onafhankelijk van elkaar tot sterk verschillende vragenverzamelingen komen. Het zou voor de student dan erg veel verschil uit kunnen maken of de vragen van de ene docent, dan wel van de andere docent, in de toets opgenomen worden. Het tevoren formuleren van gedetailleerde doelstellingen is een van de mogelijkheden om dit soort subjectieve verschillen uit te sluiten. Een andere mogelijkheid is het opstellen van een vragen-verzameling die a.h.w. operationeel vastlegt welk soort vragen er over de stof gesteld zullen worden. Uiteraard worden doelstellingen, vragenverzameling, e.d. aan studenten tijdig genoeg bekend gemaakt dat zij er in hun voorbereiding op de toetsing rekening mee kunnen houden.

8. Het opstellen van toetsvragen: kunst of kunde? Wanneer vragen niet volgens (onderwijskundig verantwoorde) constructieregels opgesteld kunnen worden, zal de opsteller terugvallen op zijn creativiteit, ervaring, of het gebruiken van oude vragen als inspiratiebron. Inderdaad beschrijven handboekauteurs het 'itemschriiven' nogal eens als een 'kunst', als iets dat je 'in de vingers moet hebben', en alleen gedeeltelijk via ervaring 'te leren' is. Het is voor veel docenten een ervaringsfeit dat na enkele toetsen over een bepaald stuk stof geconstrueerd te hebben, het erg moeilijk wordt om nog weer nieuwe vragen te bedenken.

De ellende Van deze stand van zaken is dat vragen die in een 'creatief proces' bedacht zijn, op niet geheel duidelijke wijze de kennis of het inzicht van de student aftappen. In andere woorden. wat dergelijke kunstzinnige vragen 'meten' is een open vraag. Vanuit de positie van de student bekeken is het dan wel erg moeilijk zich effectief voor te bereiden op een toets die uit dergelijke kunszinnige vragen bestaat.

9. Raadkansen doen afbreuk aan de objectiviteit. Wie voor keuzevragen kiest, haalt daarmee ook raadkansen binnen. Wie een vraag niet weet, of niet álle afleiders af kan strepen, raadt of gokt het antwoord. Bij iedere keuzetoets speelt dat raden een heel grote rol (gemiddeld wordt bijna de helft van alle vragen geheel of gedeeltelijk geraden), en wordt daarmee ook een groot deel van de toetsscore bepaald door het al dan niet gelukkig zijn gemeest bij dat raden. Er kan bovendien niet voor raden gecorrigeerd worden. Er zijn wel formules voor correctie voor raden in omloop, maar die correcties zijn gemiddelden: het is nimmer mogelijk voor een individuele student zijn of haar score te zuiveren van toevallig goed geraden vragen.

Bedenk dat juist voor degenen die laag, in de buurt van de cesuur, scoren, geldt dat zij relatief erg veel vragen raden, zodat daarmee het zakken of slagen voor het grootste deel van succesvol raden afhangt. Het plaatje is u wel duidelijk: wie zonder bezwaar raadkansen kan vermijden door aanvulvragen i.p.v. keuzevragen te gebruiken, doet er dan ook beter aan op die wijze de de objectiviteit van de beoordeling te bevorderen.

10. Controle vooraf: onafhankelijke overeenstemming tussen deskundigen. Het gaat hier om objectiviteit in de zin van: dat deskundigen het, onafhankelijk van elkaar werkend, met elkaar eens zijn over wat als juiste beantwoording van de vragen geldt. De procedure is conform deze omschrijving: laat deskundigen onafhankelijk van elkaar de conceptvragen beantwoorden (onder toets-omstandigheden, d.w.z. zonder de literatuur te raadplegen wanneer studenten dat straks ook niet kunnen doen); verbeter of verwijder alle conceptvragen waarover geen overeenstemming gevonden wordt (tenzij verschillende antwoorden kunnen gelden als alternatieve, even correcte, en dan ook goed te beoordelen antwoorden). De situatie dicteert hóe de procedure moet zijn. Bijvoorbeeld: bij meerkeuzevragen kan het van belang zijn om allereerst na te gaan of deskundigen zonder de alternatieven gezien te hebben, hetzelfde antwoord geven op de 'open' vraag.

11. Bij onderlinge bespreking kan geen inter-subjectieve overeenstemming bepaald worden. Bij het onderling bespreken van conceptvragen in de docentenvergadering is het niet mogelijk om vast te stellen in welke mate men het onafhankelijk van elkaar eens is over de juiste beantwoording. Bij het gezamenlijk bespreken be&ium;nvloedt men elkaar, langs meer of minder subtiele wegen. Het met elkaar doorspreken van de conceptvragen kan alleen zinvol zijn wanneer tevoren de vragen door iedereen, onafhankelijk van elkaar, beantwoord zijn, en deze antwoorden juist het onderwerp van overleg gaan vormen. Vanzelfsprekend dient het overleg er niet voor om eventuele verschillende opvattingen, zoals die uit uiteenlopende antwoorden blijken, weg te praten, maar om er juist de conclusies uit te trekken m.b.t. het wijzigen of weglaten van de betreffende vragen. Met andere woorden: gebleken verschillen zijn feiten waar je rekening mee te houden hebt, het zijn geen onderhandelingspunten of voorwerpen voor overreding-achteraf.

12. Wat als juist antwoord zal gelden, mag niet bij fiat bepaald worden, ook niet bij fiat van de vraagopsteller. Kwamen deskundigen, onafhankelijk van elkaar, tot verschillende antwoorden, dan is dat een feit dat niet weggepoetst kan en mag worden door een stemming te laten beslissen over wat als 'juist' gerekend zal worden, of door een 'compromis' te zoeken, of door dat antwoord juist te rekenen waar de 'sterkste' argumenten voor gegeven kunnen worden, of door de vraagopsteller de beslissing te laten nemen. Wanneer maar één antwoord juist kan zijn, is het evident dat de vraag ondeugdelijk is, en verbeterd of weggelaten rnoet worden. Zijn er meerdere antwoorden als 'juist' mogelijk, en deskundigen zijn het er over eens dat door anderen gegeven antwoorden ook als juist kunnen gelden, dan kan daar bij de beoordeling op voor de hand liggende wijze rekening mee gehouden worden. Zijn deskundigen het met elkaars verschillende antwoorden van harte oneens, dan is het misschien beter om de vraag te herzien of weg te laten; weliswaar kan de afspraak gemaakt worden dat ieder antwoord goed gerekend zal worden wanneer er tenminste één deskundige is die het als 'juist' aanmerkt, maar dat laat de vervelende mogelijkheid open dat de student straks bij zijn fout gerekende antwoorden getulge-deskundige verklaringen gaat zoeken die de fout gerekende antwoorden alsnog 'juist' aanmerken.

13, 14. Bij het nakijken gaat het voordeel van de twijfel naar de student, ook wanneer beoordelaars van elkaar verschillen. Het is algemeen gebruikelijk om het gemiddelde te nemen van de scores die verschillende beoordelaars aan hetzelfde antwoord hebben toegekend. Dat is een erg willekeurige handelwijze, die alleen te verdedigen is wanneer aannemelijk gemaakt kan worden dat verschillen in toegekende scores louter op 'toevalligheden' berusten. Ook al zou dat laatste het geval zijn, dan ligt het nog niet in de rede om het gemiddelde te nemen; het gaat dan om zulke geringe verschillen dat best de hoogste score aan de student toegekend kan worden.

Onder 12) werd besproken wat te doen wanneer onafhankelijk werkende deskundigen niet tot overeenstemmende beantwoording komen. De gegeven aanbevelingen gelden ook waar het gaat om het opstellen van modelantwoorden en scoringsvoorschriften. Ondanks al dergelijke goede voorbereidingen kunnen ook bij het nakijken, vooral van essay antwoorden en in mindere mate van aanvulvragen, nog verschillen tussen beoordelaars blijken te bestaan, ofwel in de beoordeling, ofwel in de scoring (=puntentoekenning). Er is ook dan geen dwingende regel waarom het oordeel van de ene deskundige op voorhand zwaarder zou wegen dan dat van een andere deskundige, en het is al evenmin vanzelfsprekend dat er dan een compromis in de vorm van het nemen van het gemiddelde gehanteerd zou moeten worden.

Het is wél een goede regel om in twijfelgevallen de beoordeelde het voordeel van de twijfel te geven. En bij een verschillend oordeel van ter zake deskundigen is er sprake van een 'twijfelgeval'. Er is twijfel aan de deskundigheid van de beoordelaars voor nodig om tot noodgrepen als het nemen van het gemiddelde over te gaan. Bijvoorbeeld: kent de ene beoordelaar 7 punten toe, en een andere beoordelaar 5 punten voor hetzelfde antwoord, dan is het kennelijk zo dat er voor de student nogal wat van af hangt welke 'deskundige' toevallig zijn werk nakijkt. De aard van de toetsing sluit dit soort verschillende oordelen niet uit, en dan ligt het voor de hand om de student daar zo weinig mogelijk het slachtoffer van te laten worden, door hem of haar het voordeel van het verschil toe te kennen.

In de praktijk maakt het waarschijnlijk technisch bezien weinig verschil, maar zal het wél de aanvaardbaarheid van de beoordeling zoals de student die ziet, verhogen. Technische argumenten liggen waarschijnlijk aan de basis van de gewoonte om gemiddelden te nemen, dat zou de objectiviteit van de toetsing vergroten omdat toevallige verschillen bij het nakijken enigszins tegen elkaar weggestreept worden. De veronderstelling is hierbij dat de verschillen inderdaad 'toevallig' zijn (zie ook bovenaan deze blz.). De 'technische' voordelen moeten echter wel afgewogen worden tegen mogelijke nadelen: 1) dat ook reële verschillen van inzicht bij de beoordelaars dan tegen elkaar uitgemiddeld worden, en 2) dat de procedure lastig is te rechtvaardigen tegenover de beoordeelden.

15. Wanneer achteraf blijkt dat een vraag slecht geformuleerd is. Dubbelzinnig geformuleerde vragen horen niet in een toets thuis. Maar soms blijkt pas achteraf dat een vraag voor meerdere uitleg vatbaar is (uit analyse van de resultaten, of uit commentaar van studenten). Is het juist om de vraag achteraf dan toch maar niet mee te rekenen? Het vervelende is dat het weglaten een vraag invloed zal hebben op de zak-slaag beslissingen (voor sommige studenten). Een noodprocedure zou kunnen zijn om niemand te laten zakken die mét de weg te laten vraag geslaagd zou zijn. Beter is het om de dubbelzinnige vragen te handhaven, en al díe antwoorden goed te rekenen die correct zijn onder één van de mogelijke interpretaties van de vraagstelling. Is een vraag ronduit verwarrend gesteld, dan is aan iedere student het maximale aantal punten voor die vraag toe te kennen.

16. Modelantwoorden en scoringsvoorschriften moeten verstandig gehanteerd worden. Het zal zelden of nooit mogelijk zijn om álle positief te beoordelen antwoord-varianten tevoren te bedenken, en in het modelantwoord en/of scoringsvoorschrift op te nemen. Wanneer een gegeven antwoord niet in het model-antwoord voorkomt, is dat op zich nog geen reden om het dan als fout aan te merken.

Dat betekent dat uitbesteden van het nakijkwerk aan een computer of een klerk of een studentassistent maar gedeeltelijk mogelijk is: alleen voorzover antwoorden binnen de opgegeven nakijkinstructies vallen. Alle afwijkende gevallen moeten door de docent ad hoc beoordeeld worden, en bij voorkeur door een tweede, onafhankelijk werkende, beoordelaar. Eventueel kunnen moeilijke of twijfelachtige gevallen eerst nog besproken worden, voordat tot cijfertoekenning wordt overgegaan.

17. Zorg er voor dat de toetsvragen evenredig over de leerstof verdeeld zijn. Over bepaalde onderdelen van de stof laten zich makkelijker vragen bedenken dan over andere; de vragenopsteller kan bepaalde voorkeuren voor onderwerpen hebben; eenvoudige kennisvragen zijn sneller op te stellen dan vragen die van de student een diepergaande beheersing van de stof vragen. Er zijn met andere woorden vele manieren waarop de toets qua samenstelling een scheefgetrokken beeld van de leerstof kan laten zien, en daarmee een minder objectieve toets kan zijn. Om dat te voorkomen is het aan te raden te werken met een schema of matrix, waarin gespecificeerd is hoeveel vragen over welke onderwerpen en in welke 'moeilijkheidsgraad' in de toets voor zullen komen. De student kan met datzelfde schema werken bij de voorbereiding op de toets, waardoor de studieinspanning beter over de hele stof verdeeld kan worden.

18. Toetsvragen horen na afloop bekend gemaakt te worden. Het is helaas nog steeds geen algemeen gebruik om na afloop van een toets de toetsvragen bekend te maken. Geheim houden van vragen wordt dan gerechtvaardigd met pragmatische argumenten, die er vrijwel altijd op neer komen dat de docenten moeite hebben om voor iedere toets een hele nieuwe set vragen op te stellen. De ellende die geheimhouden met zich brengt is een tweeledige: allereerst zullen vragen tóch uitlekken, en gaan circuleren, eventueel zelfs in een soort zwarte markt terecht komen; een ander bezwaar is dat studenten de gelegenheid ontnomen wordt om de eigen beoordeling te controleren, om eventuele vergissingen en onjuistheden op te sporen. Het circuleren van oude vragen leidt er toe dat sommige studenten met méér voorkennis aan de toets deelnemen dan andere, en dat leidt tot onjuiste en onrechtvaardige beoordelingen. Het geheim houden van vragen komt bovendien neer op het opzettelijk niet willen beargumenteren van de gegeven beoordeling, en daarmee wordt de student de gelegenheid ontnomen tegen zijn beoordeling beroep aan te tekenen op grond van artikel 40 van de WUB (op zich kan het niet beargumenteren van een gegeven beoordeling, wat tenslotte schending van een algemeen beginsel van behoorlijk bestuur is, een grond zijn om beroep tegen de beslissina aan te tekenen). In de Verenigde Staten is alom wetgeving in de maak die eist dat de vragen die in toelatingstoetsen (tot universitair onder-wijs) gebruikt zijn, openbaar gemaakt worden (Personnel Psychology, 1980, vol. 33, 1-40 'Symposium on "open versus secure testing"').

19. Ook de mondelinge ondervraging kan best meer objectief gehouden worden. Om begrijpelijke redenen is bij het mondeling ondervragen de verleiding groot om de keuze van de te stellen vragen af te laten hangen van de wijze waaop de ondervraagde de voorgaande vragen heeft beantwoord. Het is echter geen goede procedure: er wordt gekapitaliseerd op toevalligheden in het gesprek zoals dat tot dan toe verlopen is, het leidt er toe dat de toetsomstandigheden voor verschillende studenten heel verschillend uit zullen vallen, en er is maximale ruimte voor de ondervrager om (ook onbedoeld) persoonlijkevoorkeuren, gewoonten, en belangstelling het gesprek te laten bepalen, en daarmee ook de beoordeling.

Hoewel het mondeling veel vrijheid in de ondervraging mogelijk maakt, en juist daarom ook als toetsingsvorm gekozen kan zijn, kan de ondervraging best wat meer gereguleerd, en daarmee wat objectiever gemaakt worden. Dat kan bijvoorbeeld door een van tevoren opgestelde vragenlijst af te werken (i.p.v. ad hoc vragen te bedenken); vergelijk ook wat onder 17) opgemerkt is.

20. De cesuur wordt niet bij onderling fiat vastgesteld, maar beargumenteerd op onder andere inhoudelijke gronden. Zie ook wat eerder onder 6) daarover werd opgemerkt. Bij het bepalen van de cesuur kan een procedure gevolgd worden die analoog is aan de procedures die gebruikt worden om tot objectieve toetsvragen, en tot objectieve beoordeling van antwoorden te komen. Het gaat er om dat overeenstemming tussen deskundigen niet in onderlinge discussie bereikt wordt, maar blijkt uit de resultaten van deskundigen die onafhankelijk van elkaar gewerkt hebben.

21. Formules of computerprogramma's garanderen geen objectieve cesuurbepaling. Er wordt wel gezegd dat het gebruik van een tevoren bepaalde formule voor de plaats van de cesuur 'objectief' is, omdat de persoon van de beoordelaar dan geen invloed op de plaats van de cesuur meer kan hebben. Daarbij wordt 'vergeten' dat de keuze van de 'formule', of van de parameterwaarden in de formule, wel degelijk mensenwerk is, en erg subjectief zal zijn wanneer dat met de natte vinger gebeurt, of wanneer de verantwoordelijke docent geen inzicht in de werking van de te gebruiken cesuurbepalingsmethode heeft. Voorbeelden: de kernitemmethode (De Groot en Van Naerssen, 1969), de methode Wijnen (Wijnen, 1972), 'grading on the curve', constant percentage af te wijzen, constant percentage van de vragen dat 'goed' beantwoord moet zijn. Het probleem zit niet zozeer in de te gebruiken regel of formule, maar in het ondoordacht en onbeargumenteerd gebruiken van dergelijke regels. Er zijn toetsanalyse programma's die de cesuur uitrekenen, wanneer de docent opgeeft welke vragen als 'kernitems' beschouwd kunnen worden (of zelfs dat nog niet, wanneer een latere variant van de kernitemmethode, ontwikkeld door Van Naerssen, gebruikt wordt). De hier bedoelde procedures zijn pseudo-objectief, en verdienen het label objectief pas wanneer hun gebruik behoorlijk beargumenteerd wordt.

22. Veel méér of minder) geslaagden dan verwacht is altijd een reden voor nadere analyse. Op basis van de resultaten van voorgaande toetsen, in dezelfde onderwijssituatie, kan meestal een redelijke verwachting worden uitgesproken over het aantal dat deze keer zal slagen. Wanneer er een sterke afwijking van die verwachting geconstateerd wordt, zou het kunnen zijn dat de argumenten waarop de cesuur gebaseerd is, achteraf niet geheel juist blijken te zijn. Daarom is het nodig om, bijvoorbeeld, na te gaan of studenten zich deze keer veel beter (slechter) hebben voorbereid dan voorgaande keren. Wanneer daar gronden voor gevonden worden, kan eventueel de cesuur achteraf verlaagd worden.

23. Het is de taak van de docent om tot een zo objectief mogelijke beoordeling te komen. De Groot (1973, p. 20):

"per examinandus: komen tot een zo objectief mogelijke beoordeling of en in hoeverre hij/zij heeft voldaan aan de normen betreffende het niveau van prestaties binnen het gebied van de 'examineerbare stof'."

De objectiviteit kan verbeterd worden door zorgvuldiger procedures te hanteren; dat kost tijd en geld, zodat er in het algemeen een afweging gemaakt moet worden tussen de kosten van deze procedures, en de 'winst' aan objectiviteit. Bij die afweging speelt o.a. het aantal studenten die aan de toets deelnemen een belangrijke rol: hoe meer studenten, des te meer wordt het de moeite waard om extra aandacht aan de op te stellen toetsvragen te besteden. Er zijn situaties waarin redelijkerwijs niet aan stringente objectiviteitsverlangens is te voldoen, bijvoorbeeld omdat de toetsing maar een handjevol studenten betreft. Dan is het zaak om bij het nemen van beslissingen over studenten ook met een mogelijk hoge mate van subjectiviteit van de beoordeling rekening te houden. Zo is het bij mondeling ondervragen mogelijk om een slaaggarantie te geven, op basis van een goedgekeurde literatuurscriptie die voorafgaand aan het tentamen is ingeleverd (en eventueel verbeterd op aanwijzing van de docent).

Het streven naar objectiviteit volgt ook uit de regels van behoorlijk bestuur, die de grenzen aangeven waarbinnen de docent dient te blijven in zijn handelen tegenover de student (de administratief-rechtelijke begrenzing van de bevoegdheden van de docent). Het gaat dan om rechtsbeginselen als het (kunnen) motiveren van beslissingen, nakomen van afspraken, zorgvuldigheid, honoreren van gewekte verwachtingen.

24. Garanties voor rechtvaardige prestatiebeoordeling worden door geen enkele techniek gegeven. Het is de instelling van de docenten, de zorgvuldigheid waarmee zij de beoordeling uitvoeren (vanaf het bedenken van de toetsvragen tot het nemen van zak-slaag beslissingen) die de rechtvaardigheid van de beoordeling bepaalt.

De Groot (1973, p. 29) suggereert ten onrechte dat het gebruik van meerkeuzevragen, en alléén van meerkeuzevragen, kan leiden tot 'onaanvechtbaar rechtvaardige relatieve prestatiebeoordelingen'.

25. Een toets bestaande uit meerkeuzevragen is alleen daardoor nog geen 'objectieve' toets. In ons land is de opvatting wijd verspreid dat toetsen bestaande uit (meer)keuzevragen 'objectieve' toetsen zijn, en daarmee ook alle voordelen van objectieve beoordeling in zich dragen. Deze opvatting stoelt op het werk van De Groot (zie bijvoorbeeld 1973 p. 10).

Wie vraagt of een toets 'objectief' is, bedoelt daar kennelijk mee of de toets bestaat uit vragen van het 'objectieve' type. Het is internationaal gebruikelijk om daaronder zowel keuzevragen, als aanvulvragen of invulvragen te verstaan.

Het gebruiken van vragen van het objectieve type maakt op zich de beoordeling niet objectief, daar is nog wel iets meer voor nodig. Bijvoorbeeld is het daarvoor noodzakelijk dat wat juiste antwoorden zullen gelden, bepaald is door het overeenstemmende oordeel van deskundigen. Dat is overigens een uitbreiding van het objectiviteitsbegrip waar De Groot mee in kan stemmen (1973 p. 43), hoewel hij het buiten zijn eigen definitie blijft houden.

26. Het bedenken van meerkeuzevragen een kunst? Voor het bedenken van steeds maar weer nieuwe vragen over dezelfde stof wordt de docent (of de itemschrijver) tamelijk snel teruggeworpen op eigen vindingrijkheid. De onderwijskunde biedt nog maar weinig houvast: er zijn vrijwel geen vuistregels voor het bedenken van toetsvragen bekend, althans geen vuistregels die evident méér te bieden hebben dan wat iedere docent ook zelf al wel kan bedenken. Het is dan ook niet verwonderlijk dat veel tekstboeken het itemschrijven presenteren als een kunst, een vaardigheid die van lange ervaring en creatieve vermogens afhankelijk is. In deze zin is vraag 26 waar: het is communis opinio in de toetswereld. Gelukkig zijn er ondertussen wel enkele schuchtere pogingen gedaan om vuistregels te ontwikkelen die het mogelijk maken om snel en efficiënt grote hoeveelheden vragen te bedenken, terwijl die vragen een goede onderwijskundige of zo men wil 'didactische' basis hebben. Zie bijvoorbeeld Wilbrink 'Toetsen' hoofdstuk 3 en 4, en Wilbrink (1981, in voorbereiding).

27. Ook essay-achtige antwoorden kunnen best aan de hand van strikte beoordelings- en scoringsvoorschriften nagekeken worden. Het is altijd mogelijk om ook voor essay opgaven op voorhand gedetailleerde beoordelings- en scoringsvoorschriften op te stellen. Het is alleen de vraag of de investering aan tijd opweegt tegen de winst aan objectiviteit, zie ook onder 23). Bij bepaalde essay opgaven is het mogelijk om gedetailleerde modelantwoorden op te stellen (van feiten die vermeld moeten zijn, bijvoorbeeld), of is het mogelijk om tot objectieve beoordeling te komen door een hoge mate van intersubjectiviteit (bij wiskundige bewijs-voeringen bijvoorbeeld). Gaat het om werkstukken die een stuk creativiteit van de student belichamen, creativiteit die ook ter beoordeling dient te staan, dan kan die beoordeling meer gestuurd' worden door te werken met beoordelingsschaaltjes waarop het werkstuk op verschillende factoren of dimensies beoordeeld wordt (bijvoorbeeld afzonderlijk te beoordelen 'lay out', 'stijl', 'organisatie', 'originaliteit', 'effectiviteit' , 'juistheid', 'afwerking', 'uitvoering', etcetera.

28. Foutenanalyses-achteraf zijn bij vrijwel alle vormen van toetsing mogelijk. Het is een misvatting dat alleen bij meerkeuzevragen foutenanalyse mogelijk zou zijn. Meerkeuzevragen houden het risico van onvolledige foutenanalyse in: wanneer bepaalde afleiders véél of weinig aangestreept zijn, is daarmee nog niet bekend langs welke denkstappen studenten daartoe gekomen zijn; dit is vooral problematisch waar de meerkeuzevragen bedacht zijn via de methode van het 'creatieve itemschrijven', zie onder 26), en daardoor de relatie tot de onderwijsdoelstellingen dubieus is.

Zou foutenanalyse met behulp van de computer gewenst zijn, dan is het altijd mogelijk om aanvulvragen te scoren op schrapkaarten, en deze in te lezen en via geschikte programmatuur te analyseren. Hetzelfde kan ook met gestructureerde beoordeling en scoring van essay antwoorden, maar vereist dan speciale programmatuur, een investering die zelden haar extra opbrengst waard zal zijn.

29. De student kan in dezelfde beschikbare tijd ongeveer evenveel aanvulvragen als meerkeuzevragen beantwoorden. Zowel aanvulvragen als (meer)keuzevragen zijn erg efficiënt wat betreft de hoeveelheid informatie over de beheersing van de student die zij in eenzelfde tijdbestek opleveren. Bij meerkeuzevragen heeft de student tijd nodig om de verschillende afleiders te onderzoeken, bij aanvulvragen is er tijd nodig om het antwoord (een getal, een enkel woord) op te schrijven. Er is dus een speciaal voordeel van meerkeuzevragen in dit opzicht, eergder een nadeel t.o.v. aanvulvragen omdat de keuzevragen behept zijn met raadkansen (zie onder 9)), en dat doet aan de kwaliteit van de informatie af.

Het spreekt vanzelf dat het verkrijgen van méér informatie (per toetsuur) wenselijk is, omdat het een nauwkeuriger beeld van de stofbeheersing van de student oplevert, en dat is een bijdrage aan de objectiviteit (minder invloed van het toeval, door het gebruik van een 'rijker' steekproef, waardoor ook de stof beter bestreken wordt door de toetsvragen).

30. Analyse van de toetsresultaten (per vraag) is altijd mogelijk. Of het nu om essay opgaven, of om aanvul- of keuzevragen gaat, altijd is het mogelijk om de toetsresultaten per vraag te analyseren, al dan niet gebruik makend van psychometrische technieken. Zie ook wat onder 28) al over foutenanalyse gezegd is. Ten onrechte stelt De Groot (1973, p. 31) dat alleen voor meerkeuzetoetsen geldt dat psychometrische methoden van item-analyse en testanalyse toegepast kunnen worden.

31. Zorgvuldige procedures bij het construeren van toetsvragen en bijbehorende modelantwoorden en scoringsvoorschriften dwingen de docent tot reflectie op het eigen onderwijs. De Groot (1973, p. 26):"het construeren van items voor studie-toetsen activeert het doelstellingsgeweten." De Groot bedoelt hiermee een voordeel van meerkeuzevragen aan te geven, maar het is duidelijk dat het hier geenszins om een uniek voordeel van keuzevragen gaat. Voorzover itemschrijven als 'kunst' beoefend wordt zal het in het geheel niet tot reflectie op het onderwijs, of tot betere doelstellingenformulering leiden.

32. Keuzevragen zijn moeilijker te bedenken dan aanvulvragen. En dat ligt voor de hand: wat is een meerkeuzevraag immers anders dan een aanvulvraag voorzien van meerdere alternatieven? extra alternatieven bedenken, daar zit hem nu juist de pijn in voor de stemschrijver.

Het is wél juist dat essay opgaven doorgaans moeilijker op te stellen zijn dan objectieve vragen (= aanvul- of keuzevragen) omdat in de formulering van de essay-opgave heel nauwkeurig afgebakend moet zijn wat wél en wat niet gevraagd wordt, en omdat bij het bedenken van de vraag ook het opstellen van het modelantwoord (+ aanvaardbare varianten) hoort.

33. Voor een snelle uitslag van het tentamen is de hulp van een computer misbaar. Bij een toets bestaande uit meerkeuzevragen kan de uitslag onmiddellijk na afloop bekend zijn: wanneer de student over de scoringssleutel beschikt, én over een kopie van zijn antwoorden (van zijn schrapkaart). Ook bij een toets bestaande uit aanvulvragen kan op deze wijze de uitslag onmiddellijk na afloop bekend zijn. Bij essay opgaven kan de uitslag bij benadering door de student zelf bepaald worden met behulp van de modelantwoorden, en een kopie van zijn werk. Ulteraard komt de formele uitslag pas later. Deze procedure stelt de student ook maximaal in staat het nakijken van de docenten te controleren op juistheid.

34. Het tevoren vaststellen welk antwoord als het (meest) juiste gelden, is een pseudo-objectieve procedure. Het gaat er immers om dat over het (meest) juiste antwoord inter-subjectieve overeenstemming bestaat tussen onafhankelijk van elkaar werkende deskundigen. Of die overeenstemming voorafgaand aan de toetsafname onderzocht wordt, of er na, doet er in beginsel niet toe (het meest praktisch is uiteraard om het onderzoek vooraf te doen, om ondeugdelijke vragen uit de toets te weren). Een en ander geldt evenzeer voor de scoring van meerkeuzevragen waarbij van een tevoren opgestelde scoringssleutel gebruik wordt gemaakt: het gebruik van zo'n sleutel door een scorings-automaat garandeert geen objectieve scoring, omdat ook de objectiviteit van de sleutel zélf via de inter-subjectieve overeenstemming van onafhankelijk werkende deskundigen vastgesteld moet worden.

35. Het beoordelen van gegeven antwoorden gebeurt 'objectief', wanneer deskundigen die onafhankelijk van elkaar werken tot dezelfde resultaten komen. Vanzelfsprekend, nu. Volmaakte overeenstemming zal er zelden zijn, behalve in die gevallen waarin de antwoorden zo objectief te scoren zijn dat er geen behoefte is aan een tweede onafhankelijke beoordelaar. Hoe te handelen wanneer die volledige overeenstemming bij het nakijken er niet is, is besproken onder 13) en 14).

36. Ook toetsen samengesteld uit aanvul- of keuzevragen kunnen op talrijke subjectieve beslissingen berusten over wát te toetser, en hóe dat te toetsen. Het is nu wel duidelijk dat de objectiviteit van het beoordelen niet zit in het gebruik van keuze-vragen of niet, maar in zorgvuldigheid bij voorbereiding en uitvoering. In dit verband is 'zorgvuldig' het gebruik maken van de procedurele controle van onafhankelijk van elkaar werkende deskundigen. Deze zelfde procedure kan ook gebruikt worden bij het vaststellen van wat er gevraagd zal worden, zie ook onder 7), en hóe dat gevraagd zal worden.

37. Het gebruik van een formule voor het bepalen vara de 3e2,51) garandeert geen objectiviteit. Zie onder 21).

38. Verantwoorde cesuurbepaling is altijd mogelijk, ongeacht de gebruikte toetsvorm. Geen enkele toetsvorm heeft het alleenvertoningsrecht waar het gaat om rechtvaardigheid van de cesuurbepaling. De cesuur moet inhoudelijk beargumenteerd kunnen worden, terwijl ook argumenten die de 'sturing' van het onderwijs betreffen een rol kunnen spelen (tentamenmodel overwegingen) terwijl meer in het algemeen voldaan moet worden aan de algemene beginselen van behoorlijk bestuur. Cesuurbepaling is nooit eenvoudig, bevredigende oplossingen zijn moeilijk te bereiken, maar altijd moet bedacht worden dat ook hier 'objectiviteit' niet door simpele trucs als het hanteren van een (op duistere gronden gekozen) rekenregel te bereiken is.

39. Het streven naar objectiviteit bij het beoordelen is vergelijkbaar met het streven naar objectiviteit in het wetenschappelijk onderzoek. Het enghartige objectiviteitsbegrip van De Groot vinden we terug in zijn Methodologie (1962). Een minder rigide opvatting over objectieve wetenschapsbeoefening dan die van De Groot is echter gemeengoed onder de praktische beoefenaren. Zij zullen niet al te veel moeite hebben zich te herkennen in de hier gegeven presentatie van 'objectief beoordelen.

40. Goede rechtsbescherming van de student en objectief beoordelen liggen in elkaars verlengde. Zie ook 23).

Literatuur

De Groot, A.D. Methodologie, Den Haag: Mouton, 1961.

De Groot, A.D. & R.F. van Naerssen (redactie) Studietoetsen, deel 1. Den Haag: Mouton, 1973.

Wilbrink, B. Studiestrategieën. Amsterdam: COWO, 1978.

Wilbrink, B. Toetsen. Amsterdam: COWO, 1979.

Wilbrink, B. Cesuurbepaling. Amsterdam: COWO, 1980.

Wilbrink, B. Construeren van toetsvragen. Utrecht, Het Spectrum, 1981 (in voorbereiding). [verschenen 1983, nu online beschikbaar]

Wijnen, W.H.F.W. Onder of boven de maat; een meihoede voor het bepalen van de grens voldoende/onvoldoende bij studietoetsen. Amsterdam: Swets & Zeitlinger, 1972.

[Drie vragenlijsten, met antwoordhokjes aan de uiterste rechterzijde om snel scoren met hulp van een sjabloon mogelijk te maken. Als het goed is moet ik ook de formulieren van workshopdeelnemers nog ergens in archief hebben]

1. Welke vraagvormen laten ruimte voor subjectieve interpretatie en beantwoording door studenten?

keuzevragen
matchingvragen
aanvulvragen
werkstuk
opstel

2. Welke gevraagde activiteiten leveren meer objectief beoordeelbare antwoorden op?

gegeven voorbeeld herkennen
nieuw voorbeeld geven
wet of regel toepassen
diagnosticeren of klassificeren
(tekst) interpreteren
(tekst) evalueren

3. Welke formulering draagt bij aan de objectiviteit van de beoordeling?

dubbelzinnige formulering
taalkundige eenvoud
nederlandse toets voor anderstaligen
formulering met onbedoelde aanwijzing
formulering met dubbele ontkenning

4. Welke procedures bij het beoordelen dragen bij aan de objectiviteit?

geschreven werk wordt eerst uitgetikt
het na te kijken werk is anoniem
niet meer dan één beoordelaar per werk
het gebruik van een modelantwoord
aantekeningen op het werkzelf maken

5. Welke procedures m.b.t. de scoring of puntentelling dragen bij aan de objectiviteit?

het gebruik van een scoringsvoorschrift
controle op juiste scoring
het scoringsvoorschrift is beargumenteerd
de student kan de scoring zélf controleren

6. Wat draagt bij aan de objectiviteit van de eindbeslissing gezakt/geslaagd?

dat de norm traditioneel bepaald is
dat een bepaald percentage wordt afgewezen
dat de norm wordt bepaald door de kernitemmethode
dat de norm lang tevoren bekend wordt gemaakt

Bij het voorbereiden, afnemen, beoordelen, scoren en beslissen kunnen procedures gevolgd worden die op zich bijdragen aan de objectiviteit, dan wel daaraan afbreuk doen.

KRUIS AAN welke van de volgende werkwijzen de objectiviteit intact laten, of daar tenminste geen afbreuk aan doen.

7. Toetsvragen worden bedacht aan de hand van gedetailleerde doelstellingen.

8. Het bedenken van 'afleiders' bij meerkeuzevragen wordt overgelaten aan de creativiteit van de vraagopsteller.

9. Er worden keuzevragen gebruikt i.p.v. aanvulvragen; d.w.z. dat raadkansen op de koop toe worden genomen.

10. Als controle-vooraf worden concept toetsvragen eerst door collega's beantwoord 'onder toetsomstandigheden', dat is: zonder daarbij elkaar of de literatuur te raadplegen.

11. Concept toetsvragen worden pas in de docentenvergadering aan de collega's voorgelegd en besproken, eventueel gecorrigeerd.

12. Wanneer collega's geen éénduidige antwoorden geven, bepaalt de vraagopsteller wat als het juiste antwoord gerekend wordt.

13. Wanneer collega's van mening verschillen over de beoordeling of scoring van mogelijke antwoorden, wordt een compromis gekozen.

14. Wanneer twee docenten bij hetzelfde antwoord tot een andere puntentoekenning komen, krijgt de student het hoogste puntental.

15. Wanneer bij het nakijken (of uit de toetsanalyse) blijkt dat een toetsvraag dubbelzinnig geformuleerd is, wordt deze vraag niet bij de puntentelling (en eindbeslissing) meegerekend.

16. Wanneer bij het beoordelen een bepaald antwoord niet in het beoordelingsvoorschrift genoemd is, en het lijkt goed te zijn, wordt het als fout aangerekend.

17. Bij het samenstellen van de toets wordt ervoor gezorgd dat de vragen volgens een bepaald schema (matrix) over de diverse onderwerpen uit de leerstof verdeeld zijn.

18. Eénmaal afgenomen toetsvragen worden geheim gehouden om ze later nog eens te kunnen gebruiken, hoewel bekend is dat er onder studenten lijsten met toetsvragen circuleren.

19. Bij mondeling tentamineren werkt de docent niet met tevoren opgestelde vragen, maar bedenkt deze tijdens het gesprek met de student.

20. Over de plaats waar de cesuur moet liggen overleggen de docent met elkaar totdat de meningen met elkaar overeenstemmen.

21. Voor de cesuurbepaling wordt gebruik gemaakt van een computerprogramma dat de kernitemmethode uitvoert, hoewel de werking van deze kernitemmethode aan de docenten niet bekend is.

22. Er wordt bij de cesuurbepaling op gelet dat er niet veel méér of minder studenten zakken of slagen dan bij voorgaande keren.

KRUIS AAN met welke uitspraken u het EENS bent.

23. Het is de taak van de docent om tot een zo objectief mogeijke beoordeling van de student te komen.

24. Toetsen bestaande uit keuzevragen geven de garantie voor rechtvaardige prestatiebeoordeling.

25. Alleen toetsen die uit keuzevragen bestaan, kunnen objectief genoemd worden.

26. Het opstellen van meerkeuzevragen is een kunst, vereist inspiratie en creativiteit.

27. Essay antwoorden kunnen best aan de hand van strikte beoordelings- en scoringsvoorschriften nagekeken worden.

28. Alleen bij meerkeuzevragen is het mogelijk om achteraf foutenanalyses te maken.

29. De student kan in dezelfde beschikbare tijd evenveel keuzevragen beantwoorden als aanvulvragen.

30. Alleen bij automatisch scoorbare keuzevragen is het mogelijk om de toetsresultaten door de computer te laten analyseren.

31. Ook het moeten bedenken van modelantwoorden en scoringsvoor-schriften dwingt de docent tot reflectie op zijn onderwijs of tot het expliciteren van zijn onderwijsdoelstellingen.

32. Keuzevragen zijn makkelijker te bedenken dan aanvulvragen.

33. Computerverwerking van de toet sn heeft het voordeel dat de student sneller dan anders zijn/haar uitslag krijgt.

34. Het van tevoren vaststellen welk antwoord het (meest) juiste Is, draagt bij aan de objectiviteit van de beoordeling.

35. Het beoordelen van gegeven antwoorden gebeurt objectief wanneer deskundigen die onafhankelijk van elkaar werk, tot dezelfde resultaten komen.

36. Ook meerkeuze- en aanvulvragen kunnen op talrijke subjectieve beslissingen berusten over wát te toet sen, en hóe dat te toetsen.

37. Het bepalen van de zak-slaaggrens gebeurt alleen dán objectief wanneer er een formule beschikbaar is die de grens berekent uit de behaalde toetsscores.

38. Verantwoorde cesuurbepaling is zowel bij toetsen bestaande uit keuzevagen, als bij het opstel mogelijk.

39. De eis van objectiviteit bij beoordelen is vergelijkbaar met de eis van objectiviteit bij het wetenschappelijk onderzoek.

40. Goede rechtsbescherming van de student vraagt ook om objectieve beoordelingsprocedures.

10 deelnemers Eindhoven? x xx xx 1 x xx xxxxxx x xx x x x xxx xxxxxx 2 x x xx xx xxx x xxx xx xxxxx x 3 xxxx xxxxx xxxx xxxxx xx x x x xxxxxxxxxx 4 x xxxxxxxxx xx xxxxxxx xxx xxxxxx x 5 xxxxxxxxx xxxxxxx x xxxxxx x x 6 x x xxx 0000000 00 7 - 8 - 0 9 00000 0000 10 000 000000 11 12 - 00- 000 13 0000000000 14 0 15 0-- 0 16 00-00 000 17 0- 0 18 -0- 0 0 0 19 --00000000 20 000-0 0000 21 e ee 22 e- ee 23 e-eeee eee 24 -ee e-eee- 25 e-eee eeee 26 0 e ee 27 e 28 - eeeee e 29 0e e e 30 eee eee 31 e- e 32 ee e 33 ee e e ee 34 0 e 35 eeeeeeeeee 36 eeeeeeeee 37 eeeeeeeeee 38 0e ee 39 eeeeee eee 40 16 deelnemers Eindhoven, plus totalen: .xx.xx.xxx...xx 9 1 .xx.....xx...xx 5 xxx.xxxxxxxxxxx 15 xxxxx.xxxxxxxxx 5 xxxxx.xxxxxxxxx 15 xxxxxxxxx..xxxx 14 2 x.....x.x...xxx 7 x.x.x.xxxx..xxx 11 xx..x.x.xx..xxx 11 ........x....x. 2 ........x....x. 2 ............... 0 3 xxxxx.xxxxx.xxx 15 .......x....x.. 2 ............... 0 ............... 0 xx.xx....x..xxx 9 4 xxxxx.xxxxxxxxx 15 xxxxx.xxxxx.xxx 14 xxxxxxx.xxxxxxx 15 xx x 3 xxxxx xxxxxxxxx 15 5 x..xx.xxxxx.xxx 13 xxx.xx.xx...xx. 10 xxx.x.xxx..xxx. 11 ......x........ 1 6 ..............x 1 x..x...x....x.. 4 xxxxx..xx...xx. 10 Vraag 7 t/m 40 heb ik niet per item/respondent genoteerd, want dit zijn andere bladzijden, en ik kan niet garanderen dat ze op telkens dezelfde volgorde zijn te leggen voor scoring. 15 7 3 8 9 9 15 10 6 11 0 12 2 13 4 14 14 15 2 16 13 17 1 18 0 19 9 20 1 21 2 22 15 23 1 24 1 25 9 26 11 27 3 28 2 29 4 30 15 31 0 32 11 33 11 34 11 35 14 35 2 36 9 37 8 39 15 40 <.pre>

================================================

februari 2021 / oktober 2023 \ contact ben apenstaartje benwilbrink.nl

http://www.benwilbrink.nl/publicaties/80workshop_toetsen.htm