Deze workshop is meen ik alleen gehouden tijdens het Nationale Onderwijscongres in Eindhoven, daar zijn ook de door de deelnemers ingevulde data nog van beschikbaar.


workshop OBJECTIEF BEOORDELEN,

inleiding op Toetsen html



Ben Wilbrink



Centrum voor Onderzoek van het Wetenschappelijk Onderwijs


Universiteit van Amsterdam. december 1980




WORKSHOP OBJECTIEF BEOORDELEN


Bij het beoordelen van studieprestaties is het van belang dat toevallige en niet ter zake doende omstandigheden geen invloed kunnen hebben op de resultaten. In de mate waarin dat het geval is, kan het beoordelen objectief genoemd worden.


Het doel van deze workshop is: door oefening en discussie inzicht geven in de wijze waarop de objectiviteit van het beoordelen verhoogd kan worden door goede procedures, van het opstellen van toetsvragen tot en met het nemen van eindbeslissingen.


De oefening bestaat uit het invullen van een vragenlijst (toets), een activiteit die hopelijk uitlokt tot nadenken en ontdekken, en waarmee de basis onder de daarna volgende discussie gelegd wordt.


Het begrip objectiviteit wordt breed opgevat, en omvat ook de intersubjectieve overeenstemming van deskundigen op die punten waar dat deskundige oordeel relevant is. Bijvoorbeeld: het 'juiste' antwoord op een toetsvraag is alleen dàn ook objectief juist wanneer vakdeskundigen onafhankelijk van elkaar hetzelfde antwoord als juist aanwijzen.


Er zijn nogal wat pseudo-objectieve procedures die niets met objectiviteit te maken hebben behalve in triviale zin. Bijvoorbeeld: het automatisch scoren van keuzetoetsen is pseudo-objectief, want weliswaar kan de persoon van de beoordelaar op dat moment geen onbedoelde invloed meer uitoefenen, maar dat sluit geenszins uit dat de scoringssleutel waar de machine mee werkt, op subjectieve wijze is vastgesteld. Louter 'dingmatig' werken, met behulp van automaten, heeft op zich niets met objectiviteit te maken (terwijl bovendien ook automaten fouten zullen maken).


Het beantwoorden van de vragenlijst vergt ongeveer 20 minuten. Denk niet te lang over de vragen na. Leg het 2e vel van dezelfde kleur onder het Ie vel, maar zo dat de invulhokjes nààst die van het le vel komen te liggen; vul bij iedere vraag beide hokjes gelijk in; het 2e vel kunt u behouden voor bij de discussie.


Na afloop ontvangt u het workshop boek, waar alle onderwerpen op meer informatieve wijze behandeld worden, om thuis nog eens na te slaan, en om in de eigen toetspraktijk mee te werken.




KRUIS AAN [het originele formulier heeft daartoe vakjes uiterst rechts van de alternatieven, die zelf ook uiterst rechts aansluiten]


1. Welke vraagvormen laten ruimte voor subjectieve interpretatie en beantwoording door studenten?


  1. keuzevragen
  2. matchingvragen
  3. aanvulvragen
  4. werkstuk
  5. opstel

2. Welke gevraagde activiteiten leveren meer objectief beoordeelbare antwoorden op?


  1. gegeven voorbeeld herkennen
  2. nieuw voorbeeld geven
  3. wet of regel toepassen
  4. diagnosticeren of classificeren
  5. (tekst) interpreteren
  6. (tekst) evalueren

3. Welke formulering draagt bij aan de objectiviteit van de beoordeling?


  1. dubbelzinnige formulering
  2. taalkundige eenvoud
  3. Nederlandse toets voor anderstaligen
  4. formulering met onbedoelde aanwijzing
  5. formulering met dubbele ontkenning

4. Welke procedures bij het beoordelen dragen bij aan de objectiviteit?


  1. geschreven werk wordt eerst uitgetikt
  2. het na te kijken werk is anoniem
  3. niet meer dan één beoordelaar per werk
  4. het gebruik van een modelantwoord
  5. aantekeningen op het werkzelf maken

5. Welke procedures m.b.t. de scoring of puntentelling dragen bij aan de objectiviteit?


  1. het gebruik van een scoringsvoorschrift
  2. controle op juiste scoring
  3. het scoringsvoorschrift is beargumenteerd
  4. de student kan de scoring zèlf controleren

6. Wat draagt bij aan de objectiviteit van de eindbeslissing gezakt/geslaagd?


  1. dat de norm traditioneel bepaald is
  2. dat een bepaald percentage wordt afgewezen
  3. dat de norm wordt bepaald door de kernitemmethode
  4. dat de norm lang tevoren bekend wordt gemaakt





Bij het voorbereiden, afnemen, beoordelen, scoren en beslissen kunnen procedures gevolgd worden die op zich bijdragen aan de objectiviteit, dan wel daaraan afbreuk doen.


KRUIS AAN welke van de volgende werkwijzen de objectiviteit intact laten, of daar tenminste geen afbreuk aan doen. [het originele formulier heeft daartoe vakjes uiterst rechts van de vragen]


7. Toetsvragen worden bedacht aan de hand van gedetailleerde doelstellingen.


8. Het bedenken van 'afleiders' bij meerkeuzevragen wordt overgelaten aan de creativiteit van de vraagopsteller.


9. Er worden keuzevragen gebruikt in plaats van aanvulvragen; d.w.z. dat raadkansen op de koop toe worden genomen.


10. Als controlevooraf worden concept-toetsvragen eerst door collega's beantwoord 'onder toetsomstandigheden,' dat is: zonder daarbij elkaar of de literatuur te raadplegen.


11. Concept-toetsvragen worden pas in de docentenvergadering aan de collega's voorgelegd en besproken, eventueel gecorrigeerd.


12. Wanneer collega's geen éénduidige antwoorden geven, bepaalt de vraagopsteller wat als het juiste antwoord gerekend wordt.


13. Wanneer collega's van mening verschillen over de beoordeling of scoring van mogelijke antwoorden, wordt een compromis gekozen.


14. Wanneer twee docenten bij hetzelfde antwoord tot een àndere puntentoekenning komen, krijgt de student het hoogste puntental.


15. Wanneer bij het nakijken (of uit de toetsanalyse) blijkt dat een toetsvraag dubbelzinnig geformuleerd is, wordt deze vraag niet bij de puntentelling (en eindbeslissing) meegerekend.


16. Wanneer bij het beoordelen een bepaald antwoord niet in het beoordelingsvoorschrift genoemd is, en het lijkt goed te zijn, wordt het als fout aangerekend.


17. Bij het samenstellen van de toets wordt ervoor gezorgd dat de vragen volgens een bepaald schema (matrix) over de diverse onderwerpen uit de leerstof verdeeld zijn.


18. Eenmaal afgenomen toetsvragen worden geheim gehouden om ze later nog eens te kunnen gebruiken, hoewel bekend is dat er onder studenten lijsten met toetsvragen circuleren.


19. Bij mondeling tentamineren werkt de docent niet met tevoren opgestelde vragen, maar bedenkt deze tijdens het gesprek met de student.


20. Over de plaats waar de cesuur moet liggen overleggen de docenten met elkaar totdat de meningen met elkaar overeenstemmen.


21. Voor de cesuurbepaling wordt gebruik gemaakt van een computer programma dat de kernitemmethode uitvoert, hoewel de werking van deze kernitemmethode aan de docenten niet bekend is.


22. Er wordt bij de cesuurbepaling op gelet dat er niet veel méér of minder studenten zakken of slagen dan bij voorgaande keren.



KRUIS AAN met welke uitspraken U het EENS bent. [het originele formulier heeft daartoe vakjes uiterst rechts van de vragen]


23. Het is de taak van de docent om tot een zo objectief mogelijke beoordeling van de student te komen.


24. Toetsen bestaande uit keuzevragen geven de garantie voor rechtvaardige prestatiebeoordeling.


25. Alleen toetsen die uit keuzevragen bestaan, kunnen objectief genoemd worden.


26. Het opstellen van meerkeuzevragen is een kunst, vereist inspiratie en creativiteit.


27. Essay-antwoorden kunnen best aan de hand van strikte beoordelings en scoringsvoorschriften nagekeken worden.


28. Alleen bij meerkeuzevragen is het mogelijk om achteraf foutenanalyses te maken.


29. De student kan in dezelfde beschikbare tijd evenveel keuzevragen beantwoorden als aanvulvragen.


30. Alleen bij automatisch scoorbare keuzevragen is het mogelijk om de toetsresultaten door de computer te laten analyseren.


31. Ook het moeten bedenken van modelantwoorden en scoringsvoorschriften dwingt de docent tot reflectie op zijn onderwijs of tot het expliciteren van zijn onderwijsdoelstellingen.


32. Keuzevragen zijn makkelijker te bedenken dan aanvulvragen.


33. Computerverwerking van de toetsen heeft het voordeel dat de student sneller dan anders zijn/haar uitslag krijgt.


34. Het van tevoren vaststellen welk antwoord het (meest) juiste is., draagt bij aan de objectiviteit van de beoordeling.


35. Het beoordelen van gegeven antwoorden gebeurt objectief wanneer deskundigen die onafhankelijk van elkaar werken, tot dezelfde resultaten komen.


36. Ook meerkeuze en aanvulvragen kunnen op talrijke subjectieve beslissingen berusten over wat te toetsen, en hoe dat te toetsen.


37. Het bepalen van de zak-slaaggrens gebeurt alleen dan objectief wanneer er een formule beschikbaar is die de grens berekent uit de behaalde toetsscores.


38. Verantwoorde cesuurbepaling is zowel bij toetsen bestaande uit keuzevragen, als bij het opstel mogelijk.


39. De eis van objectiviteit bij beoordelen is vergelijkbaar met de eis van objectiviteit bij het wetenschappelijk onderzoek.


40. Goede rechtsbescherming van de student vraagt ook om objectieve beoordelingsprocedures.


Workshop OBJECTIEF BEOORDELEN.


Toelichting en commentaar bij de vragen.


1. Welke vraagvormen laten ruimte voor subjectieve interpretatie en beantwoording door studenten? Het opstel, het werkstuk, en essayvragen laten de student veelal ruimte voor eigen inter pretatie en voor een persoonlijke tint bij de beantwoording of uitvoering. In tegenstelling daarmee worden keuzevragen en aanvulvragen juist zo ondubbelzinnig mogelijk geformuleerd om te voorkomen dat de ene student er iets anders uit begrijpt dan de andere student.

Bij het opstel etcetera wordt veelal opzettelijk die ruimte voor eigenzinnige beantwoording gegeven, en het opstel is daar ook een adequate vorm voor. Het zal duidelijk zijn dat antwoorden waar een stuk subjectiviteit van de student ingebouwd wordt, nimmer geheel objectief te beoordelen zijn (tenzij op triviale wijze door aantal gebruikte woorden te tellen bijvoorbeeld). Ook al is objectiviteit bij het beoordelen niet bereikbaar, dan zijn er toch nog veel procedure mogelijkheden die tenminste tot een hogere mate van objectiviteit bijdragen.


Bij meerkeuzevragen kunnen ongelukkig gekozen afleiders er toe leiden dat van de student afwegingen (in de keuze tussen alternatieven) gevraagd worden waar het onderwijs niet op gericht is geweest.

Ook matchingvragen kunnen onbedoeld van de student zo moeilijke vergelijkingen vragen dat er subjectieve interpretaties aan te pas gaan komen.

Aanvulvragen sluiten ook bij ondubbelzinnige formulering niet geheel de mogelijkheid van eigenzinnige, onvoorziene maar toch goed te oordelen, antwoorden uit.

Essayvragen e.d. laten de student naar de vorm wel vrij, maar kunnen ook best vragen om een beantwoording die in veel opzichten objectief van aard is (denk bijvoorbeeld aan randvoorwaarden waarbinnen gewerkt moet worden, kennis en inzicht die tenminste moeten blijken, opgegeven criteria waaraan het werkstuk moet voldoen, e.d.)


2. Welke gevraagde activiteiten leveren meer objectief beoordeelbare antwoorden op? Globaal genomen zal reproductie van kennis leiden tot antwoorden die makkelijker objectief te beoordelen zijn, en zal probleemoplossen in dat opzicht wat meer moeilijkheden geven. Daarmee is natuurlijk niet gezegd dat toetsen bij voorkeur uit kennisvragen zouden moeten bestaan, integendeel. Er wil wél mee gezegd zijn dat bij opgaven die om interpretatie, evaluatie, of probleemoplossen vragen, extra zorg aan een aanvaardbaar objectieve beoordeling besteed moet worden.


Bij het herkennen van een gegeven voorbeeld gaat het om een nieuw voorbeeld van een bepaald begrip, wet, etcetera, dat als zodanig herkend moet worden. Dat levert doorgaans objectief beoordeelbare antwoorden op.

Moet de student een nieuw voorbeeld geven, dan zullen deskundigen het, onafhankelijk van elkaar, er veelal over eens zijn of zo'n nieuw voorbeeld juist is, of niet. Er is altijd de kans dat de student een voorbeeld geeft dat in het 'randgebied' zit, een 'twijfelgeval' is; dat hoeft zo'n voorbeeld nog niet minder correct te maken (tenzij gevraagd is om 'typische' voorbeelden).

classificeren en diagnosticeren: hier geldt hetzelfde als bij het geven van een nieuw voorbeeld werd opgemerkt.

Interpretatie, evaluatie, en probleemoplossen zijn activiteiten die leiden tot antwoorden met meer of minder sterke subjectieve elementen, waar dan ook bij het beoordelen rekening mee te houden is.


3. Formulering van de toetsvragen. Onvolkomenheden in de formulering van vragen leiden er toe dat die vragen niet meer zuiver op de graat zijn, dat ze niet meer alleen de bedoelde kennis etc, 'meten,' maar dat goed of fout beantwoorden ervan afhangt of de student door de onvolkomen formulering heen de bedoeling van de vragensteller heeft kunnen peilen. Formuleringsfouten doen daarmee afbreuk aan de objectiviteit van de toetsing, omdat niet terzake doende persoonlijke factoren (bij de student) het antwoord (mede) bepalen.


4. Welke procedurea bij het nakijken dragen bij aan de objectiviteit? Bij het nakijken gaat het erom dat de persoon van de beoordelaar geen rol kan spelen, althans niet in hinderlijke mate. Geprobeerd wordt om persoonlijke opvattingen van de beoordelaar uit te sluiten, voorkennis omtrent de te beoordelen persoon geen invloed te laten hebben, en om ongewenste beoorde laarseffecten (strengheid, haloeffect, volgorde effecten, etc.) tegen te gaan.

Bij voorkeur wordt anoniem werk nagekeken, netheid en lay-out van het werk buiten de beoordeling gehouden, de beoordeling niet op het werk zelf aangetekend, een modelantwoord gebruikt, dat modelantwoord ook aan studenten uitgereikt, een argumentatie bij het modelantwoord gegeven, van twee of meer beoordelaars gebruik gemaakt, aan studenten een kopie van het eigen werk en van de beoordeling uitgereikt.

Afhankelijk van de aard van de gestelde vragen zullen deze procedures méér of minder omvattend, en méér of minder belangrijk zijn. Het nakijken van aanvulvragen is procedureel heel makke lijk objectief te maken, terwijl dat voor het nakijken van opstellen heel anders zal liggen.


5. Welke procedures bij het scoren van beoordeelde antwoorden dragen bij aan de objectiviteit? Deze vraag is een kopie van vraag 4; nadat een antwoord beoordeeld is, moeten er punten aan toegekend worden. Dat gebeurt bij voorkeur aan de hand van een scoringsvoorschrift (gekoppeld aan het modelantwoord). Bij objectieve vragen (keuzevragen en aanvulvragen) zal beoordeling en scoring meestal tegelijk gebeuren: een goed antwoord is immers een punt. Bij essayvragen is het aan te raden het beoordelen en het scoren afzonderlijk te behandelen (eventueel door verschillende personen te laten doen). Dezelfde aanbevelingen als boven voor het beoordelen gegeven, gelden ook hier. Zorg er bijvoorbeeld voor dat bij meerkeuzevragen de studenten de beschikking krijgen over 1) de gestelde vragen, 2) een kopie van de gegeven antwoorden, en 3) de scoringssleutel. Dan kunnen studenten het eigen werk scoren, en hebben daarmee de controle op de juiste scoring van hun werk in eigen handen. Bovendien beschikken ze heel snel over de uitslag.


6. Wat draagtbij aan de objectiviteit van de eindbeslissing 'gezakt, geslaagd'? Het gaat er om dat de zak-slaaggrens, de cesuur, een objectief karakter heeft. Dat betekent dat de cesuur inhoudelijk beargumenteerd moet zijn, zo mogelijk in een procedure waarin deskundigen onafhankelijk van elkaar via dezelfde inhoudelijke overwegingen tot redelijk overeenstemmende cesuren zijn gekomen. Tot de overwegingen behoren zowel argumenten die de mate van gewenste beheersing van de leerstof betreffen, als argumenten die de aard van de tentamenregeling betreffen (zgn. tentamenmodel-overwegingen, zie Wilbrink 1978, 1980). Géén van de alternatieven bij vraag 6 genoemd draagt aan de objectiviteit bij: een tevoren bekend gemaakte norm is pseudo-objectief; de argumentatie achter de tevoren gegeven cesuur moet objectief zijn.


7. Wat er over de stof gevraagd zal worden. Twee docenten, die hetzelfde onderwijs over dezelfde leerstof verzorgd hebben voor dezelfde studenten, kunnen bij het opstellen van vragen over die stof onafhankelijk van elkaar tot sterk verschillende vragenverzamelingen komen. Het zou voor de student dan erg veel verschil uit kunnen maken of de vragen van de ene docent, dan wel van de andere docent, in de toets opgenomen worden. Het tevoren formuleren van gedetailleerde doelstellingen is één van de mogelijkheden om dit soort subjectieve verschillen uit te sluiten. Een andere mogelijkheid is het opstellen van een vragenverzameling die als het ware operationeel vastlegt welk soort vragen er over de stof gesteld zullen worden. Uiteraard worden doelstellingen, vragenverzameling, e.d. aan studenten tijdig genoeg bekend gemaakt dat zij er in hun voorbereiding op de toetsing rekening mee kunnen houden.


8. Het opstellen van toetsvragen: kunst of kunde? Wanneer vragen niet volgens (onderwijskundig verantwoorde) constructieregels opgesteld kunnen worden, zal de opsteller terugvallen op zijn intuïtie, creativiteit, ervaring, of het gebruiken van oude vragen als inspiratiebron. Inderdaad beschrijven handboekauteurs het 'itemschrijven' nogal eens als een 'kunst,' als iets dat je 'in de vingers moet hebben,' en alleen gedeeltelijk via ervaring 'te leren' is. Het is voor veel docenten een ervaringsfeit dat na enkele toetsen over een bepaald stuk stof geconstrueerd te hebben, het erg moeilijk wordt om nog weer nieuwe vragen te bedenken.

De ellende van deze stand van zaken is dat vragen die in een 'creatief proces' bedacht zijn, op niet geheel duidelijke wijze de kennis of het inzicht van de student aftappen. In andere woorden: wat dergelijke kunstzinnige vragen 'meten' is een open vraag. Vanuit de positie van de student bekeken is het dan wel erg moeilijk zich effectief voor te bereiden op een toets die uit dergelijke kunstzinnige vragen bestaat.

Wat 'uit de kunst' is, is ook subjectief. Objectieve vraagconstructie is pas mogelijk wanneer er constructieregels, vuist regels, of algoritmen voor beschikbaar zijn. De onderwijskunde kan die regels nog nauwelijks leveren; hier en daar wordt er een schuchter begin mee gemaakt. Bruikbare vuistregels worden bijvoorbeeld door Wilbrink (1979, 1981 in voorbereiding) gegeven. In het bijzonder zullen de hier genoemde problemen zich voordoen bij meerkeuzevragen, waar het bedenken van 'afleiders' vaak het uiterste van de verbeeldingskracht van de itemschrijver vraagt.


9. Raadkansen doen afbreuk aan de objectiviteit. Wie voor keuzevragen kiest, haalt daarmee ook raadkansen binnen. Wie een vraag niet weet, of niet àlle afleiders af kan strepen, raadt of gokt het antwoord. Bij iedere keuzetoets speelt dat raden een heel grote rol (gemiddeld wordt bijna de helft van alle vragen geheel of gedeeltelijk geraden), en wordt daarmee ook een groot deel van de toetsscore bepaald door het al dan niet gelukkig zijn geweest bij dat raden. Er kan bovendien niet voor raden gecorrigeerd worden. Er zijn wel vele formules voor correctie voor raden in omloop, maar die correcties zijn gemiddelden: het is nimmer mogelijk voor een individuele student zijn of haar score te zuiveren van toevallig goed geraden vragen.

Bedenk dat juist voor degenen die laag, in de buurt van de cesuur, scoren, geldt dat zij relatief erg veel vragen raden, zodat daarmee het zakken of slagen voor het grootste deel van succesvol raden afhangt. Het plaatje is nu wel duidelijk: wie zonder bezwaar raadkansen kan vermijden door aanvulvragen in plaats van keuzevragen te gebruiken, doet er dan ook beter aan op die wijze de objectiviteit van de beoordeling te bevorderen.


De funeste rol van raadkansen is goeddeels te neutraliseren door de mogelijkheid te bieden om niet-geweten vragen open te laten, en daar bij de scoring van de vragen een bonus voor te geven, bijvoorbeeld gelijk aan de raadkans. Toekennen van negatieve punten aan fouten komt rekenkundig op hetzelfde neer, maar is iets moeilijker uit te leggen. Belangrijke Amerikaanse tests maken van deze mogelijkheden gebruik om de storende werking van raden terug te dringen. Zie voor details hoofdstuk 2 van de herziening 'Toetsvragen ontwerpen' hier.


10. Controle vooraf: onafhankelijke overeenstemming tussen deskundigen. Het gaat hier om objectiviteit in de zin van: dat deskundigen het, onafhankelijk van elkaar werkend, met elkaar eens zijn over wat als juiste beantwoording van de vragen geldt. De procedure is conform deze omschrijving: laat deskundigen onafhankelijk van elkaar de conceptvragen beantwoorden (onder toetsomstandigheden, d.w.z. zonder de literatuur te raadplegen wanneer studenten dat straks ook niet kunnen doen); verbeter of verwijder alle conceptvragen waarover geen overeenstemming gevonden wordt (tenzij verschillende antwoorden kunnen gelden als alternatieve, even correcte, en dan ook goed te beoordelen antwoorden). De situatie dicteert hoe de procedure moet zijn. Bijvoorbeeld: bij meerkeuzevragen kan het van belang zijn om allereerst na te gaan of deskundigen, zonder de alternatieven gezien te hebben, hetzelfde antwoord geven op de 'open' vraag.


11. Door onderlinge bespreking kan geen intersubjectieve overeenstemming bepaald worden. Bij het onderling bespreken van conceptvragen in de docentenvergadering is het niet mogelijk om vast te stellen in welke mate men het onafhankelijk van elkaar eens is over de juiste beantwoording. Bij het gezamenlijk bespreken beïnvloedt men elkaar, langs meer of minder subtiele wegen. Het met elkaar doorspreken van de conceptvragen kan alleen zinvol zijn wanneer tevoren de vragen door iedereen, onafhankelijk van elkaar, beantwoord zijn, en deze antwoorden juist het onderwerp van overleg gaan vormen. Vanzelfsprekend dient het overleg er niet voor om eventuele verschillende opvattingen, zoals die uit uiteenlopende antwoorden blijken, weg te praten, maar om er juist de conclusies uit te trekken m.b.t. het wijzigen of weglaten van de betreffende vragen. Met andere woorden: gebleken verschillen zijn feiten waar je rekening mee te houden hebt, het zijn geen onderhandelingspunten of voorwerpen voor overreding achteraf.


12. Wat als juist antwoord zal gelden, mag niet bij fiat bepaald worden, ook niet bij fiat van de vraagopsteller. Komen deskundigen, onafhankelijk van elkaar, tot verschillende antwoorden, dan is dat een feit dat niet weggepoetst kan en mag worden door een stemming te laten beslissen over wat als 'juist' gerekend zal worden, of door een 'compromis' te zoeken, of door dàt antwoord juist te rekenen waar de 'sterkste' argumenten voor gegeven kunnen worden, of door de vraagopsteller de beslissing te laten nemen. Wanneer maar één antwoord juist kàn zijn, is het evident dat de vraag ondeugdelijk is, en verbeterd of weggelaten moet worden. Zijn er meerdere antwoorden als 'juist' mogelijk, en deskundigen zijn het er over eens dat door anderen gegeven antwoorden ook als juist kunnen gelden, dan kan daar bij de beoordeling op voor de hand liggende wijze rekening mee gehouden worden. Zijn deskundigen het met elkaars verschillende antwoorden van harte oneens, dan is het misschien beter om de vraag te herzien of weg te laten; weliswaar kan de afspraak gemaakt worden dat ieder antwoord goed gerekend zal worden wanneer er tenminste één deskundige is die het als 'juist' aanmerkt, maar dat laat de vervelende mogelijkheid open dat de student straks bij zijn fout gerekende antwoorden deskundigen gaat zoeken die de fout gerekende antwoorden alsnog als 'juist' menen te moeten aanmerken.


13, 14. Bij het nakijken gaat het voordeel van de twijfel naar de student, ook wanneer beoordelaars van elkaar verschillen. Het is algemeen gebruikelijk om het gemiddelde te nemen van de scores die verschillende beoordelaars aan hetzelfde antwoord hebben toegekend. Dat is een erg willekeurige handelwijze, die alleen te verdedigen is wanneer het aannemelijk gemaakt kan worden dat verschillen in toegekende scores louter op 'toevalligheden' berusten. Ook al zou dat laatste het geval zijn, dan nog ligt het niet in de rede om het gemiddelde te nemen; het gaat dan om zulke geringe verschillen dat best de hoogste score aan de student toegekend kan worden.


Onder 12) werd besproken wat te doen wanneer onafhankelijk werkende deskundigen niet tot overeenstemmende beantwoording komen. De gegeven aanbevelingen gelden ook waar het gaat om het opstellen van modelantwoorden en scoringsvoorschriften. Ondanks al dergelijke goede voorbereidingen kunnen ook bij het nakijken, vooral van essay-antwoorden en in mindere mate van aanvulvragen, nog verschillen tussen beoordelaars blijken te bestaan, ofwel in de beoordeling, ofwel in de scoring (=puntentoekenning). Er is ook dan geen dwingende regel waarom het oordeel van de éne deskundige op voorhand zwaarder zou wegen dan dat van een andere deskundige, en het is al evenmin vanzelfsprekend dat er dan een compromis in de vorm van het nemen van het gemiddelde gehanteerd zou moeten worden.


Het is wél een goede regel om in twijfelgevallen de beoordeelde het voordeel van de twijfel te geven. En bij een verschillend oordeel van ter zake deskundigen is er sprake van een 'twijfelgeval'. Er is twijfel aan de deskundigheid van de beoordelaars voor nodig om tot noodgrepen als het nemen van het gemiddelde over te gaan. Bijvoorbeeld: kent de ene beoordelaar 7 punten toe, en een andere beoordelaar 5 punten voor hetzelfde antwoord, dan is het kennelijk zo dat er voor de student nogal wat van af hangt welke 'deskundige' toevallig zijn werk nakijkt. De aard van de toetsing sluit dit soort verschillende oordelen niet uit, en dan ligt het voor de hand om de student daar zo weinig mogelijk het slachtoffer van te laten worden, door hem of haar het voordeel van het verschil toe te kennen.


In de praktijk maakt het waarschijnlijk technisch bezien weinig verschil, maar zal het wél de aanvaardbaarheid van de beoordeling zoals de student die ziet, verhogen. Technische argumenten liggen waarschijnlijk aan de basis van de gewoonte om gemiddelden te nemen, dat zou de objectiviteit van de toetsing vergroten omdat toevallige verschillen bij het nakijken enigszins tegen elkaar weggestreept worden. De veronderstelling is hierbij dat de verschillen inderdaad 'toevallig' zijn (zie ook bovenaan deze blz.). De 'technische' voordelen moeten echter wel afgewogen worden tegen mogelijke nadelen: 1) dat ook reéle verschillen van inzicht bij de beoordelaars dan tegen elkaar uitgemiddeld worden, en 2) dat de procedure lastig is te rechtvaardigen tegenover de beoordeelden.


15. Wanneer achteraf blijkt dat een vraag slecht geformuleerd is. Dubbelzinnig geformuleerde vragen horen niet in een toets thuis. Maar soms blijkt pas achteraf dat een vraag voor meerdere uitleg vatbaar is (uit analyse van de resultaten, of uit commentaar van studenten). Is het juist om de vraag achteraf dan toch maar niet mee te rekenen? Het vervelende is dat het weglaten van een vraag invloed zal hebben op de zak-slaagbeslissingen (voor sommige studenten). Een noodprocedure zou kunnen zijn om niemand te laten zakken die mét de weg te laten vraag geslaagd zou zijn. Beter is het om de dubbelzinnige vragen te handhaven, en al die antwoorden goed te rekenen die correct zijn onder één van de mogelijke interpretaties van de vraagstel ling. Is een vraag ronduit verwarrend gesteld, dan is aan iedere student het maximale aantal punten voor die vraag toe te kennen.


16. Modelantwoorden en scoringsvoorschriften moeten verstandig gehanteerd worden. Het zal zelden of nooit mogelijk zijn om àlle positief te beoordelen antwoordvarianten tevoren te bedenken, en in het modelantwoord en/of scoringsvoorschrift op te nemen. Wanneer een gegeven antwoord niet in het model antwoord voorkomt, is dat op zich nog geen reden om het dan als fout aan te merken. Dat betekent dat uitbesteden van het nakijkwerk aan een computer of een klerk of een studentassistent maar gedeeltelijk mogelijk is: alleen voorzover antwoorden binnen de opgegeven nakijkinstructies vallen. Alle afwijkende gevallen moeten door de docent ad hoc beoordeeld worden, en bij voorkeur door een tweede, onafhankelijk werkende, beoordelaar. Eventueel kunnen moeilijke of twijfelachtige gevallen eerst nog besproken worden, voordat tot cijfertoekenning wordt overgegaan.


Dit tendeert naar bureaucratie. Eerlijkheid kost tijd, tijd die niet meer beschikbaar is voor goed onderwijs, en dat benadeelt studenten. Twee vormen van eerlijkheid liggen op deze balans!


17. Zorg er voor dat de toetsvragen evenredig over de leerstof verdeeld zijn. Over bepaalde onderdelen van de stof laten zich makkelijker vragen bedenken dan over andere; de vragenopsteller kan bepaalde voorkeuren voor onderwerpen hebben; eenvoudige kennisvragen zijn sneller op te stellen dan vragen die van de student een diepergaande beheersing van de stof vragen. Er zijn met andere woorden vele manieren waarop de toets qua samenstelling een scheefgetrokken beeld van de leerstof kan laten zien, en daarmee een minder objectieve toets kan zijn. Om dat te voorkomen is het aan te raden te werken met een schema of matrix, waarin gespecificeerd is hoeveel vragen over welke onderwerpen en in welke 'moeilijkheidsgraad' in de toets voor zullen komen. De student kan met datzelfde schema werken bij de voorbereiding op de toets, waardoor de studieinspanning beter over de hele stof verdeeld kan worden.


18. Toetsvragen horen na afloop bekend gemaakt te worden. Het is helaas nog steeds geen algemeen gebruik om na afloop van een toets de toetsvragen bekend te maken. Geheim houden van vragen wordt dan gerechtvaardigd met pragmatische argumenten, die er vrijwel altijd op neer komen dat de docenten moeite hebben om voor iedere toets een hele nieuwe set vragen op te stellen. De ellende die geheimhouden met zich brengt is een tweeledige: allereerst zullen vragen toch uitlekken, en gaan circuleren, eventueel zelfs in een soort zwarte markt terecht komen; een ander bezwaar is dat studenten de gelegenheid ontnomen wordt om de eigen beoordeling te controleren, om eventuele vergissingen en onjuistheden op te sporen. Het circuleren van oude vragen leidt er toe dat sommige studenten met méér voorkennis aan de toets deelnemen dan andere, en dat leidt tot onjuiste en onrechtvaardige beoordelingen. Het geheim houden van vragen komt bovendien neer op het opzettelijk niet willen beargumenteren van de gegeven beoordeling, en daarmee wordt de student de gelegenheid ontnomen tegen zijn beoordeling beroep aan te tekenen op grond van artikel 40 van de WUB (op zich kan het niet beargumenteren van een gegeven beoordeling, wat tenslotte schending van een algemeen beginsel van behoorlijk bestuur is, een grond zijn om beroep tegen de beslissing aan te tekenen). In de Verenigde Staten is alom wetgeving in de maak die eist dat de vragen die in toelatingstoetsen (tot universitair onder wijs) gebruikt zijn, openbaar gemaakt worden (Personnel Psychology, 1980, vol. 33, 140 'Symposium on "open versus secure testing"').


Het is denkbaar vragen wel geheim te houden, en studenten (of hun vertegenwoordigers) alleen inzage te geven in gemaakt werk. Het probleem is dat dit geen geheimhouding garandeert. Hoe meer er van de toets afhangt, des te meer pogingen om de geheimhouding te kraken. Als de intentie van de krakers is om de vragen bekend te maken, is dat zeker legitiem. Het probleem is natuurlijk dat in sterk competitieve situaties de krakers waarschijnlijk op eigen gewin uit zijn. En dat is precies het punt waarom geheimhouding niet professioneel is.


19. Ook de mondelinge ondervraging kan best meer objectief gehouden worden. Om begrijpelijke redenen is bij het mondeling ondervragen de verleiding groot om de keuze van te stellen vragen af te laten hangen van de wijze waarop de ondervraagde de voorgaande vragen heeft beantwoord. Het is echter geen goede procedure: er wordt gekapitaliseerd op toevalligheden in het gesprek zoals dat tot dan toe verlopen is, het leidt er toe dat de toetsomstandigheden voor verschillende studenten heel uiteenlopend uit zullen vallen, en er is een maximale ruimte voor de ondervrager om (ook onbedoeld) persoonlijke voorkeuren, gewoonten, en belangstelling het gesprek te laten bepalen, en daarmee ook de beoordeling. Hoewel het mondeling veel vrijheid in de ondervraging mogelijk maakt, en juist daarom ook als toetsingsvorm gekozen kan zijn, kan de ondervraging best wat meer gereguleerd, en daarmee wat objectiever gemaakt worden. Dat kan bijvoorbeeld door een van tevoren opgestelde vragenlijst af te werken (in plaats van ad hoc vragen te bedenken); vergelijk ook wat onder 17) opgemerkt is.


Natuurlijk kan de student zelf ook sturen. Daar zijn talrijke anecdotes over. Tot op beperkte hoogte kan goed zijn om de student de keuze te laten over onderwerpen, zoals bij thema's voor het schrijven van een opstel gebruikelijk is. Bij mondeling tentamineren is het risico dat de toets meer over slimheid dan over inhoud gaat, dat kan nooit de bedoeling zijn.


20. De cesuur wordt niet bij onderling fiat vastgesteld, maar beargumenteerd op onder andere inhoudelijke gronden. Zie ook wat eerder onder 6) daarover werd opgemerkt. Bij het bepalen van de cesuur kan een procedure gevolgd worden die analoog is aan de procedures die gebruikt worden om tot objectieve toetsvragen en tot objectieve beoordeling van antwoorden te komen. Het gaat er om dat overeenstemming tussen deskundigen niet in onderlinge discussie bereikt wordt, maar blijkt uit de resultaten van deskundigen die onafhankelijk van elkaar gewerkt hebben.


21. Formules of computerprogramma's garanderen geen objectieve cesuurbepaling. Er wordt wel gezegd dat het gebruik van een tevoren bepaalde formule voor de plaats van de cesuur 'objectief' is, omdat de persoon van de beoordelaar dan geen invloed op de plaats van de cesuur meer kan hebben. Daarbij wordt 'vergeten' dat de keuze van de 'formule,' of van de parameterwaarden in de formule, wel degelijk mensenwerk is, en erg subjectief zal zijn wanneer dat met de natte vinger gebeurt, of wanneer de verantwoordelijke docent geen inzicht in de werking van de te gebruiken cesuurbepalingsmethode heeft. Voorbeelden: de kernitemmethode (De Groot en Van Naerssen, 1969), de methode Wijnen (Wijnen, 1972), 'grading on the curve,' constant percentage af te wijzen, constant percentage van de vragen dat 'goed' beantwoord moet zijn. Het probleem zit niet zozeer in de te gebruiken regel of formule, maar in het ondoordacht en onbeargumenteerd gebruiken van dergelijke regels. Er zijn toetsanalyse-programma's die de cesuur uitrekenen, wanneer de docent opgeeft welke vragen als 'kernitems' beschouwd kunnen worden (of zelfs dat nog niet, wanneer een latere variant van de kernitemmethode, ontwikkeld door Van Naerssen, gebruikt wordt). De hier bedoelde procedures zijn pseudo-objectief, en verdienen het label objectief pas wanneer hun gebruik behoorlijk beargumenteerd wordt.


22. Veel méér (of minder) geslaagden dan verwacht is altijd een reden voor nadere analyse. Op basis van de resultaten van voorgaande toetsen, in dezelfde onderwijssituatie, kan meestal een redelijke verwachting worden uitgesproken over het aantal dat deze keer zal slagen. Wanneer er een sterke afwijking van die verwachting geconstateerd wordt, zou het kunnen zijn dat de argumenten waarop de cesuur gebaseerd is, achteraf niet geheel juist blijken te zijn. Daarom is het nodig om, bijvoorbeeld, na te gaan of studenten zich deze keer veel beter (slechter) hebben voorbereid dan voorgaande keren. Wanneer daar gronden voor gevonden worden, kan eventueel de cesuur achteraf verlaagd worden.


23. Het is de taak van de docent om tot een zo objectief mogelijke beoordeling te komen. De Groot (1973, p. 20):

"per examinandus: komen tot een zo objectief mogelijke beoordeling of en in hoeverre hij/zij heeft voldaan aan de normen betreffende het niveau van prestaties binnen het gebied van de examineerbare stof'."


De objectiviteit kan verbeterd worden door zorgvuldiger procedures te hanteren; dat kost tijd en geld, zodat er in het algemeen een afweging gemaakt moet worden tussen de kosten van deze procedures, en de 'winst' aan objectiviteit. Bij die afweging speelt o.a. het aantal studenten die aan de toets deelnemen een belangrijke rol: hoe meer studenten, des te meer wordt het de moeite waard om extra aandacht aan de op te stellen toetsvragen te besteden. Er zijn situaties waarin redelijkerwijs niet aan stringente objectiviteitsverlangens is te voldoen, bijvoorbeeld omdat de toetsing maar een handjevol studenten betreft. Dan is het zaak om bij het nemen van beslissingen over studenten ook met een mogelijk hoge mate van subjectiviteit van de beoordeling rekening te houden. Zo is het bij mondeling ondervragen mogelijk om een slaaggarantie te geven, op basis van een goedgekeurde literatuurscriptie die voorafgaand aan het tentamen is ingeleverd (en eventueel verbeterd op aanwijzing van de docent).

Het streven naar objectiviteit volgt ook uit de regels van behoorlijk bestuur, die de grenzen aangeven waarbinnen de docent dient te blijven in zijn handelen tegenover de student (de administratiefrechtelijke begrenzing van de bevoegdheden van de docent). Het gaat dan om rechtsbeginselen als het (kunnen) motiveren van beslissingen, nakomen van afspraken, zorgvuldigheid, honoreren van gewekte verwachtingen.


24. Garanties voor rechtvaardige prestatiebeoordeling worden door geen enkele techniek gegeven. Het is de instelling van de docenten, de zorgvuldigheid waarmee zij de beoordeling uitvoeren (vanaf het bedenken van de toetsvragen tot het nemen van zak-slaagbeslissingen) die de rechtvaardigheid van de beoordeling bepaalt.

De Groot (1973, p. 29) suggereert ten onrechte dat het gebruik van meerkeuzevragen, en alléén van meerkeuzevragen, kan leiden tot 'onaanvechtbaar rechtvaardige relatieve prestatiebeoordelingen.'


25. Een toets bestaande uit meerkeuzevragen is alleen daardoor nog geen 'objectieve' toets. In ons land is de opvatting wijd verspreid dat toetsen bestaande uit (meer)keuzevragen 'objectieve' toetsen zijn, en daarmee ook alle voordelen van objectieve beoordeling in zich dragen Deze opvatting stoelt op het werk van De Groot (zie bijvoorbeeld 1973 p. 10). Wie vraagt of een toets 'objectief' is, bedoelt daar kennelijk mee of de toets bestaat uit vragen van het 'objectieve' type. Het is internationaal gebruikelijk om daaronder zowel keuzevragen, als aanvulvragen of invulvragen te verstaan. Het gebruiken van vragen van het objectieve type maakt op zich de beoordeling niet objectief, daar is nog wel iets meer voor nodig. Bijvoorbeeld is het daarvoor noodzakelijk dat wat als juiste antwoorden zullen gelden, bepaald is door het overeenstemmende oordeel van deskundigen. Dat is overigens een uitbreiding van het objectiviteitsbegrip waar De Groot mee in kan stemmen (1973 p. 43), hoewel hij het buiten zijn eigen definitie blijft houden.


26. Het bedenken van meerkeuzevragen een kunst? Voor het bedenken van steeds maar weer nieuwe vragen over dezelfde stof wordt de docent (of de itemschrijver) tamelijk snel teruggeworpen op eigen vindingrijkheid. De onderwijskunde biedt nog maar weinig houvast: er zijn vrijwel geen vuistregels voor het bedenken van toetsvragen bekend, althans geen vuistregels die evident méér te bieden hebben dan wat iedere docent ook zelf al wel kan bedenken. Het is dan ook niet verwonderlijk dat veel tekst boeken het itemschrijven presenteren als een kunst, een vaardigheid die van lange ervaring en creatieve vermogens afhankelijk is. In deze zin is vraag 26 waar: het is communis opinio in de toetswereld. Gelukkig zijn er ondertussen wel enkele schuchtere pogingen gedaan om vuistregels te ontwikkelen die het mogelijk maken om snel en efficiënt grote hoeveelheden vragen te beden ken, terwijl die vragen een goede onderwijskundige of zo men wil 'didactische' basis hebben. Zie bijvoorbeeld Wilbrink 'Toetsen' hoofdstuk 3 en 4, en Wilbrink (1981, in voorbereiding).


27. Ook essayachtige antwoorden kunnen best aan de hand van strikte beoordelings en scoringsvoorschriften nagekeken worden. Het is altijd mogelijk om ook voor essay-opgaven op voorhand gedetailleerde beoordelings- en scoringsvoorschriften op te stellen. Het is alleen de vraag of de investering aan tijd opweegt tegen de winst aan objectiviteit, zie ook onder 23). Bij bepaalde essay-opgaven is het mogelijk om gedetailleerde modelantwoorden op te stellen (van feiten die vermeld moeten zijn, bijvoorbeeld), of is het mogelijk om tot objectieve beoordeling te komen door een hoge mate van intersubjectiviteit (bij wiskundige bewijsvoeringen bijvoorbeeld). Gaat het om werkstukken die een stuk creativiteit van de student belichamen, creativiteit die ook ter beoordeling dient te staan, dan kan die beoordeling meer 'gestuurd' worden door te werken met beoordelingsschaaltjes waarop het werkstuk op verschillende factoren of dimensies beoordeeld wordt (bijvoorbeeld afzonderlijk te beoordelen 'lay-out,' 'stijl,' 'organisatie,' 'originaliteit,' 'effectiviteit,' 'juistheid,' 'afwerking,' 'uitvoering,' etcetera.


28. Foutenanalyses achteraf zijn bij vrijwel alle vormen van toetsing mogelijk. Het is een misvatting dat alleen bij meerkeuzevragen foutenanalyse mogelijk zou zijn. Meerkeuzevragen houden het risico van onvolledige foutenanalyse in: wanneer bepaalde afleiders veel of weinig aangestreept zijn, is daarmee nog niet bekend langs welke denkstappen studenten daartoe gekomen zijn; dit is vooral problematisch waar de meerkeuzevragen bedacht zijn via de methode van het 'creatieve itemschrijven,' zie onder 26), en daardoor de relatie tot de onderwijsdoelstellingen dubieus is. Zou foutenanalyse met behulp van de computer gewenst zijn, dan is het altijd mogelijk om aanvulvragen te scoren op schrapkaarten, en deze in te lezen en via geschikte programmatuur te analyseren. Hetzelfde kan ook met gestructureerde beoordeling en scoring van essay-antwoorden, maar vereist dan speciale programmatuur, een investering die zelden haar extra opbrengst waard zal zijn.


29. De student kan in dezelfde beschikbare tijd ongeveer evenveel aanvulvragen als meerkeuzevragen beantwoorden. Zowel aanvulvragen als (meer)keuzevragen zijn erg efficiënt wat betreft de hoeveelheid informatie over de beheersing van de student die zij in eenzelfde tijdbestek opleveren. Bij meerkeuzevragen heeft de student tijd nodig om de verschillende afleiders te onderzoeken, bij aanvulvragen is er tijd nodig om het antwoord (een getal, een enkel woord) op te schrijven. Er is dus geen speciaal voordeel van meerkeuzevragen in dit opzicht, eerder een nadeel ten opzichte van aanvulvragen omdat de keuzevragen behept zijn met raadkansen (zie onder 9), en dat doet aan de kwaliteit van de informatie af.

Het spreekt vanzelf dat het verkrijgen van méér informatie (per toetsuur) wenselijk is, omdat het een nauwkeuriger beeld van de stofbeheersing van de student oplevert, en dat is een bijdrage aan de objectiviteit (minder invloed van het toeval, door het gebruik van een 'rijker' steekproef,waardoor ook de stof beter bestreken wordt door de toetsvragen).


30. Analyse van de toetsresultaten (per vraag) is altijd mogelijk. Of het nu om essay-opgaven, of om aanvul- of keuzevragen gaat, altijd is het mogelijk om de toetsresultaten per vraag te analyseren, al dan niet gebruik makend van psychometrische technieken. Zie ook wat onder 28) al over foutenanalyse gezegd is. Ten onrechte stelt De Groot (1973, p. 31) dat alleen voor meerkeuzetoetsen geldt dat psychometrische methoden van itemanalyse en testanalyse toegepast kunnen worden.


31. Zorgvuldige procedures bij het construeren van toetsvragen en bijbehorende modelantwoorden en scoringsvoorschriften dwingen de docent tot reflectie op het eigen onderwijs. De Groot (1973, p. 26): "het construeren van items voor studietoetsen activeert het doelstellingsgeweten." De Groot bedoelt hiermee een voordeel van meerkeuzevragen aan te geven, maar het is duidelijk dat het hier geenszins om een uniek voordeel van keuzevragen gaat. Voorzover itemschrijven als 'kunst' beoefend wordt zal het in het geheel niet tot reflectie op het onderwijs, of tot betere doelstellingenformulering leiden.


32. Keuzevragen zijn moeilijker te bedenken dan aanvulvragen. En dat ligt voor de hand: wat is een meerkeuzevraag immers anders dan een aanvulvraag voorzien van meerdere alternatieven? Die extra alternatieven bedenken, daar zit hem nu juist de pijn in voor de itemschrijver. Het is wél juist dat essay opgaven doorgaans moeilijker op te stellen zijn dan objectieve vragen (= aanvul- of keuzevragen), omdat in de formulering van de essayopgave heel nauwkeurig afgebakend moet zijn wat wel en wat niet gevraagd wordt, en omdat bij het bedenken van de vraag ook het opstellen van het modelantwoord (+ aanvaardbare varianten) hoort.


33. Voor een snelle uitslag van het tentamen is de hulp van een computer misbaar. Bij een toets bestaande uit meerkeuzevragen kan de uitslag onmiddellijk na afloop bekend zijn: wanneer de student over de scoringssleutel beschikt, én over een kopie van zijn antwoorden (van zijn schrapkaart). Ook bij een toets bestaande uit aanvulvragen kan op deze wijze de uitslag onmiddellijk na afloop bekend zijn. Bij essay opgaven kan de uitslag bij benadering door de student zelf bepaald worden met behulp van de modelantwoorden, en een kopie van zijn werk. Uiteraard komt de formele uitslag pas later. Deze procedure stelt de student ook maximaal in staat het nakijken van de docenten te controleren op juistheid.


34. Het tevoren vaststellen welk antwoord als het (meest) juiste zal gelden, is een pseudo-objectieve procedure. Het gaat er immers om dat over het (meest) juiste antwoord intersubjectieve overeenstemming bestaat tussen onafhankelijk van elkaar werkende deskundigen. Of die overeenstemming voorafgaand aan de toetsafname onderzocht wordt, of er na, doet er in beginsel niet toe (het meest praktisch is uiteraard om het onderzoek vooraf te doen, om ondeugdelijke vragen uit de toets te weren). Een en ander geldt evenzeer voor de scoring van meerkeuzevragen waarbij van een tevoren opgestelde scoringssleutel gebruik wordt gemaakt: het gebruik van zo'n sleutel door een scoringsautomaat garandeert geen objectieve scoring, omdat ook de objectiviteit van de sleutel zè via de intersubjectieve overeenstemming van onafhankelijk werkende deskundigen vastgesteld moet worden.


35. Het beoordelen van gegeven antwoorden gebeurt 'objectief,' wanneer deskundigen die onafhankelijk van elkaar werken tot dezelfde resultaten komen. Vanzelfsprekend, nu. Volmaakte overeenstemming zal er zelden zijn, behalve in die gevallen waarin de antwoorden zo objectief te scoren zijn dat er geen behoefte is aan een tweede onafhankelijke beoordelaar. Hoe te handelen wanneer die volledige overeenstemming bij het nakijken er niet is, is besproken onder 13) en 14).


36. Ook toetsen samengesteld uit aanvul of keuzevragen kunnen op talrijke subjectieve beslissingen berusten over wat te toetsen, en hoe dat te toetsen. Het is nu wel duidelijk dat de objectiviteit van het beoordelen niet zit in het gebruik van keuzevragen of niet, maar in zorgvuldigheid bij voorbereiding en uitvoering. In dit verband is 'zorgvuldig' het gebruik maken van de procedurele controle van onafhankelijk van elkaar werkende deskundigen. Deze zelfde procedure kan ook gebruikt worden bij het vaststellen van wàt er gevraagd zal worden, zie ook onder 7), en hóe dat gevraagd zal worden.


37. Het gebruik van een formule voor het bepalen van de cesuur garandeert geen objectiviteit. Zie onder 21).


38. Verantwoorde cesuurbepaling is altijd mogelijk, ongeacht de gebruikte toetsvorm. Geen enkele toetsvorm heeft het alleenvertoningsrecht waar het gaat om rechtvaardigheid van de cesuurbepaling. De cesuur moet inhoudelijk beargumenteerd kunnen worden, terwijl ook argumenten die de 'sturing' van het onderwijs betreffen een rol kunnen spelen (tentamenmodel-overwegingen), terwijl meer in het algemeen voldaan moet worden aan de algemene beginselen van behoorlijk bestuur. Cesuurbepaling is nooit eenvoudig, bevredigende oplossingen zijn moeilijk te bereiken, maar altijd moet bedacht worden dat ook hier 'objectiviteit' niet door simpele trucs als het hanteren van een (op duistere gronden gekozen) rekenregel te bereiken is.


39. Het streven naar objectiviteit bij het beoordelen is vergelijkbaar met het streven naar objectiviteit in het wetenschappelijk onderzoek. Het enghartige objectiviteitsbegrip van De Groot vinden we terug in zijn Methodologie (1962). Een minder rigide opvatting over objectieve wetenschapsbeoefening dan die van De Groot is echter gemeengoed onder de praktische beoefenaren. Zij zullen niet al te veel moeite hebben zich te herkennen in de hier gegeven presentatie van 'objectief beoordelen'.


40. Goede rechtsbescherming van de student en objectief beoordelen liggen in elkaars verlengde. Zie ook 23).


Literatuur


De Groot, A.D. Methodologie. Den Haag: Mouton, 1961.

De Groot, A.D. & R.F. van Naerssen (redactie) Studietoetsen, deel 1. Den Haag: Mouton, 1973.

Wilbrink, B. Studiestrategieën. Amsterdam: COWO, 1978. html

Wilbrink, B. Toetsen. Amsterdam: COWO, 1979. html

Wilbrink, B. Cesuurbepaling. Amsterdam: COWO, 1980. html

Wilbrink. B. Construeren van toetsvragen. Utrecht" Het Spectrum, 1981 (in voorbereiding). 1.4 Mb pdf of herziening (in uitvoering): hfdst 1

Wijnen, W.H.F.W. Onder of boven de maat; een methode voor het bepalen van de grens voldoende/onvoldoende bij studietoetsen. Amsterdam: Swets & Zeitlinger, 1972.



10 mei 2007 \ contact ben apenstaartje benwilbrink.nl

Valid HTML 4.01!   http://www.benwilbrink.nl/publicaties/79toetsen.workshop.cowo.htm