thuis   publicaties   toetsen   tekst Cesuurbepaling 1977


Stukken bij CESUURBEPALING

kursus 6       eerste versie

ben wilbrink

mei 1977

Universiteit van Amsterdam




tekst Cesuurbepaling 1977



Literatuur die is gemist, of van iets latere datum:


Enkele stukken in relatie tot dit cursusboek zijn verzameld in 77bijCesuurbepalingCOWO.htm:

- een stuk gedateerd 21 juli 1977; meegezonden met cursus 6 Cesuurbepaling: 'Aantekeningen bij cursus 6 Cesuurbepaling'

- 21-juni 1977: DE KWALITEIT 'VAN ZAK-SLAAG BESLISSINGEN : EEN EXEMPLARISCHE ANALYSE.

- 2-7-77: Appendix bij 6.3 t/m 6.5

- 21-10-76:
    2.1.7 Toetsing van de kernitem methoden op uitgangspunt 1.
    2.1.8 Toetsing van de methode Wijnen aan uitgangspunt 1.

- 28-12-76: 4 BIJLAGEN.
    4.1 Schattingen voor gemaakte aantallen fouten bij zak-slaag beslissingen voor afzonderlijke studieonderdelen.

- cursus 7 15-6-77: examens: empirische data (ook buitenlandse).

- blz. 5 16-6-77 (onduidelijk bij welk stuk dit hoort)

- 16-6-77: De meerkeuzetoets en zak-slaag beslissingen. - 5-9-1977: begeleidend stuk voor bespreking in de VOR werkgroep criterium gerefereerde toetsing


Literatuur van later datum


Stukken bij Cesuurbepaling 1977

- een stuk gedateerd 21 juli 1977; meegezonden met cursus 6 Cesuurbepaling: 'Aantekeningen bij cursus 6 Cesuurbepaling'

- 21-juni 1977: DE KWALITEIT 'VAN ZAK-SLAAG BESLISSINGEN : EEN EXEMPLARISCHE ANALYSE.

- 2-7-77: Appendix bij 6.3 t/m 6.5

- 21-10-76:
2.1.7 Toetsing van de kernitem methoden op uitgangspunt 1.
2.1.8 Toetsing van de methode Wijnen aan uitgangspunt 1.

- 28-12-76: 4 BIJLAGEN.

4.1 Schattingen voor gemaakte aantallen fouten bij zak-slaag beslissingen voor afzonderlijke studieonderdelen.

- cursus 7 15-6-77: examens: empirische data (ook buitenlandse).

- blz. 5 16-6-77 (onduidelijk bij welk stuk dit hoort)

- 16-6-77: De meerkeuzetoets en zak-slaag beslissingen. - 5-9-1977: begeleidend stuk voor bespreking in de VOR werkgroep criterium gerefereerde toetsing

(gedateerd 21 juli 1977; meegezonden met cursus 6 Cesuurbepaling)

Aantekeningen bij cursus 6 Cesuurbepaling.

Ben Wilbrink. 21-7-77.

De voor u liggende cursus is een eerste versie, terwijl de delen 2 en 3 nog in voorbereiding zijn. Wie op de hoogte wil blijven van verbeteringen en ontwikkelingen, wordt verzocht mij te schrijven. Een aantal punten kan ik nu al noemen:

In hoofdstuk 1 worden geen illustraties aan de hand van reële toetsresultaten gegeven. Voor het behandelde in 1.2.1 en 1.2.2 heb ik wel enig materiaal. De docent kan aan zijn eigen toets het model nagaan, door zijn toets in twee gematchte (of ev. random) delen te splitsen en de consistentie van zak-slaagbeslissingen op iedere helft afzonderlijk genomen, te bepalen (door turven).

De aanpak in par. 6.2 t/m 6.5 gaat niet uit van het klassieke testmodel, althans zoals dat meestal uitgewerkt wordt, maar van de standaardmeetfout voor de gegeven student (Lord & Novick) (= de standaarddeviatie van de waarschijnlijkheids-verdeling voor de totaalscore voor de gegeven student zoals die in het binomiale model is).

De laatste alinea van par. 6.4 op blz. 74 is enigszins misleidend: voor overigens vergelijkbare kort-antwoord- en meerkeuzetoetsen geldt dat de standaardmeetfout voor de gegeven student kleiner is bij de meerkeuzetoets. Omdat het verschil tussen beide toetsvormen slechts is dat bij de meerkeuze toets een stuk random variatie extra ingevoerd wordt, is het duidelijk dat de kleinere standaardmeetfout voorzichtig geinterpreteerd moet worden: ze is louter een artefakt van het gebruikte binomiale model. Aantoonbaar is dat ondanks die kleinere standaardmeetfout de kans op onjuiste beslissingen bij de meerkeuze toets groter is: de student die de stof in wezen voldoende beheerst heeft bij meerkeuze toetsing een grotere kans te zakken, de student die de stof in wezen onvoldoende beheerst heeft een grotere kans te slagen.

Hoofdstuk 7 geeft een uiterst globale besliskundige aanpak van het cesuurprobleem; hoewel de mate van detaillering veel groter is dan tot nog toe gebruikelijk bij publicaties over meer besliskundige benaderingen van selectie-problemen, criteriumgerefereerde toetsing e.d., is een degelijker aanpak dan in dit hoofdstuk beschreven erg hard nodig. Bij een solide besliskundige aanpak met gebruikmaking van de besliskundige know-how zoals die door Keeney & Raiffa recentelijk is bijeengebracht, is ondertussen een begin gemaakt. Het is te verwachten dat zich daarbij zeer grote problemen zullen voordoen, maar ook dat betere inzichten in de problematiek van de cesuurbepaling verkregen zullen worden.

De uitwerking van deze punten zal gegeven worden in de nog verschijnende delen, of in de tweede versie van deel 1.

[Niet in de tekst van het cursusboek opgenomen, want van later datum:]

Universiteit van Amsterdam

Centrum voor Onderzoek van het Wetenschappelijk Onderwijs

cowo Nieuwe Doelenstraat 9 1 Telefoon 525 28351 1012CP Amsterdam

DE KWALITEIT 'VAN ZAK-SLAAG BESLISSINGEN : EEN EXEMPLARISCHE ANALYSE.

21-juni 1977 Ben Wilbrink.

Empirische gegevens:
a) een toets, bestaande uit 47 vragen, afgelegd door 321 studenten.

KR 20 = .646
gemiddelde = 29.87
standaardafwijking = 4.89
standaardmeetfout = 2.91

b) naar beste inzicht stelden de docenten uit deze 47 vragen twee parallel toetsen van ieder 23 vragen samen. Heranalyse van de tentamendata, maar nu over deze paralleltoetsen, leverde op:

toets A, 23 vragen, 321 studenten.
KR 20 = .476
gemiddelde =15.19
standaardafwijking = 2.71
standaardmeetfout = 1.96

toets B, 23 vragen, 321 studenten.
KR 20 = .443
gemiddelde =13.31
standaardafwijking = 2.8
standaardmeetfout= 2.10
1. Betrouwbaarheid van de toets.

Voor de beide parallel toetsen kan zonder omwegen de test-hertest betrouwbaarheid uitgerekend worden; deze is gelijk aan de correlatie tussen toets A en toets B, berekend als .51. Test-hertest betrouwbaarheid voor toets A is .51, evenals voor toets B. Deze waarde stemt aardig overeen met de waarden van KR 20 voor beide toetsen: respectievelijk .476 en .443.
De betrouwbaarheid voor een twee keer zo lange toe 1 ts van 46 vragen kan berekend worden met behulp van de formule van Spearman-Brown,

2 ( .51) / ( 1 + .51 ) = .68.

Ook deze waarde klopt aardig met de KR20 berekend voor de toets bestaande uit 47 vragen: KR 20 = .646.

2. Aantal foute zak-slaag beslissingen.

Nu wil het geval dat de docenten die deze toets afnamen, menen argumenten te hebben om de zak- slaag grens voor de toets van 47 vragen te leggen bij 29,5, resulterend in 158 onvoldoendes, ofwel 49,22 %. De vraag die ik in deze paragraaf probeer te beantwoorden is: In hoeveel van de gevallen is de zak-slaag beslissing onjuist, er van uit gaande dat op zich het percentage afwijzingen juist is. (Het laatste stuit mij zeer tegen de borst, omdat dit soort afwijzingspereentages duidt op door en door slecht onderwijs, volstrekt ondoorzichtige toetsing, of niet te verantwoorden beleid van de betrokken docenten; maar juist om deze situatie behoorlijk te kunnen analyseren, ga ik voorlopig even mee met de veronderstelling dat het afwijzings percentage terecht zou zijn).

In COWO docentencursus 6 'Cesuurbepaling' heb ik aangegeven hoe deze vraag beantwoord kan worden (paragraaf 1.2.1 en 1.2.2, en de bijlage bij die cursus). De tabellen die ik daar gegeven heb beperken zich echter tot afwijzingspercentages die niet a priori volstrekt onredelijk zijn. Met behulp van dezelfde technieken als gebruikt om de daar gegeven tabellen te berekenen, kan voor het geval dat 50 % van de studenten onvoldoende krijgt, en de betrouwbaarheid van de toets .65 is (waarden die de gegevens voor deze toets dicht benaderen), berekend worden welke percentages foute beslissingen hier verwacht mogen worden.

studenten die op een parallel toets eveneens voldoende zouden scoren: 36 %.

studenten die op een parallel toets eveneens onvoldoende zouden scoren: 36 %.

studenten die op de afgenomen toets voldoende scoorden, maar op de parallel toets onvoldoende zouden scoren: 14 %.

studenten die op de afgenomen toets onvoldoende scoorden, maar op de parallel toets voldoende. zouden scoren: 14 %.

studenten die afhankelijk van het feit of de ene, dan wel de andere toets wordt afgenomen, voldoende of onvoldoende scoren: 28

aantal foute zak-slaag beslissingen (gerekend naar de uitslag die een parallel toets te zien zou geven): 28 %.

Voor alle duidelijkheid: een paralleltoets is een in alle opzichten vergelijkbare toets over dezelfde stof, maar met andere vragen. Je mag aannemen dat bij zorgvuldige toets constructie twee toetsen die in opeenvolgende jaren worden afgenomen, in deze zin parallel aan elkaar zijn.

De gegeven percentages foutieve beslissingen zien er barbaars uit. De vraag doet zich dan ook voor, of het model op grond waarvan deze percentages berekend werden, wel op deze situatie en op deze toets past. Omdat gegevens beschikbaar zijn over twee parallel toetsen A en B, kan ook empirisch berekend worden welke de aantallen foute beslissingen op bijvoorbeeld toets A zijn, deze uitkomst kan vergeleken worden met de uitkomst die het model van Wilbrink geeft, en wanneer de overeenstemming voldoende is, kan men ook vertrouwen hebben in de hierboven gegeven percentages foute beslissingen.

  3. Aantal foute beslissingen: de empirie.

Voor een goede vergelijkbaarheid zal ik voor toets A en voor toets B hetzelfde afwiJzings percentage van 49 % proberen aan te houden als voor de hele toets gehanteerd werd. Ik zeg proberen, omdat het probleem is dat in verband met het beperkte aantal vragen op de toets, niet exact dezelfde afwijzings percentages aangehouden kunnen worden.

Bij een aftestgrens van 15.5 op toets A worden 169 studenten, ofwel 52.6 %, onvoldoende beoordeeld.

Bij een aftestgrens van 13.5 op toets B worden 175 studenten, ofwel 54.5 %, onvoldoende beoordeeld.

(En passant valt op te merken dat ondanks alle pogingen om A en B zoveel mogelijk aan elkaar gewaagd te maken, toets B een stuk moeilijker blijkt dan toets A).

Eenvoudig tellen levert dan de volgende resultaten op:

- A en B voldoende: 98 studenten, 31 %.

- A en B onvoldoende: 121 studenten, 38 %

- A voldoende, B onvoldoende: 54 studenten, 17 %

- B voldoende, A onvoldoende: 48 studenten, 15 %

- één van beide voldoende : 102 studenten, 32%

- foute zak~slaag beslissingen op toets A (gerekend naar de uitslag zoals paralleltoets B die geeft): 102, 32 %.

4. Aantal foute beslissingen: empirie en model vergeleken.

Voor hantering van het model volgens de bijlage van Cesuurbepaling, kies ik als betrouwbaarheid van de toets .50 (omdat gebruik van de tabellen een dergelijk rond getal vraagt). Afwijzingspercentage waarvan uitgegaan wordt: precies 50 %

______________________________________________________
 verwachting volgens     model       empirie

 betrouwbaarheid         .50          .50
 ______________________________________________________
 A en B voldoende         33.3 %     30.5 %
 A en B onvoldoende       33.3       37.7
 A vold., B onvold.       16.7       16.8
 B vold., A onvold.       16.7       15.0
 een van beide vold.      33.3       31.8
 foute beslissingen       33.3       31.8
______________________________________________________
TABEL 1 Inconsistente zak-slaag beslissingen: empirie en model.



Rekening houdend met het feit dat op toets A en B mégr dan 50 % studenten afgewezen wordt (52,6 % en 54,5 %), waardoor de empirie voor A en B beide onvoldoende hoger, voor beide voldoende lager uit zal vallen dan volgens het model dat met precies 50 % onvoldoende werkt, kan de conclusie niet anders zijn dat dat de beschikbare empirische gegevens nauwkeurig in overeenstemming zijn met wat volgens het gehanteerde model verwacht werd. Dat betekent ook dat aan de gegeven percentages in paragraaf 2 voor de hele toets, niet getwijfeld kan worden. = 5. Raadkansen bij meerkeuze toetsing.

Een vraag die uitgaande van de resultaten op de paralleltoetsen A en B beantwoord kan worden, is wat de invloed van raadkansen op de betrouwbaarheid van de toets, en op zak-slaag beslissingen is.

Veronderstel dat zowel toets A als toets B bestaan uit 23 kort- antwoord vragen (in werkelijkheid was dat niet het geval, maar dat doet aan de bruikbaarheid van de toetsresultaten voor ons doel niets af). Nu is het probleem bij overgaan van kort-antwoord toetsing op meerkeuze toetsing, dat bij de meerkeuze toets de student vragen goed kan maken door raden. Wanneer afgezien van dit raden de moeilijkheid van meerkeuze vragen en kort-antwoord vragen gelijk gehouden kan worden, dan is te verwachten dat de betrouwbaarheid van de meerkeuze toets een stuk geringer is dan de er mee vergelijkbare kort-antwoord toets (beide bevatten evenveel vragen, en zijn overigens even vatbaar voor invloeden die de scores onbetrouwbaar maken. Wie er aan twijfelt dat meerkeuze toetsen (afgezien van raadkansen) even (on)betrouwbaar zijn als er overigens inhoudelijk mee vergelijkbare kort-antwoord toetsen omdat de meerkeuze toets zogenaamd objectief is, verwijs ik naar COWO cursus 6 Cesuurbepaling, vooral paragraaf 6.5).

Veronderstel dan dat de kans een niet-geweten vraag goed te maken bij vierkeuze vragen 1/3 is (iets méér dan 1/4 omdat de student altijd door partiële kennis wel in staat zal zijn gemiddeld 99n van de vier alternatieven als fout te onderkennen).

Een zuivere simulatie van het effect van raadkansen op toetsscores kan dan verkregen worden door alle niet-geweten vragen op toetsen A en B voor de student te gaan 'raden', wat kan met een dobbelsteen of met behulp van tabellen random getallen. Het effect van raden is allereerst dat de score van de student, dus ook het gemiddelde, hoger wordt:

- toets A: gemiddelde was 15.19, wordt 17.74;

- toets B: gemiddelde was 13.31, wordt 16.47.

De score stijging voor toets A is geringer dan voor toets B, wat geen toevallig resultaat is, maar te maken heeft met het feit dat door de grotere moeilijkheid van toets B gemiddeld méér vragen op die toets geraden werden.

Omdat raden een kwestie van toeval is, wordt door raden alleen maar onbetrouwbaarheid aan de toetsseores toegevoegd. Dat blijkt door de gesimuleerde scores voor A, verder toets Al te noemen, en voor B, verder toets B' te noemen, met elkaar te correleren: omdat beide toetsen parallel zijn, is hun correlatie gelijk aan de test- hertest betrouwbaarheid voor een (meerkeuze) toets van 23 vragen. Het resultaat is onthullend: was de test-hertest betrouwbaarheid voor A en B nog .51, voor hun meerkeuzevormen A' en B' zakt die in elkaar tot .27. (voor 321 studenten berekend). Als bijlage heb ik nog toegevoegd dezelfde berekeningen voor een aantal deelgroepen van 55 studenten. In die bijlage geef ik ook de correlaties tussen de toets en zijn meerkeuze vorm: door de bank genomen is die correlatie .80, wat nogal laag is gezien het feit dat in beide toetsen dezelfde score van de student als uitgangspunt genomen werd. Ter illustratie berekende ik voor groep 1 (55 studenten) r (AB')= .28, en r(A'B) = - 37.

De hier gegeven resultaten onderstrepen nog eens duidelijk dat meerkeuze vragen niet gebruikt mogen worden voor toetsen waarop zak-slaag beslissingen genomen worden, wanneer kort~antwoord vragen over de betreffende leerstof even goed mogelijk zijn. Gebruik van de meerkeuze vorm leidt direct tot een groter aantal foutieve zak-slaag beslissingen, zijn daarom zeer schadelijk voor het onderwijsrendement, en onrechtvaardig tegenover de student.

4-3-77

opm. bij 6.4 blz 74 3e alinea 'genoemd verband etc.

(Bij deze passage zette Dato (9-8-77) ook een vraagteken)

Wanneer het de bedoeling is om met een toets zo goed mogelijk te METEN, is de regel toepasbaar zoals o.a. door Lord verwoord (1974, in Krantz e.a. blz. 7):

"a common rule for effectively measuring performance calls for a difficulty level such that the individual will answer half the questions correctly and half incorrectly."

Gebruik je een toets niet om te meten, maar om DICHOTOME zak-slaag beslissingen te nemen, dan zou de zaak wel eens heel anders kunnen komen te liggen, nog afgezien van de onderwijskundige bezwaren die je tegen een toetspraktijk gebaseerd op het genoemde test-adagium zou kunnen hebben.

Kun je demonstreren dat bij zak-slaag beslissingen de onnauwkeurigheid van de toets voor de individuele beslissing juist maximaal is bij het volgen van de 'meet strategie' van Lord ?

Inhoudelijk bekeken, vanuit de leerstof dus, is er nog een heel ander probleem: beheersing van de stof vraagt om een definitie in termen van vragen over die stof die de student bevredigend kan beantwoorden. Het is evident dat bij een dergelijke definitie de betekenis van Istofbeheersing' verandert wanneer het moeilijkheidsniveau van de vragen verandert (door ingewikkelder vraagstellingen, door meer 'nieuwe' vragen te stellen, door de vragen steeds meer over steeds kleinere details uit de stof te stellen). Proberen aan het optimale beleid van Lord te voldoen, door op genoemde wijzen te gaan sleutelen aan de soort vragen die je de student gaat voorleggen, is jezelf goed voor de gek houden, en de studenten onjuist behandelen.

Suggestie: het gaat er niet om verschillen tussen studenten die het onderwijs allen ongeveer even intensief hebben gevolgd, valide te meten, maar het gaat er bij een zak-slaag beleid wél om verschillen tussen studenten die het onderwijs wèl behoorlijk hebben gevolgd, en degenen die dat niet deden, vast te kunnen stellen. Dat is een heel andere probleemstelling, die misschien veeleer door de onderwijs-programmering op te lossen is dan door psychometrische trucs.

2-7-77

Appendix bij 6.3 t/m 6.5

De bijzondere aanpak van het betrouwbaarheids probleem zoals in deze paragrafen gegeven, vraagt om een toelichting. Er zijn een aantal redenen waarom de klassieke testtheorie (Lord & Novick 1968) weinig bruikbaar is bij het voeren van een te verantwoorden cesuurbeleid. Allereerst moeten zak-slaag beslissingen voldoen aan de algemene beginselen van behoorlijk bestuur (en natuurlijk ook overigens niet in strijd met de wet zijn), waarbij er telkens weer sprake van is dat de belangen van de individuele persoon voldoende bij de besluitvorming in acht genomen moeten worden, De onmiddellijke consequentie daarvan is dat niet zonder meer bij het eesuurbeleid van een institutioneel beslissngsmodel (Cronbach & Gleser 1965) uitgegaan kan worden, maar dat beslissingen naar de betrokken personen toe gerechtvaardigd moeten kunnen worden. Het laatste wil niet ze-gen dat dan individuele beslissingen in de betekenis die Cronbach & Gleser daaraan geven (1965) aan de orde zijn: het gaat er niet om dat de studenten zélf de beslissingen nemen. Uit het volgen van de algemene beginselen van behoorlijk bestuur resulteert een beslissingsmodel dat het midden houdt tussen het institutionele en het individuele beslissingsmodel. Ik heb er geen behoefte aan om op dit moment een nieuwe naam te bedenken voor juist dit soort beslissingsmodellen. Voor het cesuurbeleid wordt het dan noodzakelijk enig inzicht te verkrijgen in zak- en slaagkansen voor studenten die een gespecificeerd deel van de stof of van de doelstellingen beheersen. Er van uit gaande dat de ware beheersing van de stof gegeven is, zoeken we de kans dat de student boven of beneden de cesuur scoort, en hoe deze kans gewijzigd wordt bij andere cesuren, een andere inrichting van de toetsings situatie, e.d. Daarmee wordt de standaard meetfout voor de gegeven student (Lord & Novick 1968) van belang, en schuiven de betrouwbaarheid van de beoordeling en de gemiddelde standaard meetfout in de groep van studenten naar de achtergrond. Met andere woorden: alle klassieke testtheorie die scoreverdelingen over studenten behandelt, is voor ons doel weinig bruikbaar. Wat wij nodig hebben is de kansverdeling van de toetsscore voor de gegeven student. Wanneer de stofbeheersing die de student in wezen heeft een gefixeerde en bekend veronderstelde waarde heeft, is deze kansverdeling gegeven deze ware score gelijk aan de meetfoutverdeling voor deze persoon, of: is de standaard deviatie van deze kansverdeling gelijk aan de standaardmeetfout voor deze persoon. In de praktijk kent noch de docent, noch de betrokken student de ware score of ware stofbeeheersing, en dat heeft ook consequenties voor de door mij gebruikte wijze van modelleren., althans waar het er voor de betrokken student om gaat een optimale studiestrategie te kiezen. Voor de student is het van belang dat hij in de gelegenheid wordt gesteld een goede schatting van zijn ware stofbeheersing te maken, waarvoor een goede transparantie van de toetsing noodzakelijk is ( hfdst 4). Misschien dat in dit verband gebruik gemaakt kan worden van de fuzzy subset theorie (o.a. Kaufman 1974) zodat de student geen puntschatting hoeft te maken, maar een plausibele waarschijnlijkheidsverdeling voor zijn ware stofbeheersing kan maken. Terugkerend naar het cesuurbeleid dat de docent voert: voor dit doel is het, minder belangrijk dat de preciese mate van ware stofbbeheersing van een bepaalde student nooit bekend zal zijn: hier gaat het immers om het principe dat 'een' student met die-en-die mate van beheersing van de stof tenminste een kans zus-en-zo moet hebben om een voldoende te scoren (resp. niet ten onrechte een voldoende te scoren). Het is de laatste idee die ten grondslag ligt aan de behandeling in de paragrafen 6-3 t/m 6.5 gegeven.

2 app 6.3 - 6.5 2-7-77

Ik stipte al even de transparantie problematiek aan. Willen toetsing en cesuurbe-paling transparant zijn, dan moet de student in staat zijn zich in zijn voorbereiding efficiënt op het behalen van een voldoende te richten. Dat kan alleen wanneer voor hem persoonlijk zak- en slaag kansen gegeven kunnen worden. Ook uit de eis van transparantie volgt dat niet toetsindices die voor de groep gelden van belang zijn, maar de waarschijnlijkheidsverdeling van de toetsscore voor deze gegeven student van belang is. Ook voor het transparant maken van de toetsings situatie moet de docent over de technieken en de gegevens beschikken die het hem mogelijk maken om de student de nodige informatie over zijn mate van stofbeheersing en de daaruit volgende zak-slaag kansen te geven.

Van tijd tot tijd wordt in de psychometrische literatuur wel gesignaleerd dat beslissingen over individuele studenten gebaseerd op gegevens die niet alleen van de betrokken student, maar ook van de groep waarvan hij deel uit maakt afkomstig zijn, moeilijk te rechtvaardigen zijn tegenover de betrokken student (voor de toetsende inttelling zijn deze beslissingen wèl gerechtvaardigd). Er zijn tot nog toe echter weinig pogingen gedaan om aan het hanteren van groepsgegevens bij het nemen van beslissingen over personen een einde te maken door alternatieve procedures voor te stellen. De door mij gepresenteerde aanpak van de cesuurbepaling wil zo'n poging zijn. Niet op alle punten in deze cursus wordt afgezien van het gebruiken van gegevens die niet van de betrokken persoon verkregen zijn: allereerst zit er ook een institutioneel kantje aan de cesuurproblematiek die op zich enige aandacht verdient (bijv. in hoofdstuk 7), daarnaast valt er een onderscheid te maken tussen leollateralet informatie die wél, en die n!et bruikbaar is. Tot de laatste categorie behoort het gebruik van groepsgegevens in regressieformules op basis waarvan 'ware' scores voor studenten geschat worden (althans, wanneer er geen sprakex is van quota selectie, omdat in dat geval de rangorde van de studenten vaak de basis van selectie is, en in die rangorde door de regressie formule geen verandering wordt gebracht). Tot de wél bruikbare 'collaterale' informatie behoort natuurlijk al die informatie op basis waarvan de toets geconstrueerd wordt, en de procedure die bij het nemen van de zak-slaag beslissingen gevolgd wordt, vastgelegd wordt.

2. app. 6.4 2-7-77

Het spreken over standaardmeetfouten is voor een abstracte analyse wel handig, maar in toepassings situaties moe' er rekening mee gehouden worden dat in de regel de binimiaal verdeling nie't symmetrisch is, de verwachte score niet gelijk zal zijn aan de score met de hoogste verwachting (gemiddeae en modus van de kansverdeling zijn niet gelijk) (zie bijv. Lord & Noviek figuur 23.2.1). Daarom moet in de praktijk met de zak- of slaag kansen gewerkt worden zoals die uit de cumulatieve binomiaal verdeling te berekenen zijn. In de eerstvolgende editie van cursus 6 zal ik een relevante tabel analoog aan tabellen in par. 6.3 en 6.4 ",even.

opm.bij par. 6.4 Een noodzakelijke uitbreiding. 22-9-77

Met behulp van de gegeven tabellen en berekeningswijzen, is voor iedere waarde van de parameter p voor percentage ware stofbehéersing (= 516 vragen in het universum van vragen dat de student goed kan beantwoorden) de kansverdeling voor de score x op een steekproef (toets) van n vragen te berekenen. Met name kun je berekenen de waarsc ijnlijkheid dat x groter of gdijk is aan een bepaalde aftestgrens e, dan wel kleiner is dan die aftestgrens e. Zo kun je voor verschillende waarden van de parameter p de kans op terecht dan wel ten onrechte voldoende dan wel onvoldoende berekenen bij bepaalde waarden van de aftestgrens e. De vraag is dan, hoe je e moet kiezen om de risico's van beide soorten foute beslissingen in de hand te houden (en tevens, hoeveel vragen je daarvoor in je steekproef moet opnemen). Een mogelijke aanpak, die echter misschien niet geheel juist is, wordt bij vergissing gegeven door Fhanér in Br. J. M. & st. pa. 19?41 27, 172-175.

Fhaner bedoelt een analyse te weven van optimale bepaling van aftestgrens c en het benodigde aantal toetsvragen om onjuiste beslissingen gegeven de waargenomen score binnen bepaalde risicomarges te houden. Bij vergissing gaat hij echter het hierboven door mij genoemde geval analyseren, ervan uitgaande dat de ware beheersing p gegeven is. Dat beide benaderingen eesentieel verschillend zijn en niet dezelfde resultaten kunnen opleveren, is duidelijk wanneer je bedenkt dat voor het door mij bedoeld en door Fhanér uitgewerkte geval het binomiaal model te gebruiken is, maar voor het omgekeerde het binomiaal model zeker niet van toepassing kan zijn (omdat de verdeling over studenten van de ware stofbeheersing daarvoor een essentieel gegeven is, en die verdeling is niet binomiaal en dan nog zou je er lang niet zijn).

2-7-77

Appendix bij par. 6.4

Meerkeuzetoetsen. Mijn aanwijzing hoe een en ander er in het geval van meerkeuzetoetsen uit gaat zien, is wat al te summier uitgevallen.

Veronderstel, aansluitend bij het voorbeeld in par. 6.4, dat voor een bepaalde student bekend is dat zijn stofbeheersing in wezen 60 0.' is, d.w.z. dat de kans dat hij een willekeurige vraag in kort-antwoord vorm goed kan beantwoorden .6 is. Wanneer de docent zou besluiten om in plaats van een kort-antwoord toets een overigens in alle opzichten vergelijkbare meerkeuzetoets te geven (in alle opzichten: de vragen zijn kwa inhoud zoveel mogelijk gelijk, en gelijk in aantal) doet zich toch wel een enigszins gecompliceerde situatie voor: Veronderstel dat de kans voor deze student om een niet-geweten vraag door raden goed te maken gesteld kan worden op 1/4. Hoe groot wordt dan de standaard meetfout die resulteert uit de toevalligheid van de in de toets opgenomen vragen, én de raadkansen voor de niet-geweten vragen?

De kans dat deze student een willekeurig gekozen vraag goed beantwoordt of goed raadt is gelijk aan (de kans op 'weten') + (de kans op niet 'weten' en goed raden):

p'= .6 + ( 1 - .6 ) = .7.

De standaardmeetfout voor deze student wordt voor een toets van 100 vragen:

sem = wortel (100(.7)(1-.7)) = wortel 21

De standaard meetfout voor de meerkeuzetoets is dus kleiner dan die voor de kort-antwoord toets, ondanks de raadkansen bij de meerleuzetoets. Een resultaat dat er paradoxaal uitziet, maar het toch niet is. Het demonsteert wél dat de standaardmeetfout ' alleen geen bruikbare informatie over de kwaliteiten van een toets geeft. ~ifhankelijk van de doeleinden van de toetsing moeten andere gegevens er bij betrokken worden. Bijvoorbeeld de standaard deviatie van de waargenomen scores in degroep (Lord & Novick 1968 blz. 252).
In het geval van cesuurbepaling, zal de docent de cesuur anders leggen bij de meerkeuzetoets, dan bij de vergelijkbare kort-antwoord toets: omdat studenten een aantal vragen door raden goed zullen maken, wordt de cesuur bij de meerkeuze toets hoger gelegd. Hoeveel hoger, zou de docent kunnen bepalen door op basis van dezelfde raadkans (of een iets gecorrigeerde waarde omdat raadkansen voor studenten met verschillende mate van beheersing van de stof niet gelijk plegen te zijn) te berekenen hoeveel van de niet-geweten vragen door studenten die op de kort-antwoord toets rond de aftestgrens scoren gemiddeld goed geraden zullen worden. Het is eenvoudig uit te reklenen dat de eesuurverhoging die hieruit resulteert voor de student in het voorbeeld resulteert in een hogere kans ten onrechte een onvoldoende (of voldoende) te krijgen, ondanks de kleinere standaardmeetfout voor deze student bij meerkeuze toetsing. Er is geen oplossing voor het hieruit resulterende plrobleem: stel dat de docent de kans dat deze student ten onrechte een 'onvoldoende krijgt terug wil brengen op hetzelfde niveau als voor de kort-antwoord toets; daarvoor moet hij de aftestgrens verlagen, en het gevolg daarvan zal zijn dat de kansen voor studenten die in wezen de stof onvoldoende behoersen, een voldoende te scoren, onaanvaardbaar hoog worden (omdat aangenomen moet worden dat de cesuur in het geval van de kort-antwoord toets zo gekozen was, en de toetsingssituatie daarop inericht, dat de kansen voor beide soorten onjuiste beslissingen nog juist aanvaardbaar waren). De docent zou natuurlijk een meerkeuze toets met meer vragen kunnen gebruiken, maar wanneer daar méér tijd mee gemoeid is kan hem verweten worden dat hij die extra benodigde tijd béter had kunnen gebruiken door een langere kort-antwoord toets af te nemen.

1-7-77

appendix bij 6.4

(de paragraaf is opgezet uitgaande van het item-sampling model. Daarvoor zal ik allereerst Lord & Novick nog eens er op naslaan. Daarbij doet zich het probleem voor dat er misschien een onderscheid gemaakt moet worden tussen 'ability' zoals Lord & Novick dat begrip gebruiken, en mijn eigen uitgangspunt waarin eigenlijk meer sprake is van een al dan niet bestudeerd hebben van de stof waarover een bepaalde vraag gaat. Het punt is natuurlijk dat ook in dat laatste geval, en ook wanneer voor ieder onderwerp nog weer onderscheiden wordt op welke verschillende manieren het begrip of de regel 'beheerst' moest worden, het zo kan zijn dat de student het onvoldoende bestudeerd of geoefend heeft om bepaalde vragen goed te kunnen beantwoorden; dan speelt een vergelijkbare 'ability' als bij L & N een rol.

Tenslotte is er nog het probleem of ik aan het compound binomial model nog enige aandacht moet geven. Ik vermoed eigenlijk van niet, maar het zou interessant zijn een paar goede argumenten te kunnen geven waarom die complicatie niet nodig is).

Zie L & par. 23.10 voor het compound binomial model. Dat model is slechts nodig wanneer je geinteresseerd bent in de ware-scoreverdeling over studenten. Zie ook L & N p. 524 "The item sampling model provides good justification for the binomial conditional distribution for any single examinee."

Het compound binomial model gebruik je wanneer je items verschillen in moeilijkheid (anders is het binomiale model ook voor schattenn van e ware-scoreverdeling over studenten te gebruiken, zie L & N par. 23.9. Maar verschillen in moeilijkheid zijn niet gedefninieerd voor de indviduele student, die weet een item, of niet.

21-10-76.

2.1.7 Toetsing van de kernitem methoden op uitgangspunt 1.

De vraag die hier aan de orde gesteld wordt is of bestaande cesuurbepalingsmethoden voldoen aan het uitgangspunt dat eesuurbepaling en selectie onafhankelijk van elkaar gehouden worden.

Allereerst kan opgemerkt worden dat aan alle methoden (kernitem methoden zowel als de methode Wijnen) de veronderstelling (stilzwijgend) gekoppeld is dat in principe een onvoldoende prestatie ingehaald zal worden. Dat kan in bepaalde gevallen er toe leiden dat één vak bepalend wordt voor het al dan niet door kunnen studeren. In deze zin vormen zowel de kernitem methoden als de methode Wijnen een verstrengeling van cesuurbepaling en selectie, en zijn ze in de mate waarin dat het geval is ook strijdig met dit uitgangspunt.

De oude kernitem methode sluit niet uit dat cesuurbepaling en selectie (het laatste in verband met de gestelde exameneisen) aan elkaar gekoppeld worden op een wijze die in strijd is met dit eerste uitgangspunt. Dit hoeft op zich nog geen veroordeling van deze kernitem methode in te houden, daarvoor zou aangetoond moeten worden dat er een noodzakelijke koppeling tussen deze wijze van cesuurbepaling en conjunctief geformuleerde ('hordenloop') exameneisen bestaat. Omdat ik niet op een veroordeling van de kernitem methode van De Groot uit ben, kan hier ook worden volstaan met een minder vergaand onderzoek, namelijk of de kernitem methode zich laat verenigen met anders, bijvoorbeeld compensatorisch, geformuleerde exameneisen.

Is de oude kernitem methode (De Groot 1964) zinvol te gebruiken wanneer de exameneisen gesteld worden in termen van een minimaal te behalen cijfer gemiddelde over alle (eventueel verschillend gewogen) studieonderdelen?

In de presentatie van De Groot zou je moeten zeggen dat de kernitem methode zich er niet toe leent. De bedoeling is immers om een onderscheid te maken tussen die studenten die de kern van de stof begrepen hebben, en degenen die nog niet zo ver zijn in hun stofbeheersing. Maar je zou natuurlijk kunnen zeggen dat deze formulering van De Groot onnodig rigide is, dat De Groot in zijn praktische uitwerking ruimte laat voor een interpretatie van verschillende studieprestaties als corresponderend aan een meer of minder van de kern van de stof begrepen hebben. In dat geval, wanneer het begrepen hebben van de kern van de stof niet meer als een alles-of-niets verschijnsel, een Aha-Erlebnis, maar als een gradueel verschijnsel wordt opgevat, in dat geval lijkt de kernitem methode van De Groot wel in overeenstemming te brengen met ons uitgangspunt. De kernitem methode zou dan fungeren als aanpak om te komen tot een studieprestatie meting die de mate waarin de kern van de stof begrepen wordt, aangeeft. Of, zo je wil, die een schatting op kan leVeren van het aantal kernbegrippen dat de student zich eigen heeft gemaakt. En, nog verder van de oorspronkelijke presentatie van De Groot ar, van de mate waarin de behandelde begrippen gemiddeld begrepen worden op een niveau dat in de doelstellingen als streefpeil is aangegeven.

Onmiddellijk gevolg is echter, dat de kernitem methode, als methode voor het bepalen van een cesuur, onbruikbaar wordt. Er worden immers geen aanwijzingen gegeven hoe de docent kan komen tot het bepalen van een grens tussen wat nog juist een voldoende mate van beheersing van de kern van de stof is, en wat niet meer. De methode is niet meer dan een aanwijzing om de structuur, de aard, van de leerstof te verhelderen, de doelstellingen te formuleren, en de toets inhoudelijk daarop af te stemmen wat de op te nemen vragen betreft.

2.1.7 (vervolg) 21-10-76.

Het voorgaande is tevens een kritiek op de kernitem methode als zodanig, omdat de relatie tussen uitganspunten die door De Groot gekozen worden, en de praktische uitwerking van die uitgangspunten tot een werkbare procedure, nogal willekeurig is. De poging van Van Naerssen (1974) om die willekeur te ondervangen met een psychometrische onderbouwing van de methode, kan als mislukt worden beschouwd: de psychometrische exercities van Van Naerssen hebben weinig of geen relatie tot de uitgangspunten van De Groot die nu juist de kernitem methode als aanpak voor de cesuurbepaling motiveerden.

De Groot, die dit bezwaar tegen zijn voorstel natuurlijk ook wel aanvoelde, is er echter niet in geslaagd om een argumentatie te verschaffen die die behoorlijk aan dit bezwaar tegemoet komt. Preciezer: het voorstel van De Groot (1964) leidt onder het ontbreken van een consistente argumentatie die van de uitgangspunten voert tot de praktisch uitvoerbare procedure. Er wordt onderweg van alles binnen gesmokkeld, zodat de uiteindelijk resulterende procedure weinig of geen logische relatie meer heeft met de er achter liggende bedoelingen. Hetzelfde geldt in nog sterker mate voor de nieuwe aanpak zoals Van Naerssen (1974) die propageert: de psychometrische constructie wordt niet op doorzichtige of argumenteerbare wijze aan de doelen gerelateerd die men bij de eesuurbepaling heeft (of kan kiezen).

2.1.8 Toetsing van de methode Wijnen aan uitgangspunt 1.

Behalve wat in het begin van 2.1.7 al opgemerkt werd, kan ik volstaan met de constateren dat de methode Wijfien dermate elastisch is, dat ze zich wel zal laten verenigen met verschillende vormen van selectie (examenregelingen). Hoewel er geen noodzakelijke koppeling met selectie bestaat, is er wel het risico door het al te gemakkelijk uitgaan van vanzelfsprekendheden een koppeling met selectie tot stand te brengen die in strijd komt met uitgangspunt 1.

Het is overigens geen verdienste van een bepaalde cesuurbepalings methode dat ze zo van elastiek is dat er moeilijk situaties te bedenken zijn waarin de methode niet gebruikt kan worden. Je zou hierbij onderscheid kunnen maken tussen die benaderingen die slechts een abstracte werkwijze voorschrijven, en benaderingen waarin tevens een heel stuk invulling gegeven wordt. Dan is vol te houden dat de methode Wijnen eigenlijk een heel algemene regel geeft: kies een referentiepunt, en breng daarop een correctie aan o.a. rekening houdend met de kwaliteit van de toetsing, Een dergelijke regel gaat meestal wel op, en je kunt hem alleen afwijzen wanneer er alternatieve regels zijn die tot betere resultaten leiden. De invulling die Wijnen zelf geeft: kies voor dat referentiepunt het gemiddelde, en corrigeer daarop door de aftestgrens te leggen op twee standaardmeetfouten daar beneden,is aanzienlijk minder elastisch, en in bepaalde situaties ongetwijfeld voor de betrokkenen niet aanvaardbaar (waar een andere invulling van de methode Wijnen dat nog wel kan zijn).

28-12-76.

4

BIJLAGEN.

Schets (hier en daar al ingevuld) van de geplande inhoud.

4.1 Schattingen voor gemaakte aantallen fouten bij zak-slaag beslissingen voor afzonderlijke studieonderdelen.

Bij het opstellen van modellen, moet onderscheid gemaakt worden tussen beoordelings stelsels waarin het overdoen van onvoldoende studieonderdelen vereist wordt, en beoordelings stelsels waarin aan 'onvoldoende' cijfers geen surplus betekenis toegekend wordt maar zij gewoon meelgenomen worden in bijvoorbeeld de berekening van een algemeen cijfergemiddelde voor de studie.

In het laatste geval, waarin grade point average achtige beoordelingsstelsels gehanteerd worden, komt aan het onderscheid tussen voldoende en onvoldoende geen bijzondere betekenis toe ánders dan bijvoorbeeld toekomt aan het verschil tussen het krijgen van een 7 of een 8. Ook hier zou je geTnteresseerd kunnen zijn in aantallen fouten die je maakt in je cijfertoekenning; er is echter geen reden meer om je daarbij te beperken tot het onderscheid voldoende-onvoldoende. Voor grade point average stelsels zijn dergelijke analyses wel gemaakt, maar hun praktische relevantie lijkt mij gering, en hun juistheid is moeilijk te doorgronden:

Please, N. W. Estimation of the proportion of examination candidates who are wrongly graded. British Journal of Mathematical and Statistical Psychology, 1971, 24, 230- 238
Foutenmodellen voor zak-slaag beslissingen zijn eigenlijk alleen interessant wanneer aan dergelijke beslissingen zware consequenties verbonden zijn, zoals in ons traditionele beoordelings stelsel in het w.o. het geval is. Het belang van de hier te presenteren modellen ligt in de demonstratie van de voor velen onvermoede omvang (uiteindelijk zelfs vrijwel onbekende omvang) van dat aantal gemaakte fouten, evenals in de consequenties die direct uit deze berekeningen te trekken vallen: dat het traditionele beoordelingsstelsel, bestaande uit examenregelingen geformuleerd in termen van minimaal voldoende te maken studieonderdelen, dermate verspillend met studenten zowel als met de onderwijsmiddelen omspringt, dat het niet te handhaven is.

cursus 7 15-6-77

examens: empirische data (ook buitenlandse).

Het barbaarse gebruik van conjunctieve examenregelingen kent zijn grootste uitwassen overigens niet in nederland. In Engeland zijn er leuke examens waar ongeveer 70 % voor pleegt af te gaan (en die mogen dan alles overdoen).
Dit zijn examens over het preklinisch onderwijs (Primary Examination for the FRCS diploma)(Primary Fellowship Examination) in Glasgow.
Voor de bron: Young, S. & Gillespie, G. Experience with the multiple choice paper in the primary fellowship examination in Glasgow. British Journal of Medical Education, 1972, 6, 44-52.

correctie. Genoemd examen is waarschijnlijk een artsexamen, gezien enquetevragen die refereren naar ervaringen in stageplaatsen waar deze lieden als young hospital doctors werkten voorafgaand aan dit examen. Zie ook het vervolgartikel in british journal of medical education 1973, 7, 16-20.

blz. 5 16-6-77 (onduidelijk bij welk stuk dit hoort)
Een voorbeeld. Veronderstel dat je als docent overweegt om als zak-slaaggrens voor je eerstvolgende tentamen aan te houden dat e student tenminste 60 van de 100 kort-antwoord vragen goed moet beantwoorden. Veronderstel dat een bepaalde student Kees 65% van alle denkbare vragen over de stof (die binnen de doelstellingen vallen) kan beantwoorden. Anders gezegd, de kans dat Kees een willekeurige toetsvraag 'weet' is .65. Even geen rekening houdend met andere toevallige invloeden op de wijze waarop Kees zijn toetsvragen beantwoordt, is de waarschijlijkheidsverdeling van zijn toetsscore gegeven door de binomiaal, en is de variantie van die verdeling np(1-p) = 100(.65)(.35) = 22.75. De standaardmeetfout voor Kees is ongeveer 4.8. Omdat zijn verwachte score 65 is, heeft hij een behoorlijke kans om minder dan 60 te scoren, en ten onrechte te zakken. De vraag die de docent moet beantwoorden, is of hij het risico dat personen als Kees ten onrechte zakken, aanvaardbaar vindt of niet. Omdat ik het voorgaande slechts nodig heb als opstapje naar bespreking van de problematiek van de raadkans bij meerkeuzetoetsing, verwijs ik voor uitvoeriger bespreking naar Wilbrink (1977). Ik wil alleen nog wijzen op de schijnbare paradox dat door langer maken van de toets de standaard meetfout voor de gegeven persoon groter wordt: als n groter wordt, (np(1-p)) groter. Voor zak-slaag beslissingen zijn van belang overwegingen van het soort: iemand die 65 % van de stof beheerst (in de betekenis zoals hierboven voor Kees geschetst) verdient nog net een voldoende, én hij moet dan ook een redelijke kans op het behalen van een voldoende score hebben. Door nu het aantal toetsvragen te vergroten, wordt de standaardmeet£out voor de gegeven persoon met 55 % s tofbeheersing groter, maar kan door het handhaven van de te hanteren aftestgrens van 60 zoals in het gegeven voorbeeld, zijn slaagkans vergroot worden. (Lord & Novick wijzen op enkele plaatsen ook op deze schijnparadox rond de standaardmeetfout, blz. ... ) Zak-kans voor Kees bij n=150 is .09 (minder dan 90 vragen goed)

tussenvoegen: Omdat de binomiaal voor parameterwaarden ongelijk .5 niet symmetrisch is, is het juister (en overigens ook inzichtelijker) om in plaats van over de standaardmeetfout te spreken over de zak-kans (gegeven een bepaalde zak-slaag grens). Voor onze Kees is de kans om minder dan 60 te scoren .13 (Tables of the cumulative binomial probability distribution, 1955)

16-6-77

De meerkeuzetoets en zak-slaag beslissingen.

De laatste paragraaf leelt een analyse voor zak-slaagbeleid gebaseerd op kort-antwoord vragen in de toets. Belangrijkste bron van variabiliteit in de toetsscore voor de individuele persoon is de samenstelling van de toets uit juist deze groep vragen. Daarnaast zijn er nog diverse andere bronnen die invloed hebben op de score van deze persoon: zoals de persoon van de beoordelaar, zijn lichamelijke en mentale conditie tijdens de toetsing, geheugenfluctuaties, etcetera (bijv. het 'Lijstje van Stanley, 1971). Hun gezamenlijke invloed is, vergeleken met de standaardmeetfout voor de gegeven persoon zoals in de vorige paragraaf berekend, klein, maar daar moet onmiddellijk aan toegevoegd worden dat de invloed van deze storingsbronnen éénzijdig is: zij zullen makkelijker leiden tot foutscores ipv goede scores voor individuele vragen, dan tot goede. Bij het zak-slaag beleid zal de docent met deze effecten rekening moeten houden door de student een grotere zekerheidsmarge te geven.
Hoe zit een en ander nu bij de meerkeuzetoets? Om te beginnen kunnen meerkeuzetoets en kort-antwoord toets niet helemaal hetzelfde meten, en is de zak-slaag beslissing voor de individuele persoon afhankelijk van de gebruikte toetsvorm. Ten tweede doet de beoordelaar onbetrouwbaar heid bij de kort-antwoord toets zich in principe evenzeer bij de meerkeuzetoets voor, omdat de scoringssleutel afhankelijk kan zijn van de persoon van de opsteller van die sleutel: of het aangestreepte alternatief goed gescoord wordt, hangt niet van de sleutel af, maar van de toevallige persoon van degene die het juiste alternatief vastgesteld heeft. Deze problematiek werd in de eerste paragraaf besproken. Tot zover is er geen reden om te veronderstellen dat de standaard meetfout voor een gegeven persoon groter is voor de kort antwoord toets dan voor de meerkeuze toets, en omgekeerd. En dan komt de raadkans voor de meerkeuzetoets nog aan de orde! Het hoeft eigenlijk geen nadere toelichting dat die raadkans een extra bron van variabiliteit voor de toetsscore van de individuele persoon vormt.
De persoon die 60 % van de stof kent heeft te maken met een standaard meetfout van √(n(.6)(.47)) op een toets van n items bestaande uit kort antwoord vragen. Is bij een meerkeuze toets de raadkans voor vierkeuze vragen te stellen op ongeveer 1/3 (door partiële kennis) dan wordt door raden van de niet-geweten vragen de standaard meetfout voor de gegeven persoon



Universiteit van Amsterdam Centrum voor Onderzoek van het Wetenschappelijk Onderwijs

cowo Nieuwe Doelenstraat 9 / Telefoon 5.25 2835
10 12 CP Amsterdam
Ben Wilbrink
VOR werkgroep criterium gerefereerde toetsing

(bijeenkomst 28 sept. a.s. in Arnhem)

AMSTERDAM, 5 september 1977

Hierbij het discussiestuk 'Cesuurbepaling'. Het is niet de bedoeling deze cursus in extenso te bespreken, een aantal onderdelen die mijns inziens een korte gedachtewisseling waard zijn zal ik hieronder aangeven, waarbij ik van de gelegenheid gebruik maak om enige extra informatie te geven die ik gezien de aard van mijn doelgroep (docenten in het w.o.) heb weggelaten in de tekst van de cursus.

1. Paragraaf 6.1 Algemene Beginselen van Behoorlijk Bestuur. Een kleine administratief rechtelijke excursie, over het belang waarvan een beetje heen en weer gepraat zou kunnen worden. Voorzover ik dat in mijn tekst niet helemaal heb laten uitkomen, is het belang hiervan dat de docent (toetsconstructeur) een aantal duidelijke gedragsregels krijgt, en dat de student of leerling bij handelen in strijd met deze regels uiteindelijk via de rechter verandering kan afdwingen.

2. Paragraaf 6.2 'Standards etc.' De rest van hoofdstuk 6 is een poging om abstract geformuleerde normen uit de Standards te concretiseren, zodat althans een begin kan worden gemaakt met zorgvuldig beoordelen en beslissen in de geest van de Standards.

3. Paragraaf 6.3 Toevallige invloeden. Is bedoeld als didactische voorbereidende stap op de volgende paragrafen, waarbij het mooi meegenomen was dat ik gebruikers van meerkeuzetoetsen duidelijk kan maken dat er een belangrijk raadeffect in deze toetsvorm zit. Als toelichting op deze en de volgende paragrafen: de aanpak gaat niet uit van het klassieke testmodel, althans zoals dat meestal uitgewerkt wordt, maar van de standaardmeetfout voor de gegeven student (zie bijv. Lord & Novick) (= de standaarddeviatie van de waarschijnlijkheidsverdeling voor de totaalscore voor de gegeven student zoals die in het binomiale model is). Dat deze aanpak het mogelijk maakt om op relatief eenvoudige wijze de rol van diverse toevallige invloeden op de testscore te demonstreren is voor een cursus voor docenten erg prettig; de reden voor deze aanpak is echter een principiële: ten eerste behoren individuele beslissingen op informatie over de individuele student gebaseerd te worden (bij tailored testing wordt hetzelfde principe gehanteerd) gezien ook de rechtsregels die in acht genomen moeten worden; ten tweede gaat het er bij beoordelingsprocedures in het onderwijs niet om 'ware scores' van studenten te schatten, maar die beoordeling zo in te richten dat aan onderwijsdoelstelling optimaal voldaan wordt binnen redelijke grenzen van bijvoorbeeld de efficiëncy van dat onderwijs (studieduur).

4.Paragraaf 6.4 Toevallige invloeden: de vragen die gesteld worden. De laatste alinea van par. 6.4 op blz. 74 is enigszins misleidend:
voor overigens vergelijkbare kort-antwoord en meerkeuze toetsen geldt dat de standaardmeetfout voor de gegeven student kleiner is bij de meerkeuzetoets. Omdat het verschil tussen beide toetsvormen slechts is dat bij de meerkeuzetoets een stuk random variatie extra ingevoerd wordt, is het duidelijk dat de kleindere standaardmeetfout voorzichtig geïnterpreteerd moet worden: ze is louter een artefact van het gebruikte binomiale model (niet omdat het binomiaal is, overigens). Aantoonbaar is dat de kans op onjuiste beslissingen bij de meerkeuzetoets groter is dan bij de overigens vergelijkbare kort-antwoord toets.

5.Paragraaf 6.6 Stelselmatige invloeden: interpretatie van toetsscores. Een grabbelton van ideeën, die hun uitwerking pas zullen krijgen in deel 2, over examenregelingen. Waarschijnlijk zit er wel een enkel interessant discussiepunt onder.

5.Hoofdstuk 7 De aftestgrens optimaal kiezen. Hier wordt een uiterst globale besliskundige aanpak gegeven, die erg afhankelijk is van een uiteindelijk nog steeds erg intuïtieve afweging van de ernst van verschillende soorten foute beslissingen tegen elkaar. Voor een betere aanpak dan hier geschetst, is het nodig de gedetailleerde aanpak van Keeney & Raiffa (1976) te volgen, waarmee ik ondertussen een bescheiden begin heb gemaakt. Essentiëel bij deze benadering is het expliciteren van de voorkeurstructuur van de beslissingnemer (docent bijv.).



[In mijn archief een bundeltje aantekening 1977 bij cesuurbepaling. [26-6-77 individueel toetsmodel: gebruik de beta voor wat de student weet over zijn beheersing, dan is par. 23.7 van L&N relevant (gegeven het binomiale model en een etaverdeling voor de parameter van dat binomiale model) voor deze student (Novick & Jackson doen het individueel, L&N institutioneel), deze blz mag *weg] [25-9-77 "Mijn commentaar op op vd Linden en anderen is nu, dat zij zonder valideringsonderzoek het probleem van de optimalisering van de aftestgrens willen oplossen. Zij optimaliseren de aftestgrens naar het puntnwaar de meest consistente beslissingen genomen kunnen worden. Dat is zo, omdat in hun model slechts de inconsistente beslissingen verlies opleveen: klassificatie in een andere groep dan waar de student qua 'ware score' in thuishoort, komt onder hun model eenvoudig neer op inconsistente beslissingen. De ware stofbeheersing in hun formules fungeert slechts als katalysator of dummy parameter, en heeft geen reële betekenis behalve het geloof dat de docent er misschien in heeft. Het zou goed zijn wanneer bij sergelijke analyses daar ook expliciet op gewezen zou worden, zoals ik in cesuurbepaling 6.2 t/m 6.5 uitdrukkelijk niet méér doe dan consistentie of gebrek aan consistentie in toetsresultaten beschrijven (aftestgrensproblematiek stel ik overigens pas in hfdst. 7 aan de orde) (validiteitsproblematiek in deel 2, examenregelingen). Is het zinvol een besliskundige aanpak te koppelen aan alleen maar een consistentie-analyse van je beslissingsprocedure? Ja, maar definieer je nut dan aan consistentie, en niet aan de juistheid of onjuistheid van beslissingen naar een dummy-variabele 'ware beheersing van de stof'. Je stelt je dan een stuk bescheidener en reëler op. Een kwestie van taalgebruik." Nu mag deze geschreven blz. *weg"]

tekst Cesuurbepaling 1977



26-7-2006/12-2020 \   freelance advies ontwikkeling onderzoek

Valid HTML 4.01!       www.benwilbrink.nl/publicaties/77bijCesuurbepalingCOWO.htm