Deze tekst 40 jaar later lezend is toch wel een dingetje. Ik zou eigenlijk toch nog eens een poging moeten doen om dit te comprimeren tot een korte tekst van 15 blz. Zou dat lukken? Afijn, deze tekst was in sneltreinvaart in elkaar gezet, zonder de mogelijkheid om even snel allerlei overbodigheden uit de tekst te halen (wat zijn compputers toch fijn!). Sneltreinvaart: dit is in feite de eerste tekstversie, de lezer ziet mij denken tijdens het schrijven; denk mee met de schrijver! Wel jammer van de gemeenzame stijl met veel 'je' en 'jouw', maar dat ik ga nu niet meer verbeteren (het was destijds een bewuste keuze). Wat mij ook opvalt, bj het transcriberen: het is ook een zoeken naar taal om uit te kunnen leggen wat voor docenten nieuw is, en ook voor vee; collega's nieuw is. Ik denk dat ik 40 jaar later beter ben in het vinden van een doeltreffende taal, ik ga dat zeker nog wel proberen in een nieuwe editie die veel korter kan zijn.

Deze tekst is een update van de cursus Cesuurbepaling uit 1976, o.a. gebruikmakend van inzichten uit mijn TOR-artikelen 1980a en 1980b over criteriumgerefereerd toetsen. De cursus is in 1980 en 1983 waarschijnlijk een enkele keer gegeven, waarvoor ik de kopieermachine heb laten draaien. De tekst van 73 blz (zonder de bijlagen) is dus ongepubliceerd gebleven; in februari 2021 maak ik een transcriptie die ik in gedeelten online zal plaatsen. De eerste tranche is al gedaan. Overnemen van de figuren is nog even een probleempje, ik probeer een aantal figuren gewoon weg te laten en dat in de tekst op te vangen, andere figuren kan ik hopelijk overnemen uit andere, latere, publicaties (dat spaart png-bestanden op de website).

Cesuurbepaling

Over het stellen van de grens zakken-slagen bij tentamens

Ben Wilbrink. Tussentijdse versie 21 mei 1980.

Centrum voor Onderzoek van het Wetenschappelijk Onderwijs, Universiteit van Amsterdam. Oude Turfmarkt 149.

Ten Geleide bij de tussentijdse versie mei 1980.

Het werkstuk over cesuurbepaling dat nu voor u ligt is geoormerkt als een tussentijds product. Dat betekent dat het eigenlijk niet 'af' is. In verband met de lang tevoren vastgestelde, cursusdatum in mei 1980 heb ik ervoor gezorgd dat het beschikbare materiaal in overzichtelijke vorm gepresenteerd kon worden. Het resulttaat is een stuk ruwe diamant, waar in de nabije toekomst nog heel wat aan gespleten en gepolijst moet worden.

Met name geldt dat ook voor het hoofdstuk dat op de valreep nog toegevoegd is: waar andere cesuurmethoden besproken worden. De kritische kanttekeningen die daar gemaakt worden zijn nog weinig uitgewerkt. Desondanks heb ik gemeend ze te moeten geven, omdat het wel de essentiële punten van kritiek zijn, en een meer volledige bespreking van voors en tegens een boekwerk op zich zou vragen. Om het voorlopige gebrek goed te maken, heb ik een aantal originele teksten toegevoegd, waarin de diverse auteurs zich uitputten in het aanprijzen van de door hen ontwikkelde methode.

Wat ook ontbreekt is een hoofdstuk over Richtlijnen bij dit soort toetsgebruik, en over de administratief-rechtelijke grenzen die hier aan het handelen van de docent gesteld zijn. Voor beide verwijs ik naar de betreffende paragrafen in 'Toetsen', die toch tamelijk volledig ook de cesuurbepaling bestrijken.

Tenslotte, mijn verzoek aan degenen die suggesties uit dit boek in praktijk (willen) brengen om hun bevindingen aan mij door te willen spelen. Voorshands ben ik zeker ook bereid pogingen om een en ander in praktijk te brengen te begeleiden, rekenwerk uit handen van de docent te nemen, specifieke problemen door te spreken, e.d.

Amsterdam 21 mei 1980, b.w.

Inhoudsopgave

1. Voorwoord

2. Voldoende is voldoende is voldoende ......

2.1 Beknopte lezers' fenomenologie van het voldoende-wezen

2.2 Het referentiekader van het begrip-zoals-bedoeld

2.3 En wat als de leerstof heterogeen van karakter is?

2.4 De rol die de 'onnauwkeurigheid' van de toets speelt

2.5 Niemand kent de ware beheersing, ook de student zelf niet

2.6 Zakken of slagen op een puntje verschil is niet inhoudelijk te rechtvaardigen

3. Cesuurbepaling: optimaliseren van de zak-slaaggrens

3.1 'Zakken' en 'slagen' berust op een afspraak over de cesuur

3.2 Studenten hebben hun redenen om te studeren zoals ze doen

3.3 De vraag is: kan de cesuur omhoog, omlaag, of blijft hij zo?

3.4 Piecemeal engineering. Forceer niets, neem kleine stapjes

3.5 Hoe sterk moeten de gegevens zijn om zo'n stapje te nemen?

3.6 Maak expliciet wat je met je onderwijs wilt bereiken

3.7 Zorg ervoor dat minimum- en streefniveau weinig verschillen

3.8 Analyseren van de toetsresultaten: wiens scores betrek je daarin?

3.9 Introductie van de gegevens van een voorbeeld

3.10 Interpretatie van het gemiddelde toetsresultaat

3.11 Redeneren van toetsresultaten naar stofbeheersing

3.12 Interpretatie van de spreiding van de toetsscores

3.13 Spreek de student niet aan op zijn stofbeheersing, maar op zijn streefniveau (studiestrategie)

3.14 Het verzamelen van tijdbestedingsgegevens

3.15 Introductie van de gegevens van het voorbeeld

3.16 Interpretatie van de tijdbestedingsgegevens

3.17 De 'toetsenkete'

3.18 Gebruikte formules

4. Schuiven met de cesuur is niet de enige mogelijkheid: beleidsalternatieven

4.1 Cesuurbepaling mag nimmer op zichzelf staan

4.2 Uitbreiden van het aantal toetsvragen

4.3 Verlenging van de toetsing voor sommigen

4.4 Versnelde herkansing

4.5 Paradox: verbeteren van de herkansingsregeling leidt tot meer herkansingen

4.6 Verhoog de doorzichtigheid van de toetsing

4.7 Maatregelen die de doorzichtigheid ten goede komen

4.8 Pars regeling met varianten

4.9 Vrijstellende deeltoetsen

4.10 Omvang van de stof wijzigen, beschikbare tijd verruimen

4.11 Andere onderwijsinrichting: Individuele Studie Systemen

Literatuur

5. Andere methoden voor cesuurbepaling

5.1 Inleiding

5.2 De methode Wijnen

5.3 De kernitemmethoden

5.4 De methode Hofstee

5.5 De methode Nedelsky

5.6 De methode Ebel

-- Wijnen: Voorstel voor een andere oplossing: gemiddelde en standaardmeetfout (Uit: Onder of boven de maat, 1972)

-- Van Naerssen: De kernitemmethode

-- Hofstee: Cesuurprobleem opgelost

-- Metz: Grens voldoende/onvoldoende (de methode Ebel toegepast)

-- Zieky & Livingston: Manual for setting standards

Bijlage A Toetsen, herkansen, studievertraging. Achterliggende mechanismen

Bijlage B Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden

Bijlage C Enkele radikale oplossingen voor kriterium gerefereerde grensskores (1e blad is verkeerd-om geniet, excuus)

Bijlage D Wat kun je, gezien de toetsresultaten, zeggen over de subjectieve stofbeheersing van de groep studenten?

Voorwoord kursus Cesuurbepaling tweede versie.

De grens zakken-slagen bij beoordelingen in het onderwijs is een voortdurende zorg voor zowel docenten als studenten. De student zal proberen boven die grens te skoren, maar weet soms niet waar de grens getrokken zal worden, en weet niet goed hoeveel risiko hij loopt er onder te skoren. De docent staat telkens weer voor de vraag wáár de grens zakken-slagen, de cesuur, getrokken moet of kan worden, welke argumenten daarbij een rol spelen, welke 'methode' gebruikt zal worden, en of de resultaten uiteindelijk wel aanvaard-baar zijn.

Een docentenkursus over Cesuurbepaling geeft aanwijzingen hóe de cesuur 'zo goed mogelijk' gekozen kan worden. Dat is dan ook wat deze kursus te bieden heeft. Toch is dat niet helemaal vanzelfsprekend: de eerste versie van deze kursus bood bijvoorbeeld géén 'methode', terwijl in de literatuur bekende 'methoden' de gebruiker in het ongewisse laten of de resultaten wel 'zo goed mogelijk' zijn.

'Zo goed mogelijk' heeft betrekking op de resultaten van de gekozen cesuur, en niet op de gevolgde methode bij het kiezen van de cesuur. Het lijkt een wat al te subtiel puntje, maar het is toch van belang.

Cesuurbepaling is geen éénmalige aktiviteit. De toets waar het om gaat wordt in ongeveer deze vorm jaarlijks afgenomen, zodat bij het bepalen van de cesuur voor een nieuwe toetsafname de ervaringen bij eerdere afnamen mee zullen spelen. Eigenlijk gaat het er slechts om dat je antwoord krijgt op de vraag of de cesuur t.o.v. de vorige keer verlaagd of verhoogd moet worden, eventueel gelijk kan blijven. Bij verhogen of verlagen van de cesuur moet niet aan grote sprongen gedacht worden, dan loop je het risiko het ene jaar de cesuur te verhogen, het volgende jaar hem weer te moeten verlagen, etcetera. Nee, het gaat om 'kleine stapjes', waarbij je aan de hand van de verkregen resultaten kunt bepalen of er met de kleine verhoging of verlaging gunstiger resultaten verkregen worden dan de vorige keer. Je kunt je zelfs voorstellen dat op deze wijze de cesuur altijd 'in beweging' gehouden wordt, omdat juist dan onderzoekbaar is of of de effekten van de cesuurkeuze in overeenstemming zijn met de doelstellingen die je hanteert.

De effekten van de cesuur zijn op het studiegedrag van de studenten. Dat is vanouds al een doel geweest bij het vaststellen van cesuren: daardoor de studieinspanning van de studenten te beïnvloeden. Via veranderingen in het studiegedrag resulteert het schuiven met de cesuur in veranderingen in tijdbesteding en studieresultaat. Wat tijdbesteding van de student betreft is een belangrijk doel bij de cesuurbepaling dat deze tijdbesteding in de buurt komt te liggen van de tijd die programmatisch ook voor dit studieonderdeel is uitgetrokken. Natuurlijk niet in absólute uren, omdat het werken daarmee nogal wat problemen oplevert, maar relatief t.o.v. de gebleken tijdbesteding voor de overige studieonderdelen.

Dat betekent het routinematig verzamelen van tijdbestedings gegevens, waarvoor eenvoudige techniekjes voldoende zijn. Volstaan kan worden met voorafgaand aan de toetsing tamelijk direkt aan de studenten te vragen hoeveel uren of dagen zij aar de voorbereiding hebben besteed; dat levert geen al te nauwkeurige en betrouwbare resultaten op, maar de gegevens zullen sterk genoeg zijn om er algemene konklusies uit te kunnen trekken.

Wat de studieresultaten betreft is het duidelijk dat dan gestreefd wordt naar het best haalbare in de gegeven (programmatisch vastgelegde) tijd. De cesuurbepaling, en andere maatregelen die daar nauw verband mee houden, kunnen daarop van invloed zijn. Belangrijk is bijvoorbeeld dat studenten het zo weinig mogelijk op herkansingen laten aankomen, omdat dan in de gebruikte tijd de beste studieresultaten worden verkregen (zie de kursus Studiestrategieën).

Ik heb nog niet besproken hoe het dan zit met de vraag wat nu 'voldoende' of 'onvoldoende' studieprestaties zijn. En de reden daarvan is dat naïeve onderwijsopvattingen waarin het 'voldoende' presteren nogal op de voorgrond geplaatst wordt, in deze kursus mijlenver gepasseerd zullen worden. Een meer volgroeide onderwijs-en beoordelingsopvatting zal gegeven worden waarin geen sprake meer is van scherpe grenzen tussen voldoende en onvoldoende. Daarmee kom ik ook tegemoet aan de praktische onhoudbaarheid van de idee als zou hetbij toetsing in het onderwijs gaan om het vaststellen van de voldoende beheersing van de stof.

Onderwerpen die daarnaast aan de orde zullen komen.

Omdat beoordeling in het onderwijs in belangrijke mate een sturingsmechanisme in dat onderwijs is, is het van belang die funktie ook zo goed mogelijk uit te laten komen door de studenten maximaal in de gelegenheid te stellen zich zó op de beoordeling voor te bereiden als gewenst wordt. Je kunt het ook vriendelijker, minder manipulatief, formuleren: studenten hebben er recht op te weten wát er getoetst wordt, welke vragen zij moeten kunnen beantwoorden, en op welke wijze het oordeel (gezakt-geslaagd) bepaald wordt. En dat niet achteraf, maar geruime tijd vooraf. Het gaat om de doorzichtigheid van de beoordeling. Aanwijzingen voor het bevorderen van die doorzichtigheid zullen gegeven worden.

Ik heb er al op gewezen dat het verzamelen van resultaten belangrijk is, omdat daaruit de aanwijzingen moeten komen of de volgende keer de cesuur verhoogd dan wel verlaagd moet worden. Een aantal eenvoudige technieken zullen daar voor gegeven worden. Onder andere is dat de aanwijzing alleen die gegevens te gebruiken die afkomstig zijn van de groep serieus studerenden.

Verschil met de eerste kursusversie.

In de eerste kursusversie (1977) werd gesteld dat een goede methode voor cesuurbepaling, een methode die in zekere zin 'optimale resultaten' geeft, een besliskundige methode zou moeten zijn. In hoofdstuk 7 werd het principe van zo'n besliskundige aanpak geschetst. Inmiddels is dat grondmodel zeer veel verder ontwikkeld, en zijn de problemen die er aan de besliskundige aanpak in deze eenvoudige vorm kleefden opgelost. Dat wil niet zeggen dat ik nu een ingewikkelde methode zal presenteren, integendeel. Het is namelijk gebleken (Wilbrink, 19810 a en b ) dat in dat besliskundig model in de toepassing waar het hier om gaat belangrijke vereenvoudigingen zijn aan te brengen. Gekombineerd met de resultaten van het tentamenmodel zoals in de kursus Studiestrategieën behandeld, levert dat een methode op die in beginsel eenvoudig te begrijpen, en eenvoudig uit te voeren is.

Enkele onderwerpen die meer met toetskonstruktie te maken hadden (heuristieken voor vraagformulering, meerkeuze of open eind vragen gebruiken) zijn nu te vinden in de Aula (809) 'Toetsvragen schrijven'. De opzet van behandeling vanuit zes 'uitgangspunten' is losgelaten, of beter te zeggen: de behandeling gebeurt nu op grond van een uitgesproken 'filosofie' over de plaats van beoordelen in het onderwijs, waarop dan vervolgens met de behandeling van methoden en technieken wordt aangesloten.

Relatie tot de kursus Studiestrategieën.

Het is voor de lezer natuurlijk prettiger wanneer hij de kursus Studiestrategieën kent. Er wordt in deze kursus echter niet verondersteld dat de lezer met de resultaten van Studiestrategieën op de hoogte is. De algemene resultaten zijn verwerkt in de basisfilosofie waar ook deze kursus op berust. Specifieke resultaten uit Studiestrategieën zijn voor het bepalen van de cesuur niet direkt nodig.

VOLDOENDE IS VOLDOENDE VOLDOENDE .......

De simpele vraag: Wat bedoel je daar nu precies mee? werkt ook hier ontnuchterend. De termen 'voldoende' en 'onvoldoende' worden in het onderwijs zo veelvuldig gebruikt, zijn zo vanzelfsprekend, dat de vraag 'Wat bedoel je daar nu precies mee?' als een verrassingsaanval overkomt waarop geen goed antwoord voorhanden lijkt. Probeer maar eens een omschrijving te vinden die méér is dan rondzingend proza, een definitie die niet tautologisch is, een uitleg zonder lemen voeten.

In dit hoofdstuk zullen we ons samen buigen over dit kleine stukje magisch taalgebruik. Ik zal proberen om dat begrippenpaar voldoende-onvoldoende alle schijn van vanzelfsprekendheid te ontnemen. Dat is geen dreigement, het heeft alles te maken met het grondig ontsmetten van de plaats waar de chirurgische ingreep straks zal moeten gebeuren.

Voldoendes worden gegeven voor prestaties die duiden op een meer dan minimale stofbeheersing, waarbij stilzwijgend dat 'voldoende' zijn als een soort objektieve eigenschap van deze bepaalde mate van stofbeheersing beschouwd lijkt te worden. Alsof het in de aard der dingen zou liggen dat dit niveau 'voldoende' is, een lager niveau van beheersing 'onvoldoende'. De leerstof als maat voor de studenten, zou je kunnen zeggen. De problematische kanten van deze opvatting zal ik in het volgende demonstreren.

Daartegenover kun je natuurlijk beoordelingsstelsels zetten waarin niet meer met het onderscheid voldoende-onvoldoende gewerkt wordt, waar niet meer op iedere toets het oordeel gezakt of geslaagd gegeven wordt. Dat zijn compensatorische regelingen, die vele aantrekkelijke kanten hebben, maar die ook vandaag de dag in ons hoger onderwijs nog geen gemeengoed zijn. Deze regelingen zal ik in dit boek niet bespreken; weliswaar doen zich daarbij ook problemen voor die te maken hebben met niveauhandhaving bij afzonderlijke studieonderdelen, maar het cesuurprobleem is daar in het geheel niet meer aan de orde.

Heb je te maker met de traditionele examenregeling waarin je geslaagd bent wanneer in beginsel voor ieder vak een 'voldoende' cijfer is behaald, met een conjunctieve regeling dus, dan zijn er toch nog wel hanteerbare alternatieven voorhanden. Je kunt daarbij denken aan andere onderwijsvormen, zoals Individuele Studie Systemen (Rookhuizen en anderen, 1977), waar de onderwijsopzet zélf het problematische karakter van het zak-slaag beleid in belangrijke mate kan ondervangen. Je hebt ook dan nog wel met grensproblemen te maken (zie bijv. Wilbrink 1980 b), maar niet met het cesuurprobleem zoals zich dat typisch bij eindtoetsen voordoet.

Het alternatief dat ik in volgende hoofdstukken zal behandelen vertrekt vanuit de opvatting dat het zak-slaag beleid een afsprakenstelsel met de studenten behelst. De rechtvaardiging voor de cesuur bij een bepaald tentamen wordt niet in de eerste plaats gezocht in vermeend objektieve eigenschappen van de leerstof, maar in goede en aanvaardbare afspraken die daarover tevoren met de studenten zijn gemaakt. Het beleid van de docent bij het maken van die afspraak is dat de gemiddelde student met een redelijke mate van waarschijnlijkheid een gewenst niveau van stofbeheersing voor dit vak bereikt.

Dat een toets als meetinstrument voor de mate van stofbeheersing niet erg nauwkeurig pleegt te zijn, is een algemeen bekend feit. Toevalligheden in de beoordeling die daardoor geïntroduceerd worden compliceren de zak-slaag problematiek nog weer verder. Daarom is het handig om deze specifieke toetsproblematiek afzonderlijk te bespreken, en eerst het onderscheid voldoende/ onvoldoende te behandelen als bestonden er geen meetfouten, als zou het mogelijk zijn te beslissen op grond van perfect inzicht in de door studenten bereikte mate van stofbeheersing.

2.1 Beknopte lezers' fenomenologie van het voldoende-wezen.

Een aardige voorbereiding op de stof van dit hoofdstuk vormt de beantwoording van de volgende vragen:

- wat zijn je eerste associaties bij het woord 'onvoldoende'?

....

- kun je je nog herinneren voor welke vakken je in je eigen studie 'onvoldoende' cijfers hebt behaald?

....

- en wat denk je achteraf dat daar de redenen voor waren?

de toets (het mondeling) was als meting zo onnauwkeurig dat die onvoldoende als 'pech' beschouwd kon worden
pas op het tentamen bleek wat er over de stof gevraagd werd, en dat bleek niet helemaal in overeenstemming met de wijze waarop ik me voorbereid had
ik volgde globaal een studiestrategie waarin een bepaald risico om te zakken en te moeten herkansen ingecalculeerd was, en dat had inderdaad een enkele onvoldoende tot resultaB
het tentamen moest afgelegd worden op een moment waarop er in verband met andere studieverplichtingen niet voldoende voorbereidings tijd was
ik had zoveel moeite met dat vak (omdat het voor mij moeilijk was, ik er niet voor gemotiveerd was, o.i.d.) dat ik het wel op een gokje aan moest laten komen.
(voor mondeling:) de docent en ik begrepen elkaar niet (het gesprek klikte niet)
de beoordeling van het work was erg subjectief
ik had me gewoon te kort voorbereid
ik had de benodigde voorbereidingstijd onderschat

- hoe denk je dat het met bovenstaande verklaringen-waarom-je-gezakt-denkt-te-zijn zit bij studenten die een onvoldoende (bij eerste opkomst) hebben geboekt voor het tentamen waarvoor je nu als docent (mede-)verantwoordelijkheid draagt?

- heb je ooit geprobeerd empirisch materiaal te verzamelen op grond waarvan je beter inzicht zou kunnen krijgen in de redenen waarom studenten 'zakken' voor jouw tentamen?

door studenten voorafgaand aan het tentamen te vragen naar de slaagkans die ze denken te hebben, naar de bestede voorbereidingstijd, de score of het cijfer dat ze verwachten te zullen behalen, e.d.
door tentamenresultaten afzonderlijk te analyseren voor studenten met sterk uiteenlopende vooropleiding, voor studenten die wel/niet aan het onderwijs (praktikum, werkgroepen) hebben deelgenomen, studenten die voor het eerst opkomen en herkansers
door tentamenresultaten enkele jaren later nog eens te analyseren voor de groep die de studie gestaakt is, resp. daar mee doorgegaan is
door verbanden tussen cijfers voor jouw vak en cijfers voor andere vakken na te gaan e) in het algemeen: door te proberen eigen verklaringen voor (tegenvallende) tentamenresultaten te gaan onderzoeken.

Het spreken van het oderscheid tussen voldoende en onvoldoende beheersing van de stof heeft alleen zin wanneer dat in het juiste kader, de goede context, gezien wordt . Dat refernetiekader wordt als zó vanzelfsprekend beschouwd dat het zelden of nooit aan een nadere beschouwing wordt onderworpen. Wie dat kader ter discussie stelt, kan tot onthutsend conclusies komen.

traditie.

De grens tussen voldoende en onvoldoende beheersing wordt dáár gelegd waar die ook vroeger gelegd werd. Wanneer iedereen vrede heeft met de 'traditie' is dat misschien zo gek nog niet. Wanneer er problemen ontstaan gaat de zaak er ineens heel anders uitzien, omdat verwijzen naar hoe het vroeger gebeurde op zich geen rechtvaardiging voor het gevoerde of te voeren beleid is. De vraag wordt dan simpel geherformuleerd als die naar de redenen waarom vroeger voor een bepaalde grens, een bepaald minimum niveau, gekozen is.

beroepseisen

De grens tussen voldoende en onvoldoende beheersing wordt gelegd op het niveau dat tenminste nodig verondersteld wordt voor een verantwoorde beroepsuitoefening. Dat veronderstelt een direkte koppeling tussen het beheersingsniveau op het moment van toetsing, en dat in het jaren later uitgeoefende beroep, die moeilijk beargumenteerbaar is, en ook moeilijk onderzoekbaar is. Het is makkelijk eraan voorbij te gaan dat heel veel vergeten zal zijn op het moment van afstuderen. Het is ook makkelijk eraan voorbij te gaan dat in de regel voor academici een lange inwerkperiode in het beroep nodig is: de studie levert geen kant-en-klare beroepsbeoefenaren af, maar hopelijk wél mensen met een ondergrond die het hen mogelijk maakt zich efficiënt in te werken in de eisen die het vak blijkt te stellen.

studiesucces.

De grens tussen voldoende en onvoldoende beheersing wordt gelegd op het niveau dat tenminste nodig is voor de verdere studie. De veronderstelling is dat een 'onvoldoende' ondergrond in een bepaald studieonderdeel de verdere studie zal belemmeren. Dat is een sterke veronderstelling, die op voorhand als juist wordt aangenomen. Maar onderzoek (Hills, 1971) laat typisch zien dat het met de juistheid van die veronderstelling droevig gesteld is: 'voldoende' resultaten op het ene vak blijken geen noodzakelijke voorwaarde voor succes op vervolgvakken, óók niet waar op zich de stof in het eerste vak behandeld de ondergrond vormt waar het tweede vak op voortbouwt. Ofwel: studenten blijken in hun studie erg plooibaar, zijn best in staat eigen tekorten te onderkennen en weg te werken op het moment dat dat noodzakelijk

Ik wil er hier met name ook op wijzen dat deze veronderstelling een uiterst grote rol speelt bij de gebruikelijke inrichting van Individuele Studie Systemen, bij leren-voor-beheersing, waar telkens ieder onderdeeltje voldoende moet zijn voordat met het volgende onderdeeltje begonnen wordt. Onkritisch volgen van zo'n beleid houdt het risico in zich van een onnodige besteding van tijd aan telkens opnieuw bestuderen van oude stof en herkansen.

ons cijfersysteem

De grens tussen voldoende en onvoldoende beheersing wordt gelegd waar die onze Nederiandse cijfergewoonte lijkt te moeten liggen: ergens tussen 50% en 60% 'goed' van de opgegeven vraagstukken. Hieraan is één voordeel verbonden: het is in ieder geval een duidelijke 'afpraak' tussen docent en student waar de cesuur gelegd wordt. Verder is het onzin, blijkt het in de praktijk te leiden tot schipperen omdat je onder zo'n regel evident geen erg makkelijke of moeilijke vragen in de toets kunt opnemen. Het cesuurprobleem wordt er slechts door verplaatst: hoe moeilijk of hoe makkelijk moeten de vragen dan wel zijn?

de studenten

De grens tussen voldoende en onvoldoende beheersing wordt bepaald door de 'kwaliteit' van de studenten. In extreme vorm leidt dat tot beleid waarbij altijd een bepaald percentage van de deeinemers onvoldoende beoordeeld wordt. In algemene zin is het natuuriljk duidelijk dat wat je bestempelt als 'voldoende' dan wel 'onvoldoende' veel te maken heeft met de aard van de groep studenten waarop die beoordeling betrekking heeft. Op de één of andere wijze zal je beoordeling afgestemd moeten zijn op wat deze studenten in deze onderwijssituatie met dit studiemateriaal in de beschikbare tijd redelijkerwijs kunnen bereiken. Beperk je je tot allléén deze overweging, dan kom je terecht bij de 'oesuur van Wijnen (Wijnen, 1972), en loop je het risico van verlies aan rendement van je onderwijs. Herhaaldelijk blijkt uit onderzoek (zie ook Hofstee 1970) dat de beoordeling zich snel aanpast aan veranderende omstandigheden, dat bij strengere selectie van studenten er toch even laag gecijferd wordt als voordien, dat in latere studiefasen evenveei 'slechte' cijfers gegeven worden als in eerdere studiefasen, ook al hebben ondertussen de minder 'geschikte' studenten de studie gestaakt.

Opmerkelijk is in dit verband ook dat wij uitsluitend naar het behaalde resultaat plegen te kijken, en niet naar wie welk resultaat heeft geboekt. Terwijl het toch heel wat verheugender is te constateren dat een student met een 'zwakke' vooropleiding bij de eerste toetsgelegenheid eon zesje scoort, dan dat een student met een glanzende staat van dienst een 'acht' binnenhaalt.

de voorgeschreven stof.

De grens tussen voldoende en onvoldoende beheersing is bepaald op de voorgeschreven stof. Dus ook afhankelijk van wijzigingen in de omvang ervan, in de diepgang waarmee studenten verondersteld worden zich er doorheen te werken,

de beschikbare tijd.

De grens tussen voidoende en onvoldoende beheersing wordt bepaald door wat de student zich in de programmatisch beschikbaar gestelde tijd van de stof kan meester maken. Het probleem is natuurlijk dat de ene student sneller kan studeren dan de ander. Daar valt niet makkelijk overheen te stappen omdat juist de grote groep studenten die het niet zozeer van hun capaciteiten, alswel van hun grote motivatie en studie inzet moeten hebben, met de beperkte beschikbare tijd in de problemen kunnen komen. Je komt hier uit op een paradox waarvoor binnen de conjunctieve examenregeling heel moeilijk een opiossing te vinden zal zijn: verlagen van de cesuur zou genoemde groep studenten helpen, maar tegelijk het risico in zich dragen dat vele anderen met een te laag niveau door de studie heen komen.

Toetsen in het ho onderwijs bestrijken meestal leerstof die heterogeen van karakter is: talrijke verschillende onderwerpen, terwijl in één en dezelfde toets naast kennisvragen ook vragen met een meer inzichtelijk karakter voor zullen komen, en vragen waarbij de student over zekere verworven vaardigheden moet kunnen beschikken.

In deze situatie raken pogingen om het onderscheid voldoende/ onvoldoende inhoudelijk te rechtvaardigen, met zichzelf in de knoop. Houd je vast aan de eis van een bepaalde minimale stof-beheersing, dan is die eis gesteld in termen van een toetsing die uitdrukkelijk verschillende delen van de leerstof betreft. Scores voor onderdelen worden compensatorisch gecombineerd tot de eindscore waarop zak/slaag beslissingen vallen. Met andere woorden: voor afzonderlijke onderdelen uit de stof wordt niet een minimum eis gesteld, wordt geen onderscheid tussen voldoende en onvoldoende beheersing gemaakt.

Zou je het laatste wel doen, en voor ieder onderdeel een minimaal 'voldoende' beheersingsniveau vaststellen, dan kun je daaruit niet het minimaal voldoende niveau op de toets, het minimale niveau van beheersing voor het vak als geheel, bepalen. Omdat de toets noodzakelijkerwijs compensatorisch is opgezet. En daar is ook geen alternatief voor: het is zowel juridisch als praktisch onmogelijk om in het eindoordeel vast te houden aan minimaal voldoende eisen voor alle onderdelen afzonderlijk. Je zou daar wel dicht bij in de buurt kunnen komen door een andere onderwijsopzet te kiezen, alweer: een Individueel Studie Systeem, waarin per onderdeel getoetst wordt.

Daaruit kun je niet antlers dan concluderen dat er een tegenspraak in het systeem zit: onder deze omstandigheden, waarin je niet kunt garanderen dat 'geslaagde' studenten aan minimaal voldoende eisen op bepaalde onderdelen voldoen, kun je uiteraard ook niet overeind houden dat de grens tussen voldoende en onvoldoende precies op de bepaalde plaats moet liggen, en geen streep hoger of lager. Het onderscheid tussen voldoende en onvoldoende is gradueel, iets dat we eigenlijk van meet of aan wel wisten, maar nooit hardop hebben durven zeggen. Alweer een voorbeeld van een begrippenpaar dat een absolute tweedeling suggereert waar bij scherper toezien veeleer sprake is van 'meer' en 'minder , van een continuum tussen beide extremen in.

Figuur 6

Figuur 2.1. Links: verwacht nut over een langer studietraject. De curve is berekend op een gegeven proeftoetsscore van 83 goed uit 100, proeftoets afgelegd na 10 keer doornemen van de stof; de toets heeft 20 vragen. De voorspelling is telkens gewogen met het rechts afgebeelde drempelnut: alleen slagen telt, de grens ligt bij score 16.
Deze figuur en toelichting is ontleend aan mijn 1998 'Inzicht doorzichhtig toetsen' http://benwilbrink.nl/publicaties/98InzichtToetsenCOWOG.htm figuur 6.

Is de stof niet heterogeen, dan is er al evenmin reden voor een scherp onderscheid tussen voldoende en onvoldoende beheersing. Een eenvoudig voorbeeld: een toets bestaat uit optelsommen voor getallen kleiner dan 100. Stel dat je de grens voor voldoende bij 75% wilt leggen. Dat wil zeggen dat je, altijd afgezien van onvolkomenheden in de toetsing, de leerling die 16 van de 20 opgaven goed maakt voldoende beoordeelt, de leerling die er 15 goed maakt onvoldoende. Dat is toch onzinnig. Er is hier veeleer sprake van een breed gebied tussen voldoende en onvoldoende presteren, zoals door een soort curve zoals links in figuur 2.1 weergegeven. 1)

noot 1) Die curve links in figuur 2.1 is een curve van verwacht nut, in feite een curve van slaagkansen. Maar dat doet er nu even niet toe. De publicatie in 1998 legt het uit, voor wie nieuwsgierig is.

Op dezelfde wijze geldt dan ook voor heterogene leerstof dat voor ieder van de onderscheiden onderdelen de grens tussen voldoende en onvoldoende een graduele, en geen scherpe is.

Het bekijken van de kromme in figuur 2.1 geeft al gauw de suggestie dat de waardering voldoende-onvoldoende een nogal primitieve is, die je beter zou kunnen vervangen door een waarderingsfunktie over het hele score- of cijferbereik. Zo'n funktie geeft dan aan hoeveel waarde je hecht aan het bereikt hebben van een bepaald beheersingsniveau, in relatie tot hogere of lagere beheersingsniveaus. Sommige lezers voelen dan aankomen dat ik het nu over utiliteitsbepaling ga hebben, en inderdaad zou dat bij het aanpakken van bepaalde problemen rond de cesuurbepaling wel eens van pas kunnen komen. Voor het moment wil ik er echter niet meer dan een paar globale opmerkingen over maken.

Zo'n waarderingsfunktie over cijfers zal veelal het soort S-vormig karakter hebben als ook de 'funktie' in figuur 2.1. heeft. Hoge cijfers worden het hoogst gewaardeerd. Lage cijfers het laagst. Daartussenin een bereik waarin de waardering voor opklimmende cijfers ook stijgt. Waar de curve het steilst oploopt, daar ligt het cijferniveau waar in zekere zin het meest de nadruk op gelegd wordt, je zou kunnen zeggen dat dat het cijferniveau is waarvan je graag zou zien dat alle studenten het bereiken. Betere prestaties zijn natuurlijk welkom, maar 'hoeven niet zo erg meer', zoals uitgedrukt door het dan vlakker gaan verlopen van de waarderingsfunktie.

2.4 De rol die de 'onnauwkeurigheid' van de toets speelt

Iedere toets kun je zien ais een steekproef van vragen uit een (tenminste denkbare) verzameling van alle vragen die over de stof te stellen zijn, en die ook binnen de doelstellingen van het onderwijs valIen. Op diezelfde verzameling is de 'ware stofbeheersing' van de student gedefinieerd.

Veronderstel nu eens dat je van een bepaalde student zou weten dat zijn ware stofbeheersing 50% is (laten we zeggen dat jouw vak nogal moeilijk is, en dat het kunnen beantwoorden van 50% van de vragen een heel behoorlijke score is). De vraag is dan: welke score verwacht je dat een student met een ware beheersing van 50% op de toets zal halen?

Je hoeft geen statisticus te zijn om te begrijpen dat het antwoord op die vraag ook 50% is. Wanneer de toets als steekproef uit de verzameling van alle vragen opgevat kan worden, is de meest waarschijnlijke score voor deze student inderdaad 50% goed.Maar de kans op precies 50% goed is maar klein: als de toets uit 60 vragen bestaat is die kans te berekenen, en daar komt uit dat de kans 1 op 10 is!

In dit voorbeeld zijn de kansen op een hogere of een lagere score symmetrisch (omdat als ware beheersing 50% werd aangenomen). Zodat de kans 42 op 10 is op een score hoger dan 30, en eveneens 42 op 10 op een score lager dan 30. De kans op een score van 35 of hoger is 0,12, evenals de kans op een score van 25 of lager!

Iedereen die wel eens een munt heeft opgeworpen bij het beslechten van een gokje moet met dit soort kansen vertrouwd zijn. Het zou niet verstandig zijn weddenschappen aan te gaan dat je in ieder geval bij 60 worpen wel hoger dan 25 zult scoren, wanneer de inzet van zo'n wedenschap de kans van 0,88 op die gebeurtenis niet weerspiegelt.

Terugkerend naar het toetsgebeuren zou je kunnen zeggen dat iedere student bij iedere toetsing een weddenschap aangaat (met zichzeli waarbij zijn stofbeheersing bepalend is voor de kansen op zakken of slagen vocr de toets, en waarbij hij er in de voorbereiding op de toets voor gezorgd heeft dat zijn stofbeheersing ongeveer dát niveau heeft bereikt waarop de kansen op zakken in 'goede verhouding' staan tot de kosten die daaruit volgende herkansingen met zich meebrengen (in termen van tijdbesteding, frustratie, behoud van studietoelage, e.d.)

Wat heeft dat nu te maken met het onderscheid voldoende/onvoldoende? Alles, omdat zak-slaag beslissingen vallen op behaalde scores, en niet op de ware mate van stofbeheersing van de student. Zodat je ook in het geval je meent dat er goede redenen zijn om in termen van ware beheersing een scherpe grens te trekken tussen nog juist voldoende en onvoldoende (de stippellijn in fig. 2.1) door de onnauwkeurigheid die volgt uit het steekproefkarakter van de toets komt tot een graduele overgang. Die graduele overgang heeft ook weer een S-vormige gedaante, en heeft nu betrekking op de waarschijnlijkkheid dat iemand met een bepaalde toetsscore een ware beheersing heeft die je als 'voldoende' kwalificeert. Voor meer details zie 'Studiestrategieën' (Wilbrink 1978,hoofstuk 1 en 2).

Niemand kent de ware beheersing, ook de student zelf niet

Ik heb juist laten zien dat een toetsscore niet meer dan een statistisch te begrijpen aanwijzing oplevert omtrent de ware stofbeheersing van de student. Die ware stofbeheersing zel nimmer exact bekend zijn, wél kun je er bij zal W4I kun je er bij een omvangrijker steekproef, een uitgebreidere toets, méér over zeggen dan bij een kortere toets.

Voorde student ziet de zaak er nog weer heel wat onvoordeliger uit, want voor hem is het juist van belang om voorafgaand aan de toets een goede schatting te kunnen maken van de mate waarin hij de stof al beheerst. Daarop is immers de intensiteit van de voorbereiding gebaseerd: denkt hij dat er nog heel wat aan mankeert, dan zal hij een verdergaande studieinspanning plegen. Schat hij de eigen stofbeheersing in op een niveau dat hem met een redelijke mate van waarschijnlijkheid een voldoende oplevert, dan vindt hij het misschien welletjes.

Levert een behaalde toetsscore nog maar een vaag beeld op van de stofbeheersing van de student, hoe vaag moet het idee dat deze student over zijn eigen stofbeheersing heeft voorafgaand aan die toetsing dan wel niet zijn! Wanneer er gelegenheid is geboden tot het afleggen van een proeftoets kan de student tijdig een goede indruk krijgen over waar hij staat in de voorbereiding op de eigenlijke toetsing. Ook waar de toets zal bestaan uit opgaven van hetzelfde soort als waarop de student zich uitgebreid heeft kunnen oefenen, zal er een redelijke indruk over de eigen stofbeheersing kunnen zijn.

Dat betekent dat de student met twee bronnen van onnauwkeurigheden te maken heeft: de onnauwkeurigheid die voortvloeit uit het noodzakelijk steekproefachtige karakter van de toets zoals in par. 2.4 besproken, én de onnauwkeurigheid die voortvloeit uit het maar beperkte inzicht hoe het er met de eigen beheersing van de stof 'in werkelijkheid' voorstaat.

Concreet kun je je dat voorstellen als een nóg wankeler basis voor het aangaan van weddenschappen over het toetsresultaat dat de student verwacht, dan alleen op grond van de onnauwkeurigheid van de toets zélf al het geval was. Of in andere woorden: het risico dat de student neemt om te zakken voor de toets (de kans waar hij op mikt om te slagen voor de toets) wordt naast de onnauwkeurigheid van de toetsing ook bepaald door het beperkte inzicht in de eigen stofbeheersing.

Zodat de student die weinig risico wil lopen om te moeten herkansen, wel érg hoog moet mikken boven de gestelde cesuur, een veel betere geschatte stofbeheersing moet zien te bereiken dan lijkt te corresponderen aan de gestelde cesuur.

Een precieze uitwerking van een en ander is uiteraard te vinden in 'Studiestrategieën'. De consequenties voor het beleid ten aanzien van de cesuurbepaling zijn drastisch. Het gaat er immers niet alleen om te kijken welke resultaten je met je onderwijs geboekt hebt, voor de groep of voor individuele studenten. Het gaat er immers vooral ook om die resultaten in omschreven zin te optimaliseren, door een beleid waarin wenselijk studiegedrag van de student ook in de beoordeling gehonoreerd wordt; en dan heb je te maken met hoe de student zijn kansen op een bepaald tentamenresultaat inschat.

2.6 Zakken of slagen op een puntje verschil is niet inhoudelijk te rechtvaardigen. Wie denkt in termen van een strenge scheiding tussen beheersing van de stof die op een 'voldoende' niveau ligt, en beheersing die op een 'onvoldoende' niveau ligt, en rekening gaat houden met de rol die de onnauwkeurigheid van de toetsing speelt bij het nemen van zak-slaag beslissingen, komt uit op een analyse in termen van 'juiste' en 'onjuiste' beslissingen.

De gedachtengang behelst dat de beslissing 'slagen' terecht of ten onrechte kan zijn: 'terecht' wanneer de betreffende student een ware stofbeheersing heeft die 'voldoende' is, en ten onrechte wanneer wanneer die ware stofbeheersing 'onvoldoende' is. Evenzo zijn er twee mogelijkheden bij de beslissing 'afwijzen'.

Je veronderstelt hierbij dat je zak-slaag beslissingen inhoudelijk moet kunnen rechtvaardigen, op grond van de relatie die bestaat tussen toetsscores en ware stofbeheersing. De implicatie is dan dat een ten onrechte genomen beslissing iemand af te wijzen een verlies oplevert, de betrokken persoon onrecht doet. Evenzo de onjuiste beslissing iemand te laten slagen. Waaruit dan logisch volgt dat de optimale cesuur die cesuur is waarbij zo weinig mogelijk onjuiste beslissingen vallen. Je kunt dat nog verder verfijnen door eventueel verschil in 'ernst' tussen het ten onrechte laten zakken, en het ten onrechte laten slagen. in verschillende wegingsfactoren voor beide soorten foute beslissing tot uitdrukking te brengen. Voor een beschrijving van deze aanpak van het cesuurbepalingsprobleem verwijs ik naar Wilbrink (1980 a en b).

Dit lijkt een correcte benadering van het het gaat in het onderwijs tenslotte toch om de bereikte stofbeheersing? Toch niet. Zonder het laatste te bestrijden, want natuurlijk gaat het ook om wat je in je onderwijs bereikt in termen van gerealiseerde stofbeheersing, is de redenering in termen van 'juiste' en 'onjuiste' beslissingen makkelijk te ondergraven. Ze steunt immers bij uitstek op de veronderstelling dat je voor ieder afzonderlijk vak zoiets als een 'tenminste voldoende stofbeheersing' moet eisen. Een conjunctieve examen-regeling wordt hierbij vanzelfsprekend verondersteld: de mogelijkheid van andere examenregelingen waarin zich géén zak-slaag problematiek bij ieder afzonderlijk studieonderdeel voordoet wordt daarbij niet opengehouden. Maar zelfs al blijf je binnen een conjunctief kader (bijv. omdat je denkt dat dat wettelijk voorgeschreven zou zijn .....), dan is het helemaal niet a priori noodzakelijk om individuele zak-slaag beslissingen te koppelen aan dat platonische begrip 'ware beheersing' op 'voldoende' of 'onvoldoende' niveau.

Je kunt namelijk ook deze conjunctieve examenregeling zien als niet meer dan een afsprakenstelsel met de studenten, waarin geregeld is aan welke formele vereisten je moet voldoen om de examenbul straks uitgereikt te krijgen. Voor ieder vak is afspraak dat je tenminste een bepaalde, afgesproken, score op de toets moet behalen om voor dat onderdeel als 'geslaagd' geboekt te worden. De kansen om te slagen heb je daarbij als student in niet onbelangrijke mate zélf in de hand, de student heeft daarin zijn eigen verantwoordelijkheid, ook al zal het hem duidelijk zijn dat 'zakken' ook tot de mogelijkheden van het spel hoort.

In het proces, in zijn streven om voor die afzonderlijke studieonderdelen te slagen, bouwt de student uiteraard een behoorlijk stuk stofbeheersing op. Of dat bij iedere afzon-derlijke toets waarvoor hij volgens de afspraak 'geslaagd' is ook een werkelijk 'voldoende' beheersing is, dat is niet zo geweldig interessant: de toetsscore geeft daar immers niet meer dan een statistische aanwijzing voor, en ook de student zelf weet het niet nauwkeurig. Wat je wél weet, is dat je door de bank genomen, over alle studieonderdelen bij elkaar, best op een voldoende niveau uitkomt onder dit afsprakensysteem.

Met andere woorden: het afsprakensysteem levert dezelfde inhoudelijke resultaten op als de meer traditionele opvatting waarin krampachtig ieder toetsresultaat van de individuele student onderzocht wordt op de vraag of dat in dit geval wel met een redelijke mate van waarschijnlijkheid correspondeert aan een werkelijk 'voldoende' beheersing van dit vak.

Het gevolg van deze meer juridisch getinte opvatting van het beoordelen is dat je jezelf bevrijdt, en ook de student bevrijdt, van het denken in termen van 'falen', 'niet voldoen', en andere negatieve kwalificaties die onwillekeurig aan het 'zakken' zijn verbonden. Het niet voldoen aan de cesuur wordt meer gezien als tijdelijke 'pech', dan als persoonlijke tekortkoming. En die zienswijze is meer in overeenstemming met de werkelijke gang van zaken rond het zakken en slagen, zoals in voorgaande paragrafen ook al overduidelijk naar voren is gekomen.

De student die nu net één puntje te laag scoort kan dat accepteren als weliswaar een vervelende tegenvaller, maar toch als iets dat hij zo nu en dan mag verwachten (onder deze examenregeling). Als een nooit helemaal te vermijden risico dat hem nu metterdaad treft. Hij is er niets minder om dan zijn studiegenoot die met een punt méér wél slaagt.

Wat houdt deze opvatting over de zak-slaag beslissing in met betrekking tot het zo goed mogelijk kiezen van de cesuur? Je probeert nu niet meer om het aantal 'onjuiste beslissingen' te minimaliseren, want het onderscheid tussen 'juist' en 'onjuist' heeft in deze denklijn geen betekenis. Maar je moet wél met een zak-slaag grens, met een cesuur blijven werken zolang de examenregeling conjunctief blijft, zolang niet op een compensatorische examenregeling wordt overgegaan. Welnu, dan moet je een methode hebben om die cesuur dáár te leggen waar je daarmee bereikt dat studenten jouw vak afsluiten met een stofbeheersing die op ongeveer het gewenste niveau ligt, terwijl je dat moet zien te bereiken op een wijze waarbij studenten een gebruik van herkansingen maken dat in de gegeven omstandigheden (de conjunctieve examenregeling) in termen van verlies aan productieve studietijd zo optimaal mogelijk is. Een hele mondvol, maar het duidt dan ook aan waar we samen in de volgende hoofdstukken mee bezig gaan.

Hoofdstuk 3. Cesuurbepaling: optimaliseren va de zak-slaaggrens.

3.1 'zakken' en 'slagen' berust op een afspraak over de cesuur In het voorgaande hoofdstuk is gedemonstreerd dat het niet reëel is over het onderscheid tussen 'voldoende' en 'onvoldoende' stofbeheersing te denken als een scherpe grens, of als een drempel. Dat beeld van een meer vloeiende overgang tussen beide wordt nog versterkt door de problematiek die de meetfouten bij het toetsen met zich brengt: ook al zou je de grens tussen voldoende en onvoldoende stofbeheersing wat scherper willen trekken, dan kun je op grond van behaalde toetsscores je studenten maar in beperkte mate aan de juiste groep toedelen, 'terecht' voldoende of onvoldoende beoordelen.

Er ligt met andere woorden een conflict tussen wat de examenregeling lijkt te eisen (zak-slaag beslissingen nemen), en de mogelijkheden om in redelijke mate aan die eisen tegemoet te komen. Dat conflict is waarschijnlijk onoplosbaar zolang je vast blijft houden aan de gedachte dat een student die 'in werkelijkheid de stof voldoende beheerst', ook de beoordeling 'geslaagd' moet kunnen krijgen, en omgekeerd. Er zijn drie mogelijkheden om onder dat conflict uit te komen:

de examenregeling veranderen van conjunctief naar compensatorisch, zodat voor afzonderlijke studieonderdelen geen zak-slaag beslissingen meer worden genomen. Deze oplossing ligt niet binnen handbereik van de individuele docent.
de wijze van beoordelen, eventueel de hele onderwijsopzet, veranderen, zodat het volle beoordelingsgewicht niet meer op die ene eindtoets kornt te liggen. Vrijstellende deeltentamens, individuele studie systemen, e.d. Dit zijn opties die wél voor de docent beschikbaar zijn, hoewel niet van de ene dag op de andere te realiseren. In hoofdstuk 4 zal ik een aantal beleidsmogelijkheden in deze sfeer bespreken.
de rechtvaardiging van zak-slaag beslissingen in ieder individueel geval niet inhoudelijk proberen te geven, maar op grond van de afspraak dat het vak voldoende is gemaakt bij een score tenminste gelijk aan de cesuur. Een meer juridische opvatting dus. Inhoudelijke interpretaties van studieresultaten worden dan alleen nog maar voor de groep (of voor bepaalde deelgroepen) gemaakt; de cesuur wordt zó gekozen dat de groep studenten gemiddeld genomen een stofbeheersing bereikt die op het gewenste niveau ligt. Zie ook par. 2.6.

Het afspraakmodel ligt aan de basis van de methode van cesuurbepaling die in dit hoofdstuk gepresenteerd wordt. Je kunf zeggen dat hiermee expliciet gemaakt is wat in feite natuurlijk altijd al de praktijk is geweest: het gaat de student er in de eerste plaats om zijn 'voldoende' te scoren.

Laat ik een praktijkvoorbeeld geven. Voor een postdoctorale opleiding doet zich de opmerkelijke situatie voor dat ondanks goed onderwijs en een uitstekende voorlichting en voorbereiding ieder jaar weer ongeveer de helft van de kandidaten voor het examen afgewezen wordt. Dat examen bestaat uit 4 grote probleemopgaven, voor iedere opgave is een morgen of middag uitgetrokken. Het werk wordt zorgvuldig beoordeeld door drie personen, onaf-hankelijk van elkaar. De problemen die de kandidaten voorgelegd krijgen zijn van hetzelfde karakter als de tenminste 20 opgaven waarop zij zich geoefend hebben als voorbereiding op dit examen. Het blijkt dat er in de cijfers geen uitschieters zijn: geen hoge cijfers, maar ook lage komen nauwelijks voor.

Zo'n belangrijk examen, waar vrijwel iedereen vijf of zes op scoort, ongeveer de helft afgewezen wordt: hoe interpreteer je deze situatie? Je kunt stellen dat vrijwel alle kandidaten op ongeveer hetzelfde niveau van stofbeheersing zitten, dat ze eigenlijk ook allen hetzelfde 'oordeel' verdienen: vrijwel iedereen zou moeten slagen, of vrijwel iedereen zou moeten zakken. In werkelijkheid slaagt maar de helft, en kun je er zeker van zijn dat het verschil in niveau van bereikte stofbeheersing tussen de groepen geslaagden en gezakten heel klein is.

Of je voor dit examen zakt of slaagt is een kwestie van pech of geluk. Toch heeft dat niets te maken met de kwaliteit van het examen: die is prima in orde. De situatie wordt pas begrijpelijk wanneer je ervan uitgaat dat de kandidaten de examenregeling opvatten als een afspraak: je slaagt wanneer je tenminste zes op alle onderdelen gemiddeld scoort. Dan is de situatie als volgt te beschrijven:

De kandidaten weten erg goed waar de cesuur op dit examen ligt: zij krijgen uitgebreide oefening op examenvraagstukken, kunnen goed afschatten of de eigen stofbeheersing ongeveer op examenniveau is of niet. De stof voor dit examen is nogal moeilijk, wat betekent dat het erg veel studieinspanning kost om je stofbeheersing van het niveau 5 à 6 te brengen op dat van 6 à 7. De kandidaten kiezen vrijwel alle de strategie waarbij gemikt wordt op het niveau 5 à 6, waarbij dan ook ingecalculeerd wordt dat het risico om te zakken ongeveer 50 % is. Die strategie is redelijk optimaal: de kans van 50 % om nog eens veel tijd en energie in de voorbereiding op de herkansing te moeten steken is ongeveer in evenwicht met de aanzienlijke hoeveeltijd tijd en energie die gemoeid zou zijn met het verhogen van het beheersingsniveau tot bijv. 6 à 7.

3.2 Studenten hebben hun redenen om te studeren zoals ze doen.

Dit soort denkbeelden, waardoor ook onderwijsonderzoekers nogal eens geplaagd worden, berust op tenminste twee stille vooronderstellingen waarvan het de moeite loont ze eens kritisch te gaan bekijken:

de gedachte dat de toetsscore exact aangeeft wat de stofbeheersing van de student is, en de gedachte dat de student het perfect in de hand heeft, als hij dat wil, een bepaald gewenst toetsresultaat te realiseren (tenzij zijn capaciteiten daarvoor tekort zouden schieten); kortom, dit is de opvatting dat toetsresultaten op deterministische wijze tot stand komen.
de gedachte dat de student die zijn studie weloverwogen inricht natuurlijk vermijdt om te zakken voor studieonderdelen.

Beide veronderstellingen hebben met elkaar te maken: het is voor de student alleen dán mogelijk om herkansingen metterdaad te ontlopen wanneer vooronderstelling 1. juist is: dat hij als hij wil het eigen toetsresultaat volledig in de hand heeft. Als de eerste vooronderstelling niet waar zou blijken te zijn (en hij is niet waar), dan kan de tweede ook niet juist zijn, want dan heeft de student zijn eigen studieresultaten niet volledig in eigen hand. Het alternatief voor vooronderstelling twee is dan ook dat de student die zijn studie rationeel aanpakt een bepaald zakrisico incalculeert.

Tegenover beide genoemde vooronderstellingen plaats ik dan ook de volgende twee stellingen:

Toetsresultaten komen op stochastische wijze tot stand; d.w.z. dat daarbij belangrijke onzekerheden een rol spelen, een toevalselement inbrengen. De belangrijkste onzekerheden zijn
- dat de student niet nauwkeurig zijn eigen stofbeheersing kent en een schatting moet maken of die 'voldoende' is voor wat hij wil bereiken
- dat de toets slechts een steekproef is uit alle denkbare vragen over de stof, en zo'n steekproef kan meer of minder goed passen bij de nimmer perfecte kennis van de student over die stof.
In het zicht van deze onzekerheden is de rationele aanpak voor de student om een evenwicht te zoeken tussen de extra inspanning die het nog beter beheersen van de stof vraagt en de verhoging van zijn slaagkans die hij denkt dat daar het gevolg van is: het zakrisico is een berekend risico, zij het dat de 'berekeing' in de praktijk een intuïtief oordeel zal zijn, gebaseerd op ervaring en oefening.

Rationele studiestrategieën spelen in op de toetsingssituatie, het zakrisico dat de student denkt dat hij bij zijn huidige stotbeheersing loopt, en de 'kosten' die een eventuele herkansing met zich meebrengt in termen van tijdbesteding, frustratie, financiële risico's e.d. Ik heb dat gedetailleerd beschreven in Studiestrategieën (1978).

Het punt waar het in onze context van de cesuurbepaling om gaat, is dat 'zakken' voor de student weliswaar 'pech' is, maar dan wel een ingecalculeerde pech. Bij dat 'incalculeren' speelt de plaats van de cesuur een belangrijke rol: wordt de cesuur verhoogd dan zal de student daarop reageren met een vergrote studieinspanning. Wordt de cesuur verlaagd dan kan de student het wat kalmer aan doen. Verhogen of verlagen van de cesuur beïnvloedt direct het studiegedrag, maar daar zal niemand verbaasd van staan te kijken.

Het is verleidelijk om de cesuur dan maar te verhogen, dan zullen er ook wel betere studieresultaten uit rollen. Jammer genoeg is dát niet waar, al was het alleen maar omdat de eisen op dit moment (door vroegere cesuurverhogingen) op een niveau zullen liggen waar je zonder problemen niet makkelijk nog bovenuit zult kunnen komen. Je hebt immers ook te maken met bepaalde randvoorwaarden, zoals de tijd die in het studieprogramme voor jouw vak beschikbaar is, en het gemor dat zal ontstaan wanneer de eisen onaanvaardbaar hoog gesteld worden.

Het is dus maar de vraag of de cesuur omhoog kan, misschien moet de cesuur wel naar beneden, of kan hij gelijk blijven aan die van vorig jaar.

Dan zijn er ook neveneffecten waar rekening mee te houden is. En die kunnen complex zijn: bij cesuurverlaging mag je verwachten dat 'goede' studenten het wat makkelijker op een herkansing aan zullen laten komen, terwijl de wat 'zwakkere' studenten er juist door in staat worden gesteld hun zakrisico te verkleinen omdat zij nog steeds alle beschikbare tijd aan de voorbereiding zullen blijven besteden.

Studenten zullen dan ook rationeel, weloverwogen, reageren op beleidsveranderingen, zowel op schuiven met de cesuur, als op andere maatregelen zoals in hoofdstuk 4 besproken. Verschillende studenten kunnen op dezelfde maatregel verschillend reageren, wat het op zich wat moeilijker maakt om effecten te voorspellen.

Het in par. 3.1 gegeven voorbeeld demonstreerde al hoe een weloverwogen studieaanpak van postdoctorale kandidaten kan leiden tot het alleen maar schijnbaar chaotische resultaat van zakpercentages van 50 %

Bij de cesuurbepaling gaan we dan ook zo lang mogelijk ervan uit dat voor schijnbaar chaotische studieresultaten heel goede verklaringen te vinden zullen zijn in de sfeer van rationele studiestrategieën door studenten gevolgd, en dáár moeten dan ook de sleutels liggen voor een weloverwogen beleid van de docent bij de cesuurbepaling.

3.3 De vraag is: kan de cesuur omhoog, omlaag, of blijft hij zo?

Bij 'een methode voor cesuurbepaling' ben je geneigd een methode te verwachten die op basis van de toetsresultaten, met misschien nog wat andere informatie, de cesuur 'bepaalt'. In feite is dat ook wat tot nu toe bekende, min of meer 'relatieve', methoden doen. Het is heel opmerkelijk dat dan geen gebruik wordt gemaakt van de gegevens die uit eerdere toetsen bekend zijn. De normale situatie is immers dat een bepaalde toets jaarlijks wordt afgenomen (of tenminste dat de betreffende cursus jaarlijks of nog frequenter wordt gegeven). Wat ligt dan méér voor de hand dan dat je de cesuur voor de volgende toetsafname vaststelt op basis van de cesuur zoals die de voorgaande keren lag, en de ervaringen die daarbij opgedaan zijn?

Nog pregnanter: de vraag waar je deze keer de cesuur moet leggen kun je beantwoorden wanneer je deze andere vraag kunt beantwoorden: denk je dat ten opzichte van de laatste toets die cesuur kan blijven waar hij toen lag, omhoog moet, of omlaag kan?

Als je dat zou weten, bijv. dat de cesuur omlaag moet, hoe vér moet je dan verlagen? Het antwoord daarop is verbluffend simpel: beperk de verandering in de regel tot één punt. Wanneer de cesuur lag op 34 uit 50, en je moet verlagen, stel dan de cesuur op 33. Met deze kleine stapjes (in het voorbeeld gaat het dan altijd nog om een verschil van 2% in stofbeheersing) kun je in de buurt komen (blijven) van de 'optimale' cesuur. Ik kom daar in de volgende paragraaf op terug.

Er even van uitgaande dat je met deze kleine stapjes komt waar je naar toe wilt, is de cruciale vraag: welke informatie heb ik nodig om te kunnen kiezen tussen 'omhoog' en 'omlaag' (eventueel: niet veranderen): Er zijn maar twee variabelen die van belang zijn: het bereikte studieresultaat, (stofbeheersing), en de daarvoor gebruikte tijd. Met beide zullen we ons in dit hoofdstuk uitvoerig bezig gaan houden. Ik zal proberen wegen aan te duiden voor enerzijds het verzamelen van informatie over beide, anderzijds het trekken van conclusies uit de verzamelde informatie.

Als de bestede tijd geen rol zou spelen, zou wat studieresultaten betreft de sky de limit zijn, en de cesuur op de hoogste score terecht komen. Er moet kennelijk tussen beide een afweging gemaakt worden, en bij die afweging betrek je uiteraard het gegeven van de programmatisch beschikbare studietijd (dat is een randvoorwaarde; studenten kunnen daar wel onder blijven, maar overschrijdingen kunnen onaanvaardbaar zijn wanneer die eer regel dan uitzondering gaan vormen).

3.4 Piecemeal engineering. Forceer niets, neem kleine stapjes.

Er zijn verschillende redenen om niet fors met de cesuur te gaan schuiven. Meestal zal de informatie waarop je je beslissing moet nemen niet al te sterk zijn, en daar moet je ook je beslissing bij aanpassen. Wie grote veranderingen aanbrengt loopt het risico dat de cesuur gaat oscilleren, dat hij van jaar tot jaar heen en weer springt, waarbij de studenten in verwarring het nakijken hebben. Door sterke vernaderingen in de cesuur gaan ook studieresultaten en tijdbesteding sterk veranderen, waardoor het minder eenvoudig wordt om de gegevens daarover van een aantal achtereenvolgende jaren met elkaar te combineren.

De belangrijkste reden is wel dat de kleine-stapjes benadering uitstekend geschikt is om de 'optimale' cesuur mee te benaderen. Met kleine verandering naar boven of beneden blijft de cesuur uiteindelijk zich bewegen in de buurt van wat waarschijnlijk de 'optimale' cesuur is. Je kunt de cesuur tegen de tijd dat het duidelijk wordt dat hij zich gestabiliseerd heeft natuurlijk fixeren. Maar blijf dan wel je evaluatie verrichten, omdat door veranderende omstandigheden de plaats van het 'optimum' kan verschuiven.

De oorsprokelijke figuur 3.1 is nu weggelaten, hij was ook wel een beetje kinderlijk eenvoudig.

Als het bijvoorbeeld gaat om een toets van 50 vragen, zie je dat de cesuur zich maar in een klein scorebereik beweegt. Dat is ook in overeenstemming met de wetenschap van de docent: hij of zij kan altijd wel het score-gebied aanwijzen waarbinnen de cesuur vrijwel met zekerheid moet liggen, en de 'methode voor cesuurbepaling' moet dan de toe te passen plaats van de cesuur opleveren.

3.5 Hoe sterk moeten je gegevens zijn om zo'n stapje te nemen?

Dat is prachtig, die kleine stapjes aanpak, maar een praktische vraag is dan toch wanneer je met enig vertrouwen zo'n stapje mag nemen. Hoe evident moeten de beschikbare gegevens in de richting van verhogen (verlagen) wijzen voordat je tot zo'n stapje overgaat? Daar zijn twee eenvoudige antwoorden op te geven.

Omdat er telkens maar een klein stapje genomen wordt, zijn de gevolgen van zo'n beslissing nimmer van ernstige aard. Een vergissing, omdat je gegevens op een bepaald moment 'in de verkeerde richting wezen' komt niet hard aan, en wordt waarschijnlijk een volgende keer al gecorrigeerd. Je stemt de omvang van je onderzoek dan ook af op de aard van de mogelijke gevolgen waar het hier om gaat, en dat betekent dat je een niet al te diepgravend onderzoek moet opzetten. Of anders gezegd: je hoeft aan de gegevens die je onderzoek oplevert geen strenge eisen van nauwkeurigheid en geldigheid te stellen.
* Kies altijd de richting die naar verwachting het betere resultaat oplevert, ook al is het verschil waar het om gaat maar miniem.

Het eerste antwoord behoeft geen verdere toelichting, behalve de uitwerking die het tweede antwoord geeft van de vraag hoe je dan je min of meer globale gegevens vertaalt naar een beslissing. Het tweede antwoord is wat minder vanzelfsprekend.

Laat ik beginnen met op te merken dat je niet noodzakelijk altijd met die cesuur moet schuiven. Je kunt hem ook laten waar hij lag, zeker in díe gevallen waar het naar jouw mening, naar jouw belang bekeken weinig uitmaakt of hij blijft staan dan wel een punt omhoog gaat. Bedenk dat de ándere partij, die van de studenten, ook voorkeuren heeft, en voorzover die niet uitonderhandeld worden kun je die tenminste honoreren in díe situaties waar je zélf lauw bent als het om al dan niet veranderen van de cesuur gaat.

Dan nu het principe: schuif de cesuur in díe richting waar het betere resultaat verwacht wordt, ook al is het verschil maar klein. De tegenvraag kan luiden: moet je dan niet eerst statistisch toetsen of het verschil in resultaat 'significant' is, eventueel zelfs in de vorm van een 'power analyse'? Nee, de statistiek kan er tenminste wat dit aspect van de beslissing betreft buiten gehouden worden. Het gaat immers niet om het toetsen van hypothesen of modellen, maar om een handelwijze te volgen die op de langere duur (over de serie cursussen heen) het beste resultaat oplevert. 1)

noot 1) En dat het laatste het geval is met de hier voorgeschreven handelwijze kan bewezen worden (zie Simon 1943 en 1945, herdrukt in Simon 1977). Zie ook besliskundige literatuur (e.g. Raiffa en Schlaifer 1961).

Nu zou je kunnen zeggen dat het belangrijkste moment bij iedere methode van oesuurbepaling ligt in het aanwijzen van dit globale onderwijsdoel, en dat het daaruit afleiden van waar dan op de toets de cesuur moet komen te liggen slechts een 'technisch' probleem is. Dat zou inderdaad zo zijn wanneer je je niet zou bekommeren om randvoorwaarden, zoals de tijd die studenten nodig hebben om die mate van beheersing te verkrijgen, of de tijd die verloren gaat aan overmatig herkansen. Je wijst een globaal doel aan, wilt dat ook realiseren, maar wanneer dat binnen redelijke tijd niet haalbaar blijkt moet je je gaan afvragen of dat globale doel niet te hoog geformuleerd is, óf gaan kijken naar de omvang van de stof, die misschien enige reductie behoeft (zie ook hoofdstuk 4).

Het aanwijzen van je globale doelniveau moet als het kan met enige zorg gebeuren, maar het is niet zo dat de hele cesuurbepaling erg gevoelig is voor deze zaak.

Waarschijnlijk heb je al wel een idee in je hoofd, zoiets van: 'ik zou graag zien dat studenten circa 80 % van de stof beheersen, d.w.z. 80 % van de vragen uit mijn (denkbare) vragenverzameling kunnen maken. De vraag is dan: wat bedoel je daar precies mee? Is dat je streefniveau, dat je graag voor het merendeel van je groep studenten verwerkelijkt wilt zien? Is dat een minimum dat je nog juist aanvaardbaar vindt? Of is dat het niveau dat je van 'goede' studenten verwacht (en dat je de anderen als spiegel voor wilt houden)?

Er is dus enige spraakverwarring mogelijk, zodat het scheppen van enige helderheid dringend gewenst is. Het gaat om de waardering die je hebt voor verschillende niveaus van bereikte stofbeheersing Die waardering kun je in een bepaalde kromme uitdrukken: vertikaal zet je de relatieve mate van waardering af op een schaal van nul (geen waardering) tot één (maximale waardering). Horizontaal zet je procentuele stofbeheersing. Stel je kiest streef- en ideaal niveau aan elkaar gelijk, beide op niveau van 100%. Er zijn maar weinig opleidingen waar zo'n eis reëel is, of een niet-triviaal karakter heeft (training van operators in kerncentrales op verrichten van noodhandelingen bijvoorbeeld). 1)

Figuur 3.2 in het origineel. Ik probeer het nu zonder hulp van getekende figuren uit te leggen, dat moet lukken.

3.6 Maak expliciet wat je met je onderwijs wilt bereiken.

Wanneer we eerst naar de studieresultaten gaan kijken, moet tenminste duidelijk zijn wat het doel van je onderwijs is in termen van deze zelfde studieresultaten.

Het gaat er dan niet om 'doelstellingen' te formuleren met betrekking tot wát de student van wélke onderwerpen af zou moeten weten, op dat niveau van detail kun je hier niet werken.

Nee, het gaat er om dat je bepaalt welk percentage vragen over de stof goed beantwoord moet kunnen worden. Dat kun je heel grof vaststellen, maar je kunt er ook heel verfijnde methoden voor gebruiken. Hoe je het ook aanpakt, in ieder geval is dit globale onderwijsdoel gerelateerd aan de verzameling van vragen over de stof gesteld (kunnen) worden.

Iedere docent heeft een redelijk goede voorstelling van het soort vragen waaruit telkens zijn toets samengesteld wordt. Dat zijn vragen van hetzelfde soort als ook eerder in de toets opgenomen is (tenzij de inhoud van het onderwijs zich wijzigt).

Wanneer je dan spreekt over de mate van beheersing van de stof dan kun je dat refereren aan deze verzameling van vragen. Dat is in het ideale geval een werkelijk bestaande verzameling: bijv. de verzameling van 10.000 vragen waaruit in de Verenigde Staten telkens het artsexamen samengesteld wordt (Hubbard, 1978). Maar dat mag ook best de alleen maar denkbare verzameling van vragen over de stof zijn, vragen die binnen de onderwijsdoelstellingen vallen, het soort vragen zoals die voor iedere toets opnieuw geconstrueerd worden.

Bij meerkeuzevragen heb je dan te maken met de raadkans wanneer het juiste antwoord niet geweten wordt. Ook bij open-eind vragen kan er van een bepaalde raadkans sprake zijn, en zelfs bij essay vragen is er zoiets als ondanks grove onkunde toch nog een aardig verhaal weten te schrijven. Je kunt dan ingewikkeld gaan doen en 'weten' gaan onderscheiden van 'raden', maar het is heel veel eenvoudiger uitsluitend over goed beantwoorden te spreken, inclusief een eventuele raadkans.

Je kunt het globale onderwijsdoel dan beschrijven als het percentage vragen uit de hele (denkbare) verzameling van vragen over de stof dat de student goed zou moeten kunnen beantwoorden.

In de praktijk krijgt de student uit die verzameling maar een (kleine) steekproef voorgelegd, zodat uit de gebleken toetsscores niet zonder meer geconcludeerd kan worden of het globale onderwijsdoel gerealiseerd is. Dat is een complicatie die heel goed oplosbaar is, en waarop ik straks terugkom.

Figuur 5

Figuur 3.6.1. Links: de verwachte scores, bepaald op verschillende momenten in het studiepad, leveren een leercurve op. Verticaal: aantal goed gemaakte vragen. De curve is berekend op een gegeven proeftoetsscore van 83 goed uit 100, nadat de stof 10 keer was doorgenomen. Deze student leert iedere keer 8% van de nog niet gekende stof. Rechts: de neutrale nutsfunctie waarmee toetsscores zijn gewogen.
Noot: De studietijd, opgevat als aantal keren dat de stof is/wordt doorgenomen, is gerefereerd aan het moment dat de proeftoets is afgelegd, hier aangegeven als het nulpunt.
Deze figuur en toelichting is ontleend aan mijn 1998 'Inzicht doorzichhtig toetsen' http://benwilbrink.nl/publicaties/98InzichtToetsenCOWOG.htm figuur 5.

lineair nut

1) Een rechtlijnig stijgende lijn is de waarderingsfunktie (rechts in Figuur 1) die goed past bij onsamenhangende feitenkennis. Hoe meer feitjes de leerling/ student weet hoe beter, de waardering is evenredig aan de mate van stofbeheersing. Zo'n waarderingsfunktie zou in het onderwijs zeldzaam horen te zijn, toch is het de weergave van de manier waarop nogal eens tot cijferwaarderingen wordt gekomen: bijv. bij proefwerken bestaande uit 10 opgaven de regel 'iedere opgave goed is een punt'. Enige reflectie op wat je aan het doen bent wanneer je zo'n puntentelling hanteert lijkt wel op zijn plaats.

noot 1. Een tikje verwarrend is het wel: ik gebruik naast elkaar zowel 'nutsfunctie' als 'waarderingsfunktie'. Voor nutsfuncties is het gebruikelijk, maar niet noodzakelijk, om het laagste niveau 'nut=0 te geven, het hoogste niveau 'nut=1'.

Figuur 6

Figuur 3.6.2. Links: verwacht nut over een langer studietraject. De curve is berekend op een gegeven proeftoetsscore van 83 goed uit 100, proeftoets afgelegd na 10 keer doornemen van de stof; de toets heeft 20 vragen. De voorspelling is telkens gewogen met het rechts afgebeelde drempelnut: alleen slagen telt, de grens ligt bij score 16.
Deze figuur en toelichting is ontleend aan mijn 1998 'Inzicht doorzichhtig toetsen' http://benwilbrink.nl/publicaties/98InzichtToetsenCOWOG.htm figuur 6.

drempelnut

Een veelvoorkomende nutsfuctie is die van drempelnut: een waarderingsfunktie waarbij minimum-, streef- en ideaalniveau identiek zijn, maar ergens beneden de 100% gelocaliseerd zijn. Je kent hem wel als onvoldoende is nut nul, voldoende is nut 1. 1) Op de schaal van stofbeheersing is in feite een tweedeling gemaakt: het enige dat telt is of de beheersing links, dan wel rechts van het 'beheersings' punt ligt waar de waarderingskromme steil omhoog schiet. In hoofdstuk 2 is uitgebreid het irreële van zo'n voorstelling van zaken behandeld. Toch wordt in de filosofie van beheersingsleren nogal eens met dergelijke voorstellingen van zaken gewerkt, waarvoor de enige rechtvaardiging zou kunnen liggen in de eenvoud van de kromme waardoor hij misschien als benadering van een in werkelijkheid wat minder sprongachtige kromme to gebruiken zou zijn. 2)

Het kan heel goed zijn dat je als docent de waarde van prestaties van leerlingen anders ziet dan deze drempelfnctie. Het bijzondere is evenwel dat waar de examenregeling juist zakken of slagen benadrukt, dat de nutsfunctie dwingt in de vorm van de drempelfunctie. De nutsfunctie is hier als het ware objectief bepaald door de examenregeling. Op dezelfde wijze is in een stelsel waarin alleen het cijgergemiddelde telt, een GPA-stelsel, de nutsfunctie objectief een rechte over de cijferschaal. (figuur 2).

noot 2) Mijn opmerking in 1980 over beheersingsleren slaat werkelijk nergens op, ik trek hem hierbij in. Wie geïnteresseerd is in beheersingsleren, en in goed onderwijs, zie het 2-sigma experiment van Benjamin Bloom. Mijn blog erover: https://benwilbrink.wordpress.com/2018/09/28/benjamin-s-bloom-human-characteristics-and-school-learning/

definitie van streefniveau
Het streefniveau is de mate van stofbeheersing waarvoor geldt dat daar de waarderingsfunktie (funktie van verwacht nut) het steilst is.

Ho, wacht. Het streefniveau moet gedefinieerd worden op het verwachte nut, niet op de nutsfunktie zelf. Daar is dus iets misgegaan in de cursusversie 1980, ik moet dat waarschijnlijk op veel plaatsen in de tekst van 1980 gaan herstellen. Het verwachte nut is verkregen door de voorspellende toetsscoreverdeling te wegen met de nutsfunktie. Voor details, zie het SPA-model http://benwilbrink.nl/projecten/spa_project.htm

Ná het streefniveau stijgt de waarderingsfunktie niet meer zo snel, je kunt zeggen dat weliswaar voor nog hogere beheersing een grotere waardering bestaat, maar dat erg veel waarde gehecht wordt aan het tenminste bereikt hebben van het streefniveau.

Ik heb hier figuur 3.5, 3.6 en 3.7 uit 1980 weggelaten, samen met de toelichtende tekst, omdat het een beetje een rare figuren zijn, en de tekst alleen maar verwarrend kan werken. U mist er niets aan. 1)

http://benwilbrink.nl/publicaties/98InzichtToetsenCOWOG.htm

NB: de volgende tekst gaat over waarderingsfunktie als nutsfunktie, niet als fi=unktie van verwacht nut. Sorry dat het wat verwarrend is, maar dat is ook een probleem in de internationale literatuur.

Hoe bepaal je nu je eigen waarderingsfunktie? Hoe je dat ook aanpakt, zorg er om te beginnen altijd voor dat je een heel duidelijk beeld van de vragenverzameling waar het om gaat, van het soort vragen dat je altijd in je toets opgenomen hebt en er ook straks Weet in op zult nemen.

Hanteer je om te beginnen de natte-vinger-methode, dan ligt het voor de hand om allereerst minimumniveau en ideaalniveau aan te wijzen.

Het ideaalniveau is het beheersingsniveau waar je de hoogste waardering voor hebt. Of preciezer: het is het laagste beheersings-niveau waaraan je nog je hoogste waardering geeft.

Bedenk dat het gaat om het beheersingsniveau, en niet om de score op de toets. Die toetsscore is immers geen perfecte indicator voor de beheersing van de student op de hele vragenverzameling.

Het minimumniveau is het beheersingsniveau waarvan je vindt dat iedere student het tenminste bereikt moet hebben, wil zijn studieinspanning enige zin hebben. Het minimumniveau is niet hetzelfde als het 'blijk-van-goede-wil-en-onvermogen niveau, maar kan best op een heel respectabel hoog peil liggen. Dat zal afhangen van de aard van het vak, en talloze andere omstandigheden.

Wat je aanwijst is dan eigenlijk een ondergrens voor dat minimum-niveau, het niveau waarvan je vindt dat het te gek zou zijn wanneer studenten daar onder zouden blijven. Dan is het nog best mogelijk dat de werkelijkheid je daarbij goed dwars zit: dat blijkt dat een aanzienlijk aantal studenten, ook studenten die uiteindelijk met redelijke cijfers de studie zullen afronden, nog onder dat minimumniveau doorschieten. Dan is het tijd om het eigen optimisme van wat er in jouw korte tijdbestek van de omvangrijke stof die studenten aangeboden wordt ook goed bij hen over kan komen, om dat optimisme te gaan herzien. Wordt dat minimumniveau niet terug-gebracht, dan zal er waarschijnlijk toch iets gedaan moeten worden aan de omvang van de stof. Wanneer echter tegelijkertijd zou blijken dat de tijdbesteding van deze zelfde studenten ook minimaal is, dan zal uiteraard verhoging van de cesuur overwogen moeten worden. Meer in het algemeen is het raadzaam om alle mogelijkheden die in hoofdstuk 4 behandeld worden langs te gaan.

Tenslotte, wanneer minimumniveau en ideaal niveau aangewezen zijn, moet je nog nagaan waar ongeveer je streefniveau ligt. Dat hoeft natuurlijk niet halverwege ideaal- en minimumniveau te zijn! Schets dan de geleidelijk verlopende kromme die bij de zo aangewezen punten past. Wanneer je over ruime tijd beschikt, kun je het resultaat wegbergen, en zonder er weer naar gekeken te hebben twee later de bepaling overdoen, en het resultaat vergelijken met wat je eerder had geschetst. Zit daar naar jouw smaak wel erg veel verschil tussen, dan is het misschien nuttig om een meer gedetailleerde methode te gebruiken. Literatuurverwijzingen daarvoor zijn te vinden in Wilbrink 1980 a, blz. 51.

3.7 Zorg ervoor dat minimum- en streefniveau weinig verschillen.

Onder conjunctieve examenregelingen vraag je om teleurstellingen wanneer minimum- en streefniveau aanzienlijk van elkaar verschillen. Omdat het minimumniveau van beheersing in beginsel met 'voldoende' gehonoreerd wordt (het is immers een nog juist aanvaardbaar niveau), staat er voor de studenten niet zoveel premie op het nastreven van een hoger beheersingsniveau dan ongeveer dat minimale.

Bij een compensatorische examenregeling zou het uit elkaar geplaatst zijn van minimum- en streefniveau geen problemen opleveren, maar bij een conjunctieve regeling ligt nu eenmaal het zwaarste accent op dát niveau dat de student een redelijk comfortabele voldoende oplevert.

Wanneer veel studenten door tijdgebrek niet verder komen dan je minimumniveau, dan verdient het onderzoek of je door het terugbrengen van de stofomvang ook voor hén het beheersingsniveau op het streefpeil kunt brengen. Wanneer dat lukt zónder verhoging van de cesuur, dan is dat natuurlijk prachtig en kan de cesuur blijven staan waar hij ook voor de stofvermindering lag. Zou blijken dat de deelgroep studenten waar het hier om gaat van de gelegenheid gebruik maakt om minder tijd aan dit vak te besteden, zodat ze toch op ongeveer dat minimumniveau blijven, dan valt er moeilijk aan te ontkomen hen een duwtje in de rug te geven door de cesuur te verhogen.

Komen minimumniveau en streefniveau dicht bij elkaar, dan kunnen zich overigens weer heel andere problemen voor gaan doen. Dan ontstaat mogelijk een situatie waarin relatief veel studietijd verloren gaat aan het doen van herkansingen. (zie voorbeeld par. 3.1)

Bij conjunctieve examenregelingen zou het wel eens zo kunnen zijn dat het streefniveau niet realiseerbaar is, behalve voor slechts een deelgroep van de studenten. Het over-all onderwijs-resultaat blijft ergens tussen minimum- en streefniveau in hangen, een bijna per definitie onbevredigende situatie. werken, Het is hier niet de plaats om een en ander verder uit te werken, ik hoop dat t.z.t. te doen in een studie waarin de effectiviteit van conjunctieve en compensatorische examenregelingen met elkaar vergeleken wordt.

Wat de problematiek van de cesuurbepaling betreft zit er de waarschuwing in dat het streefniveau waarschijnlijk niet realiseerbaar is, gezien de kosten die dat aan herkansingen met zich mee zou brengen.

3.8 Analyseren van de toetsresultaten: wiens, scores betrek le erin?

De cesuur wordt geruime tijd vóór de toetsafname bekend gemaakt. Dat betekent dat de beslissing over wáár de cesuur zal liggen genomen moet worden zonder enige kennis van de resultaten op de betreffende toets. Overigens: dat sluit natuurlijk niet uit dat er eventueel een ad-hoc cesuurverlaging kan plaats vinden wanneer er aanwijzingen zijn dat de afgenomen toets moeilijker was dan verwacht mocht worden.

De gegevens waarop je je dan wél kunt baseren voor het vaststellen van de cesuur zijn afkomstig van eerdere toetsafnamen, en laten we om te beginnen uitsluitend kijken naar de gegevens van de toets die direct na afloop van de voorgaande cursus werd afgenomen. De resultaten van deze toets worden nu geanalyseerd.

Om de analyse zo zinvol mogelijk te laten zijn worden op voorhand de resultaten verwijderd van al dle deelnemers die op één of andere wijze buiten de 'normale' groep studenten vallen. Iedere studierichting zal zo wel zijn eigen problemen kennen waar het gaat om enigszins bijzondere categorieën studenten. Denk aan buitenlanders (waarbij de toetsresultaten beïnvloed kunnen zijn door taalproblemen), herkansers, studenten met afwijkende vooropleiding, degenen die het tentamen niet als hoofdvaktentamen afleggen maar als bijvak, etcetera.

Verkenners vormen een heel speciale categorie: studenten die niet serieus deelnemen, maar alleen eens deelgenomen willen hebben om inzicht te krijgen in wat er zoal gevraagd wordt. Door het geven van goede voorlichting kan voorkomen worden dat studenten naar dit toch wel extreme (maar niet ongebruikelijke) middel moeten grijpen om enig 'zicht' op het tentamen te kunnen krijgen. Zorg er ook voor dat de kwaliteit van de toetsvragen op behoorlijk peil staat (zie Wilbrink 1979) 1) zodat door een goede aansluiting op onderwijs en voorlichting de student er ook op kan vertrouwen dat hij goed voorbereid op de eerste toetsgelegenheid kan verschijnen.

De kursus Toetsen uit 1979 is , wat het ontwerpen van vragen betreft, vervangen door de 1983 Aula 809 'Toetsvragen schrijven', nu geheel online.

Het middel bij uitstek is natuurlijk de proeftoetsgelegenheid: enige tijd vóór de eigenlijke toets te geven. Dat hoeft geen grote voorbereiding te kosten. Stel een toets samen die in aantal vragen en in kwaliteit te vergelijken is met de af te nemen toets, en laat studenten zélf de scoring verrichten aan de hand van de daartoe verstrekte scoringssleutel.

Wanneer ondertussen gegevens beschikbaar zijn over studenten die sindsdien de studie gestaakt hebben, is het aan te raden ook de toetsresultaten van deze studenten buiten de analyse te houden. Het is niet gezegd dat zij zich niet goed en serieus op de toets voorbereid zouden hebben, maar het is evenmin onwaarschijnlijk dat het staken van de studie ten tijde van het afleggen van de toets al overwogen werd, en de studiemotivatie op een wat lager pitje stond. Ook studenten die hebben moeten afhaken omdat de studie hun capaciteiten of hun bereidheid tot extra hard werken te boven ging, worden dan buiten de analyse gehouden, en ook dat lijkt terecht, bezien naar het doel van de analyse.

3.9 Introductie van de gegevens van een voorbeeld

Veronderstel dat de gegevens van de laatst afgenomen toets er na de screening (par. 3.8), en na groepering-per-score eruit zien als in het volgende tabelletje. Om deze gegevens beter te kunnen visualiseren kun je er ook een tekening van de empirische frequentieverdeling van maken: zie de figuur.

scores van 200 studenten op een toets van 46 vragen:

score  21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 
aantal  1  2  4  6  3  5  8 11  9 21 22 18 13 15 10  9  7 12 12  5  5  1  1

Figuur 3.8 Gefitte en empirische frequentieverdeling voor toets van 46 vragen, 200 studenten.

noot 2002. Plot gemaakt met programma Algemeen Toetsmodel, invoerfile met de empirische data voor de empirische verdeling, proeftoets 24 goed uit 34 voor de theoretische. De plot als histogram komt beter overeen met het karakter van de verdelingen als frequentieverdeling, dan de oorspronkelijke afbeelding in het cursusboek Toetsen. Rood; empirisch, volgens de data in bovenstaade tabel; groen: theoretisch.

De scores in figuur 3.8 zijn gebaseerd op reële gegevens, die echter niet 'gescreend' konden worden omdat mij daarvoor de nodige gegevens niet ter beschikking stonden. Daarom kan het zijn dat de lage scores voor een deel bestaan uit resultaten van studenten die bij een screening er uit gevallen zouden zijn, en misschien geldt dat ook gedeeltelijk voor de hogere scores waar een aantal herkansers kunnen zitten die een studie-strategie 'op-zeker-spelen' gevolgd hebben.

Het eerste wat je met dergelijke data doet is het gemiddelde en de standaarddeviatie berekenen (zie ook 'Toetsen', par 8.6). De standaarddeviatie is een maat voor het gespreid zijn van de scores. Wie over een calculator beschikt die bij één keer intikken van alle getallen beide grootheden berekent kan ze al wel heel snel met de hand berekenen. Het resultaat:

gemiddelde = 32,325

standaarddeviatie = 4,6615 ( kursus 'Toetsen', opgave 34, p. 121, 138 ).

3.10 Interpretatie van het gemiddeide toetsresultaat.

Het gemiddeide toetsresultat, in dit geval 32,325 dus ongeveer 70%, is een goede aanwijzing van wat er gemiddeld bij deze groep deelnemers met het onderwijs bereikt is. Dat is een niet helemaal vanzelfsprekend resuitaat, vandaar dat ik er twee opmerkingen over wil maken.

In het voorgaande is er telkens een zorgvuldig onderscheid gemaakt tussen de stofbeheersing, die gedefinieerd is op de totale (denkbare) vragenverzameling, en het toetsresultaat, dat is de score (aantal goed) op een steekproef uit diezelfde vragenverzameling. De toetsscore zal in het algemeen dan ook niet gelijk zijn aan de stofbeheersing.

Spreek je echter over gemiddelden, dan geldt dat de gemiddelde toetsscore (over het aantal deelnemers gemiddeld) de beste schatting is voor de gemiddelde stofbeheersing.

Een schatting kan er natuurlijk ook naast zitten (zit er in de regel ook iets naast), en wie antwoord wil hebben op de vraag hoe ver de schatting er in een geval als het onderhavige 'naast' kan zitten, naast 'de werkelijkheid', verwijs ik naar de statistische literatuur (het gaat dan om de steekproefverdeling van gemiddelden). In deze tekst moeten we proberen genoegen te nemen met deze eenvoudige schatting van het stofbeheersings gemiddelde.

De tweede opmerking betreft degenen die onvoldoende scoren, en de toets later tenminste nóg eens een keer hebben gedaan. Betreft dat studenten die zeggen wel voldoende voorbereidingstijd te hebben gehad (naar eigen zeggen vóór de toetsafname), dan kun je veronderstellen dat zij voor de herkansing zullen streven naar ongeveer hetzelfde beheersingsniveau. Onder deze veronderstelling is het mogelijk het uiteindelijke onderwijsresultaat te schatten uit de resultaten van de eerste-opkomst-toets. Daarmee wordt ook de complicatie vermeden dat de resultaten van herkansingen een scheef beeld geven: er wordt immers net zo lang doorgegaan met herkansen totdat een voldoende is gescoord, zodat herkansingsresultaten een te gunstig beeld van de onderwijsresultaten zouden geven.

Voor bespreking van wat de strategic van studenten is voor opkomst voor herkansingen verwijs ik naar Studiestrategieën hfdst. 6 (Wilbrink, 1978).

Vergelijk dan nu het gemiddelde toetsresultaat met minimum- en streefniveau zoals je dat voor jezeif bepaald hebt. Op grond van deze vergelijking valt nog niet veel te concluderen: het gemiddeld studieresultaat zal meestal wel onder het streefniveau bliiven, maar daaruit volgt nog niet dat dan de cesuur maar verhoogd moet worden...... Daarvoor heb je eerst nog enkele andere gegevens nodig, over de spreiding van de stofbeheersing, waar we nu aandacht aan zullen schenken, en aan tijdbestedingsgegevens, die later aan de beurt komen.

3.11 Redeneren van toetsresuitaten naar stofbeheersing.

Bekijk je de empirische scoreverdeling van figuur 3.8 dan zou je kunnen zeggen dat de scores op deze toets sterk gespreid zijn, en dat zal dan ook wel voor de stofbeheersing gelden? Daar komt nog bij dat het hier om een meerkeuzetoets gaat met vierkeuzevragen. Die indruk is echter nogal bedrieglijk.

De toets is op te vatten als een steekproef uit de (denkbare) vragenverzameling. Dat betekent dat de score voor een student met een bepaalde stofbeheersing enige fluctuatie zal vertonen over verschillende van dergelijke steekproeven heen, terwiji toch de stofbeheening gelijk blijft. Uitvoerig is dat behandeld in 'Studiestrategieën' hfdst. 2.

Je kunt je daar een klein beetje een voorstelling van maken door te bedenken dat voor een student met een stofbeheersing van 70% geldt dat voor iedere vraag uit de toets de kans dat hij hem goed kan beantwoorden gelijk is aan 0,7. Dat is het toevalselement dat in deze vorm van toetsing nu eenmaal meespeelt, en dat alleen te vermijden is door iedere student de hele vragen-verzameling te laten beantwoorden, of tenminste een bijzonder omvangrijke steekproef daaruit. Maar daar zouden de kosten te groot voor worden.

Omdat de toetsscore voor iedere student slechts bij benadering een aanwijzing vormt voor zijn werkelijke stofbeheersing, is het te begrijpen dat de verdeling van stofbeheersing minder gespreid is dan de empirische scoreverdeling, een kleinere standaard afwijking heeft. Het toevalseelement dat bij de toetsing zijn lelijke kop laat zien voegt immers aan die spreiding van stofbeheersing iets toe in het proces van 'vertaling' van stofbeheersing naar toetsscore.

Je kunt het ook anders formuleren: zo'n (theoretische) verdeling van stofbeheersing brengt de empirische scoreverdeling voort, en omdat voor iedere persoon de toetsscore naar links of naar rechts of kan wijken van zijn stofbeheersing, zal die gegenereerde empirische verdeling breder zijn, een grotere spreiding hebben.

De (theoretische) verdeling van stofbeheersing over de groep studenten is nimmer waar te nemen, en je kunt er dus ook niet achter komen hoe die verdeling er precies uitziet. Wie nu niet onmiddellijk bij deze pakken neer gaat zitten, en nadenkt over een mogelijke uitweg om tenminste bij benadering iets verstandigs over die theoretische verdeling van stofbeheersing te kunnen zeggen, zou het volgende kunnen bedenken: als ik een verdeling kan construeren waarvoor geldt dat die met redelijke waarschijnlijkheid de waargenomen scoreverdeling voortgebracht zou kunnen hebben, dan is die verdeling voorlopig goed bruikbaar als benadering.

Meer gedetailleerd wordt op deze schatting van onderliggende ware scoreverdeling, zoals die verdeling vaak genoemd wordt, in hoofdstuk 8 van 'Toetsen' ingegaan. Van de resuitaten uit dat hoofdstuk kan gebruik gemaakt worden om in het hier gebruikte voorbeeld de theoretische verdeling voor stofbeheersing op te stellen, en uit te tekenen.

Om te beginnen wordt dan een benadering van de empirische scoreverdeling gezocht, zodanig dat die verdeling wiskundig beschreven kan worden. Voor toetsrsultaten blijkt de beta-binomiale verdeling (ook wel negatief hypergeometrische verdeling genoemd) een goede kandidaat te zijn. Schrik niet van het jargon, met die BeBi zoals hij afgekort wordt zullen we ons verder niet bezig houden. Hij is slechts nodig als tussenstapje.

In 'Toetsen' p. 139 is de best passende BeBi berekend, en getekend. De BeBi wordt gekenmerkt door drie parameters, waarvan de laatste eenvoudig het aantal toetsvragen is, en de beide eerste de vorm van de verdeling bepalen. Deze werden voor onze gegevens geschat op 24 en 10 resp., afgerond op gehele getallen. Zodat BeBi(a, b, n) = BeBi(24, 10, 46).

De theoretische verdeling die gezocht wordt hoort tot de familie van de beta verdeling, met dezelfde parameters die we zojuist ontmoetten, zonder die voor het aantal toetsvragen. Zodat de gezochte theoretische verdeling is Be(a, b) = Be(24, 10).

Voor de volledigheid, de waarde van parameters a en b zijn verkregen uit gemiddelde en standaard deviatie van de empirische toetsscore verdeling, volgens formule 17 in 'Toetsen' hfdst 8.

Deze theoretische verdeling is weergegeven in figuur 3.9. 1)

noot 1. zie voor schattingsformules de laatste paragraaf van dit hoofdstuk.

79gif/79.8.35b.jpg

Figuur 3.11 Thheoretische verdeling van stofbeheesing over de groep van 200 studenten. Bètaverdeling met parameters a=24 en b=10.

3.12 Interpretatie van de spreiding van de toetsscores.

De interpretatie van de spreiding van de toetsscores kan alleen maar zinvol gebeuren wanneer je dat relateert aan de theoretische verdeling van de stofbeheersing. De reden daarvoor, zoals in de voorgaande paragraaf besproken, ligt in het feit dat de empirische scoreverdeling altijd meer gespreid is dan de verdeling voor de stofbeheersing. p>
Laten we dat eens nagaan, want beide verdelingen zijn nu bekend. p>
Voor de empirische scoreverdeling vonden we
gemiddelde = 32,325 (in toetsscore eenheden) = 70,27 % standaard afwijking = 4,66 ,, ,, ,, ,, ) = 10,13 %

Voor de Be(24,10) is met behulp van formules (3) en (4) par. 3 te berekenen:
gemiddelde = 70,59 %
standaard afwijking = 7,70 %

De gemiddelden verschillen jets vanwege de afronding die voor de beta verdeling parameters is gemaakt.

De standaardafwijking voor de verdeling van stofbeheersing is aanzienlijk kleiner dan die voor de empirische toetsscores.

Kijk je naar figuur 3.9 dan kun je zeggen dat vrijwel alle scores liggen tussen 23 en 41, ofwel 50% en 89%.

Uitfiguur 3.11 lees je af dat bijna alle studenten een stofbeheersing hebben tussen 55% en 85%.

De situatie met betrekking tot de stofbeheersing, die wordt weergegeven in figuur 3.11, kun je nu wederom vergelijken met je waarderingsfunktie, en in het bijzonder met minimumniveau, streefniveau, en ideaalniveau.

Er is zeker iets voor te zeggen, vanwege de eenvoud van de vergelijking, om een stofbeheersingsfunktie te konstrueren die je direkt kunt afbeelden naast de waarderingsfunktie. De cumumulatieve funktie leent zich daar goed voor, dat is de funktie die het relatieve aantal studenten met een stofbeheersing kleiner dan een bepaalde waarde, aangeeft. Die funktie heeft een S-vorm, en dat is dezelfde vorm als de waarderingsfunktie in figuur 3.6.2

Je zou dan kunnen zeggen dat een heel goed onderwijsresultaat overeenkomt met de situatie waarbij beide funkties elkaar snijden op ongeveer het streefniveau, en de cumulatieve stofbeheersingsfunktie de steilste van de twee is. Laten we eens zien hoe dat in het voorbeeld uit zou kunnen pakken.

Deze cumulatieve funktie is wel te berekenen, maar dat is een tijdrovend karwei. Omdat bovendien de waarderingsfunktie ook niet erg nauwkeurig zal zijn, is het doenlijk om de funktie een beetje uit de losse hand te tekenen op grond van de gegevens die je uit figuur 3.11 kunt halen.

Uit figuur 3.11 lees je af op welk niveau ongeveer de funktie 'begint', hoewel beginnen slecht uitgedrukt is omdat de funktie de horizontale as als asymptoot heeft. Het gaat om de plaats waarbeneden nog heel weinig gevallen voorkomen.

Op dezelfde wijze localiseer je de plek waarboven nog maar weinig gevallen voor zullen komen, daar raakt de funktie aan de horizontale lijn gelijk 1 (tenminste in de figuur, omdat nauwkeurig gezegd de funktie hier de horizontale lijn gelijk 1 als asymptoot heeft).

Het punt van de sterkste helling wordt bereikt waar de modus van de verdeling van figuur 3.11 ligt, niet waar het gemiddelde ligt. Dat maakt niet zoveel uit, ze liggen dicht bij elkaar die twee. De modus is 71,9 %, zoals berekend uit de volgende formule:

modus van Be(a, b) is gelijk (a-1)/(a+b-2)

Omdat je ook weet dat deze funktie een geleidelijk verloop heeft, is hij nu te schetsen. [NB: in de originele tekst p. 38 is die S-curve geschetst: 'Cumulatieve stofbeheersing over 200 studenten, gebaseerd op de verdeling van figuur 3.11'; ik laat hem in deze transceiptie weg, hij voegt weinig toe aan figuur 3.11]

In dezelfde figuur zou je dan je waarderingsfunktie kunnen zetten.

Ook nu de spreiding van de toetsresultaten in ogenschouw is genomen vallen er geen evidente gevolgtrekkingen te maken m.b.t. de vraag of de cesuur bij voorkeur omhoog of omlaag geschoven kan worden. Daar zijn ook tijdbestedingsgegevens voor nodig, en dat is ons volgende onderwerp. Voordat de tijd zout op de staart gelegd gaat worden wil ik dan nog even de situatie bespreken zoals die er vanuit de gezichtshoek van de studenten uitziet: voor de docent is het dan wel van belang te weten wat zijn onderwijsresultaat globaal is geweest of zal zijn, maar wil hij veranderingen in zijn beleid gaan aanbrengen en dat realiseren via het studiegedrag van de student, dan is er nog een probleempje. De student kent zijn eigen stofbehoersing maar bij benadering, zodat ondanks alle moeite die we ervoor gedaan hebben die figuur 3.11 misschien maar van beperkte betekenis is ......... .

3.13 Spreek de student niet aan maar op zijn stofbeheersing, maar op zijn streefniveau (studiestrategie).

De student kent zijn eigen stofbeheersing niet, tenminste niet exact. Wat de student denkt dat zijn beheersing waarschijnlijk is, zal in de regel enigszins van 'de werkelijkheid' afwijken. Wanneer je dan kijkt naar de hele groep studenten, en je vraagt je af hoe zij, voorafgaand aan de toetsafname, denken dat hun stofbeheersing is, dan kun je ook daar weer een theoretische verdeling voor opstellen. En om dezelfde reden waarom de verdeling voor de stofbeheersing minder gespreid is dan de empirische toetsscoreverdeling, is op zijn beurt de verdeling voor 'subjectieve stofbeheersing' minder. gespreid dan die voor 'ware stofbeheersing'.

Voordat ik nu een en ander concreet ga uitwerken wil ik er even bij stilstaan waarom het van belang kan zijn om naar die subjectieve stofbeheersing te kijken. Denk je eens het extreme geval in dat Alle studenten hun stofbeheersing, voorafgaand aan de toetsafname, op hetzelfde niveau zouden schatten. (Schatting is hier bedoeld als de meest waarschijnlijke waarde voor de eigen stofbeheersing). Wat zie je dan gebeuren met de verdeling voor de toetsscores? Op het eerste gezicht niets bijzonders: die hebben een behoorlijke spreiding, en zijn zeker niet alle aan elkaar gelijk. Wat gebeurt er met de theoretische verdeling voor de (ware) stofbeheersing die op grond van de empirische resultaten geschat wordt?

Ook daar lijkt niets mee aan de hand: deze verdeling zal ook een redelijke spreiding vertonen, misschien niet zo ruim als de verdeling in figuur 3.11, maar er is spreiding aanwezig.

Hoewel alle studenten in dit denkbeeldige voorbeeld hun eigen stofbeheersing op hetzelfde niveau schatten, zou in deze situatie de docent die zijn gegevens analyseert toch kunnen concluderen dat er behoorlijke verschillen tussen de studenten bestaan, en gaan zoeken naar beleidsmaatregelen om die verschillen in een gewenste richting te verkleinen.

Met andere woorden: je loopt het risico maatregelen te nemen, kostbare maatregelen misschien, die bedoeld zijn om een effect te bereiken dat in werkelijkheid al bestaat.....

Verschillen tussen studenten zijn meestal groot in termen van toetsscores (maar zie het voorbeeld in par. 3.1); verschillen tussen studenten lijken meestal ook nog aanzienlijk in termen van (ware) stofbeheersing; maar of studenten, voorafgaand aan de toetsing, ook verschillend denken over de stofbeheersing die ze bereikt hebben, dat staat dan nog te bezien. Hoe je dat kunt 'bezien', dat is het onderwerp van deze paragraaf.

FIGUUR 3.13 Relatie tussen spreiding in toetsscores, en spreiding in ware en subjectieve stofbeheersing.

In de situatie zoals geschetst in figuur 3.11 schatten de studenten voorafgaand aan de toetsing hun stofbeheersing allen tussen de 60 en 70 %.

In werkelijkheid zal voor iedere student zijn ware stofbeheersing niet gelijk zijn aan wat hij of zij denkt dat zijn stofbeheersing waarschijnlijk is, en dat werkt uit in de vorm van een verdeling voor 'ware' stofbeheersing die een grotere spreiding heeft, die 'breder' is dan die voor de subjectieve stofbeheersing: tussen de 55 en 75 %.

De toets is een onnauwkeurig meetinstrument voor die 'ware' stofbeheersing: de toetsscore wijkt in de regel iets af naar onder of naar boven, zodat de empirische verdeling van de toetsscores weer een groter spreiding heeft, breder is, dan de verdeling voor 'ware' stofbeheersing, en wel des te meer zo naarmate het aantal vragen waaruit de toets bestaat geringer is. Hier vallen de toetsscore tussen ongeveer 45 en 85, omgezet in percentage 'goed'.

Bedenk dat wat de student dénkt dat zijn stofbeheersing is ook bepalend is voor zijn studieactiviteiten, het is voor hem het belangrijkste gegeven op basis waarvan hij kan bepalen of hij al 'rond' is met zijn voorbereiding, of nog een extra inspanning moet plegen.

De docent is, zoals gezegd, in de eerste plaats geïnteresseerd in wat hij met zijn onderwijs bereikt heeft, en dat wordt weergegeven door de verdeling voor 'ware' stofbeheersing. Maar wil hij een beleid voeren om in dit opzicht zijn onderwijs misschien nog te verbeteren, dan heeft de docent wel degelijk te maken met de verdeling voor subjectieve stofbeheersing, want daar grijpt hij met zijn beleid op aan.

Een methode om de subjectieve stofbeheersing te schatten uit de empirische toetsscoreverdeling wordt uitgewerkt in bijlage D. Er zijn daarbij nogal wat veronderstellingen nodig, die maken dat resultaten met enige voorzichtigheid te gebruiken zijn. De stelregel is echter dat tenminste énige aanwijzingen over de verdeling van subjectieve stofbeheersing beter zijn dan helemaal géén aanwijzingen: verschaffen de analyseresultaten inzicht waar dat voordien ontbrak, dan is de analyse waarschijnlijk de moeite waard geweest.

Een kritische veronderstelling die gemaakt moet worden is: hoe nauwkeurig schat de student zijn stofbeheersing? Je kunt die nauwkeurigheid d.m.v. onderzoek bepalen, maar dat is nogal omslachtig. Een andere weg is: maak zelf een gissing hoe nauwkeurig studenten hun stofbeheersing kunnen schatten door de vergelijking met een proeftoetsresultaat te maken.

Het resultaat op een proeftoets geeft een aanwijzing hoe het met je eigen stofbeheersing ongeveer staat. Had je er vóór die tijd geen flauw idee van, dan kun je zeggen dat het proeftoetsresultaat alle informatie bevat over je eigen stofbeheersing. En dan geldt: hoe uitgebreider die proeftoets was, des te beter is je informatie.

Als docent kun je dan als volgt redeneren: veronderstel nu eens dat alle studenten ongeveer even nauwkeurig zijn in de schatting van de eigen stofbeheersing. In werkelijkheid is dat natuurlijk nimmer het geval, maar het is een benadering waar je misschien heel goed mee uit de voeten kunt.

Welnu, veronderstel dan eens dat de nauwkeurigheid van die schatting, van dat eigen inzicht van de student, overeenkomt met de informatie die een proeftoets van 46 vragen oplevert. Of een proeftoets van 92 vragen. Dat maakt nogal enig verschil, en omdat je niet goed weet welke veronderstelling beter is, ga je na hoe de subjectieve verdeling voor stofbeheersing er onder beide veronderstellingen uitziet.

Met behulp van de formules uit bijlage D kun je dan voor de empirische gegevens uit ons voorbeeld berekenen dat de gezochte (beta)verdeling voor 'nauwkeurigheid' gebaseerd op die proeftoets van 46 vragen gelijk is Be(2424, 1173), dat is een verdeling met de uiterst kleine spreiding van 0,8%. Dat betekent dat alle studenten hun stofbeheersing voorafgaand aan de toets vrijwel gelijk schatten op ongeveer 68 %. Dat is een onwaarschijnlijk resultaat, een resultaat dat ook niet aan de gebruikte techniek ligt, en waaruit geconcludeerd kan worden dat studenten kennelijk de eigen stofbeheersing nauwkeuriger schatten dan wanneer de enige informatie het resultaat op een proeftoets van 46 vragen zou zijn.

Veronderstel je een dubbel zo omvangrijke proeftoets, dan kom je uit op de Be(40, 17), en die heeft een spreiding van 6 %. Dat ziet er heel wat reëler uit, en deze Be(40, 17) zou dan ook voorlopig aangehouden kunnen worden als de schatting voor de verdeling van subjectieve stofbeheersing over studenten. Bedenk dat de spreiding van de verdeling in figuur 3.11 uit-komt op 7,7 %, zodat de subjectieve stofbeheersing een nogal wat smallere verdeling heeft dan de 'ware' stofbeheersing. Je kunt dan ook zeggen dat de meeste studenten hun stofbeheer-sing schatten tussen 60% en 80%, en zouden in werkelijkheid wat minder nauwkeurig zijn dan nu verondersteld, dan is dat bereik nog wat korter.

In de 80er jaren heb ik uitvoerige gegevens in de propedeuse van zowel tandheelkunde als rechten aan de UvA verzameld in het kader van schriftelijke-raad-projecten, met o.a. schatting van het te ehalen cijfer voor de tentamens, en van de bestede tijd in de voorbereiding. Daarover is o.a. ook in 1992 gerapporteerd. Dat zijn gegevens die ik voor een herziening van deze cursus cessurbepaling zeker ga gebruiken. Zo is er op meerdere plaatsen sprake van de mogelijkheid om later verkregen empirische gegevens in te zetten.

42 Dit resultaat met betrekking tot de verdeling van subjectieve stofbeheersing over de groep van deelnemers aan de 1e toetsgelegenheid lijkt nogal theoretisch. Wat daarbij bovendien een beetje zorgelijk kan zijn is de veronderstelling over de nauwkeurigheid waarmee de student zijn eigen stofbeheersing schat. Is er geen mogelijkheid om dit theoretisch verkregen resultaat te vergelijken met concrete gegevens?

Die mogelijkheid is er inderdaad. Wanneer je de studenten, voorafgaand aan de toetsafname, kunt vragen wat zij denken dat de eigen stofbeheersing is, dan zou je de verkregen antwoorden in een empirische frekwentieverdeling uit kunnen zetten, en deze empirische verdeling vergelijken met de theoretisch voorspelde verdeling. Of eigenlijk gaat het omgekeerd, omdat de theoretsche verdeling immers afgeleid wordt uit de toetsresultaten.

Bedenk nu dat voor de individuele student geldt dat de meest waarschijnlijke eigen stofbeheersing gelijk is aan de meest waarschijnlijke toetsscore die hij verwacht te behalen (wanneer beide procentueel genomen worden).

Vraag de student naar de toetsscore die hij het meest waarscnijnlijk denkt te behalen. Zet de antwoorden van alle deelnemers uit in een empirische verdeling op dezelfde wijze als je dat voor de toetsscores zelf doet (zie figuur 3.8 [oud]). Vergelijk deze verdeling met de theoretische verdeling voor subjectieve stofbeheersing door deze laatste in dezelfde figuur in te tekekenen, of door de gemiddelden en standaard afwijkingen van beide te berekenen en met elkaar te vergelijken.

3.14 Het verzamelen van tijdbestedingsgegevens.

Gegevens over tijdbesteding van student bij de voorbereiding op de toets moeten op eenvoudige wijze te verzamelen zijn, en hoeven niet erg nauwkeurig te zijn.

Eenvoud bij het verzamelen is nodig, omdat je voorafgaand aan de toetsing niet te veel tijd en aandacht van de deelnemers kunt vragen om een uitgebreide vragenlijst in te vullen. Tijdschrijf-methoden, waarbij studenten dagelijks hun tijdbesteding noteren en opsturen aan de onderzoeker, zijn al helemaal niet uitvoerbaar voor de docent, gesteld al dat de grotere nauwkeurigheid die dan bereikbaar is ook gewenst zou zijn.

Het moet dus kunnen met één of twee vragen, waarbij een globale aanduiding van de tijdbesteding gevraagd wordt. Een paar mogelijke formuleringen voor dergelijke vragen zal ik geven.

Voor de latere projecten 'schriftelijke raad' bij tandheelkunde en rechten is een eenvoudig vragenlijstje gebruikt dat prima bruikbaar is]

Nauwkeurigheid is niet nodig, omdat het de bedoeling is de tijdbestedingsgegevens voor de hele groep deelnemers samen te nemen. Ook wanneer er nogal grove onnauwkeurigheden in iedere individuele tijdsopgave schuilen, kan het gemiddelde over de groep een heel goede aanwijzing voor de 'werkelijk' geïnvesteerde studietijd opleveren. Daarbij blijft echter wel het risico van een stelselmatige vertekening bestaan. Het is mogelijk dat studenten hun tijdbesteding plegen te onderschatten wanneer ze over een periode van meerdere weken moeten terugkijken. Een meer stelselmatige overschatting kan ontstaan wanneer studenten op niet helemaal edele motieven opzettelijk wat hogere schattingen geven. [daarvan is in de latere projecten 'schriftelijke raad' overigens niets gebleken, bw]

Of stelselmatige misschatting ook voor het gebruik dat de doceent van deze gegevens gaat maken een probleem oplevert, valt dan nog te bezien. Er zijn situaties waarin dat waarschijnlijk toch niet hinderlijk hoeft te zijn, zoals bij vergelijking van de studietijden over meerdere cursussen heen, of wanneer studietijden voor het ene vak vergeleken worden met die voor andere vakken, in hun onderlinge relatie ook tot de programmatisch vastgestelde tijdvakken

Ik wil hier desondanks waarschuwen tegen het al te makkelijk gelijkstellen van tijdbestedingsgegevens verkregen via enketevragen, met klokketijd. De tijd die volgens het studieprogramma voor een bepaald vak is uitgetrokken is klokketijd. Of tijdbestedingsresultaten met klokketijd gelijkgesteld kunnen worden, eventueel m.b.v. een correctiefactor, vereist een tamelijk ingewikkelde onderzoekprocedure waarbij in enigerlei vorm van tijdschrijven door de studenten sprake is.

Een vergelijking van gemiddelde tijdbesteding met de 'klokkenuren' moet dan ook uiterst voorzichtig gemaakt worden. Voor die voorzichtigheid is trouwens nog een reden: er zijn nogal forse verschillen tussen studenten in de hoeveelheid tijd die aan de tentamenvoorbereiding besteed wordt, zodat alleen het gemiddelde een te armzalig gegeven is voor het voeren van een verstandig beleid.

44 Er zijn verschillende mogelijkheden voor het inkleden van de vraag naar bestede voorbereidingstijd. Laat het van de eigen specifieke situatie afhangen welke formulering je kiest. Ikgeef een paar suggestieve voorbeelden.

Maak een globale schatting van het aantal uren dat je aan de voorbereiding op deze toets hebt besteed. Laat collegebezoek daar buiten.

De ervaring leert dat van de hier genoemde alternatieven de hoge en lage tijdbestedingen geen uitzonderingen vormen. Streep het alternatief aan dat jouw schatting bevat.

0-50 uur
50-60
60-70
70-80
80-90
90-100
100-110
110-120
130 of meer

Maak een globale schatting van het aantal uren dat je per dag gemiddeld can de voorbereiding op deze toets hebt besteed, en geef aan hoeveel dagen ongeveer je aan de voorbereiding besteed hebt.

(aantal) ......... uur per dag

(aantal) ......... dagen

Aileen voor degenen die al eerder deze toets hebben afgelegd: Maak een globale schatting van het aantal uren dat je besteed hebt aan het bestuderen van de stof voor deze herkansing. Streep het alternatiel. aan waarbinnen jouw schatting valt.

0-20 uur
30-30
30-40
40-50
50-60
60 of meer

Alleen voor wie deze toets al eerder aflegde:

Maak een globale schatting van het aantal uren dat je aan de voorbereiding op deze herkansing hebt besteed, zo mogelijk verdeeld als

tijd besteed aan het 'ophalen' van de stof zoals je die eerder al kende
(aantal) ...... uur
b. extra tijd besteed om tot een betere beheersing van de stof te komen dan bij de eerdere toetsgelegenheid
(aantal) ..... uur

of anders gewoon de totale voorbereidingstijd: (aantal) ....... uur

Nauwkeuriger schattingen kun je verkrijgen door dezelfde vraag te herhalen voor een paar duidelijk onderscheiden onderdelen van de hele tentamenstof.

Tenslotte, wie belangstelling heeft voor meer sophisticated technieken voor het meten van tijdbesteding ken deze beschreven vinden in o.a. Crombag, Meuwese en Roskam c1973), Everwijn en Willemsen (1970), Everwijn en Muggen (1973), terwijl Everwijn 1977) enkele behartenswaardige opmerkingen maakt over de waarde van tijdbestedingsonderzoek voor het beleid. p>
3.15 Introductie van de gegevens van het voorbeeld. Vraag je, voorafgaand aan de toetsing, om een globale schatting van de bestede studietijd, dan kun je voor de groep studenten de toetsresultaten plotten tegen de tijdbesteding. Figuur 3.15 laat aan gefingeerde data zien hoe de resultaten er uit zouden kunnen zien. Je mag verwachten dat een patroon als dat in figuur 3.15 tamelijk algemeen is, maar dat in specifieke onderwijssituaties ook heel afwijkende potranen,gevonden kunnen worden. De 'data' in figuur 3.15 duiden op een Licht positief verband: harder werkende studen-ten scoren jets hoger, een resultaat dat bijv. door Cohen-Schotanus en Mooiweer (1979) werd gevonden. Merk ook op dat onder de groep 'gezakten' de spreiding in tijdbesteding erg groot is.

-----------------------------------------------------------
   tijd:    50- 60- 70- 80- 90- 100-110-120-       rij-
score   <50  60  70  80  90 100 110 120 130 meer   totaal
-----------------------------------------------------------
43                     1                              1
42                                 1                  1
41                 1   1       2       1              5
40             1               3   1                  5
39                 1   3   1   2   2   1   1   1     12
38             1   1   1   2   4   2       1         12
37                 3       1   1   1           1      7
36             1   2   4       1       1              9
35             2       2   2       2       2         10
34         2   2       3   4   1   1       1   2     15
33             1   3   2   3   1           3         13
32         2       5   2   4   1           2         18
31             2   5   3   7   3       2             22
30         2   3   2   4       4   1   1   2         21     
cesuur - - - - - - - -- - - - - - - - - - -- - - - - - - -  
29         1   1           3   1   1        1   1     9
28             3   1   2       1   2        2        11
27             2   1           2   2   1              8
26         1               1       2        1         5
25         1           2                              3
24         1   2           1           1        1     5
23         1           1       2                      4
22                 1           1                      2
21                     1                              1
----------------------------------------------------------
kolom
totaal     11  22  25  33  29  31  19   8  16   6   200
----------------------------------------------------------

Figuur 3.15 Toetsresultaat en tijdbesteding bij 1e opkomst (gefingeerde gegevens)

De cesuur voor deze toets lag op de score 30. Wanneer deze cesuur niet tevoren aan de studenten bekend gemaakt zou zijn, zou je op grond van de data kunnen vermoeden dat de docent hier wel eens de score 31 als cesuur in gedachten had kunnen hebben, waarna de 21 deelnemers met score 30 toch maar het voordeel van de twijfel is gegeven. Een handelwijze die nog zo gek niet is, ook ln geval van tevoren afgesproken was dat 31 de cesuur zou zijn. Door toevalligheden kan bij zo'n vaste afspraak een groep studenten wel eens op het randje veroordeeld worden tot herkansen, en dan is het verstandiger achteraf de cesuur die kleine aanpassing te geven waarbij veel overbodige extra studieinspanning voorkomen kan worden. Je kunt dat zeker doen in al die gevallen waarin je mag aannemen dat studenten zich behoorlijk op de toetsing hebben voorbereid, rekening houdend met de cesuur zoals die afgesproken was, rekening houdend dus ook met de daaraan corresponderende minimale stofbeheersing. Dit even als tussen-door-tje.

Tijdbesteding bij herkansingen. De student die zich behoorlijk op de toetsing heeft voorbereid loopt altijd een bepaaide kans om desondanks een score te behalen die beneden de cesuur ligt. Dat betekent dat voor de meeste studenten herkansingen er gewoon bij horen, dat de docent de herkansing en alles wat daaraan vastzit ook tot de gewone, geprogrammeerde, studieactiviteiten moet rekenen.

Dat betekent dat de vraag hoeveel tijd studenten gemiddeld besteden aan dit vak alleen juist beantwoord kan worden wanneer daar de tijd nodig voor herkansingen bij betrokken wordt.

Op blz. 30 daarom de (gefingeerde) toets- en tijdgegevens voor de 49 deelnemers die bij de eerste gelegenheid gezakt waren. De totale tijd door deze 49 deelnemers besteed aan de herkansing bedraagt 2285 uur, waarbij telkens het midden van het tijdbestedingsinterval als rekengrootheid is gebruikt. Bijv.: wie aangeeft tussen de 40 en 50 uur besteed te hebben, wordt beschouwd precies 45 uur besteed te hebben. Dat zijn ook de tijdbestedings data zoals op blz. 30 aangegeven.

Het is duidelijk dat je voor meerdere toetsingen geen aardig plaatje meer op kunt stellen zoals figuur 3.15, vandaar de wat onhandige opsomming van alle gegevens per student en per herkansing.

Gereduceerd tot hun gemiddelden en standaardafwijkingen zien de gegevens er wat overzichtelijker uit:

              toetsresuitaten tijdbesteding aantal
              gem. stand.afw. gem. stand.afw. 
le herkansing 31,84 3,914     36,02 15,939   49 
2e herkansing 31,00 1,927     32,86 10,809   14 
3e herkansing 31,50 0,500     30,00  5,000    2
over alle herk.                35,15 14,832  49

  resultaten
  1e opkomst en resp. 1e, 2e en 3e herkansing

    score tijd  score tijd  score tijd  score tijd
 1     25  75      23  25      29  45      32  25
 2     27  95      28  55      27  25      31  35
 3     29  45      29  25      32  15
 4     24  55      29  25      35  25
 5     27  55      27  25      31  15
 6     25  75      26  45      32  35
 7     28  75      28  15      30  25
 8     22  95      24  45      31  45
 9     23  95      26  65      30  45
10     26 105      29  65      31  35
11     27 105      29  65      31  35
12     28 105      28  25      34  25
13     26 125      29  25      30  35
14     28 125      29  65      32  45
15     33  45      32  35
16     24  45      33  15
17     25  45      30  45
18     26  45      33  15
19     24  55      32  25
20     27  55      37  35
21     38  55      33  15
22     28  55      30  15
23     28  55      33  35
24     22  65      40  55 
25     27  65      30  15
26     28  65      37  35
27     21  75      31  55
28     23  75      36  65
29     28  75      34  55
30     24  85      36  55
31     26  85      31  15
32     23  95      30  25
33     27  95      31  15
34     28  95      39  25
35     29  95      33  45
36     26 105      30  25
37     27 105      33  35
38     28 105      40  35
39     29 105      36  55
40     24 115      31  55
41     27 115      37  25
42     28 125      30  55
44     24 135      33  35
45     29 135      37  35
46     29  55      35  15
47     29  85      34  35
48     29  85      30  25 
49     29  85      34  45

3.16 Interpretatie van de tijdbestedingsgegevens.

Over de hiervoor weergegeven tijdbestedingsgegevens kun je op verschillende manieren gemiddelden berekenen: allen voor 1e opkomst, alleen voor herkansingen (p. 29 [oud]), over 1e toetsgelegenheden en eventuele herkansingen samen.

Omdat het over tijdbesteding gaat zou je bovendien rekening kunnen houden met de tijd die aan het afleggen van de toets besteed wordt, ook die tijd is de student immers voor dit vak kwijt. Hoewel de toets zelf misschien maar drie uur beslaat, is het redelijk om voor die toetsing een hele dag tijd'verlies' te rekenen. Zo'n toetsing is een enerverende aangelegenheid, dat kost mentale voorbereiding, en na afloop ben je niet meteen weer 'in' voor de volgende onderwijsklus. In ronde cijfers kun je daar 10 uur van maken, ook voor iedere herkansingstoets. Dan kun je het volgende overzicht van diverse berekeningen in elkaar zetten:

----------------------------------------------------------------------------
                                   zonder toetstijd   inclusief toetstijd 
                             aantal gem. stand.afw. gem. stand.afw. 
tijd voor le opkomst: allen     200 84,7 23,36       94,7 23,36 
idem geslaagden                 151 84,8 22,36       94,8 22,36 
idem gezakten                    49 84,4 26,22       94,4 26,22 
tijd nodig om te slagen: allen  200 96,0 34,91      109,1 38,88 
idem gezakten                    49 130,4 43,16     155,2 45,35 
tijd besteed aan heck. : allen  200 11,3 24,00       14,6 29,93 
                                 49 46,2 27,15       59,5 31,37 
----------------------------------------------------------------------------

Het gegeven dat je in eerste instantie nodig hebt is de gemiddelde tijd nodig om te slagen, in dit geval 109,1 uur, waarbij inbegrepen de tijd die met afleggen van de toets etc. gemoeid is.

Deze 109,1 uur vergelijk je met de tijd die volgens het studie-programma voor jouw vak beschikbaar is: alleen de voorbereidingstijd voor de toetsing, en de tijd nodig voor het afleggen etc. van de toets (+ eventuele herkansingen). Ligt deze 109,1 uur ruim onder de programmatijd, en blijft ook het gemiddeld studieresultaat beneden het streefniveau, dan is het tijd om de cesuur voorzichtig te verhogen (of eventueel andere maatregelen te nemen, zoals in hoofdstuk 4 besproken). Je kunt de cesuur dan met één punt verhogen, of een nog kleinere verhoging effectueren door het aantal toets-vragen met één te verminderen.

Wordt de beschikbare tijd overschreden, dan moet op een of andere wijze de studiebelasting teruggebracht worden. Dat kun je doen door de cesuur te verlagen, maar wanneer het gemiddeld studieresultaat niet helemaal bevredigend is kun je beter naar alternatieven zoeken, bijvoorbeeld sneller gelegenheid voor herkansen bieden, vrijstellende deeltoetsen afnemen, e.d. Zie wederom hoofdstuk 4 voor details en meerdere mogelijkheden.

Doet zich het zeldzame geval voor dat de studieresultaten aan de (te) hoge kant zijn, en de tijdbesteding is te laag, dan zal er ook iets aan de onderwijssituatie te sleutelen zijn, maar zijn de mogelijkheden daartoe ook erg ruim.

Zijn de tijdidbestedingsgegevens enigszins ondermaats, en is ook het gemiddeld studieresultaat niet bevredigend, dan is het verstandig om ook andere omstandigheden bij je beslissing te betrekken. Blijkt er op ruime schaal van de herkansingsregeling gebruik gemaakt te worden, dan valt te denken aan toetsverlenging. Wordt er door de meerderheid dicht in de buurt van de cesuur gescoord, dan kun je voor de gezakten op heel korte termijn ('s middags, de volgende dag, een week later) een herkansing geven, of een 'verlengde toetsing'.

Zijn alle andere mogelijkheden al benut, dan kun je weinig brokken maken door de cesuur een klein stapje te verhogen, en de resultaten daarvan maar af te wachten. Voor zo'n maatregel is er natuurlijk geen ruimte wanneer studenten kiagen dat juist voor dit vak er erg hard gewerkt moet worden: dat wijst er op dat de tijdbestedingsgegevens die je verzameld hebt een forse onderschatting van de werkelijk bestede tijd zijn, of dat het in deze studierichting met de tijdbesteding slecht gesteld is in de zin dat deze door de bank genomen sterk achterblijft bij wat het studieprogramma vraagt.

Een complicatie waar altijd op gelet moet worden is de mogelijkheid dat de voorbereidingstijd voor 1e opkomst valt in een hele drukke periode wat andere studieverplichtingen betreft. Zou dat inderdaad het geval zijn, dan is duidelijk dat je je maatregelen moet treffen m.b.t. de opstelling van het studierooster voor de volgende cursus.

De andere gegevens uit de tabel op blz. 31 [oud] kun je gebruiken om bepaalde vragen over de toetsingssituatie te beantwoorden.

Bijvoorbeeld: de tijd die de bij 1e opkomst gezakte studenten nodig hebben om te slagen is gemiddeld 153,2 uur, ofwel 58 uur meer dan de direct geslaagden. Voor de individuele student zou dat kunnen betekenen: als je zakt, dan ben je aan herkansen nog eens half zoveel tijd kwijt als al aan de 1e opkomst besteed was. Dat is erg veel, daardoor kun je met je overige studieprogramma in de knoop komen. Het is helemaal erg veel voor die studenten die voor de voorbereiding bij 1e opkomst al veel tijd nodig hadden, en die waarschijnlijk ook voor andere studieonderdelen veel studietijd moeten investeren. (Als bijlage A is een artikel opgenomen waarbij juist dit aspect van de conjunctieve examenregeling belicht wordt).

De tijd besteed aan herkansingen is ook berekend over de hele groep deelnemers, en is 14,6 uur. Dat is niet het aantal uren dat de student a priori mag verwachten aan herkansen kwijt te zijn: de individuele student is geen replica in het klein van de groep waarvan hij deel uitmaakt. Wil je toch iets zeggen over de tijd die een student mag verwachten aan herkansingen kwijt te zijn, dan moet je die 14,6 bezien in relatie to 94,7 uur voor eerste opkomst. Dan kun je ruwweg zeggen dat de individuele student mag verwachten één zesde deel van zijn voorbereidings- en toetstijd te moeten besteden aan herkansen

In werkelijkheid is het natuurlijk van tweeën één: ofwel je slaagt, ofwel je moet herkansen. Toch is die verwachting heel reëel: de student kan daar bij ieder studieonderdeel wéé mee werken, en als voor al die vakken ongeveer dezelfde getallen zouden gelden dan is de verwachting dat een aantal uren aan herkansen besteed zal worden dat ongeveer één zesde aantal uren besteed aan 1e toetsgelegenheden is.

Heel belangrijk is ook de rol van de spreiding in de tijdbesteding. Wanneer je zegt dat gemiddeld 109 uur nodig is om te slagen, dan is dat nogal een sterke vereenvoudiging. Er is immers de groep direct geslaagden, die het gemiddeld in iets korter tijd doet, en de groep herkansers, die gemiddeld 153 uur nodig heeft. Dat betekent: áls je moet herkansen, dan ben je ook meteen een hoop tijd kwijt.

Je kunt deze vereenvoudiging maken omdat het herkansen gezien wordt als een risico dat iedere student nu eenmaal loopt.

ben je ook meteen een hoop tijd kwijt. Je kunt deze vereenvoudiging maken omdat het herkansen gezien wordt als een risico dat iedere student nu eenmaal loopt. Maar ook binnen onderscheiden groepen komen er grote verschillen in tijdbesteding voor, zoals figuur 3.12 ook liet zien. Met dergelijke verschillen in tijdbesteding zul je rekening moeten houden wanneer het onderwijsprogramma grenzen stelt aan de tijd die de student voor zijn toetsen te besteden heeft. Lopen studenten stuk op die grenzen, dan zul je moeten omzien naar mogelijkheden om het onderwijsprogramma flexibeler te maken. Neem daarom zo mogelijk in je korte enkete voorafgaand aan de toetsing ook de vraag op of er voldoende tijd beschikbaar was om de stof tot op het gewenste niveau te kunnen beheersen (en dat is wat anders dan de vraag of de student op tijd begonnen is met zijn voorbereiding). Met deze gegevens over studieresultaten en tijdbesteding is de toetsingssituatie helder genoeg geworden om de beslissing over dat kleine stapje omhoog of omlaag, of gelijk blijven van de cesuur te kunnen nemen. Iedere cursus weer herhaalt zich deze gang van verzamelen van gegevens, bewerken, interpreteren, en beslissen. Een jaarlijkse routine hoort dat te zijn. Het spreekt vanzelf dat de resultaten ook aan de studenten bekend gemaakt worden, inclusief de overwegingen waarom ervoor is gekozen de komende cursus de cesuur gelijk te houden, te verlagen, te verhogen, of om bepaalde andere maatregelen uit het arsenaal van hoofdstuk 4 te nemen. Aan de hand van deze gegevens kunnen docenten en studenten ook op intelligente wijze met elkaar over de onderwijssituatie spreken.

3.17 De toetsenkete

Verschillende keren is ter sprake geweest dat je voorafgaand aan de toets de student kunt vragen naar zijn tijdbesteding, de score die hij verwacht te krijgen, e.d. Voor het opstellen van deze 'enkete' wil ik hier een aantal punten nog eens op een rijtje zetten:

De enkete moet kort zijn, bij voorkeur niet meer dan één kantje, desnoods twee (dubbelzijdig dus).
De vragen moeten zo kort en duidelijk mogelijk gesteld zijn.
Het beantwoorden mag geen 'bedenktijd' kosten; meerkeuze-vragen, waar de student een snelle keuze kan waken uit de relevante antwoordmogelijkheden, verdienen dan de voorkeur. Bovendien hoeft er dan alleen maar gestreept, en niet geschreven te wprden.
Streef ernaar dat invullen van de enkete niet meer dan 5 minuten kost.
Geef de student de gelegenheid om, wanneer hij of zij daar redenen voor heeft, de vragen anoniem te beantwoorden, eventueel helemaal niet te beantwoorden.
Probeer medewerking te krijgen door duidelijk aan te geven
1. dat deze gegevens bij de beoordeling geen enkele rol zullen spelen;
2. dat de gegevens gebruikt worden ter evaluatie van het onderwijs en de toetsing;
3. dat resultaten, en het eventueel daarop gebaseerde beleid, gerapporteerd zullen worden, c.q. met de studenten bespreekbaar zijn.
Zorg ervoor dat eerder al de studenten de rapportering van de resultaten van de voorgaande cursus hebben ontvangen.
Vraag naar de globale tijdbesteding; kies daarvoor een bij jouw onderwijssituatie passende formulering (zie p. 27[oud]). Wanneer je die gegevens echt nodig denkt te hebben kun je ook vragen of de student, achteraf gezien, 'te laat' met de voorbereiding is begonnen; of de beschikbare tijd voldoende was om de stof tot op gewenst niveau te beheersen.
Vraag naar de score die de student denkt te behalen, d.i. welk resultaat hem of haar het meest waarschijnlijk lijkt. Vraag wat de slaagkans is die de student denkt te hebben. Vraag eventueel of hij of zij in de voorbereiding op een hogere slagkans mikte.
Vraag eventueel of er bijzondere omstandigheden zijn waardoor de student zich minder goed heeft kunnen voorbereiden dan hij of zij gewoon is (een ja/nee vraag, verder niet laten soecificeren).
Kies voor de antwoorden een handige lay-out, zodat het scoren van de enketes snel op het oog kan gebeuren.
Vermijd onderlinge discussie over de enkete door de blaadjes bij aanvang uit te delen, niet al op de tafels klaar te leggen. Neem de enkete direct na invllen weer in.
Vergeet niet de naam van de student te vragen, omdat de gegevens aan de toetsresultaten gekoppeld moeten kunnen worden voor een maximaal zinvolle evaluatie.

3.18 Gebruikte formules

(bij p. 19[oud]) Het passen van een BeBI-verdeling bij empirische data.

De meest eenvoudige en ook redelijk goede methode is die welke gebruik maakt van het gemiddelde en de standaard afwijking van de empirische scoreverdeling. De best passende BeBi-verdeling is dan eenvoudig die welke hetzelfde gemiddelde en dezelfde standaardafwijking heeft. In formules:

gemiddelde BeBi-verdeling is na / (a+b)

variantie van BeBi(a,b,n) is

nab (a+b+n) / ((a+b)² (a+b+1)).

Voor het schatten (of berekenen) van de gezochte parameters a en b kunnen dan formules (7) en (8) uit bijlage D gebruikt worden.

Voor de Beta verdelinng Be(a,b) zijn

gemiddelde a /(a+b)

variantie ab / ((a+b)² (a+b+1))

Voor de Binomiaal verdeling Bi(p,n) zijn

gemiddelde np

variantie np (1-p)

Voor een empirische scoreverdeling bereken je het gemiddelde door alle scores op te tellen, en de som te delen door het aantal waarnemingen (in dit geval het aantal toetsdeelnemers)

de variantie door

van iedere score het gemiddelde af te trekken, dat levert de verschilscore op
iedere verschilscore te kwadrateren
gekwadrateerde verschilscores bij elkaar op te tellen
de zo verkregen som door het aantal toetsdeelnemers te delen
de standaardafwijking: door uit het rsultaat van deze deling de vierkantswortel te trekken

(Bij grote aantallen is de methode gegeven in 'Toetsen', par. 3.6 handiger. Nog handiger is orn een zakrekenmachine te hebben en te gebruiken waarop deze berekening voorgeprogrammeerd is).

HOOFDSTUK 4. SCHUIVEN MET DE CESUUR IS NIET DE ENIGE MOGELIJKHéD: BELéDSALTERNATIEVEN. 4.1 Cesuurbepaling mag nimmer op zichzelf staan.

We zagen het al in hoofdstuk 1: vrijwel nooit is er een evidente scheiding te trekken tussen wat nog een juist aanvaardbare mate van stofbeheersing is, en wat niet meer. En spreek je niet over stofbeheersing, maar over (feilbare) toetsscores, dan is de gedachte van een absolute grens, objectief aanwijsbaar, tussen wat nog wel, en wat net meer aanvaardbaar is, volstrekt onhoudbaar.

De implicatie daarvan is dat de te hanteren cesuur niet los gezien kan worden van de verdere onderwijssituatie, dat de cesuurbepaling één uit vele middelen is om de onderwijsdoelen zo goed mogelijk te realiseren.

Het gaat er bij de cesuurbepaling dan ook niet om dat je probeert een maximaal studieresultaat binnen zo kort mogelijke studietijd te realiseren.

Dat wil zeggen: dat doel is natuurlijk prachtig, maar er zijn vele beleidsalternatieven beschikbaar om je dichterbij dat doel te brengen, en de cesuurbepaling is daar één van.

Het bleek in hoofdstuk 2 dan ook telkens weer noodzakelijk te wijzen op de te maken keuze tussen deze verschillende beleidsmogelijkheden: ook wanneer toetsresultaten en tijdbestedingsgegevens in dezelfde richting wijzen (verhogen, dan wel verlagen van de cesuur) kan het immers zijn dat je aan ándere maatregelen voorshands de voorkeur zou (moeten)(willen) geven. Andere maatregelen, zoals: veranderen van de omvang van de stof; opheffen van verstoppingen in het studierooster; bijstellen van de herkansingsregeling; vergroten van de door-zichtigheid van de toetsingssituatie.

Een aantal van de te bespreken beleidsmaatregelen behoren tot de categorie van onderwijs- of toetsverbeteringen waar je ook zonder het probleem van de cesuurbepaling al de nodige aandacht aan zou moeten schenken. Andere maatregelen, zoals het veranderen van de omvang van de stof, zijn afhankelijk van de verkregen evaluatiegegevens. Het is aan de docent om uit de hier te bespreken beleidsalternatieven telkens een intelligente keuze te maken, inspelend op de bijzonderheden en merkwaardigheden van zijn eigen onderwijssituatie.

4 2 Uitbreiden van het aantal toetsvragen.

Iedere toets is feilbaar, geeft onnauwkeurige resultaten. Dat heeft alles te maken met het feit dat iedere toets niet meer is dan een steekproef uit de (denkbare) verzameling van vragen die de student gesteld zouden kunnen worden. Dat neemt niet weg dat een grote steekproef resultaten geeft die een betere weerspiegeling zijn van de stofbeheersing dan de resultaten van een kleine steekproef.

Vanuit de gezichtshoek van de student betekent een grotere steekproef of een omvangrijker toets dat tenminste de rol van het toeval, inherent aan dat steekproefkarakter, teruggedrongen wordt. Wanneer de cesuur van de toets ligt beneden het beheersingsniveau dat de student denkt te hebben, dan betekent toetsverlenging een vergroting van de slaagkans.

Andersom is toetsverlenging ongunstig voor studenten die de stof beheersen op een niveau lager dan dat waaraan de cesuur correspondeert.

Het vergroten van het aantal vragen van de toets houdt dan ook in dat er een premie wordt gezet op het 'beter dan minimaal' beheersen van de stof. Figuur 4.2, ontleend aan 'Studiestrategieeën' hfdst. 9, illustreert dat (figuur 9.1).

Figuur 9.1

Figuur 4.2 Verwachte tijd nodig om te slagen voor verschillende niveaus van subjectieve stofbeheersin. De cesuur ligt op 60% (score 24, resp. 60).

Figuur 4.2 interpreterend: voor studenten die een 'hoge' studiestrategie volgen maakt het vrijwel niets uit of de toets van 40 op 100 vragen gebracht wordt. Voor de studenten die een lage strategie volgen maakt het wél verschil.

Je zou ook kunnen zeggen dat het minimum niveau waarbij je nog mag hopen met een redelijk aantal herkansingen te slagen, een stuk naar boven opschuift.

Nu gaat het in het gegeven voorbeeld om een nogal grote uitbreiding van het aantal vragen, en dat is gedaan om het effect duidelijk uit te laten komen. In de praktijk zijn dit soort drastische vergrotingen van het aantal toetsvragen niet aan te raden. Het zal veelal beperkt moeten blijven tot uitbreidingen met zo'n stuk of tien vragen.

Wanneer ga je tot deze maatregel over? Daar kunnen verschiliende aanwijzingen voor bestaan. Bijvoorbeeld wanneer de bestaande toets een niet geheel bevredigende dekking van de behandelde stof kan geven vanwege het beperkte aantal vragen. Maar ook wanneer het gaat om een erg zwaar tentamen, een tentamen waar erg veel voorbereidingstijd in gestoken wordt, terwijl er in de beschikbare tijd van zeg ongeveer drie uur maar een beperkt aantal vragen afgewerkt kan worden. Toetsuitbreiding komt dan misschien neer op een splitsing van de toetsing in een ochtend en een middag gedeelte.

Een andere mogelijkheid om het aantal toetsvragen uit te breiden ligt in het overgaan op meer efficiënte vraagvormen. Wanneer essayvragen zonder bezwaar vervangen zouden kunnen worden door kort-antwoord vragen, dan verdient dat de voorkeur.

In het algerneen: vermijd het vragen van zaken waarin je bij deze eindtoetsing op zich niet zo geïnteresseerd bent, zodat er tijd vrij komt waarin een extra aantal vragen beantwoord zou kunnen worden. Denk aan opgaven waarin de student nogal wat moet berekenen, terwiji je er eigenlijk alleen maar in geïnteresseerd bent of de student de correcte oplossingsprocedure kan aangeven (niet de hele uitwerking daarvan).

Figuur 4.2 bevat nóg een bruikbare suggestie: kennelijk maakt toetsverlenging nauwelijks verschil voor de student met een hoge studiestrategie. Is er dan een mogelijkheid om een verlengde toets alleen of te nernen bij die studenten die een wat lager beheersingsniveau hebben? Dat komt neer op selectieve toets-verlenging, zie de volgende paragraaf.

4.3 Verlengde toetsing voor sommigen.

In de voorgaande paragraaf hebben we gezien hoe uitbreiding van het aantal toetsvragen de slaagkans vermindert voor studenten die deelnemen met een subjectieve stofbeheersing beneden het niveau waar de cesuur gelegd is. Uitbreiding van het aantal toetsvragen zou dan ook altijd gewenst zijn, wanneer daar geen verdere nadelen aan verbonden zouden zijn. Die nadelen zijn allereerst de kosten verbonden aan het maken van de extra nodige toetsvragen, het extra beslag dat op de beschikbare zaalruimte wordt gelegd, e.d.

Wanneer de antwoorden niet automatisch scoorbaar zijn wordt de beoordelingslast vergroot. Dat bezwaar zou heel wat minder worden wanneer maar een deel van de studenten de verlengde toets zouden afleggen; de extra nakijktijd die er dan nog over blijft kan voor een deel weggestreept worden tegen een geringer tijdsbeslag dat door het nakijken van herkansingen opgeëist wordt.

Ook een nadeel is de extra toetstijd die van de studenten gevraagd wordt: niet voor degenen die dankzij een verlengde toetsing slagen, maar wel voor degenen die ook op de korte toets al een duidelijke score boven de gestelde cesuur zouden hebben.

Het ligt dan ook voor de hand om een constructie te overwegen waarbij de toetsing uit twee gedeelten bestaat, laten we zeggen een ochtend- en een middagzitting, waarbij aan de middagzitting alleen degenen meedoen die in de ochtend niet duidelijk boven de cesuur scoorden.

Deze regeling kan gezien worden als een uitzonderingsregeling voor degenen die in de ochtend hoog scoren: zij worden vrijgesteld van de tweede helft van de toets. Voor de eerste toetshelft wordt dan ook een grensscore gehanteerd die een paar punten hoger ligt dan de cesuur voor de volledige (verlengde) toets.

De cesuur wordt dus vastgelegd voor de volledige toets: de score behaald op de eerste helft wordt opgeteld bij de score op de tweede helft bij het vaststellen of de cesuur gehaald is of niet. Dat betekent voor studenten die op de eerste helft nogal laag scoren dat zij weinig 'kans' hebben om in de verlenging nog tot een 'voldoende' score te komen. Het zou dan ook niet zinnig zijn hen te verplichten daaraan nog deel te nemen.

Dat komt er op neer dat deelname aan het tweede deel overgelaten wordt aan de student, óók voor degenen die al een redelijk hoge score haalden (dus vrijgesteld zijn voor het tweede deel) maar menen dat zij deze score in de middagzitting kunnen verbeteren.

Practisch punt: het is niet mogelijk tussen de twee helften in de ochtendtoets 'officieel' te scoren. Dat zal de student zélf moeten doen, aan de hand van de scoringssleutel die daartoe verstrekt wordt. Je kunt dat doen in goed vertrouwen dat de student geen 'verbeteringen' meer in zijn werk aanbrengt met de sleutel in de hand. Beter is het om niemand in die verleiding te brengen en te werken met doordruk-antwoordformulieren: het origineel wordt ingenomen, de student scoort de copie die hij behoudt. Principiëel punt: het werken met doordrukformulieren en het na afloop verstrekken van de scoringssleutel of modelantwoorden is zoal niet vanzelfsprekend, dan toch bijzonder gewenst.

4.4 Versnelde herkansing.

Wanneer bij de analyse van de studieresultaten gevonden is dat vrijwel alle studenten hun subjectieve stofbeheersing geschat moeten hebben boven het niveau waarop de cesuur ligt, dan betekent dat dat alle studenten een correcte, 'behoorlijke' studiestrategie gevolgd hebben. Dat sommigen dan toch 'zakken' is geen feit dat hen persoonlijk aan te rekenen is. Zij hebben een berekend risico genomen, zoals ook de andere studenten dat gedaan hebben, alleen hebben zij deze keer de pech dat de debet-kant van de berekening hen voorgehouden wordt.

In deze situatie is het moeten herkansen een voorshands noodzakelijk kwaad dat inherent is aan de aard van de gehanteerde examenregeling. Herkansen voegt op zich weinig toe aan de stofbeheersing van de herkansers, terwijl vele anderen met een geringere stofbeheersing dan zij toch zónder herkansing geslaagd zijn.

Herkansen is dan een in alle opzichten verliesgevende zaak, en het zoeken is naar wegen om dat verlies dan liefst zo klein mogelijk te houden. Het verlies bestaat ruw ingedeeld uit vier stukken:

de tijd die gemoeid is met het afleggen van de herkansingstoets, de mentale voorbereiding erop, en het bijkomen ervan na afloop
de voorbereidingstijd die gemoeid is met het weer ophalen van de stof tot ongeveer het niveau waarop het eerder al beheerste werd.
de voorbereidingstijd besteed aan het 'beter' beheersen van de stof dan de voorgaande keer het geval was
persoonlijke kosten verbonden aan herkansen (in de financiële, persoonlijke, sociale sfeer), de frustratie van dat alles.

Ten aanzien van punt 3. is al opgemerkt dat het hier gaat om een stukje extra stofbeheersing bovenop een toch al aanvaardbaar niveau van stofbeheersing. Dat kan op zich nimmer de rechtvaardiging van laten zakken en herkansen zijn. Het is ook mogelijk dat sommige studenten hun stofbeheersing hebben overschat, maar daarbij is het de vraag in hoeverre dat de student, en in hoeverre dat de onderwijssituatie toe te rekenen is. Is de toetsingssituatie weinig doorzichtig, dan zullen noodzakelijkerwijs veel studenten hun stofbeheersing onjuist inschatten: te laag, of te hoog. Dat repareer je niet door herkansingen te organiseren, maar door het bewerkstelligen van een goede doorzichtigheid van de toetsingssituatie. Daarover in een afzonderlijke paragraaf meer.

Bij het verkorten van de tijd tussen toets en herkansing bewerk je dat verliespost nr. 2 gereduceerd wordt: de stof ligt dan verser in het geheugen, en aan ophalen van oude kennis hoeft weinig tijd besteed te worden. Een duidelijke zaak, die geen verdere toelichting behoeft.

Wat wél toelichting vraagt is de verwachting dat bij het nemen van deze maatregel, en andere die de kosten van herkansen reduceren, studenten een wat groter zakrisico zullen nemen, meer gebruik van herkansingen gaan maken.

4.5 Paradox: verbeteren van de herkansingsregeling leidt tot meer herkansingen.

Het nastreven van een slaagkans van 100% is een geëxalteerde studiestrategie die geen enkele student aan te raden is. De vraag is vervolgens: welke slaagkans is dan wel reëel om na te streven? Het antwoord daarop is niet direct eenvoudig (zie 'Studiestrategieën' waar ik een antwoord op deze vraag geconstrueerd heb), maar het zal niet als een verrassing overkomen dat de 'kosten' van het moeten herkansen daarin een belangrijke rol spelen.

Hoe vervelender het herkansen is, des te hoger slaagkans moet je kiezen. Studenten streven er in de regel naar om herkansingsregelingen te 'versoepelen', zich wel bewust van deze samenhang, maar waarschijnlijk zich nog meer bewust van de liederlijke vervelendheid van het herkansen. In dit streven vinden ze de docent veelal tegenover zich: die is ook ooit student geweest, behoorde waarschijnlijk tot degenen die zelden of nooit aan een herkansing hebben deelgenomen, en is zich wat meer bewust van de samenhang tussen versoepelen en niveauverlaging dan van de ellende die herkansen met zich mee kan brengen voor degenen die de demotiverende studieinspanning daarvoor op moeten brengen.

De bevreesdheid voor 'versoepeling' schuilt hopelijk voor een groot deel in de moeilijkheid de gevolgen van versoepeling te kunnen overzien, en daar de juiste 'corrigerende' maatregelen bij te nemen. Deze moeilijkheid lijkt te verhelpen, en ik zal daar in deze paragraaf een poging toe doen. Eigenlijk is heel deze verhandeling over cesuurbepaling bedoeld voor het kureren van met name ook de hier gesignaleerde moeilijkheid.

Figuur 4.2 geeft voor een bepaalde situatie het effect weer dat een forse 'versoepeling' heeft op de 'optimale' studiestrategie voor de student. cesuurbepaling-4.5.1.jpg FIGUUR 4.5.1 Benodigde 'tijd' om te slagen voor verschillende niveaus van subjectieve stofbeheersing waarmee de student opkomt; (subjectieve zekerheid equivalent aan proeftoets van 50 vragen).

De 'tijd'-schaal in figuur 40 is geen klokketijd, maar de tijdseenheid is die welke nodig is om nog niet beheerste stof op een beheersing van 50 % te brengen. Een technisch definitie die in 'Studiestrategieën' geïntroduceerd is omdat je dan in staat bent verschillen in leersnelheid zoals die nu eenmaal tussen studenten bestaan 'tussen haakjes' te zetten. Dat betekent dat de tijdschaal relatief is: de vertaling naar klokketijd verschilt van de ene student naar de andere (alleen verhoudings-gewijs).

Het overduidelijke resultaat uit figuur 4.5 is dat het versoepelen van de herkansing met de forse factor 0,5 leidt tot een al even forse vermindereng van de tijd die studenten op een laag beheersingsniveau nodig hebben om te slagen. Ook in andere situaties zijn effecten van deze orde van grootte te verwachten, vergelijk figuur 9.1 in 'Studiestrategieën'.

Je zou dus terecht kunnen concluderen, zoals ook de student dat ongetwijfeld zal doen, dat de student zijn inspanning onder de versoepelde regeling rustig op een wat lager pitje kan zetten. Zijn 'optimale' studiestrategie 'zakt' van een subjectieve stofbeheersing van ongeveer 84 % naar een subjectieve stofbeheersing van ongeveer 80 %, terwijl ook nogal wat lagere beheersingsniveaus nog in redelijke mate tot 'succes' kunnen leiden.

Hoezeer de 'versoepeling' ook gewenst is, de vraag is dan wel wat je met dit averechtse resultaat doet. Het antwoord is natuurlijk: verhoog de cesuur. Voor wat, hoort wat. Ook in onderling overleg met studenten zal deze 'ruil' bespreekbaar zijn.

Hoeveel zou de cesuur omhoog moeten om het nadelig effect op te heffen? Wel, in het voorbeeld is een verhoging van 40 naar 41 precies voldoende, zoals figuur 4.5.2 laat zien. Maar je mag niet vreemmd op kijken wanneer uiteindelijk, na versoepeling van de herkansingen en verhoging van de cesuur, er zo'n 50 % meer gebruik wordt gemaakt van de herkansingsregeling, als je dat zo mag uitdrukken. Zie figuur 4.5.3. (Al met al boek je dan nog wél een stuk tijdwinst, er wordt gemiddeld minder tijd 'herkanst'). cesuurbepaling-4.5.1.jpg

FIGUUR 4.5.2 Benodigde tijd om te slagen

FIGUUR 4.5.3 Aantal herkansingen nodig om te slagen

Ik wil van de gelegenheid gebruik maken er nog eens nadrukkelijk op te wijzen hoe krachtig hier gebruik gemaakt kan worden van de technieken die in 'Studiestrategieën' ontwikkeld zijn.

Zorgvuldige bestudering van figuren zoals de juist gegeven 4.5.2 en 4.5.3 kan je erg veel leren over de feitelijke toetsingssituatie. Daarbij spelen de precieze aard van het model voor studiestrategieën en de juistheid van de daarbij gemaakte veronderstellingen geen bijzonder kritische rol. Anders gezegd: vele van de algemene conclusies die je hier kunt trekken zijn ongevoelig voor de precieze inkleding van de studiestrategieën aan de hand waarvan de berekeningen gemaakt zijn.

Teruggaand naar figuur 4.5.1 zie je dat de ongeveer optimale strategie voor de student ligt bij het streven naar een beheersing rond het niveau waarop ook de cesuur ligt. Hij kan er een klein beetje onder blijven zonder direct veel meer tijd kwijt te zijn, hij kan er ook een heel stuk boven gaan zitten zonder veel tijd te 'verliezen'. De student die meer dan 5 % beneden 'cesuurniveau' gaat zitten, die mikt op een stofbeheersing van minder dan 75, volgt een buitengewoon verliesgevende strategie: de tijd die hij nodig heeft om te slagen is al snel het dubbele van de tijd die hij nodig gehad zou hebben om met redelijke zekerheid in een keer te kunnen slagen. Er blijkt met andere woorden een heel duidelijke grens te trekken waarbeneden geen zinnige student zal werken. Het is belangrijk hier even expliciet op in te gaan omdat maar al te makkelijk de indruk zou kunnen ontstaan dat de door mij gepresenteerde benadering van het cesuurprobleem studenten de gelegenheid zou bieden op een koopje via een wat groter aantal herkansingen te slagen.

Niets is minder waar, dat soort koopjes bestaat niet. Integendeel, studenten die op een dergelijke wijze 'minimaal' studeren doen zichzelf ernstig tekort op twee manieren:

het kost veel meer tijd om te slagen dan wanneer om te beginnen een behoorlijke hoeveelheid tijd in de voorbereiding voor le opkomst gestoken zou zijn
áls je al slaagt met zo'n minimale strategie dan heeft alle daarvoor gepleegde inspanning ook nog vrijwel geen bruikbaar niveau van stofbeheersing opgeleverd, wat de student later onvermijdelijk zal opbreken.

Dat er zulke domme studenten zouden zijn is al wel heel onwaarschijnlijk. Vandaar ook het uitgangspunt dat je er op vertrouwt dat studenten op een verstandige wijze zich voorbereiden voor hun tentamens, en dat resultaten die er over de groep studenten enigszins chaotisch uitzien een redelijke verklaring hebben, en indien nodig door goed beleid te beïnvloeden zijn.

Dit betekent ook dat er geen bezwaren zijn om beperkingen t.a.v. het aantal herkansingen op te heffen. Dat is zelfs sterk aan te bevelen, omdat zo'n beperking de studenten onder een overigens onproductieve en demotiverende stress plaatst. Zie ook hoofdstuk 7 van Studiestrategieën.

anno 2021 verrast dze claim over ongebreideld laten herkansen toch wel behoorlijk. Immers, ik ben fervent pleitbezorger van regelingen waarin herkansingen als het even kan geen rol spelen. Afijn, ik ga het nog eens bestuderen.

4.6 Verhoog de doorzichtigheid van de toetsing. ,p>
Doorzichtigheid, ook wel transparantie genoemd, is de mate waarin de student over informatie kan beschikken die hem in staat stelt 'de voor hem persoonlijk best mogelijke strategieen voor voorbereiding en deelname aan het examen te ontwikkelen' (De Groot, 1970, 1971).

Hoe doorzichtiger de toetsingssituatie, des te beter is de student in staat zijn toetsscore te voorspellen, en op die voorspelling zijn studiestrategie aan te passen. Maatregelen om de toetsing doorzichtiger te waken zijn o.a.:

ruime oefening op het soort opgaven dat in de toets opgenomen zal worden
proeftoetsgelegenheid verzorgen
stimuleren dat er 'op tijd' met de voorbereiding begonnen wordt
kwalitatief goede vragen in de toets opnemen
een voldoende aantal vragen in de toets opnemen.

cesuurbepaling-4.5.1.jpg FIGUUR 4.6 Effect van 'verdubbeling' van de de doorzichtigheid.

Een opmerkelijke figuur. Je ziet dat voor studenten met een hoge stofbeheersing de doorzichtigheid weinig of geen verschil maakt. De reden daarvoor is dat verkeerd inschatten van de eigen stofbeheersing geen ongunstige effecten heeft: ook al overschat de student met een hoge strategie de eigen stofbeheersing, dan zit hij of zij altijd nog hoog genoeg om een gering risico op 'zakken' te hebben.

Dat ligt geheel anders voor studenten die een lage strategie volgen. Is de doorzichtigheid gering, dan kan het geen kwaad eerst de kat maar eens uit de boom proberen te kijken, zou je kunnen zeggen. Is de doorzichtigheid hoog, dan heeft het natuurlijk geen enkele zin de ogen te sluiten voor de dan duidelijk zichtbare realiteit.

Het verhogen van de doorzichtigheid heeft dan ook als resultaat dat de student aangemoedigd wordt een wat hogere strategic te kiezen. Je kunt het ook anders zeggen: verhogen van de doorzichtigheid behoedt studenten voor het moeten herkansen alleen maar omdat ze niet goed konden inschatten of ze al behoorlijk op de toetsing voorbereid waren of niet.

4.7 Maatregelen die de doorzichtigheid ten goede komen.

Oefening op het soort vragen dat ook in de toets opgenomen wordt.

Dit lijkt vanzelfsprekend, maar in vele praktijken blijkt dat toch niet te gebeuren. Bijvoorbeeld bij uitgebreide literatuurtentamens die m.b.v. meerkeuzetoetsen gebeuren, wil het nogal eens voorkomen dat pas tijdens het tentamen de student voor het eerst met dergelijke vragen over de stof geconfronteerd wordt.

Ook bij leerstof waar het wél gebruikelijk is uitgebreid opgaven te maken, kan het gebeuren dat de toets bestaat uit opgaven op een moeilijkheidsniveau waaraan de studenten pas aan het einde van de cursus zijn toegekomen, en waarin zij onvoldoende geoefend zijn om behoorlijk in te kunnen schatten wat zij er op de toets van terecht kunnen brengen.

Probeer er dan ook in dit soort situaties voor te zorgen dat studenten die oefening wel kunnen krijgen; niet om tot een perfekte beheersing te komen (het gewenste beheersingsniveau zou best op 60 % bijv. kunnen liggen), maar wel om hen de nodige bekendheid met de toetsstof te verschaffen.

Daarbij is het aan te raden:

het hele vragenbestand waarover de vakgroep beschikt aan de studenten bekend te maken
oude toetsen bekend te maken, met antwoordsleutels
proeftoetsgelegenheid te geven, korte tijd vóór de toetsing.

ad. a. wanneer er een groot vragenbestand is opgebouwd, waaruit voor iedere nieuwe toets (tenminste een gedeelte van) de vragen worden getrokken, is er veelal niets op tegen om deze verzameling te drukken en te verspreiden. Het is het beste oefenmateriaal (op het niveau van de toets) dat beschikbaar is, het representeert in meest volledige vorm wat met het onderwijs beoogd wordt te bereiken.

Wees dan echter wel attent op snugger en slim studiegedrag van (sommige) studenten. Gaat het om ja/nee vragen, dan is een handigheidje beschikbaar waarbij slechts een deel van de vragen oppervlakkig doorgenomen hoeft te worden om een redelijke score te kunnen maken. Het is niet gezegd dat je vragen letterlijk uit het vragenboek overneemt: varieer de bewoording, gebruik andere afleiders (bij meerkeuzevragen), of beter nog: bedenk gewoon nieuwe vragen met behoud van onderwerp en karakter. voor het snel, efficiënt en goed bedenken van nieuwe vragen kun je gebruik maken van de vuistregels die daarvoor gegeven zijn in Ben Wilbrink: 'Toetsvragen schrijven', Aula 809, 1983.

ad b. en c. Dat spreekt vanzelf. Maak je oude toetsen bekend, dan kan de student die voor zichzelf maken als 'proeftoets', een proeftoetsgelegenheid is een meer georganiseerde gelegenheid om hetzelfde te doen. Het is mogelijk, m.b.v. technieken uit 'Studiestrategieën', op basis van het proeftoetsresultaat de student een schatting te geven van zijn slaagkans op de toets wanneer hij zich in de tussentijd niet zou 'verbeteren'.

Bij grote literatuurtentamens: 'eenvoudige' toetsing.

Het komt in bepaalde studierichtingen vaak voor dat tentamens betrekking hebben op een grote hoeveelheid literatuur, waarbij de globale onderwijsdoelstelling eigenlijk slechts erop neer komt dat die literatuur ook metterdaad gelezen is.

De functie van de toets is in dat geval voornamelijk die van participatiecontrole (Hofstee, 1973). Je kunt daar dan ook maar beter je vraagstelling bij aanpassen. Hofstee stelde daar zijn 'onbenullige items' als kandidaat voor, een beetje ongelukkig benoemd en beter te betitelen als eenvoudige vragen.

De toetsing heeft als bedoeling na te gaan of de literatuur gelezen is. Je mag het ook wel zó formuleren dat de toetsing de bedoeling heeft degenen die inderdaad de stapel boeken hebben doorgenomen niet alleen het genoegen van het daarbij verkregen overzicht over een bepaald vakgebied, maar ook een redelijke imateriële beloning' in de vorm van een goed toetsresultaat te verschaffen. Zie verder 'Toetsen' p. 76, en het artikel van Hofstee (1973).

Het punt waar het hier om gaat is dat het de student op deze wijze perfekt duidelijk kan zijn wat er van hem of haar op de toets gevraagd zal worden. Dat contrasteert nogal met de lang niet ongebruikelijke aanpak waarbij over die berg literatuur diepgravende vragen gesteld worden, waarbij van de student ook nog gevraagd wordt allerlei dwarsverbindingen te leggen waarop hij zich onmogelijk heeft kunnen prepareren: de ondoorzichtigheid ten top gedreven. Niet dat het slecht zou zijn om de student op laatstbedoelde wijze met de stof om te laten gaan, maar een tentamen is daar niet het geschikte moment voor, dan bedoel je eigenlijk van de student een literatuurscriptie te vragen. Doe dát dan ook liever.

Beperking tot onderwezen vaardigheden en onderwerpen.

Nimmer mag je in een tentamen vragen opnemen die slechts door de 'begaafde' student te beantwoorden zijn. Let er op of de vaardigheid die je vraagt behoort tot de categorie vaardigheden waar de student zich op heeft kunnen voorbereiden en oefenen. Wanneer je in de verleiding geraakt om 'leuke' vragen op te nemen als 'bonus' voor de 'betere' student, vragen die handelen over taken die niet in de opgegeven literatuur voorkomen maar waar studenten die meer dan de opgegeven literatuur hebben bestudeerd wel raad mee weten; wanneer je vragen in de toets opneemt die een mate van inzicht vragen die een hoofdmedewerker niet zou misstaan, dan verlaag je de maximaal bereikbare toetsscore voor alle overige, ook 'goede' studenten. Dan geef je hen de indruk dat het behalen van een behoorlijke toetsscore niet binnen de eigen vermogens ligt. Dat werkt zeker niet motiverend voor juist die groep die een stukje extra motivatie zo goed kan gebruiken. En het maakt het tentamen voor deze groep ook meer tot een gok, een onderneming waar je pas de tweede of derde keer voor kunt slagen.

Maak de cesuur ruim tevoren bekend.

In dit boek ben ik er voortdurend van uitgegaan dat de cesuur tevoren aan de studenten bekend gemaakt wordt, zodat zij er hun studiestrategie op of kunnen stemmen. Dat is ook nodig voor een goede doorzichtigheid van de toetsing.

Nu kan ik me best voorstellen dat sommige docenten daar enige huiver bij hebben: stel nu eens dat de studieresultaten tegenvallen, of dat de studenten het beter blijken te doen dan je bij het vaststellen van de cesuur veronderstelde. Hen je de cesuur tevoren vastgelegd, dan kun je daar geen wijziging meer in aanbrengen zodra je de resultaten gezien hebt.

Je moet echter onderscheiden tussen de twee mogelijke afwijkingen:

gezien de resultaten is er reden om de cesuur alsnog te verlagen
gezien de resultaten ben je geneigd de cesuur te verhogen (bijv. omdat je vermoedt dat de vragen toevallig wat aan de makkelijke kant zijn uitgevallen).

Het is mogelijk om je beide handelingsvrijheden voor te behouden, en alleen bekend te maken waar de cesuur ongeveer zal komen te liggen. Dat levert voor de student een extra onzekerheid op waarmee hij rekening kan houden (voor de techniek: zie bijlage B, par. 3 van 'Studiestrategieën). Dat gaat dan wel ten koste van de doorzichtigheid, want die is niet gediend met extra onzekerheden. En het is ook niet nodig.

De filosofie is dat de cesuur zoals die vastgesteld en tevoren bekend gemaakt wordt een sturende werking op het studiegedrag van de student heeft. Het informeert hem of haar welke eisen er aan zijn stofbeheersing gesteld worden, en daar kan en zal hij of zij zich ook naar richten.

Welnu, wanneer een toets toevallig wat makkelijker uitvalt dan bedoeld, en dat zal onvermijdelijk af en toe gebeuren, is er niets op tegen om de cesuur te laten waar hij afgesproken was de studenten hebben zich behoorlijk voorbereid op een toets van het bedoelde moeilijkheidsniveau, en dat was de bedoeling. Dat deze toets wat makkelijker uitvalt, wel, dat is een meevaller voor die groep die toevallig net boven de cesuur scoort, en anders misschien gezakt was. Hen laten herkansen levert op zich geen positief nut op, en hen door laten gaan hoeft dan ook niemand te spijten, ook de docent niet.

Geval 1. ligt iets anders: de toets kan ook moeilijker uitvallen dan bedoeld. Of het geval kan zich voordoen dat toevallig nogal veel personen precies onder de cesuur scoren (zoals in figuur 3.8[oud] gedemonstreerd, wanneer de cesuur op 31 afgesproken zou zijn). Er is dan niets op tegen om onder verwijzing naar deze omstandigheden de cesuur achteraf toch lager te stellen dan afgesproken. Natuurlijk spreek je tevoren af dat zoiets zich wel eens voor zou kunnen doen, en dat dan inderdaad de cesuur verlaagd kan worden. Niemand heeft er belang bij om studenten meer dan strikt noodzakelijk is aan herkansingen te laten deelnemen.

4.8 Pars regeling met varianten.

Het is geen vanzelfsprekendheid dat 'zakken' voor een tentamen betekent dat dan alles t.z.t. nog eens een keer overgedaan moet worden. Dat kan onder veel omstandigheden een tijdverslindende regeling zijn. Formuleer je de conjunctieve regeling in iets algemener termen, dan kun je zeggen dat de student die met zijn prestatie beneden een daartoe afgesproken grens (de cesuur) blijft, een extra prestatie moet leveren.

Voor een 'extra prestatie' bij onvoldoende toetsresultaat zijn dan verschillende alternatieven voorhanden:

een bepaald onderdeel van de stof moet nog eens diepgaand bestudeerd worden, en daarover wordt dan weer een toets (schriftelijk of mondeling) afgelegd. Deze regeling was vroeger vrij algemeen: wie voor zijn tentamen geen ruim voldoende resultaat behaalde, moest zich op een deel ('pars') van de stof mondeling laten ondervragen op het examen.
De student krijgt een nieuw onderwerp aangewezen ter bestudering en toetsing.
n plaats van opnieuw bestuderen van oude stof, en opnieuw toetsen, schrijft de student een werkstuk over een onderwerp of probleem uit de tentamenstof.

Het zal duidelijk zijn dat het van de specifieke aard van het betreffende studieonderdeel afhangt of en zo ja wélk van de alternatieven in aanmerking komt als vervanging voor herkansing.

Deze alternatieven zullen in het algemeen niet veel minder tijd van de student vragen dan recht-toe-recht-aan herkansen zou doen, het verschil ligt dan ook niet in de kwantiteit maar in de kwaliteit van de tijd. De tijd wordt hier meer productief besteed, de opgegeven deeltaak is minder demotiverend dan de opgave de toetsvoorbereiding nog weer eens over te moeten doen.

Het zal bij deze alternatieven veelal ook mogelijk zijn om hiermee de zaak in een keer of te ronden, zodat Been studenten meer blootgesteld worden aan de hopeloze ervaring voor de tweede of derde keer te moeten herkansen en dat kán de goedwiliende student nu eenmaal overkomen).

4.9 Vriistellende deeltoetsen.

Bij een omvangrijk tentamen zijn er twee risico's die fors aan kunnen tikken:

de studen: die niet tijdig (en dat is dan al geruime tijd vóór de datum van de toetsing) begint met zijn voorbereidende studie, kan in tijdnood geraken. Hoe omvangrijker het tentamen, des te groter het risico dat de student niet op tijd begint.
hoe omvangrijker het tentamen, des te harder komt de klap aan voor de afgewezen studenten: zij zullen álles over moeten doen. Herkansen vraat een grote investering van extra (en weinig productieve) tijd.

Deze bezwaren zijn op te vangen door de toets in twee of weer onderdelen uit te splitsen, die ook goed gespreid af te nemen, waarbij een ‘voldoende' resultaat op een deeltoets de student voor dat onderdeel vrijstelt op de eindtoets.

Daardoor kan een aanzienlijke besparing in tijdbesteding verkregen worden, bij gelijkblijvende studieresuitaten: omdat er een betere spreiding van de studieinspanning plaats vindt zullen er minder studenten door tijdgebrek op een te laag beheersingsniveau uitkomen, zal er minder herkanst hoeven worden. En áls er herkanst wordt, is dat slechts op een deei van de stof, zodat herkansingstijd daardoor teruggebracht wordt.

Oak bij compensatorische examenregelingen is het om dezelfde redenen aan te bevelen omvangrijke tentamens op te splitsen, om de student in staat te stellen tot een kwalitatief betere voorbereiding op de toetsen, en om te voorkomen dat door een misrekening van de student zijn score onverwacht laag uitvalt waardoor je ook onder een compensatorische regeling ernstig gedupeerd kunt worden.

Bij een compensatorische examenregeling ligt het natuurlijk voor de hand dat de deeltoetsen als geheel verzelfstandigde toetsen functioneren, de scores gewoon bij elkaar opgeteld worden dus.

Ook bij deeltoetsen onder een conjunctieve examenregeling is het het overwegen waard om de scores op de deeltoetsen compnsatorisch te hanteren: de scores moeten bij eikaar opgeteld aan een afgesproken minimum voldoen. Dat betekent dat ten aanzien van deze deeltoetsen de student een studiestrategie kan volgen die bij compensatorische regelingen gehanteerd wordt, zie hoofdstuk 8 van 'Studiestrategieën'. Omdat het meestal maar om twee of drie deeltoetsen zal gaan, is er echter niet zoveel studievrijheid als er bij een groter aantal zou zijn. Wel kan een tegenvallende score op de eerste deeltoets dan gecompenseerd worden door een hogere score op een volgende toets, waar de student zijn best voor kan doen. Dan kan het resultaat zijn dat slechts bij uitzondering studenten het geheel moeten overdoen vanwege een te laag totaalresultaat, zodat er maar heel weinig tijd meer aan echt herkansen verloren hoeft te gaan.

4.10 Omvang van de stof wijzigen, beschikbare tijd verruimen. Wat je van het eigen vak aan de studenten kunt overbrengen in de weinige tijd die je daarvoor tot je beschikking hebt, hangt zowel van de aard en de moeilijkheid van dat vak af, als van de capaciteiten en motivatie van de studenten.

Bij het onderzoek naar studieresultaten en tijdbesteding (hoofdstuk 3) kan blijken dat er aan de omvang van de stof gesleuteld moet gaan warden, of dat er meer tijd voor jouw vak beschikbaar onderhandeld moet worden.

Wanneer de waarderingsfunktie die voor verschillende niveaus van beheersing is opgesteld (par. 3.6) serieus genomen wordt, dan zal een gemiddelde stofbeheersing die ernstig achterblijft bij het streefniveau ertoe leiden dat je de omvang van de stof zó ver terug brengt dat studenten binnen de beschikbare studietijd dat streefniveau wél aardig kunnen benaderen. Beter een wat kleiner deel van de stof op een behoorlijk niveau van beheersing brengen, dan een groot deel op een niveau waar je eigenlijk waardering voor op kunt opbrengen. Hoe of waar je in de stof gaat snijden om die afslanking te verkrijgen, dat is aan het oordeel van de docent.

Het kan zijn dat het inkrimpen van de stofomvang niet verder mogelijk is zonder de kwaliteit van het studieonderdeel ernstig aan te tasten. Omdat ook een laag beheersingsniveau niet aanvaardbaar is, en gebleken is dat studenten een heel behoorlijke studieinspanning leveren, zul je een oplossing kunnen zoeken bij één of meer van de suggesties in dit hoofdstuk gegeven. Zijn al die mogelijkheden al uitgeput, dan zul je bij je collega's van andere vakgroepen te biecht moeten, en een verrulmlng van de tijd die in het studieprogramma voor jouw vak is bestemd, moeten zien te verkrijgen. Wanneer daarbij gegevens op tafel komen waarover je ondertussen zelf al. beschikt, dan kan dat een krachtig pleidooi opleveren.

Of dat gemeen overleg over de verdeling van de tijd resultaat oplevert is alleen maar te hopen. Het is niet denkbaar buiten het programmaoverleg om tijd te roven door desondanks van de student een tijdsinspanning te vragen die de grenzen van de beschikbare tijd verre overschrijden. Vooral wanneer die tijd voornamelijk zit in gevraagde herkansingen heeft het naar de buitenwacht toe de schijn dat studenten dat dan toch aan zichzelf te wijten hebben. Vakgroepen die op deze wijze aan hun tijdsgerief proberen te komen, doen dat over de rug van het merendeel van de studenten, plegen onbehoorlijk bestuur, kunnen in eerste aanleg te maken krijgen met beroepen ex art. 40 WUB, in tweede aanleg tuchtmaatregelen ex art. 41 WUB. Ik wijs er maar even op, omdat dergelijke vakken met een onstilbare tijdhonger in vele studierichtingen toch voorkomen en verbazend genoeg nog min of meer ongehinderd. (behalve door protest van studentenzijde) zo door blijven functioneren.

4.11 Andere onderwijsinrichting: Individuele Studie Systemen.

Deze paragraag moet ik echt gaan schrappen, ook omdat die ISS destijds even modieus leken, maar nu dus vergeten zijn.

Met de opsplitsing in deeltoetsen kun je veel verder gaan dan twee, drie of vier. Dat wordt gedaan wanneer het de bedoeling is tegelijkertijd het onderwijs te individualiseren: meer op de maat van de individuele student te brengen. Dergelijke onderwijsvormen zijn onder verschillende benamingen bekend, worden in het Nederlandse tertiaire onderwijs ook steeds toegepast: Keller Plan, Individually Prescribed Instruction, lndividuele Studie Systemen (Van Rookhuyzen, Plomp en Pilot 1977, en De Witte 1980).

De stof wordt opgedeeld in kleine partjes, en bij ieder partje wordt dan een 'afsluitende' toets afgenomen. Deze toetsjes bestaan uit een klein aantal vragen, worden vaak m.b.v. de computer samengesteld, afgenomen, gescoord, en gerapporteerd (De Witte 1980). De traditionele opzet is dan dat de student op zo'n toetsje aan een minimum score (cesuur dus) moet voldoen om te kunnen beginnen aan het volgende leerstof partje. Voldoet hij niet aan de eis, dan wordt hem in het ideale geval informatie gegeven over waar de problemen schuilen, wordt dat bijgespijkerd, en wordt wederom de toets afgelegd. Het studieonderdeel is afgerond zodra op deze wijze de laatste toets is bereikt en met goed gevolg afgelegd.

Er doet zich bij zo'n ISS dan ook geen cesuurprobleem meer voor zoals we dat bij de kiassieke eindtoets kennen. Maar des te meer problemen rijzen er met al die kleine cesuurtjes: hoe bepaal je die zo goed mogelijk? Vele suggesties zijn daartoe in de literatuur gedaan, zonder dat dat werkbare oplossingen heeft opgeleverd (zie voor een introductie Bijlage B en C). Wie hoofdstuk 3 in dit boek aandachtig heeft bestudeerd zal vemoeden dat ook bij zo'n versnipperde toetsing je de cesuur op op al die toetsjes op ongeveer dezelfde wijze kunt bepalen als hier gedaan voor die ene eindtoets. Door schuiven met de cesuur (op alle toetsjes tegelijk) en registreren wat de studieresultaten en de tijdbesteding onder verschillende cesuren zijn, moet daar een 'beste' hoogte voor die gezamenlijke cesuren uit rollen. Dat is ook wat ik eerder (Wilbrink, 1980 b) suggereerde, omdat technisch correcte methoden veel te veel implementatietijd en -kosten vragen wanneer dat voor ieder toetsje min of meer afzonderlijk moet gebeuren.

Dat zich bij ISS het risico voordoet dat er veel tijd verloren gaat aan het overdoen van toetsjes, zal ook duidelijk zijn. Ieder toetsje bevat maar een klein aantal vragen, en de cesuur kan doorgaans erg hoog liggen. Een klein beetje pech en je moet de toets overdoen. Om overmatig overdoen te voorkomen kun je omzien naar minder rigide procedures, waarbij bijvoorbeeld pas een toets overgedaan wordt wanneer het de tweede of derde in successie is die een te lage score oplevert.

De cesuurproblematiek bij ISS is een enigszins andere dan bij eindtoetsen, en vraagt dan ook om een eigen aanpak. Die aanpak is nog niet in uitgewerkte vorm beschikbaar, hoewel de hier gegeven aanwijzingen wel de richting aangeven. T.z.t. zal een afzonderlijkaoofdstuk in dit boek aan ISS toetsing gewijd worden.

LITERATUUR

COHEN-SCHOTANUS, J. en T.MOóWEER Hoe langer hoe beter. De relatie tussen voorbereidingstijd en tentamenresultaat bij medische studenten te Groningen. Paper ORD 1979. Buro Onderwijs Ontwikkeling Geneeskunde, Groningen.

CROMBAG, H.F.M., ROSKAM, E.E.Ch.I, en MEUWESE, W.A.T. Het meten van studiebelasting. In Van Woerden et al. (1973).

DUNCAN, G.T. An empirical Bayes approach to scoring multiple-choice tests in the misinformation model. Journal of the American Statistical Association, 1974, al, 50-57.

EVERWIJN, S.E.M. Studietijdmetingen: problemen en oplossingen. Tijdschrift voor Onderwijsresearch, 1977, 2, 181-184

EVERWIJN, S.E.M., en MUGGEN, G. Methoden voor het meten van studietijd. In Van Woerden et al. (1973).

EVERWIJN, S.E.M., en WILLEMSEN, A.J.J. Validatieonderzoek naar metoden om studietijd te meten. Utrecht: Afd. Onderzoek en Ontwikkeling van W.O., 1972; Amsterdam: COWO, 1972.

GOEMAN, M. CESUUR. Een interactief computerprogramma voor het bepalen van de zak/slaag grens voor een tentamen. Groningen: COWOG, 1979.

GROOT, A.D. de - Waaraan voldoet een 'onvoldoende' prestatie niet? Paedagogische Studiën, 1964, 41, 1-16

GROOT, A.D. de - De kernitemmethode voor de bepaling van de caesuur voldoende/onvoldoende. Paedagogische Studiën, 1964, 41, 425-440.

GROOT, A.D. de - Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 1970, 25, 360-376.

GROOT, A.D. de - Selektie voor en in het hoger onderwijs. Een probleemanalyse. Den Haag: Staatsuitgeverij, 1972.

GROOT, A.D. de -, en R.F. van NAERSSEN (red.) Studietoetsen: construeren afnemen, analyseren. Den Haag: Mouton, 1975.

HILLS, J.R. Use of measurement in selection and placement. In Thorndike (1972).

HOFSTEE, W.K.B. Selectie van personen. Inaugurele rede. Assen: Van Gorcum, 1970.

HOFSTEE, W.K.B. Participatie kontrole door 'onbenullige' toetsitems. Nederlands Tijdschrift voor de Psychologie, 1973, 28, 189-198. Ook in Vroon en Everwijn deel 4.

HOFSTEE, W.K.B. Notitie t.a.v. de slaag-zak-grens bij Wijnen. Nederlands Tijdschrift voor de Psychologie, 1973, 28, 211-213.

HOFSTEE, W.K.B. Cesuurprobleem opgelost. Onderzoek van Onderwijs, 1977, 6 nr 2, juni , 6-7.

HUBBARD, J.P. Measuring medical education. The tests and the experience of the National Board of Medical Examiners. Philadelphia: Lea & Febiger, 1978.

KNIPPENBERG, W.J.M. Het toepassen van een thermostaat methode voor het bepalen van de cesuur bij een tentamen (volgens Hofstee). Paper ORD 1980. Onderwijskundige Dienst T.H. Delft, sektie onderzoek en ontwikkeling.

KNIPPENBERG, W.J.M., en LOOS, F.A.J. De rol van de caesuur als prestatieregulerende variabele in een onderwijssysteem. Paper ORD 1979. Delft: Onderwijskundige Dienst T.H., Sektie Onderzoek en Ontwikkeling, februari 1979.

LORD, F.M. en NOVICK, M.R. Statistical theories of mental test scores. London: Addison-Wesley, 1968.

METZ, JC.M. Grens voldoende/onvoldoende. Onderzoek van Onderwijs, 1977, juni, 3-5.

NAERSSEN, R.F. van - Psychometrische aspecten van de kernitemmethode. Nederlands Tijdschrift voor de Psychologie 1974, 21, 421-430.

NAERSSEN, R.F. Rapport aan de examencommissie candidaats-I betreffende de invloed van herkansingen op het niveau van voor de propedeuse geslaagde studenten. Amsterdam: subfaculteit Psychologie, ongedateerd (ca 1975).

NAERSSEN, R.F. van - Het derde tentamenmodel met een toepassing. Tijdschrift voor onderwijsresearch, 1976, 1, 161-171.

NEDELSKY, L. Absolute grading standards for objective tests. Educational and Psychological Measurement, 1954, 14, 3-19.

RáFFA, H., en SCHLáFER, R. Applied statistical decision theory. London: MIT Press, 1961.

Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Nederlands Instituut voor Psychologen, 1978.

ROOKHUYZEN,R.F. van -, PLOMP, Tj. en PILOT, A. Individuele Studie Systemen in het tertiair onderwi's. een overzicht. Groningen: OTO-cahiers, Wolters-Noordhoff, 1977. SIMON, H.A. Symmetric tests of the hypothesis that the mean of one normal population exceeds that of another. Annals Of Mathematical Statistics, 1943, 14, 149-154. Herdrukt in Simon (1977).

SIMON, H.A. Statistical tests as a basis for 'yes-no' choices. Journal of the American Statistical Association, 1945, 40, 80-84. Herdrukt in Simon (1977)-

SIMON, H.A. Models of discovery and other topics in the methods of science. Dordrecht: Reidel, 1977.

Standards for educational and psychological tests. Washington, D.C.: American Psychological Association, 1974.

Thorndike, R.L. (Ed.) Educational Measurement. Washington, D.C.: National Council on Education, 1972.

TROMP, D. en WILBRINK, B. Het meten van studietijd. Onderwijs Research Dagen 1977, 186-189.

VERPAALEN, O.A.C. Beroep tegen examen en tentamen. artikel 40 WUB. Zwolle: Tjeenk Willink, 1978.

VROON, A.G., en EVERWIJN, S.E.H. (red.) Handboek voor de onderwijspraktijk. Deventer: Van Loghum Slaterus.

WILBRINK, B. Cesuurbepaling. Amsterdam: COWO, 1977.

WILBRINK, B. Studiestrategieën. Amsterdam: COWO, 1978.

WILBRINK, B. Toetsen. Amsterdam: COWO, 1979.

WILBRINK, B. Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor Onderwijsresearch, 1980, 49-62. Ook als bijlage opgenomen. (a) WILBRINK, B. Enkele radikale oplossingen voor kriterium gerefereerde grensskores. Tijdschrift voor Onderwijsresearch, 1980, 5, in druk. Ook als bijlage opgenomen. (b)

WILBRINK, B. Toetsen, herkansen, studievertraging. Achterliggende mechanismen. Onderzoek van Onderwijs, 1980, september. Ook als bijlage opgenomen. (c)

WOERDEN, W.M. van -, CHANG, T.M., en VAN GEUNS-WIEGMAN, L.J.M. Onderwijs in de maak. Utrecht: Het Spectrum, 1973.

WITTE, P.C.F. de- CMI-II: Een software pakket voor Computer-Managed Instruction. Tijdschrift voor Onderwijsresearch 1980, 5, 29-38.

WIJK, H.D. van -, en KONIJNENBELT, W. Hoofdstukken van het administratief recht. Den Haag: VUGA, 1976.

WIJNEN, W.H.F.M. Onder of boven de maat. Een methode voor het bepalen van de grens voldoende/onvoldoende bij studietoetsen. Amsterdam: Swets en Zeitlinger, 1972.

ZEGERS, F.E. HOFSTEE, W.K.B. en KORBEE, C.J.M. Een beleidsinstrument m.b.t. cesuurbepaling. Paper ORD 1978. Groningen, subfaculteit Psychologie, vakgroep persoonlijkheidsleer.

ZIEKY, M.J., en LIVINGSTON, S.A. Manual for setting standards on the Basic Skills Assessment Tests. Princeton, New Jersey, Educational Testing Service, 1979.

februari 2021 \ contact ben apenstaartje benwilbrink.nl

http://www.benwilbrink.nl/projecten/cesuurbepaling_kursus.htm