Kwaliteit tentaminering

geanonimiseerde versie 11-2003, de faculteit zelf blijft ook anoniem, tekst verder gelijk gehouden aan die van het oorspronkelijke verslag; in de hectiek van over elkaar heen buitelende reorganisaties zijn de volgende fasen waarnaar het stuk verwijst niet meer tot uitvoering gekomen; financiering: studeerbaarheidsgelden

Ben Wilbrink

1999

Het project

Het project is ontstaan uit de behoefte van een examencommissie aan enige vorm van inzicht in de kwaliteit van tentamens, inzicht dat bijvoorbeeld door een 'tentamenverantwoording' kan worden gegeven. 'Tentamenverantwoording' is omschreven als een document waarin het tentamen wordt verantwoord naar de doelen van het vak, en voor te stellen vragen een antwoordmodel is opgesteld. Zo'n verantwoording moet een voor docenten hanteerbare praktijk zijn, waardoor ook de kwaliteit van de tentamens verbetert. Een examencommissie krijgt er een instrumen mee om de kwaliteit van tentamens te sturen en bewaken. Hij is ook in te zetten bij ntercollegiaal overleg over tentamens en doelen.

In het door de begeleidingscommissie geaccordeerde projectvoorstel zijn accenten verlegd van de tentamenverantwoording naar de situatie van intervisie zelf (intercollegiaal overleg) waarin de kwaliteitszorg vorm moet krijgen. Het voorstel onderscheidt meerdere projectfasen, waarvan alleen de eerste fase is afgerond. Deze eerste fase is bedoeld om voor de in het project betrokken docenten de huidige situatie vast te leggen als 'nulmeting,' en tevens om het nodige materiaal aan relevante opvattingen te verzamelen op basis waarvan de gereedschappen voor de intervisie kunnen worden geconstrueerd, althans in eerste en nog in de praktijk te beproeven ontwerpen. Die constructie is voorzien in de tweede fase, en de praktische beproeving ervan in de derde fase. De invulling van de vervolgfasen is in het projectvoorstel nog tentatief, omdat pas na afsluiting van voorgaande fasen voldoende duidelijkheid is verkregen over de concrete verdere vormgeving van een en ander. Dit voortgangsverslag geeft dan ook een aantal concrete voorbeelden hoe de te construeren hulpmiddelen voor de intervisiegroepen eruit zouden kunnen zien.

Kwaliteit

Kwaliteit is in dit project het sleutelbegrip. En dat is niet alleen omdat het het onderwerp van het project is, maar ook omdat het de sleutel bevat voor de wijze van werken in de voorziene intervisiesituatie.

De werkdefinitie voor kwaliteit is de mate waarin gestelde doelen worden bereikt. Dit is een terughoudende benadering waarin niet op voorhand de doelstelling zelf ter discussie wordt gesteld, maar in zekere zin als gegeven wordt beschouwd. Omdat in dit project met docenten wordt gewerkt, gaat het om de doelen die deze docenten zelf aangeven, niet om die van de opleiding of van het onderwijsinstituut. De docent geeft zelf aan wat haar opvattingen zijn over het tentamen en zijn plaats in het onderwijs, vervolgens gaat de intercollegiale discussie over de mate waarin de praktijk in overeenstemming is met die opvattingen. Daarom is deze kwaliteitsopvatting ook de sleutel voor de intervisie: de opvattingen van de docent worden ten volle gehonoreerd, er zal alle gelegenheid zijn om in de discussie deze opvattingen verder te onderbouwen, danwel ze bij te stellen in de richting die argumenten van logische of empirische aard dicteren.

De gekozen benadering is die van de kwaliteitsaudit, waarbij de auditeurs beschaafd informeren naar de missie en de doelen van de organisatie, en vervolgens proberen de onderste steen boven te krijgen bij de beantwoording van de vraag of die missie en doelen in feite worden waargemaakt. Op zich hoeft deze benadering niet gestoeld te zijn op enige specifieke onderwijskundige theorie, wat het mogelijk maakt om zonder veel plichtplegingen meteen tot kwaliteitstoetsing over te gaan.

Het zou makkelijk zijn geweest om 'expert opinion' uit de relevante toetsliteratuur te gebruiken als definitie van wat toetskwaliteit is, maar dat zou een te afstandelijke benadering hebben opgeleverd waarin docenten zichzelf moeilijk of helemaal niet kunnen herkennen. Er zou zelfs een Nederlandse modelcode voor beschikbaar zijn (Cremers-van Wees, Knuver, Vos, & Van der Linden, 1998a, b), inclusief een kleine casuïstiek van situaties die kwalitatief discussiabel zijn. Deze code heeft echter een veel te globaal karakter om richtinggevend voor kwaliteitszorg te kunnen zijn. Tussen de beide klippen van afstandelijkheid en globaliteit door zeilend zal in het project wel gebruik worden gemaakt van wat 'goede praktijk' genoemd zou kunnen worden voor de onder discussie staande thematiek, waarbij de deelnemers uiteraard uitgenodigd zijn om niet zonder discussie in te stemmen met wat 'goede praktijk' zou zijn.

In de tekst van het projectvoorstel is als leidend beginsel het begrip 'doorzichtigheid' van A. D. de Groot (1970) te vinden, later door Job Cohen (1981) vervangen door het juristen meer aansprekende begrip 'kenbaarheid.' In de interviews is ruim aandacht besteed aan de doorzichtigheid van tentamens, maar doorzichtigheid is nu niet meer dan een belangrijke thematiek. De werkdefinitie van kwaliteit is een veel krachtiger hefboom voor dit project dan het begrip doorzichtigheid, waar teveel uitleg voor nodig is voordat er goed mee kan worden gewerkt.

De interviews vormen de inventarisatie van de opvattingen van docenten aan het begin van het project. De instrumenten die moeten worden geconstrueerd bieden evenzovele gelegenheden waarin de juistheid of de aannemelijkheid van bepaalde opvattingen kan blijken. Dit voortgangsverslag zal laten zien dat het mogelijk is dergelijke instrumenten te maken, instrumenten die bovendien waarschijnlijk eenvoudig zijn te gebruiken.

Aanpak eerste fase

Aan het project nemen 8 docenten deel. De docenten zijn zo gekozen dat naast de propedeusevakken ook enkele doctoraalvakken zijn vertegenwoordigd, en dat verschillende tentamenvormen met de deelnemende docenten zijn vertegenwoordigd. Alle voor deelname uitgenodigde docenten hebben met deelname ingestemd. Bij de resultaten is ook de proefafname van het interview meegenomen, zodat het hier in feite om 9 docenten gaat.

In de eerste fase wordt bij de deelnemende docenten door middel van een uitvoerig interview vastgelegd wat de situatie op dat moment is met betrekking tot de feitelijke gang van zaken van het tentamen en alles wat daarvoor direct relevant is, zoals ook de meningen van de docent over diverse aspecten van die gang van zaken worden gevraagd en vastgelegd. Meningen en feitelijke gang van zaken zijn niet noodzakelijk scherp te onderscheiden categorieën van informatie. De bedoeling van de informatieverzameling is zowel om voor latere vergelijking de uitgangssituatie duidelijk in beeld te brengen, als om materiaal te verkrijgen waarmee vignetten, casus of checklists kunnen worden geconstrueerd die in de intervisiegroepen kunnen worden gebruikt om op een gestructureerde manier de kwaliteit van het tentamineren ter discussie te stellen.

De interviews zijn nadrukkelijk neutraal gehouden in de zin dat werkwijzen en opvattingen alleen zijn geregistreerd, en niet op enigerlei wijze in negatieve of in positieve zin zijn gewaardeerd. In absolute zin is dit ideaal van neutraliteit natuurlijk niet realiseerbaar, al was het slechts omdat belangrijke vragen alleen al door het feit dat ze worden gesteld, een impliciete waardering voor bepaalde werkwijzen of opvattingen al in zich kunnen dragen. In de opbouw van het gestructureerde interview is daar rekening mee gehouden door te beginnen met voor de hand liggende onderwerpen, en de meer specifieke vragen meer naar het eind van het interview te plaatsen. Dat heeft respondenten de gelegenheid gegeven al veel specifieke informatie op een spontane wijze kwijt te kunnen nog voordat de betreffende specifieke vragen gesteld hoefden te worden.

De structuur van het interview

Het interview begint met de open vraag naar de eigen tentamenfilosofie. De vraag is niet alleen bedoeld om het interview goed op gang te brengen, maar is ook inhoudelijk van belang. Het eigenlijke interview is ingedeeld in acht thema's, waarbij voor ieder thema in beginsel telkens de vijf onderwerpen 1) de toetsvragen, 2) de toets zelf, 3) het nakijken, 4) de waardering van de antwoorden en de grens zakken/slagen, en 5) de nazorg worden nagelopen. De acht thema's zijn in de juiste volgorde de volgende.

het bedenken van de vragen en samenstellen van de toets (maken en uitvoeren)
de inbreng van anderen, van collega's vooral
de informatie die studenten vooraf krijgen of hebben over het tentamen
controles op kwaliteit, vooraf en achteraf; evaluatie; omgaan met bezwaren
gedrag van studenten (tijdbesteding, motivatie, prestaties, calculerend gedrag)
doorzichtigheid van de situatie voor studenten (voorbereidbaarheid, voorspelbaarheid, concurrentie met andere vakken)
zelfevaluatie: de waardering voor de kwaliteiten van het eigen tentamen, de mogelijkheden om kwaliteit te verbeteren
wat zijn de doelen voor deze cursus, hoe komen die in het tentamen terug, is het tentamen instrumenteel in het bereiken van de doelen, welke leemten zijn er in de dekking tussen doelen en tentamen?

Methode van analyse

De resultaten van de interviews worden gebruikt om hulpmiddelen te construeren die docenten in intervisiegroepen kunnen gebruiken. De bedoeling is om door het contrasteren van meningen en door het vergelijken van meningen met empirische gegevens situaties te creëren waarin men de eigen doelen, of die van anderen, kan toetsen tegen, zeg maar, de buitenwereld.

Dit tussenrapport presenteert een analyse van de resultaten van de gehouden interviews, een analyse die is gericht op de constructie van hulpmiddelen die in de situatie van intervisie zijn te gebruiken. Het gaat in dit tussenrapport niet om een verslag van de 'nulsituatie' omdat zo'n verslag niet neutraal genoeg kan zijn voor de docenten die op een open wijze de intervisiefase in moeten gaan. Voor de te ontwikkelen hulpmiddelen voor die intervisie geldt dat ze niet noodzakelijk een neutraal karakter moeten hebben. Er kunnen immers in veel gevallen wel degelijk normen voor behoorlijk handelen zijn, ook al zijn die zeker niet voor alle door docenten zelf als problematisch ervaren omstandigheden voorhanden. In de intervisie moet er wel ruimte zijn om in gesprek met collega's te ontdekken dat misschien een eigen favoriete handelwijze bij collega's ernstige bedenkingen oproept. Natuurlijk moet het zo zijn dat in een opsomming van verschillende opvattingen, over hoe te handelen in deze of gene situatie, daarin ook de norm voorkomt, mocht er uit jurisprudentie of richtlijnen bekend zijn wat de norm is.

Het verslag van de resultaten van de interviews is vooral het verslag van de dingen die in de interviews niet zijn gezegd. De interviews zelf hebben een neutraal karakter. De werkelijke betekenis van de interviews ligt mogelijk niet zozeer in wat er is gezegd, als in wat er niet is gezegd. Het vereist dus een bijzondere manier van omgaan met de uitspraken uit de interviews om er het werkelijk betekenisvolle materiaal voor het verdere verloop van het project uit te kunnen halen.

Een vorm van toetsing die voor de hand ligt wanneer er uitvoerige interviews met docenten zijn gehouden is die op interne consistentie. Zodra er meerdere opvattingen over toetsen zijn geformuleerd, ook al betreffen ze telkens andere aspecten van toetsen, dan is het de vraag of deze opvattingen zich wel goed met elkaar verdragen. De docent die als filosofie heeft vooral het verkregen inzicht in de stof te toetsen, en later aangeeft alleen kennisvragen te stellen, die docent heeft zijn intervisiecollega's iets uit te leggen, bijvoorbeeld wat de stappen zijn die hij zal ondernemen om filosofie en praktijk dichter naar elkaar toe te brengen. Een uitbreiding van de analyse zal in sommige gevallen mogelijk zijn door rekenkundige bewerkingen, zeker wanneer het gaat om opvattingen die raken aan het steekproefkarakter dat toetsen nu eenmaal en onvermijdelijk hebben.

In veel gevallen is een harde empirische toetsing mogelijk door onafhankelijke oordelen van anderen te vragen: de toets op intersubjectieve overeenstemming. De claim dat een onderdeel van een tentamenfilosofie redelijk is valt immers te weerleggen door een collega te vinden die van die redelijkheid niet is te overtuigen. Dichter bij huis: de claim dat voor een keuzevraag alternatief d) het meest juiste alternatief is kan getoetst worden door een of meer collega's te vragen de ontworpen keuzevragen onder tentamencondities te maken en in te leveren. Van belang is dat oordelen van collega's onafhankelijk worden gegeven, dus tevoren op papier en niet tijdens de bijeenkomst reagerend op meningen van anderen. Het gaat erom de gelegenheid te maken dat het ontbreken van overeenstemming kan blijken, en wel in die zaken waarvan tevoren is aangegeven dat overeenstemming erover essentieel is.

Een sterke vorm van toetsen is tegen beschikbare of nog te verzamelen empirische gegevens. Dat is zinvol bij opvattingen die tevens een voorspelling inhouden, dan is onder geschikte condities na te gaan of de voorspelling uitkomt. Voorspellingen achteraf, gezien al beschikbare gegevens, zijn buiten de orde. Langs de aangegeven wegen is het mogelijk om hulpmiddelen te construeren waarmee aannemelijk is te maken dat aangegeven doelen in voldoende mate worden bereikt, en zo niet, welke acties deze kwaliteit dan zouden kunnen verbeteren. In dit rapport zal schetsmatig op basis van de interviewresultaten worden aangegeven hoe deze hulpmiddelen eruit kunnen zien of kunnen worden geconstrueerd. Dat zal gebeuren voor de diverse probleemvelden waarop de interviews zijn gestructureerd, aangevuld met specifieke onderwerpen zoals die in de interviews naar voren komen.

Tenslotte moet nog expliciet worden aangegeven dat het niet allereerst de bedoeling van het project is om opvattingen en praktijken van docenten te toetsen tegen wat in de onderwijskundige literatuur geldt als 'good practice.' De uitdaging voor het werken met intervisiegroepen is ook dat in de confrontatie met meningen en praktijken van collega's kan blijken dat er mogelijkheden zijn om de kwaliteit te verbeteren, om actie te ondernemen waarmee de praktijk en de doelen dichter bij elkaar zijn te brengen.

Resultaten

Het materiaal van de interviews levert een groot aantal uitspraken op die zijn te ordenen naar een beperkt aantal thema's die de kern van de kwaliteit van tentamineren vormen. Deze uitspraken zullen in de vorm van een uitsprakenlijst per thema worden gegeven. Deze lijst vormt het uitgangspunt voor de constructie van bij dat thema passende instrumenten voor de toetsing van kwaliteit in de zin zoals in het voorafgaande is omschreven. De uitspraken zullen worden genummerd zodanig dat binnen dezelfde lijst de uitspraken van een en dezelfde docent als zodanig kenbaar zullen zijn. Over de thema's heen is de koppeling van nummer en docent losgelaten, om anonimiteit van de docenten te waarborgen. Voorafgaand aan de presentatie van de lijsten wordt een globale analyse van de betekenis van de interviewresultaten voor de kans op slagen van het project gegeven, een analyse die zowel voor de interviews in hun geheel als per thema wordt gedaan. Dat is een analyse naar wat deze interviews ons leren over de stand van zaken wat betreft de kwaliteit van de tentamens van deze voor de faculteit redelijk representatieve groep docenten. Nadrukkelijk wordt in dit eerste voortgangsverslag geen analyse van de interviews van afzonderlijke docenten gegeven, omdat een dergelijke analyse het werk in de intervisiegroepen zeker zou doorkruisen. Desondanks zouden de deelnemers verrast kunnen zijn door de hier in globale lijnen te geven kwaliteitsanalyse, die zal blijken tegen de draad van het in de interviews gestelde in te gaan. In de interviews is volstaan met registreren, en is nadrukkelijk geen discussie aangegaan met de respondenten. De hier te geven analyse is op te vatten als het begin van de discussie, die in de intervisiegroepen ten volle gevoerd zal worden.

De situatie met betrekking tot kwaliteit

De algemene indruk van deze set van interviews is dat docenten zeer open zijn over hun aanpak, en zich gearticuleerd weten uit te drukken waar het gaat om het waarom van de talrijke details van hun werkwijze. Dat vermogen tot articuleren heeft uiteraard te maken met de herhaalde noodzaak studenten het hoe en waarom van het tentamen telkens weer uit te moeten leggen. Omdat het interview ook altijd wel een aantal thema's aansneed waar men zich nooit zo mee bezig had gehouden, werd op een aantal punten verrassing geregistreerd, en de vlot toegegeven erkenning het gewoon niet te weten. Een voorbeeld van dat laatste is de werkelijke tijdbesteding van studenten en vooral ook of studenten een adequate voorspelling van hun tentamenresultaat kunnen geven (eigenlijk niet, meestal). De zelf gesignaleerde tekorten in het tentamen werden echter niet spontaan ook als kwaliteitsproblemen gesignaleerd. Tevredenheid met het eigen tentamen zou misschien wel de kortste samenvatting van de interviewresultaten kunnen zijn. Als nulmeting levert dat een interessant uitgangspunt op, want wat valt er nog aan kwaliteit te verbeteren wanneer docenten zo tevreden zijn? Het antwoord daarop is tweeledig. Het eerste antwoord is dat het onder die omstandigheden moeilijk is om docenten los te weken uit wat toch wel een houding van zelfgenoegzaamheid kan worden genoemd. Het instrument van intervisie beoogt precies om door de confrontatie met meningen van collega's te ontdekken dat de eigen vanzelfsprekendheden dat voor anderen veel minder zijn. Het tweede antwoord is dat er in het materiaal wel degelijk kwaliteitsproblemen schuil gaan, in de definitie van spanning tussen geformuleerde doelen en gerealiseerde praktijk. In het interview zijn die spanningen niet expliciet gemaakt, en ook in dit verslag zal dat niet gebeuren, althans niet op het niveau van individuele docenten, omdat dit juist in de intervisiegroepen door de docenten zelf gedaan zal worden.

De interviews gezamenlijk maken nog iets duidelijk dat voor dit project van groot belang is: de hoge mate waarin docenten bij het tentamineren alleen op zichzelf vertrouwen, de buitenwereld eigenlijk als vanzelfsprekend hebben buitengesloten. Als er een collega wordt geraadpleegd, dan is dat altijd een collega die medeverantwoordelijk is voor die cursus. Er is geen enkele melding gedaan van het vragen van een onafhankelijke mening bij anderen, noch van werkelijke evaluatieve nabespreking van het onderwijs en tentamen met studenten (wat iets anders is dan het nabespreken van de opgaven). Dat is met het oog op de kwaliteitszorg een punt van zorg. Er is discussie mogelijk over de wenselijkheid dat degenen die het onderwijs geven ook het examen afnemen, maar als het gekozen stelsel dan zo is dat onderwijs en toetsing in dezelfde hand zijn, dan is het minste dat nodig is om sleur en gebrek aan kwaliteit te voorkomen dat er enige vorm van intercollegiale toetsing plaatsvindt. Om voor die collegiale toetsing een goede en voor betrokkenen aanvaardbare vorm te vinden is dit project ook opgezet. Dat de interviews op een onverwachte manier de noodzaak hiervan benadrukken verhoogt hopelijk de betrokkenheid van de deelnemende docenten.

Tentamenfilosofie

Misschien niet echt verrassend, maar toch ook niet verwacht, is het resultaat dat negen docenten in staat zijn bijna evenveel verschillende accenten te leggen in hun visie op tentamineren. Het zijn waarschijnlijk accenten, maar dat zal in de loop van het project nog blijken, want het gaat meestal niet om visies die elkaar uitsluiten, maar aanvullen. Waar de docent het eerst aan denkt, gesteld voor de vraag naar de eigen filosofie op het tentamineren, is kennelijk wel het belangrijkst voor die docent, maar hoeft andere opvattingen niet uit te sluiten. Meestal werd deze filosofie ter plekke geformuleerd, en met overtuiging, ook al signaleerden meerdere docenten dat dit eigenlijk de eerste keer was dat zij zo'n visie op hun wijze van tentamineren onder woorden brachten.

Voor het werken aan kwaliteit is de tentamenfilosofie een handig ankerpunt omdat het voor de docent een leidraad is bij het inrichten en afnemen van de tentamens. De filosofie geeft aan op welke manier de docent zich gecommitteerd wil weten. Het is als het ware een opdracht aan zichzelf waarvan wordt aangegeven, door hem in het interview te formuleren, dat anderen haar of hem eraan mogen houden. De filosofie is vaak globaal geformuleerd en duidt meer een richting aan dan concrete doelen die gehaald zouden moeten worden. De missie moet daarom nog worden vertaald naar wat specifieke doelen zijn. Dat gebeurt nu juist in de interviews waarin specifieke activiteiten, situaties en informatie worden nagelopen. De filosofie vraagt dus om vergelijking met de concrete doelen zoals die in het interview expliciet of ook impliciet onder woorden worden gebracht.

In de tentamenfilosofie moet tot uitdrukking komen wat de docent als de eigen 'missie' ziet bij het tentamineren. Zo is het niet gevraagd, maar het zou toch verbazen wanneer een docent met een heel ander verhaal komt wanneer om de missie wordt gevraagd. Toch is dat wel een beetje gebeurd, want aan het eind van het interview is nog uitvoerig gevraagd naar de belangrijkste doelen voor de betreffende cursus, en de wijze waarop die in de wijze van tentamineren, de tentamenvragen e.d. tot uitdrukking komen.

Ontwerpen van tentamenvragen en opdrachten

De typische aanpak bij het maken van nieuwe tentamenvragen of opdrachten is om de hele stof nog eens door te nemen en bij belangrijke onderwerpen te proberen daar nog weer eens een nieuwe vraag over te bedenken. De vorm voor de te bedenken vragen is dan altijd gelijk aan die van de oude vragen. Er is dus sprake van een nogal passieve werkwijze waarbij een tamelijk rechtlijnige vertaling van leerstof naar vragen over de leerstof wordt gemaakt. Nadrukkelijke aandacht is er alleen voor representativiteit: bijvoorbeeld dat over ieder hoofdstuk in het tentamen tenminste ook een vraag voorkomt. Is er een collega met wie wordt samengewerkt dan kijkt die ook naar de nieuwe vragen en geeft daar eventueel commentaar op.

Wat hier ontbreekt is een onderwijskundig plan of een didactisch concept op grond waarvan in een constructieve benadering nieuwe vragen worden ontwikkeld en uitgeprobeerd. Een didactisch concept is uiteraard meer dan een opsomming van onderwerpen, al was het maar dat bij ieder onderwerp duidelijk is waarom het in deze cursus zit, wat de student ermee moet, en in welke vorm van beheersing dat moet resulteren. Wat daarentegen wel vaak voorkomt is het onderwerp vaardigheden, maar dat is een containerbegrip voor uiteenlopende zaken zoals communicatieve vaardigheden (schrijven), cognitieve vaardigheden (zien van relaties e.d.), wetenschappelijke vaardigheden (logische en methodologische vaardigheden), met niet altijd duidelijke relaties tussen wat in het onderwijs op dat punt aan de orde is, en waar bij het tentamen op wordt beoordeeld.

Bij het ontbreken van een onderwijskundig ontwerp wordt er kennelijk op vertrouwd dat op basis van ervaring en intuïtie de relatie tussen de doelen van het vak en de manier waarop over de bereiking daarvan vragen worden gesteld in het tentamen, wel gewaarborgd zal zijn. In dergelijke situaties kan het makkelijk gebeuren dat de stof op een hoog niveau van abstractie wordt behandeld en even abstract wordt getoetst, terwijl in feite de studenten niet zijn toegerust om in concrete situaties het aangereikte begrippenapparaat te kunnen gebruiken. Voor toetsen op dit niveau is het juist noodzakelijk om vraagstellingen te bedenken die niet in de opgegeven stof voorkomen, en waar de behandelde theorie op toegepast moet kunnen worden. Het ontwerpen van tentamenvragen vergt dus een bijzondere inspanning, maar van die bijzondere inspanning maken docenten in de interviews geen melding.

Bij het ontbreken van een didactisch concept is het tentamen een schot in het donker. In kwaliteitstermen gesproken: het is een open vraag welk doel met het tentamen eigenlijk wordt getroffen. De tentamenfilosofie kan natuurlijk worden gebruikt om het gebrek aan doeltreffendheid liefdevol toe te dekken, maar dan valt er verder ook geen kwaliteit meer te winnen. In de intervisiegroep kan over de band van welwillende collega's worden geprobeerd om de afstand tussen onderwijsdoelen en wat op het tentamen in feite van de studenten wordt gevraagd, te verkleinen.

Bij enkele respondenten is er overigens wel een vermoeden dat tentamineren in de hier beschreven zin problematisch is, en dan treffen we de bescheiden filosofie aan dat met het tentamen alleen een controle is beoogd op het onder ogen gehad hebben van de opgegeven literatuur. Dat kan kwaliteit opleveren wanneer het tentamen in de praktijk dan ook zo blijkt te functioneren.

Eisen (zakken/slagen)

In de interviews komt op het punt van de eisen die gesteld worden aan de studenten naar voren dat die vaker niet dan wel worden gesteld. Een zekere passiviteit is te proeven: er zijn natuurlijk verschillen tussen studenten, en studenten die er helemaal niets van terecht brengen horen niet te slagen. De docenten die heel nadrukkelijk wËl eisen stellen, en dat zijn dan vooral eisen van hard werken en niet in de eerste plaats van niveau in prestaties, die docenten zijn in de minderheid. Het ziet ernaar uit dat het hier gaat om persoonlijke smaak van docenten, niet om de aard van het vak dat zij doceren. Een rol speelt waarschijnlijk toch dat de aard van de leerstof niet vanzelfsprekend verwijst naar duidelijke niveaus van beheersing van die stof. Er is dan ook zelden sprake van intensieve vormen van oefening om zich de stof door en door eigen te maken, maar veeleer van oppervlakkig aanraken van grotere hoeveelheden materiaal.

Veel docenten geven aan moeite te hebben met het trekken van de grens tussen zakken en slagen, daar eigenlijk geen goede argumenten voor te hebben. Nu is het inderdaad zo dat niet inhoudelijk valt te onderbouwen waarom Piet met 26 punten net slaagt en Marie met 25 punten net zakt, dat is immers vrijwel volledig toeval. De springende vraag is natuurlijk waarom er dan toch zoπn grens tussen zakken en slagen wordt getrokken. Dat op dit punt grote verschillen in opvattingen tussen docenten vallen te constateren zal niet verbazen. Voor de kwaliteitszorg ligt hier een heel groot aandachtspunt omdat duidelijk mag zijn dat al naar gelang de handelwijze en de opvattingen van de docent, de studenten zich op deze of gene wijze op het tentamen zullen voorbereiden. Het is denkbaar dat er situaties kunnen groeien waarin studenten zich niet adequaat op het tentamen voorbereiden en desondanks meestal met een voldoende beoordeling wegkomen.

Vaak hebben docenten uitgesproken opvattingen over verschillen in niveau zoals zij die menen te zien in de groep studenten die aan het onderwijs deelneemt, alsook in het gemaakte tentamenwerk van die studenten. Je zou dit als een zekere tentamenfolklore kunnen zien. Het kan best zijn dat die folklore met de onafhankelijk getoetste werkelijkheid overeenkomt, dan is er weinig aan de hand. Als die folklore geen stand houdt tegen onafhankelijke toetsing, kan ze hopelijk onmiddellijk worden afgelegd. Een goede check vormt een echt onafhankelijke tweede beoordeling van opdrachten of tentamens, een oefening die in intervisie zeker zal worden gedaan.

Intersubjectiviteit (Controle, evaluatie, bezwaren)

Bij de vrijwel algemene voorkeur voor tentamens met open vragen is geen gelijktijdig besef aangetroffen van de feilbaarheid van oordelen over proza. Voor meerdere tentamens wordt bij het nakijken van het ingeleverde werk teamsgewijs geopereerd. Telkens weer benadrukken respondenten dat er intersubjectieve overeenstemming is tussen de oordelen van henzelf en die van hun collega. Dat is een interessant gegeven, die spanning tussen de behoefte om aan te geven dat er overeenstemming is, en de gelijktijdige overtuiging dat er inderdaad sprake is van overeenstemming. Zou die overeenstemming er niet zijn, dan had eerder in de manier van tentamineren moeten worden ingegrepen, dus dat testimoniam paupertatis valt in ieder geval niet in deze interviews te verwachten. Toch is de literatuur op dit gebied weinig hoopgevend: de algemene lijn is immers dat onafhankelijke oordelen over antwoorden op open vragen een teleurstellend lage mate van overeenstemming hebben. Het vermoeden rijst dan dat de intersubjectieve overeenstemming door docenten niet echt streng is onderzocht. Een andere, mogelijk aanvullende, verklaring is dat de wijze van vraagstellen en nakijken al in hoge mate onderling is afgestemd, waardoor er in feite geen sprake is van onafhankelijke beoordeling. Het moet hier mogelijk zijn om via kleine experimentjes met hulp van de intervisiecollega's wat meer realistische inschattingen van de mate van intersubjectieve overeenstemming te maken.

Het thema raakt aan de oorspronkelijke vraagstelling voor dit project, waarin het modelantwoord als uitgangspunt werd genomen. Natuurlijk is het mogelijk door het vergaand specificeren van modelantwoorden een hoge mate van betrouwbaarheid bij het nakijken van de antwoorden op open vragen te verkrijgen. Maar daarmee verschuift slechts de vraagstelling naar die van de intersubjectiviteit bij de vaststelling van het modelantwoord zelf.

Studenten

De meeste docenten geven aan weinig of niets te weten over de tijdbesteding van studenten in directe voorbereiding op het tentamen. Dat is een leemte in het inzicht in de situatie van het eigen tentamen die bepaald erom vraagt te worden opgevuld. Zolang niet goed bekend is of studenten wel een redelijke hoeveelheid tijd besteden aan de voorbereiding op het tentamen, valt er ook weinig met zekerheid te zeggen over de vraag of het niveau waarop de studenten worden getoetst wel adequaat is.

Een gevolg van deze leemte in kennis is dat er ook geen goed antwoord valt te geven op de vraag wat studenten zullen doen in het geval de eisen merkbaar zouden worden aangescherpt. Het idee dat de eisen die met het tentamen worden gesteld van invloed zouden zijn op de hoeveelheid tijd die studenten in de voorbereiding op het tentamen investeren, kwam soms als een verrassing. Natuurlijk weten docenten heel goed dat studenten zich bij het studeren richten naar wat ze denken dat er op het tentamen gevraagd zal worden: studenten vragen daar vaak rechtstreeks naar, en docenten geven er vaak expliciet de nodige aandacht aan, houden soms responsiecolleges kort voor het tentamen. Maar het besef ontbreekt dat je dus in een onderwijskundig ontwerp rekening zou kunnen houden met deze behoefte van studenten, en dat je daardoor de resultaten van het onderwijs behoorlijk zou kunnen verbeteren.

Kenbaarheid (voorspelbaarheid etc., investerend gedrag)

Het onderwijs kan alleen maar goed functioneren wanneer er een duidelijke relatie is tussen studie-inspanningen en wat er op tentamens wordt gevraagd. Met andere woorden: studenten moeten enig idee hebben van de prestatie die ze op het tentamen neer zullen zetten. Zou dat niet zo zijn, dan zou er geen enkele motivatie zijn om nog een uur extra aan de studie te besteden, want dat maakt immers geen merkbaar verschil. Het komt dan ook als een schok over om te zien hoe meerdere docenten aangeven te denken dat studenten kort voor het afleggen van het tentamen niet goed kunnen inschatten welk resultaat ze zullen behalen. Het is in ieder geval duidelijk dat docenten niet gewend zijn om op deze manier over hun tentamen te denken.

Voor dit thema zou het niet zo'n geweldig idee zijn om studenten voorafgaand aan het tentamen te vragen welk cijfer ze waarschijnlijk halen, waarschijnlijk antwoorden de meesten daarop met 'een zes, hoezo?' Maar over voorspelbaarheid valt in analytische zin wel het een en ander uit te zoeken. Bekend is uit de testliteratuur het resultaat dat testbetrouwbaarheid toeneemt met het aantal vragen in de test. Het is zeker mogelijk om een klein instrumentje te maken waarmee deze voorspelbaarheid concreet vorm kan worden gegeven.

Objectiviteit

Hoewel nergens als zodanig in de tentamenfilosofie verwoord, zijn alle docenten zich bewust van problemen van eerlijkheid bij het tentamineren. Die eerlijkheid spitst zich vooral toe op het nakijken van de antwoorden op open vragen. De algemene opvatting is ook bij deze docenten dat hun studenten er recht op hebben dat hun antwoorden zorgvuldig worden nagekeken en dat zij tekst en uitleg moeten krijgen van de manier waarop hun antwoorden zijn beoordeeld en gewaardeerd. Verschillende benaderingen zijn daarvoor in gebruik, te onderscheiden naar het werken met modelantwoorden en naar de techniek van het dubbel nakijken (die natuurlijk ook in combinatie met elkaar kunnen worden gebruikt).

Het probleem dat hier door de docenten zelf wordt gesignaleerd is het grote tijdsbeslag dat het nakijken van antwoorden op open vragen met zich meebrengt. In een adem door wordt dan gesteld dat het wel erg veel tijd kost, maar dat het toch de moeite waard is om dat te blijven doen. Dit is evenwel toch een situatie die vraagt om een nadere afweging van kosten en baten. Van belang is dat de tijd die wordt besteed aan het nakijken, niet meer beschikbaar is om onderwijs te geven, zoals door tenminste een van de respondenten ook opgemerkt. Zo valt er ook te analyseren of de student eigenlijk wel iets heeft aan al die zorgvuldigheid bij het nakijken: wordt het tentamen er soms beter voorspelbaar door? En wanneer er dan toch een fase van reflectie op het tentamen met open vragen aanbreekt, kan meteen gekeken worden of er eigenlijk wel iets van de doelen of van de tentamenfilosofie zou worden ingeleverd bij overstappen op keuzevragen. Want de gehechtheid aan open vragen lijkt niet te berusten op het bewezen onvermogen om hetzelfde te toetsen met keuzevragen, maar op het gevoelen dat er iets moet met schriftelijke uitdrukkingsvaardigheden.

Afsluiting

De resultaten zoals hierboven gerapporteerd, geven de indruk dat er best het een en ander aan kwaliteit valt te verbeteren. Het gaat evenwel om een groep docenten die zich op geen enkele manier negatief onderscheidt van andere groepen docenten in het Nederlandse universitaire onderwijs, waarschijnlijk echter evenmin positief. Maar dit suggereert nog teveel dat in het bovenstaande ook oordelen op de dimensie goed-slecht aan de orde zouden zijn, wat natuurlijk niet het geval is. Waar naar is gezocht, is waar er mogelijk licht zit tussen uitgesproken doelen en hoe het in de tentamenpraktijk in werkelijkheid gaat, want dat zijn de situaties waarin er kwaliteitswinst is te behalen. De resultaten maken ook duidelijk dat cruciaal is voor het binnenhalen van die mogelijke kwaliteitswinst dat docenten zich openstellen voor welwillende commentaar en bijdragen van hun collegaπs. Want het feit dat er op zoveel punten kwaliteitsproblemen zouden kunnen bestaan, heeft er alles mee te maken dat over het eigen onderwijs tot nu toe niet die openheid bestaat die bijvoorbeeld voor het eigen onderzoek heel gewoon is. Het zoeken van externe referenten voor de eigen onderwijspraktijk is op zijn zachtst gezegd niet een praktijk die vanzelfsprekend is.

Een uitdagend aspect aan de intervisie is dat deze nu juist plaats gaat vinden langs lijnen van waarheidsvinding en intellectueel redeneren die vele van deze docenten onder woorden hebben gebracht als te behoren tot hun eigen tentamenfilosofie en onderwijsdoelen. Het slagen van het project lijkt daarmee op voorhand gegarandeerd te zijn.

Gerefereerde literatuur

Cohen, M. J. (1981). Studierechten in het wetenschappelijk onderwijs. Zwolle: Tjeenk Willink.

Cremers-van Wees, L. M. C. M., Knuver, J. W. M., Vos, H. J., & Van der Linden, W. J. M. (1998a). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. ISBN 90 365 1089 9. http://www.benwilbrink.nl/Model_gedragscode_toetsen_beoordelen_en_beslissen_in_het_voortgezet_onderwijs.pdf

Cremers-van Wees, L. M. C. M., Knuver, J. W. M., Vos, H. J., & Van der Linden, W. J. M. (1998b). Toetsen, beoordelen en beslissen in het voortgezet onderwijs. Ontwikkeling van een gedragscode voor leraren. Enschede: OCTO. ISBN 90 365 1090 2.

Groot, A.D. de (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. html

BIJLAGE

Deze bijlage bevat lijstjes met kort geherformuleerde uitspraken die in de interviews zijn gedaan. De uitspraken vormen het basismateriaal waarmee in de intervisiegroepen gewerkt kan worden. De te ontwikkelen instrumentjes kunnen eenvoudig bestaan uit de vraag de uitspraken op een of andere antwoorddimensie te beoordelen, voorafgaand aan de bijeenkomst. Aan het andere uiterste zouden er simulatieprogramma's ontwikkeld kunnen worden (uit programmatuur die overigens al beschikbaar is) om uitspraken over voorspelbaarheid van tentamenresultaten analytisch te toetsen. Een aantal voorbeelden van analyses die via simulatie gedaan kunnen worden, zijn in de onderstaande tekst al gegeven. Het is niet de bedoeling van de toelichtingen bij die computeranalyses dat de techniek van simulatie en analyse daaruit ook begrijpelijk zou moeten zijn: het gaat alleen om de resultaten van die analyses. Het is evenwel mogelijk om met het computerprogramma zelf reeksen analyses te doen. De programmatuur draait onder het Apple-systeem, en kan in beginsel ook worden gecompileerd naar Windows-platforms.

Uitspraken tentamenfilosofie

11 Met het tentamen moeten studenten zelf kunnen zien wat ze hebben opgestoken.
12 Het gaat erom dat studenten zelf kunnen formuleren wat ze hebben geleerd.
13 Het gaat om het weten of het inzicht, niet alleen maar het op kunnen zoeken.

21 Het tentamen is gericht op de vaardigheden die in het onderwijs aan de orde zijn.
22 Belangrijke vaardigheden zijn het leggen van verbanden, beredeneren, verschillen tussen argumenten, theorieën e.d. aangeven.
31 Op het tentamen moeten studenten kunnen tonen het geleerde zelfstandig te kunnen gebruiken.

32 Het onderwijs moet voorbereiden op wat wordt getoetst, wat wordt getoetst moet in het onderwijs zijn voorbereid.
33 De toets heeft een sturende werking op het gedrag van studenten, in die zin wordt de toetsing in de didactiek ingepast, bijv. door deeltoetsen.
34 De toets moet een redelijke dekking van de stof zijn.
35 De toets gaat niet buiten de stof of boven de stof uit, ook niet bij de beoordeling.

41 Studenten moeten blijk geven de belangrijkste onderwerpen tenminste boven een bepaald minimum te beheersen.
42 Het tentamen moet een open situatie zijn waarin de student leerresultaten kan laten zien, ook op nieuwe onderwerpen; de vorm is daarom het take-home tentamen.
43 De gestelde vragen toetsen het minimumniveau en geven tegelijk gelegenheid daarbovenuit prestaties te laten zien.

51 Mate van doelbereiking door student beoordelen.
52 Tentamen voor kennis van de stof, vervolgens werkstuk maken.
53 Ook stijlaspecten, wijze van omgaan met wetenschappelijke ideeën.π

61 Tentamen toetst op minimum van kennis en vaardigheden.
62 Het gaat om de grondbeginselen van wetenschappelijk taalgebruik en argumenteren.

71 Toetsen op serieus meegedaan en stof bestudeerd hebben.
72 Ik wil ze afhelpen van het idee dat mooi kunnen praten gelijk staat aan maatschappelijke vorming.

81 Controle op leren en bestuderen van de stof, stok achter de deur, kijken of ze het geleerd hebben.
82 Het resultaat van het tentamen is dan niet zozeer van belang.

91 Möeten studenten getoetst worden, of hoeft dat eigenlijk niet. Dat is een vraag die zich zinvol laat stellen. Is tentamineren absoluut nodig? 92 Het is nodig omdat studenten opgegeven literatuur niet zomaar gaan lezen.
93 Kun je duidelijk opschrijven wat je bedoelt, en is dan dan aan anderen ook duidelijk. Lezen, denken en schrijven als academische vaardigheden.
94 Het tentamen moet duidelijk differentiëren tussen studenten. Onze tentamens doen dat heel goed, zeg van 1 tot 10.
95 Het gaat erom dat ze de literatuur gelezen hebben, met common sense komt de student er niet.

Deze lijst uitspraken leent zich goed voor gebruik bij de eerste bijeenkomst van de intervisiegroep. De opdracht kan zijn om bij iedere uitspraak een oordeel te geven over de mate waarin men zelf die uitspraak zou steunen of juist niet, op een toepasselijke schaal van 1 (niet) tot 10 (wel). Dat moet dus tevoren gebeurd zijn zonder overleg met collegaπs, de oordelen moeten bij de uitspraken zijn bijgeschreven, de hele lijst wordt bij het begin van de zitting ingeleverd (op naam).

Ontwerpen van tentamenvragen en opdrachten

11 Het niveau en de aard van de vragen ligt op dat van de titels, kopjes en cursiveringen in de tekst, waarover vragen worden gesteld. Bijv. bij kopje 'dinges' de vraag: 'wat is de ontwikkeling in de dinges sinds het begin van de zorfat?'
12 Essayvragen, omdat dat aansluit bij de algemene cultuur binnen de faculteit.
13 Geen uitgewerkte modelantwoorden, wel begrippen of relaties die in goede antwoorden voor moeten komen.
14 Taalfouten e.d. spelen geen rol. Wat onleesbaar is kan natuurlijk niet worden beoordeeld.
15 Ik vind het geen heel goede vragen, omdat ze een tamelijk algemeen karakter hebben, veel te inleidend zijn. Het doel van het vak komt dan ook niet goed in de vragen en in het tentamen in zijn geheel tot uitdrukking.

21 Vragen komen organisch voort uit de aard van de studietekst en de manier waarop ik die aan de orde stel.
22 Het gaat om het aanbrengen van context, het leggen van verbindingen, het actief met de stof bezig zijn. Een voorbeeld van dat laatste is het ontwikkelen van Nederlandse parallellen voor wat in de Engelse stof wordt behandeld. Zien ze de context, hebben ze de stof begrepen, kunnen ze erop doorgaan, kunnen ze concretiseren. Ook: vergelijkenderwijs werken, vergelijking van theoretische gezichtspunten.
23 De tentamenvorm (opdrachten) past bij de praktijk van aan een universiteit lesgeven. Tegenover deze vorm van open vragen staat het gebruik van MC-vragen, dat mij met de nodige skepsis vervult, goede uitzonderingen daargelaten.

31 Ik lees het boek nog eens goed door. Ik probeer inzichtvragen te stellen, bv. koppelingen tussen de inhoud van het 1e en het 6e hoofdstuk, welke verbanden ziet de student.
32 Het basisidee is dat verschillende begrippen aan elkaar gerelateerd moeten kunnen worden.
33 Opdrachten: de theorie moet worden toegepast. Inzicht hebben betekent dat de student een vertaling kan maken naar voorbeelden en naar de praktijk.
34 Bij het werkstuk moet de structuur conform zijn aan wat daarover is voorgeschreven: leesbaarheid, begrijpelijkheid, consistentie, volledigheid. Er zit enige subjectiviteit in het algemene oordeel, het cijfer is een globaal oordeel.

41 Inhoudsvaliditeit door uit iedere paragraaf te vragen.
42 Doelen zijn niet altijd in vragen te vertalen omdat bepaalde problemen te moeilijk zijn (voor deze studenten)
43 Geprobeerd wordt vragen ongeveer even moeilijk te maken.
44 Het leukst zijn vragen die meteen zijn te doorzien of anders door hard werken moeten worden opgelost.

51 'Schets enige achtergronden', 'Probeer te verklaren waarom ... '
52 Neem een stukje uit de conclusies van de auteur, en vraag wat de auteur hier bedoelt.
53 Verbindingen leggen tussen specifieke stukkenuit de opgegeven literatuur.
54 De korte vragen toetsen op het gelezen hebben, het thuis kunnen brengen.
55 Ik blader de literatuur door en maak dan vragen over onderwerpen die in dexe cursus het belangrijkst zijn, op wat in college is behandeld.
56 Bij gegeven situatie of probleem, enkele specifieke vragen stellen.

61 Ik lees de stof door, ga na wat in een bepaald betoog de grote lijn is, en stel daar een vraag over.
62 Er worden wel eens definities gevraagd, maar dat iseen steriele manier van omgaan met de stof die niet onze voorkeur heeft.
63 Vergelijking tussen theorieën wordt gevraagd.
64 Ter voorbereiding van de bespreking van de literatuur moeten studenten een samenvatting maken van het betreffende artikel: de gedachtengang, de grote lijn, wat de auteur ermee wil zeggen. Ze moeten er ook een aantal vragen over formuleren, vragen die mogelijk ook tentamenvragen zouden kunnen zijn. De samenvatting, met een omvang van 1 A4, wordt voor iedereen gekopieerd.
65 Grote lijnen aan kunnen geven e.d. is een belangrijke vaardigheid voor wetenschappelijk werk.
66 Of voor deze stof keuzevragen bruikbaar zijn, ik zou niet weten hoe dat zou moeten. Keuzevragen zou een catastrofe zijn.
67 We hebben ons wel eens afgevraagd of we niet meer en kleinere vragen zouden moeten stellen, tenminste mijn collega zou dat wel willen. Het lijkt mij een heidense klus, en wat toets je dan? Het zou een veel schoolsere manier van de stof doorwerken opleveren.

71 De stof is ingedeeld naar onderdelen; over ieder onderdeel worden twee vragen gesteld. De student met kiezen welke van deze twee vragen te beantwoorden. Iedere vraag heeft twee subvragen. De vragen gaan nooit over feitjes alleen, wel over feiten + inzicht. Inzicht is: begrijpen van moeilijke verbanden die in de tekst zelf te vinden zijn; verklaring van gedachtengangen van auteurs. Het tentamen over het tweede, 4-puntsdeel gaat over vijf onderdelen van de stof, waarover telkens 1 vraag.
72 Een leuke vraag zou zijn: vind je het leuk om tentamens te maken, als docent dan. 'Is this all there is (Woody Allen).' Ik vind het in ieder geval wel leuk, om de stof op deze bepaalde manier te bekijken, met verschillende mogelijke vormen van vragen te werken. Krijgt het docentschap weer een impulsje. Het tentamineren is al met al een beetje een ambivalent gebeuren. Het is zeker niet het leukste in het onderwijzen, dat is de interactie. Tentamineren is een noodzakelijk kwaad ('is het eigenlijk wel nodig?').

91 Complexe essayvragen: definities van begrippen, relaties tussen modellen.
92 Omdat de vragen erg abstract zijn is de stof met een klein aantal vragen al gedekt.
93 Er is zorg over dat kleine aantal vragen.
94 Er is een lijst met de belangrijke onderwerpen uit de stof.

Het belangrijkste type activiteit is voor dit thema de kritische bespreking van concrete tentamenvragen die door de deelnemers worden ingebracht. Het kritisch gehalte van die bespreking bestaat allereerst uit het zoeken naar de overeenkomst of het gebrek aan overeenkomst met de hoofddoelen van het betreffende vak, of met de tentamenfilosofie van de betreffende docent. Het gaat natuurlijk niet om het creëren van bedreigende situaties, maar juist van besprekingen die de docent kan benutten om eigen twijfels scherper te krijgen, en om handige tips van anderen te krijgen over de vraagvorm die wordt gebruikt, over de techniek om uitgaande van de stof of beter nog van casus uit het vak te komen tot constructie van tentamenvragen. De ultieme vraag is misschien of voor dit vak, deze doelen en deze studenten het afnemen van een tentamen wel het beste instrument is.

Eisen (zakken/slagen)

11 Het niveau is aan de lage kant voor academisch gevormden, dat mag en kan niet nog lager.
12 Veel van deze studenten zitten aan hun tax: zwaardere eisen zouden leiden tot lagere slaagpercentages.
13 Niveau is 60% weten 14 In beginsel zou je het tentamen zo kunnen samenstellen dat er rond de cesuur een dip zit.
15 'We richten ons duidelijk op een minimum. Als je dat ook nog weer zou compenseren, zou ik daar niet gelukkig mee zijn.'
16 Na drie gelegenheden is zo'n 90% erdoorheen. Studenten die overblijven blijken vaak probleemgevallen überhaupt te zijn. Het vak is dan ook geen 'struikelvak.'

21 Meestal heb ik te weinig onvoldoendes.
22 Het is een beetje arbitrair. Voldoende is: weten waar het over gaat, in eigen woorden weer kunnen geven, geen domme dingen, alle elementen aanwezig. Als iemand de helft weet op te schrijven, neem ik aan dat hij/zij de andere helft tenminste heeft gedacht; ik kom dan ook op teveel voldoendes uit.
23 Als het werk vies of slordig is, als het Nederlands niet loopt, maakt dat een ongunstige indruk, ook al probeer ik daar langsheen te lezen. Het gaat om het onderscheid tussen een op zich juiste gedachtengang niet goed formuleren, en geen juiste gedachtengang hebben. Voor allochtone studenten is de stof zelf overigens ook 'biased.' Dat geldt zelfs voor autochtone studenten, die steeds vaker geen idee meer hebben van wat het christendom inhoudt.
24 Herkansingsmogelijkheden: Mensen zien er wel vanaf om het bij de eerste gelegenheid te doen, het leidt een heel klein beetje tot uitstelgedrag. In de praktijk slagen met al die herkansingen natuurlijk wel veel mensen: het is vervelend om iemand steeds te laten zakken. Je hebt me niet horen zeggen dat die herkansingen leiden tot normvervaging. Je legt wel de lat steeds lager; als je lang genoeg volhoudt dan kom je er wel.
25 Mijn vragen zijn te makkelijk, ik onderschat de studenten. Hun algemene ontwikkeling vind ik zo laag, ik heb het idee dat ze het anders gewoon niet trekken. De vragen moeten ook niet veel abstracter zijn dan wat op het college is behandeld. Voor de echt goede studenten moet het niveau van de vragen teleurstellend zijn.

31 Grens voldoende onvoldoende: dat is heel moeilijk en heel persoonlijk. Bij de een kan voldoende zijn wat bij de ander onvoldoende is, rekening houdend met persoonlijke achtergrond.
32 De studenten met een onvoldoende krijgen een verbeteropdracht.
33 Studenten die onvoldoendes halen investeren mogelijk te weinig tijd.
34 Tentamen en opdracht moeten beide voldoende zijn.

41 Voor een goede beantwoording moet de student meer gedaan hebben dan alleen maar het boek lezen.
42 Als de meeste opdrachten ingeleverd zijn, dan levert dat een extra punt op voor het tentamencijfer (1e gelegenheid). Het zijn meestal de zessen en zevens die zo een punt omhoog gaan.
43 Slaagpercentage rond 50%; 50 tot 60 studenten, de 2e keer 15, de 3e 4 ongeveer. Studenten hebben dan echt hard moeten werken, het is een zwaar vak.
44 Het blijkt dus een moeilijk tentamen te zijn, terwijl studenten hoog worden belast. Desondanks vind ik dat de vragen qua moeilijkheid goed zijn zoals ze zijn.
45 Er zijn doorgaans vrij veel tweeën en drieën, mensen die hele vragen moeten overslaan. Misschien denken deze studenten dat het tentamen bestaat uit simpele vragen waar je met handig formuleren wel uitkomt.
46 Het gaat in dit vak om abstracte, niet-natuurlijke begrippen. Om daar mee om te kunnen gaan is een zekere intelligentie nodig waar niet iedereen over beschikt. Dus niet iedereen kan de stof leren op het niveau dat ik vraag.

51 Omzetten van punten naar cijfer is niet tevoren bepaald, hangt ervan af hoe het tentamen is gemaakt.
52 De twee onderdelen moeten beide voldoende zijn.
53 Er zijn blokkers die hogere cijfers halen dan op grond van de indrukken verwacht.
54 De eisen voor het tentamen zijn niet hoog.

61 Het tentamen geeft mij inzicht in wie heeft gewerkt, en wie inzicht heeft.
62 Er zit een sterk vergelijkend aspect in het tentamen, daar ben ik niet trots op. Als er heel goede studenten zijn, beÔnvloedt dat de waardering, en ook wanneer de beantwoording veel slechter is dan verwacht.
63 Studenten die in de werkgroep een goede indruk maken, en op het tentamen slecht scoren, hebben zich er slecht op voorbereid, zoals ze zelf dan ook wel aangeven.
64 Het tentamen is op de 'gemiddelde student' gericht. Ik voel wel eens de druk om het tentamen niet te moeilijk te maken. Ik vind het tentamen niet zwaar genoeg voor ambitieuze studenten. De studie moet voor de gemiddelde student te doen zijn; de meer getalenteerden moeten zichzelf extra taken geven. Ik ben uit deze thematiek volstrekt niet uit.
65 Het slaagpercentage schommelt tussen de 70 en 80%. Dit jaar was het 80%, dat was ook enigszins verwacht, het was een 'beter' jaar.
66 Het nakijken is valide, we maken geen grote fouten (mensen die er ten onrechte doorkomen). We meten wat we willen meten. Hoe onzeker je overigens ook bent met zo'n open tentamenvorm.

71 Van degenen die deelnemen slaagt tweederde. Veruit de meeste deelnemers, zo', 70 ‡ 80%, heeft 1 of 2 vrijstellingen. Studenten vinden dit een moeilijk tentamen, d.w.z. dat ze de stof lastig vinden. Veruit de grootste groep kan al bij de 1e keer slagen als ze het onderwijs volgen en regelmatig de opdrachten maken. Die studenten hebben het makkelijk bij het tentamen.
72 Binnen die groep kun je dan wel weer een onderscheid maken naar intelligentie, naar de mate waarin de beheersing en de analytische vaardigheden op een hoger niveau staan.

81 De kracht van deze tentamenvorm (take home): aan de bovenkant geeft het ruimte en prikkels, terwijl aan de onderkant de zwakkere studenten 'ontmaskerd' worden. Door deze tentamenvorm zie je dat er studenten zijn die moeilijkheden hebben met het schrijven, de beheersing van het Nederlands, de beheersing van de stof, logisch denken, dat is toch ÈÈn cluster van samenhangende capaciteiten. Dat levert wel beoordelingsdilemma's op; de afgelopen jaren zijn er enkele mensen geweest die naar aanleiding van dit tentamen met de studie zijn gestopt.

91 Wat toets je nu precies? Het gevaar is dat je voortdurend de baselineπ toetst: intelligentie en uitdrukkingsvaardigheid. Dan benadruk je voortdurend hoe iemand is. Getalenteerden worden voortdurend beloond, de niet getalenteerden niet.
92 Wat moeten we dan wËl toetsen? Vooruitgang? Het gaat me niet om de opgedane kennis, die zakt toch weer weg: toets niet het goede geheugen, maar of de student de kennis gebruikt, dus zijn geheugen getraind heeft.
93 Deeltentamens moeten allebei voldoende zijn.

figuur 1

Figuur De dip-hypothese.

Bovenstaande figuur is een analytische oefening voor de 'dip-hypothese' dat een tentamen zo geconstrueerd zou kunnen worden dat er bij de cesuur een dip ontstaat. De hypothese is in feite vooral een vooronderstelling over de groep deelnemende studenten, dat daar evidente 'onvoldoendes' naast evidente 'voldoendes' in voorkomen, waarbij er daartussen niets zou zijn. Het is echt een onzinnige hypothese, omdat het strategische gedrag niet cesuur-mijdend, maar veeleer cesuur-zoekend is. Hoe dat ook zij, veronderstel eens dat twee studenten op de proeftoets van 25 vragen respectievelijk 10 en 20 vragen goed hebben, en onmiddellijk een nieuwe toets gaan maken. De voorspelling ziet er dan uit zoals in de figuur afgebeeld. Eigenlijk zouden de voorspellende verdelingen voor de twee studenten bij elkaar opgeteld moeten worden, en dan zou er flauwtjes een dip zichtbaar zijn (die er bij de aannemelijkheid voor de beheersing evident veel duidelijker inzit). Deze analyse maakt duidelijk dat het nog niet zo eenvoudig is om met een toets van 25 vragen te onderscheiden tussen twee studenten die zojuist op een parallelle toets scores hebben geboekt die 10 punten van elkaar verschillen: er is tenslotte nog een forse overlap tussen beide voorspellingen).

bij cesuurbepaling is een sluitend systeem: voor wie het onderwijs bedoeld is moet het mogelijk zijn bij een goede inspanning in een keer te slagen & voor wie het onderwijs bedoeld is heeft om te kunnen slagen gemiddeld de tijd nodig die het programma voorschrijft.

figuur 2

Figuur Slaagkansen.
Noot: de negatieve leerepisoden zijn de al afgelegde leerepisoden.

Bij tentamens waarvoor alleen maar telt of het resultaat voldoende is of niet, gaat het om de slaagkans. Slaagkansen zijn uit te rekenen, bijvoorbeeld voor een student die net een proeftoets heeft afgelegd, daar 15 goed op scoorde, en die wil weten wat de kans is bij het afleggen van de toets te slagen (16 of beter scoren op toets 25 vragen). Laten we zeggen dat de student 10 uur heeft gestudeerd (10 'leerepisoden' achter de rug heeft), zodat op basis van een eenvoudig leermodelletje een voorspelling kan worden gedaan voor de slaagkans als nog een uur, twee uur etc. extra wordt voorbereid. De Figuur laat de stijging in slaagkansen zien. Merk op dat er dus nooit een situatie is dat deze student met 100% zekerheid kan zeggen te zullen slagen.

Intersubjectiviteit (Controle, evaluatie, bezwaren)

11 Laat anderen niet de af te nemen tentamenvragen lezen, maar vindt het niet zo'n gek idee om dat wel te gaan doen.

21 Ik probeer de studenten na te kijken die in een groep bij mijn collega hebben gezeten (en omgekeerd), maar dat is niet strikt. 'Hoe aardiger ik mensen vind, hoe slimmer ik ze vind.' 22 [Eerst de vragen door de collega laten beantwoorden?]: Dat zou aardig zijn, nee, dat doen we niet.
23 Je kunt studenten wel vragen stellen die je zelf niet kunt beantwoorden. Dat probeer ik te vermijden.

31 Nauwelijks behoefte gevoeld ook wel eens een werkstuk door iemand anders te laten nakijken.

41 Werkstukbeoordeling is impressionistisch. Ik ben daar in de loop der jaren milder over gaan denken.π 42 Kwaliteit van de tentamenvragen wordt niet vooraf door onafhankelijke beoordeling getoetst, zou dat wel willen proberen.

51 Er is als studenten het werk inzien wel eens een gesprekje over de waardering. Het is een keer gebeurd dat ik een cijfer op basis daarvan heb herzien.
52 Ik doe het helemaal alleen, dat vind ik wel jammer.

61 Er wordt gekeken naar de programma's van andere pedagogische faculteiten.
62 Collega beantwoordt nieuwe vragen onder tentamencondities.

71 Gezien de vrij grote mate van overeenstemming met mijn collega, en het gemak waarmee we punten van verschil doorgaans oplossen, en onze ervaringen uit nabesprekingen, verloopt het nakijken zonder problemen.

Studenten

11 Ik vul echt alle tijd die er voor het vak staat, daardoor is het relatief zwaar zoals Uvalon ook aangeeft. Studenten vinden het vak interessant, maar wel zwaar.
12 Serieus studeren is in ieder geval de volle tijd besteden. Dat lijkt op korte termijn onvoordelig, maar op lange termijn levert dat winst op.
13 Als ik nog scherpere eisen zou stellen, zouden studenten nog meer tijd aan het vak besteden.

21 Tijdbesteding is de docent onbekend, zie Uvalon. 'De indruk bestaat dat wat ze voor Uvalon opgeven in werkelijkheid toch meer is.'
22 Er is geen samenhang tussen tijdbesteding en cijfers. De goede hebben minder tijd nodig.

31 Hoeveel tijd wordt aan de voorbereiding op de toets besteed: Dat kan ik vanwege de verwevenheid met het onderwijs slecht schatten. Per week besteden ze aan onderwijs zo rond de 10 tot 15 uur gemiddeld, tegen de 15 uur, volgens de UvAlon-enquÍte.

41 Volgens Uvalon besteden ze tussen de 5 en de 30 uur per week aan deze cursus, wat mij sociaal wenselijke antwoorden lijken. Voor het tentamen zelf weet ik het niet, ze zitten op het laatste wel behoorlijk te werken, terwijl ze dat tussendoor 'hadden willen doen' [maar er niet altijd toe zijn gekomen].

51 Ik heb geen idee van de voorbereidingstijden van studenten.

61 De tussentijdse opgave en de bespreking daarvan werken stimulerend op studenten, door zijn mengsel van inhoudelijke commentaar en aandacht. Die tussentijdse opgave werkt voor studenten wel motiverend, is mijn indruk, en waarschuwend ook, dat er eisen worden gesteld. Calculerende studenten zijn er natuurlijk ook, die zijn onuitroeibaar. Hoewel veel studenten wel calculeren, zijn er ook 'oprecht geïnteresseerden.'
62 Meer dan een week fulltime, meer dan er officieel voor staat, 'bloed, zweet en tranen.' Het is ook afhankelijk van plichtsgetrouwheid tijdens de voorafgaande rit. Het is voor studenten ook spannend omdat ze weinig ervaring hebben met deze tentamenvorm.
63 Er zijn geen klachten dat het te zwaar zou zijn.
64 Zouden studenten harder werken bij hogere eisen? Nee. Er wordt over het algemeen redelijk gewerkt, de eisen zijn al hoog genoeg wat motiverende werking ervan betreft.

71 Omdat deze cursus zo zwaar is, trekt dat ook studenten aan.
72 Het is een zware cursus, met veel opdrachten en soms kreunen en steunen van studenten. Toch wordt er bij evaluatie 10 tot 15 uur per week opgegeven, terwijl er 20 uur voor staat. Die 10 tot 15 zijn reëel, ze hebben er door baantjes ook niet meer tijd voor. Als er wel voldoende tijd was zou je betere resultaten kunnen boeken.

81 Studenten werken de laatste week hard, besteden de beschikbare tijd, daar zijn nog uitschieters naar boven bij.
82 Bij scherpere eisen zouden de studenten meer tijd investeren.

91 Ik weet niet hoe studenten zich voorbereiden. Uit het tentamen krijg ik wel een indruk.
92 Hoeveel tijd wordt aan de voorbereiding op de toets besteed: Daar heb ik helemaal geen zicht op.
93 Zouden studenten op het verscherpen van de eisen reageren door zich dan beter voor te bereiden: Daar heb ik nooit aan gedacht, aan een dergelijk effect op de voorbereiding.
94 Er is altijd een groep die de eerste keer niet opkomt omdat er toch twee herkansingsmogelijkheden zijn.

Kenbaarheid (voorspelbaarheid etc., investerend gedrag)

11 Ik weet niet of studenten hun score kunnen voorspellen, ook niet als het om het verschil tussen een '4' en een '8' gaat. Ik ben verbaasd over mensen die in staat zijn bepaalde vragen er helemaal naast te beantwoorden.
12 De student kan wel een inschatting maken, op basis van de opdrachten, tot de bovenkant van de groep te horen of niet.
13 Ik leg uit hoe ik de tentamenvragen uit de stof afleid.

21 Ik geef voorbeelden van het type vragen die ze op het tentamen kunnen verwachten (of juist niet). Ik geef dus wat je een gerichte tentamentraining zou kunnen noemen. Op deze manier is het dus mogelijk dat er tentamenvragen worden gesteld die in de werkgroep op essentiële onderdelen al uitvoerig zijn behandeld.
22 Voorspelbaarheid: Geen flauw idee, ik weet het niet. Er zijn wel reacties na afloop in de trant van 'Dat viel verschrikkelijk tegen.' Ze vinden het tentamen heel erg moeilijk. Er zijn wel studenten die verschrikkelijk opgelucht waren bij het horen van de uitslag. Een aantal studenten vinden het verschrikkelijk moeilijk (onmiddellijk na afloop). Het zou beter zijn wanneer studenten het tentamen beter zouden kunnen inschatten.

31 Ook stijlaspecten worden beoordeeld, deze zijn niet geoperationaliseerd, daar zijn dus verschillen in waardering.
32 Weet niet of studenten hun score enigszins kunnen voorspellen.
33 Studenten kennen beoordelingscriteria niet, hebben weinig informatie om een voorspelling te kunnen doen.
34 Misschien ga ik de voorspelbaarheid wel verbeteren, zou de moeite waard zijn.
35 Betwijfelt of studenten tevoren kunnen inschatten of ze voldoende zullen scoren.
36 De student die niet kan schatten, weet ook niet of de voorbereiding voldoende is geweest, dat is een problematisch punt.

41 Studenten krijgen een proeftentamen dat ze thuis kunnen maken.
42 Studenten kunnen tevoren niet voldoende nauwkeurig inschatten of ze een voldoende resultaat zullen halen.
43 Het moet toch wel raar lopen wil wie de opgaven in de syllabus kan maken, die een slag moeilijker zijn, toch zakken.

51 Studenten weten niet wat ze boven het hoofd hangt. Na afloop kunnen ze wel zeggen wat het onderscheid tussen voldoende en onvoldoende niveau is. Meestal onderschatten ze zichzelf.

61 Studenten zijn verschrikkelijk nerveus, vragen voortdurend of deze stof ook voor het tentamen is, en wat voor vragen ze op het tentamen krijgen. Ik vind het wel een vervelende gerichtheid, maar vind het toch beter op dergelijke vragen wel in te gaan.
62 Na afloop is er vaak enige teleurstelling bij studenten, dat ze op het tentamen minder kwijt konden dan ze wel wisten.
63 Na drie kwartier tentamen lopen de eersten weg, dat kunnen goed gemaakte tentamens zijn.
64 Ze lezen alles lineair, ik probeer wel eens twee elementen uit de stof te koppelen, die ze zelf waarschijnlijk niet zo hebben bestudeerd. Ter plekke moeten ze dan nadenken en iets verzinnen. Dat is nieuw, dat kan ondoorzichtig zijn, studenten ervaren dat als ondoorzichtig. Anderzijds moet er wel 'avontuur' in het tentamen zitten (in een kantooropvatting van wat 'avontuur' is).
65 Ik hoop dat vragen een beroep doen op intelligentie, ook dat ze de student de ervaring geven van 'Ik wist niet dat ik het in me had.'
66 Voorspelbaarheid is geen probleem voor de studenten; als ze het niet zouden kunnen voorspellen, zou ik dat heel vervelend vinden.
67 Bij mensen die tentamen doen hoeft wat ze zeggen over hun voorbereiding of het gebrek daaraan niet in overeenstemming met de werkelijkheid te zijn. Er is veel overmoed, veel onderschatting ook, er wordt veel over gelogen.

71 Een student met capaciteiten, en die zijn of haar best doet, slaagt voor dit tentamen. Wel is het zo dat er altijd wel een paar studenten zijn die onzeker zijn bij de voorbereiding.
72 De gegeven cijfers sporen mijns inziens met wat de studenten daarover verwachten, en wat ik ervan verwacht. Daar kunnen trouwens wel verrassingen bij zitten, in beide richtingen. Een experimentje zou leuk zijn: cijfers voorspellen, en door 'blind' nakijken nagaan hoe sterk de voorspelling is.

81 In ieder geval kunnen ze inschatten of het voldoende of onvoldoende zal zijn, ook of het matig of goed zal zijn. Niet het precieze cijfer, denk ik.
82 N.a.v. de opdrachten in de werkgroepen weten ze eigenlijk heel goed of ze de stof beheersen. Ik vraag me af of daarbovenop een extra inspanning nog iets verbetert [aan die voorspelbaarheid]. Die grove indeling onvoldoende/matig/goed geeft de voorspelbaarheid niet adequaat weer: studenten kunnen toch wel iets beter voorspellen dan dat.
83 We slagen erin om doorzichtige toetsvragen te maken waarop studenten goed zijn voorbereid.

91 Studenten krijgen een proefvraag, die is in de studiehandleiding opgenomen. Bij het college wordt wel eens aangegeven dat er zo en zo een vraag over kan worden verwacht, dat is dus belangrijk.
92 Zelf heb ik er wel moeite mee als blijkt dat de hele studie tentamengericht wordt. Zelf zeg ik dan: als je het gewoon goed leest, dan haal je ook je tentamen. Ik zie liever niet die verschrikkelijke preoccupatie op het tentamen. Het zou aardiger zijn als studenten een eigen vraagstelling hebben en daar literatuur bij zoeken. Nu wordt de literatuur opgegeven, men leest die dan niet selectief maar op de grote lijnen.
93 De lees-, denk- en schrijfvaardigheden [waar me mede op beoordelen] oefenen we niet. We vragen dus wel dingen die ze op het tentamen voor het eerst moeten laten zien.
94 Aanspraak doen op intelligentie ipv op voorbereiding: Inderdaad, die vorm van ondoorzichtigheid zit wel in ons tentamen.
95 Kunnen studenten voorafgaand aan het tentamen een goede gok ('educated guess') doen over de te verwachten score: Dat weet ik niet, daarvoor sta ik te ver van de studenten af.
96 De prestatie bij eerdere en andere tentamens kan een idee geven in welke klasse je zult scoren, rekening houdend met het soort vragen dat wordt gesteld. Het is natuurlijk wel zo dat dit een van de eerste tentamens is die ze moeten afleggen, dus die steun van prestaties bij eerdere tentamens hebben ze nog niet.

figuur 3

Figuur Voorspelbaarheid.

De basis voor een voorspelbaarheidsanalyse is in bovenstaande figuur afgebeeld. De plot uiterste links is een binomiaalverdeling voor een student die over de geklassificeerde kennis beschikt 60% van de denkbare vragen over de stof goed te kunnen beantwoorden. De toets bestaat uit 25 vragen (of 5 open vragen waarin telkens 5 elementen in het antwoord voor moeten komen). Laten we deze zoon of dochter van Plato gauw verlaten. Een meer realistisch voorbeeld is een student die zojuist op een proeftoets van 25 vragen er 15 goed heeft gemaakt, en die onmiddellijk opgaat voor het echte tentamen. Deze student kent de eigen beheersing niet, maar kan daarvoor wel een aannemelijkheidscurve opstellen (plot midden). De hier gebruikte techniek is a-theoretisch: er is geen statistische formule aan te pas gekomen, maar er zijn een groot aantal toetsen gesimuleerd (verdere details moet ik hier achterwege laten). Opvallend is in ieder geval dat die beheersing overal an liggen in het gebied tussen voornamelijk 40% en 75%. Dat is een verdraaid groot bereik, en dat helpt niet om gevoelens van onzekerheid bij deze student te verminderen. Een voorspellende verdeling voor de toetsscore is vervolgens te construeren door telkens uit de aannemelijkheid voor de beheersing toevallig een waarde te kiezen, en op basis daarvan een binomiaal te genereren. Dat is 10.000 keer gedaan met als resultaat de plot uiterst rechts. De score op de toets van 25 vragen, toch niet echt een kleine toets uit de stof, kan overal liggen tussen voornamelijk 10 en 20.

Het resultaat van dit type analyse is schrikken voor de docent die toetsen van 25 vragen afneemt. Veel docenten vermoedden het al, en hebben uitspraken gedaan dat studenten eigenlijk niet goed kunnen voorspellen of ze die voldoende binnen zullen halen. Misschien moet het aantal tentamenvragen behoorlijk omhoog. Of misschien moet de examenregeling eens op de schop worden genomen, om te vermijden dat veel te grote aantallen studenten om uiteindelijk louter toevallige redenen een aantal tentamens in de herkansing moeten zien te behalen. Ook dit gooien we in de intervisiegroep.

De vraag naar voorspelbaarheid heeft overigens wel een beetje het karakter van een strikvraag, en wel in de volgende zin. Studenten die zich op de grens tussen voldoende en onvoldoende bewegen kunnen niet voorspellen of ze een voldoende danwel een onvoldoende zullen halen, in essentie gaat het hier om een toevalsresultaat. Zijn er tamelijk veel studenten in dat grensgebied, en daar ziet het wel naar uit, dan zijn veel studenten geconfronteerd met een casino-situatie. Dat geeft allemaal niet, want eigenlijk moeten alle voorspellingen gewoon als percentage kans op een zus-en-zo resultaat worden aangegeven.

Objectiviteit

11 Twee docenten kijken alle werk na
12 Er is redelijke overeenstemming. Beoordelingen worden besproken.

21 Essaytentamens en werkstukken vragen veel nakijktijd. Dat doe ik dan maar gewoon, dat is mijn plicht, studenten hebben er recht op. Ik moet het gewoon zo intensief doen. Het zou me heel welkom zijn wanneer daar toch iets op valt te bedenken.

31 Drie uur voor het maken van het tentamen is in het algemeen veel te lang.

41 De nabespreking is schaars bezocht, wat uit oogpunt van pedagogiek maar niets is. Als je deze cursusaf hebt, kun je bij wijze van spreken de boeken wel weggooien, zo voelen studenten dat ook.
42 Geen modelantwoorden, wel steekwoorden van elementen die in het antwoord voor moeten komen.
43 Over de wijze waarop antwoorden op juistheid worden beoordeeld: Ik ben daar niet zo helder in, ik kan dat vooraf moeilijk zeggen. Achteraf is dat, gezien de antwoorden, makkelijker aan te duiden.

51 We maken tevoren modelantwoorden, d.w.z. we geven aan welke elementen we in het antwoord terug willen zien. Dat betreft de kennis-, vaardigheids- en analytische elementen. Deze sleutel krijgen studenten ook achteraf. We toetsen ook de schrijfvaardigheid: het vermogen een betoog te formuleren, de spelling, de interpunctie. Stelvaardigheid wordt wel getoetst, daar oefenen we studenten ook in.
52 We kijken hele tentamens na; ieder tentamen wordt door mijn collega en mij nagekeken, maar wel in een verschillende volgorde.
53 Het gaat ook om het begrepen hebben, dus het kunnen hanteren en niet alleen maar noemen. Dat is tevoren niet uit te schrijven. We zijn het met elkaar meestal eens in deze oordelen, en kunnen het studenten achteraf ook uitleggen. De grens tussen voldoende en onvoldoende: dat is niet alleen een kwestie van optellen van resultaten voor de afzonderlijke vragen. De vrijheden in de criteria spelen daar een bepaalde rol. Ik ben blij dat we met ons tweeën werken, zo kunnen we tot een faire beoordeling komen.

61 Er is 3 uur tijd, dat is veel. Studenten zijn erg zenuwachtig. De meesten hebben na anderhalf uur hun werk ingeleverd. Ik heb wel eens uitgezocht of er verband is tussen snelheid van inleveren en cijfer, dat is niet zo.
62 Tevoren zijn er checklists opgesteld met de punten die in de antwoorden aan de orde gesteld moeten zijn, en de begrippen die uitgelegd moeten worden. Er is een idee over wat nodig is om een voldoende te scoren, wat voor een goed resultaat. We hebben geen volledig uitgeschreven modelantwoorden. Voor 'objectiever' beoordelen zou je dat eigenlijk moeten doen.
63 Ik ben me bewust van de subjectieve factor in het nakijken, maar ik ben daar niet erg verontrust over. Ik heb er geen flauw idee van hoe je het zou moeten vermijden. Ik voel me er niet door bezwaard, de studenten voelen zich er niet door benadeeld.

71 We investeren vrij veel tijd, maar dat is geen bezwaar. Ik vraag van studenten ook een behoorlijke investering.

81 Hoe ik het niet doe: met een lijst van expliciete criteria. Ik heb wel eens criteria op een rij gezet, zo'n 8 of 10 punten, die heb ik in mijn hoofd. Ik heb een stramien van criteria in mijn hoofd, de inhoud en didactische aanpak betreffend. Het nakijken is als 'werken met een radar' uitgaande van je eigen professionaliteit. Evidente miskleunen van de student zie je meteen, dan is dat onvoldoende. Als dat een paar keer gebeurt in hetzelfde werk, dan zakt zo iemand. positief geformuleerd: als iemand theorie en empirie verbindt, van inzicht blijk geeft door aan te geven hoe theoretische gezichtspunten zich tot elkaar verhouden. Dat nakijken laat zich niet standaardiseren, ik wil er ook openheid in houden. Ik moet dus niets hebben van antwoordmodellen. Het is wel leuk om een lijst van criteria te hebben, om met andere docenten over dit soort dingen te spreken, ter versterking van je eigen professionaliteit.
82 Het nakijken is veel werk, dat gaat ten koste van de nabespreking die anders gehouden zou kunnen worden.

91 Subjectiviteit. Als docent beoordeel je naar eer en geweten, o.g.v. ervaring, zoals je jezelf in het vak hebt ontwikkeld en gevormd. Daar kom jezelf nooit bovenuit.
92 Er is natuurlijk ook sprake van intersubjectieve overeenstemming met je collega.
93 Interactie tussen de subjectiviteit van de student en die van de docent. Iedere interactie is weer anders, dat valt niet te objectiveren.
94 De grote ellende is dat het allemaal zo tijdrovend is. Het is zo veel leeswerk, het zijn zo veel andere handschriften. Maar vanuit onze ervaring zien we ook heel snel het niveau, dat is intersubjectief, ook wat een '7' en wat een '8' is; dat 'zien' is niet objectiveerbaar.
95 Vooraf stellen we de antwoordcriteria vast, wat er in het antwoord voor moet komen, extra punten voor extra creatieve dingen (meestal 1 punt extra). Ook stellen we vast hoe onderdelen worden gewaardeerd, en wat slechte taal, slechte stijl aan punten kost.
96 De kosten zijn hoog. Het nakijken van tentamens is puur dienstbaarheid, het levert geen meerwinst op, zoals bij scripties wel het geval is.

figuur 4

Figuur Brede spreiding van voorspelling verduistert de kleine nuances die objectiviteit aanbrengt.

Analytisch valt het volgende te zeggen over / oefenen op het objectiviteits-paradigma. Stel het tentamen met open vragen is gelijkwaardig aan een toets met 25 kennisvragen. Een student haalt een score van 15 goed. Laat het werk onafhankelijk door een tweede beoordelaar nakijken en waarderen. Misschien komt daar een iets hogere of iets lagere score uit. Misschien worden die twee uitkomsten gemiddeld. Misschien komt er na heel veel moeite niet een eindscore 15, maar eindscore 12 of eindscore 17 uit. En dan wat? Als de student die zojuist 15 uit 25 vragen goed heeft gemaakt, een nieuw tentamen met 25 vragen af zou leggen, over dezelfde stof, vragen getrokken uit dezelfde vragenverzameling, dan zou de score ergens tussen 10 en 20 liggen, en in een behoorlijk aantal gevallen zelfs nog buiten dat bereik.

Is de conclusie dan niet dat de kleine winst die is te bereiken met maatregelen zoals door twee docenten na laten kijken, volledig in het niet valt bij 'meetfouten' die ontstaan door de geringe omvang van de steekproef uit kennis en inzicht die we nemen? Zie de figuur met een voorspellende scoreverdeling gegeven dat de student op de juist afgelegde toets, misschien een proeftoets, 15 uit 25 vragen goed heeft gemaakt:

Doelen

11 We vinden dat de studenten toch wel de logica van de literatuur als leidraad moeten nemen, en niet de in partjes geknipte stof zoals die in de tentamenvragen zit.
12 De inhoud is op zichzelf van belang, het gaat erom dat men daarvan op de hoogte is. Om dat als 'weetjes' te toetsen is minder belangrijk dan het kunnen beargumenteren zelf. De tentamenvorm is ook met het oog op de inhoud zo gekozen. Het is een andere manier van 'overhoren' dan op school. Studenten zien de universiteit wel als verlengde van de school.

21 cognitieve vaardigheden (begrippen, schematiseren, standpunten vergelijken)
22 deze vaardigheden zijn niet specifiek voor deze stof

31 wetenschappelijk leren denken, de empirische cyclus begrijpen.

41 Zich eigen maken van basiskennis van het gebied, en trainen van het inzicht in relaties tussen onderdelen, vergelijking van stromingen. Vooral die relaties tussen stromingen. Training van academische basisvaardigheden, academisch niveau. Het gaat om het leggen van die basis, die zelf wel mag worden vergeten maar die altijd snel weer valt op te halen.
42 Die doelen passen goed bij de vragen zoals we die stellen.

51 Voorbereiden op de volgende cursus
52 Eenvoudig artikelen kunnen lezen (maar die zijn er niet meer ... )
53 Basisdenkwijzen; 'Hoe weet je dat dit waar is?'
54 Iets van sociaal-wetenschappelijk redeneren
55 Iets minder goedgelovig worden

61 Doel is zelfcontrole voor de studenten. Dat is het doel van het tentamen, daarmee ook van de cursus. Ik zie deze cursus als een algemene inleiding; als ze die niet leuk vinden, dan kunnen ze meteen iets anders gaan zoeken.
62 Het is natuurlijk allemaal een beetje arbitrair, d.w.z. de methode om een inleiding te geven. Dat zou ook kunnen door studenten onderzoekjes te laten doen.

71 Het trainen van analytisch vermogen, van begripsgebruik, van synthetisch vermogen (dingen combineren), en het leveren van een betoog.
72 Die doelen zitten allemaal in de vragen. We doen nadrukkelijk ons best de doelen in de vragen te stoppen.

Enkele afzonderlijke vignetten

tentamenfilosofie - doelen

Docent legt sterke nadruk op cognitieve vaardigheden zoals analyseren, definiëren, relaties leggen, vergelijken van argumenten. Claimt dat deze vaardigheden algemeen van aard zijn, dus niet specifiek gebonden aan de behandelde stof. De tentamenfilosofie is dat beoordeeld wordt in hoeverre de doelen door de student zijn gehaald.

Ter discussie staat dan of in deze opvatting de inhoud van het vak er eigenlijk nog wel toe doet, die zou immers inwisselbaar zijn voor die van een willekeurig ander vak? Als de conclusie is dat natuurlijk de inhoud van het vak er wel degelijk toe doet, wat is dan de relatie tussen die inhoud en de beschreven algemene cognitieve vaardigheden? Zou het mogelijk zijn om bij het nakijken van een tentamen onderscheid te maken tussen kennis van het vak en cognitieve vaardigheden? Zijn algemene cognitieve vaardigheden eigenlijk wel onderwijsbaar?

doelmatigheid

Het tentamen bestaat uit 40 driekeuzevragen. De vragen maken (30 oude vragen nemen, 10 nieuwe vragen maken) is 1 dag werk. Afnemen en surveilleren is een halve dag, nakijken en verwerken eveneens. Een halve dag nabespreken en diversen. Samen 2,5 dag.

De helft van de studenten is al na een uur klaar met dit tentamen.

werkstuk

De uiteindelijke opdracht: het opleidingsplan, dat wordt gemaakt in een workshop met 3 mensen tegelijk, gedurende 4 dagen van 10 tot 17 uur, door mij begeleid. Dat speelt zich af in de laatste week van de cursus. Hoe kun je die theorie toepassen op de opleidingspraktijk. Ik heb het idee dat het onze taak is de ingewikkelde theorie instrumenteel te maken voor de praktijk. Vandaar die opdrachten tot het opstellen van plannen. Studenten zijn daar ontzettend tevreden over. Ik zeg studenten ook dat ze hun opleidingsplan in hun CV moeten opnemen, omdat je daarmee kunt scoren.

algemene ontwikkeling

Er zit in de cursus een onderdeel referentieliteratuur, dat is literatuur die ze wel moeten lezen maar waaruit op het tentamen geen vragen worden gesteld. Ik hecht aan 'algemene ontwikkeling.' [desgevraagd:] Ik ben er wel van gecharmeerd wanneer studenten hun kennis van die referentieliteratuur in hun tentamenantwoorden meenemen.

Het idee is dat kennisvragen inzicht geven in wat studenten hebben opgestoken, dat ze studenten ook belonen voor het 'leren van de stof.' Het is prettig kennis paraat te hebben. Studenten weten vaak zo verschrikkelijk weinig, in algemeen culturele zin. Het huidige vo, met zijn keuzevakken, is ook rampzalig. Gymnasiasten, wanneer ik dat toevallig weet, springen eruit in het vermogen zich te kunnen uitdrukken, verbanden te leggen.

Artikel 2004 (concept)

Goede bedoelingen alleen zijn niet voldoende. Toetsopvattingen van docenten.

html

Interview

http://www.benwilbrink.nl/publicaties/99ToetsopvInterview.htm

december 2021 \ contact ben apenstaartje benwilbrink.nl

http://www.benwilbrink.nl/publicaties/99Toetsopvattingen.htm