Ben Wilbrink - Levert selektie in het hoger onderwijs iets op?

Afbeelding: Anneke Huisman & Johan Koppenol (1991). Daer compt de Lotery met trommels en trompetten! Loterijen in de Nederlanden tot 1726. Uitgeverij Verloren

Levert selektie in het hoger onderwijs iets op?

Ben Wilbrink november 1971

Centrum voor Onderzoek van het Wetenschappelijk Onderwijs aan de Universiteit van Amsterdam

Vooraf, 2021

Dit is een discussiestuk voor een landelijke bijeenkomst van universitaire centra voor onderzoek van het wetenschappelijk onderwijs (RWO-Centra, of CRWO in overkoepelende zin). [noot 1] De bredere context is wel van belang om te begrijpen waarom zo'n stuk nodig was en waarom op dat moment.

U weet dat de universitaire wereld in die jaren erg onrustig was, met bezettingen in Nijmegen, Tilburg, Amsterdam. Niet alleen de studenten, ook de wetenschappelijk medewerkers, sinds eind jaren '50 sterk in aantal toegenomen, kwamen in een oppositierol tegenover hoogleraren terecht. Cees Schuyt (1991) schreef er een helder overzicht over, zie ook Schuyt & Taverne (2000).

Er was ook in de jaren '60 en '70 sprake van een explosieve groei van studentenaantallen, niet alleen in Nederland, maar in meerdere Westerse landen. De overheid moest daar iets mee, en benoemde eind jaren '60 drie regeringscommissarissen (Posthumus voor onderwijs, Maris voor bestuursstructuur en Van Os voor organisatie?) om voorstellen te ontwikkelen. Posthumus richtte zich op de propedeuse, en hoe die selectief zou moeten zijn. Het zag ernaar uit dat de toegang tot de universiteit wel eens selectiever zou kunnen worden. De RWO-Centra zagen het mede als hun taak om een inhoudelijke bijdrage aan de (politieke) discussie te leveren. Vandaar.

Mijn belangstelling voor dit onderwerp was destijds bepaald niet opmerkelijk. Over de voorstellen van regeringscommissaris Posthumus voor de universitaire propedeuse werden in die tijd algemene discussies georganiseerd waarvoor het universitaire bedrijf gewoon een dag werd stilgelegd. Aan die discussies namen de meeste studenten en medewerkers ook werkelijk deel, als ik me goed herinner. (Bergenhenegouwen (1970))

Los van de algemene belangstelling voor het onderwerp, was mijn belangstelling voor selektie gewekt door mijn stage-onderzoek in Eindhoven: zegt persoonlijkheid iets over de studiekeuze van studenten? Ja, dat doet het. En dat vond ik destijds wel een zorgelijke uitkomst, omdat het bepaald niet denkbeeldig was dat bij een eventuele selektie voor de universiteit, ook selektie op persoonlijkheid zou worden overwogen. Ik besloot mijn onderzoekverslag dus niet te publiceren, om geen slapende honden (Posthumus, Maris, Van Os) wakker te maken. U kunt het wel lezen: Wilbrink (1968)). Dus ja, over selektie wilde ik graag schrijven. Mijn opleiding psychologie gaf mij er ook de nodige technische achtergrond voor.

Ik heb het stuk sinds 1971 waarschijnlijk nooit meer integraal herlezen. Zo'n jeugdstuk herlezen is spannend. Het valt me op dat het een overdreven problematiserend stuk is. Problematiseren was en is mijn typische werkwijze om een begin te maken met onderzoek, en daar is niets mis mee, maar ik had kennelijk in 1971 niet meer de tijd om de redactie van het stuk nog eens te herzien. Ik kies ervoor om de tekst van 1971 hier letterlijk te transcriberen inclusief de overdrijving, stijlfouten, exclusief typo's.

Het stuk herlezend, zie ik een onderzoekprogramma over beoordelen dat ik in de eropvolgende jaren en decennia deels heb kunnen waarmaken. Ik zal dat in de toe te voegen noten bij het stuk aangeven.

Met de kennis-van-nu het stuk herlezend zie ik ook dat het sterk steunt op met name Amerikaanse vakliteratuur uit de psychometrische hoek, zoals Cronbach & Gleser (1965), en Cronbach (1971), waaruit ik veiligheidshalve uitvoerig citeer om telkens mijn punt te onderstrepen. Die citeer-gewoonte heb ik altijd behouden. Maar ik kleur ook buiten de psychometrische lijntjes, en dat doe ik in 1971 nog vooral op gevoel, niet op de literatuur over rechtvaardigheid (John Rawls had zijn magnum opus ook in 1971 gepubliceerd), of die over eerlijke verdeling van schaarste (Jon Elster zijn 'Local justice' pas in 1992). Sociologie van ongelijke kansen is wel aanwezig (Van Heek, ook Doornbos). Selecteren op persoonlijkheid was op basis van mijn 1968 voor mij al een 'no-go area'; maar pas op, nog recent zag ik een academisch pleidooi om voor een universitaire opleiding op persoonlijkheid te selecteren. Ongelooflijk. Ik zal op ethische standpunten die ik in 1971 terloops formuleerde, in de toe te voegen noten meer informatie geven.

Een opvallende lacune in dit stuk uit 1971 is dat ik geen aandacht schenk aan de grenzen die het recht stelt aan mogelijkheden voor selectie in het onderwijs. Ik zou me hiervan pas goed bewust worden in contacten met Peter Nicolai, mederwerker bestuursrecht aan de juridische faculteit waarvoor ik vanuit het COWO de contactpersoon was. Midden 70er jaren.

G. J. Bergenhenegouwen (1970). De Nota Posthumus in discussie. Een analyse van standpunten. SISWO.

Jon Elster (1992). Local justice. How institutions allocate scarce goods and necessary burdens. Cambridge University Press.

K. Posthumus (1970). Onderwijs: heilsverwachting, spraakverwarring, beleid Ministerie van Onderwijs en Wetenschappen.

Niet online, maar de 2e voordracht, zelfde titel als van de brochure, is integraal gepubliceerd in de Nederlandse Staatscourant (maar ik heb hem niet gevonden in Delpher). Bundeling van drie toespraken 1969-1970.
"Nu is er geen hardnekkiger en gevaarlijker misverstand dan de mening dat er voor ieder examen een objectief, van tijd en plaats onafhankelijk prestatieniveau zou bestaan, en dat dit prestatieniveau zou zijn afgeleid uit de geschikt-heidseisen, die voor het bekleden van maatschappelijke betrekkingen zouden zijn vastgesteld.
In werkelijkheid wordt de aanmelding voor schoolvormen bepaald door sociaal-psychologische motieven, en het numeriek rendement der examens door de beoordelings-gewoonten van de examinerende collectiviteit en het uithoudingsvermogen van de beoordeelde populatie. Het statistische onderzoek bewijst, dat deze factoren geduren-de zeker 40 jaar en waarschijnlijk veel langer constant zijn gebleven.
De gevolgen zijn ernstig. Wie het diploma niet behaalt, en een halve eeuw geleden 'thuis' terecht kon, vindt nu de begeerde plaatsen in bedrijfsleven of overheidsdienst voor zich afgesloten. Omdat zo goed als alle examineerbare prestaties door oefening kunnen worden verbeterd, wordt het uithoudingsvermogen de beslissende factor en wordt de school een renbaan —met alle gevolgen van overlading en overspanning van jonge mensen. Onderwijs wordt voor-dragen en uit-leggen van examineerbare leerstof. Studeren, wordt: zich voorbereiden voor een examen. Maatschappelijke rechtvaardigheid wordt: uniformering van examens. Docent en leerling kunnen niet meer 'buiten hun boekje gaan'."
p. 11. Uit 'Maatschappelijke voorwaarden voor vernieuwing van het onderwijs'. Nationaal Comité Nederland voor de Europese Culturele samenwerking, 21 maart 1969. Niet online.

John Rawls (1971). A theory of justice. Clarendon Press.

C. J. M. Schuyt (1991) 'Studeren toen en thans, studenten toen en nu'. dbnl.nl, dit is paragraag 29 in zijn Op zoek naar het hart van de verzorgingsstaat, Leinden/Antwerpen: Kroese. open C. J. M. Schuyt & Ed Taverne (2000). 'Naar gelijke kansen in het onderwijs.' In 1950.Welvaart in zwart-wit. Sdu Uitgevers, Den Haag. dbnl.nl

"... de voorstellen van de regeringscommissaris voor het hoger onderwijs, professor Posthumus, ten aanzien van de herstructurering van het onderwijs: de studieduur moest verkort worden, er moest een scheiding komen tussen onderwijs en onderzoek, een sterke fasering van de studie was nodig en er zou een selectieve propedeuse in alle studierichtingen moeten worden ingesteld. De toelating tot bepaalde studies werd - via loting - beperkt."

Ben Wilbrink (1968). De Cattell 16 PFQ bij studenten in zeven studierichtingen aan de THE. Groep Onderwijsesearch, niet gepubliceerd. html

Levert selektie in het hoger onderwijs iets op?

[originele tekst; de nummers tussen vierkante haken zijn noten die ik in 2021 ter verduidelijking heb toegevoegd] Ad hoc inventarisatie van de belangrijkste overwegingen, van belang voor het evalueren van de mogelijkheid en wenselijkheid van selektie in het hoger onderwijs via propedeutische examens.

In verband met de ingewikkeldheid van de problematiek en tekort aan voorbereidingstijd heeft de tijd voor een behoorlijke eindredactie ontbroken, vandaar stijl en type-fouten en soms minder goed geformuleerde argumentaties. Aan een meer definitieve versie zal de komende maanden gewerkt worden.

INLEIDING

Dit rapport gaat over selektie van (aankomende) studenten. Deze groep is zèlf al het produkt van een langdurig proces van selektie tijdens lager en middelbaar onderwijs. [2] Deze selektie-vooraf draagt vele kenmerken van sociale selektie. Daarom ook is de opmerking dat het grootste deel van de nederlanders van 18 jaar en even ouder in het geheel niet voor universitaire selektie in aanmerking komt, een schrijnende opmerking. [3]

Ook het engelse Crowther Report (1959) signaleerde dit:

"The report is about the education of English boys and girls aged from 15 to 18. Most of them are not being educated".

Wie over selektie in of voor het hoger onderwijs spreekt, moet ook spreken over de nota's van Posthumus en het wetsvoorstel herstructurering. Een deel van het betoog zal dan ook gepresenteerd worden als reaktie op geciteerde uitspraken uit genoemde stukken. Een poging tot evaluatie van het wetsvoorstel, voorzover dit betrekking heeft op selektieve momenten in het onderwijs, zal gedaan worden. Daarbij zullen kosten en baten van huidige selektie-methoden (die vrijwel gelijk zijn aan de selektie zoals die uit het wetsvoorstel volgt) tegen elkaar afgewogen worden. Deze afweging zal voorlopig kwalitatief moeten zijn, omdat vele onderwijsresultaten moeilijk kwantificeerbaar blijken. [4]

Het selektieprobleem zal benaderd worden vanuit de inzichten die de psychometrie biedt ten aanzien van de technische problemen die zich voordoen, en vanuit onderwijskundige standpunten waar het er immers om gaat de selektie in te schakelen ten gunste van "het onderwijs", en waar het hanteren van selektieve beoordelingsmethoden in het onderwijs zeker van (nadelige) invloed is op de kwaliteit van dat onderwijs. [5]

Wanneer men nederlands onderzoek over selektie of studieduur in het hoger onderwijs raadpleegt, blijkt verrassenderwijs zowel een behoorlijke psychometrische als een onderwijskundige analyse veelal te ontbreken. Dit heeft tot gevolg dat een aanzienlijk deel van hier verricht onderzoek resultaten heeft opgeleverd die een zeer beperkte waarde hebben. Vaak is ook sprake van een overdreven operationalisme, veel verslaggevingen geven de indruk niet over mensen te handelen, maar over cijfers en correlaties die van al hun menselijke betekenis ontdaan zijn. [6]

Aangezien de selektie-omstandigheden in het nederlandse hoger onderwijs nogal verschillen van die in andere landen, is het moeilijk het komende betoog met empirisch materiaal te ondersteunen, omdat ook nederlandse onderzoekgegevens om bovengenoemde redenen meest irrelevant blijken. Dat betekent dat het betoog meer zal steunen op theoretische verworvenheden, wat geen bezwaar lijkt omdat uit de theorie en enkele redelijke aannamen over onze onderwijs situatie toch vrij harde conclusies te trekken zijn. [7]

De vraag naar de mogelijkheden of onmogelijkheden van selektie kan alleen op zinvolle wijze onderzocht worden wanneer we weten waarom we selekteren. De memorie van toelichting op het ontwerp van wet noemt (blz. 8) drie redenen dat "zowel een periodieke beoordeling als een beperking van de verblijfsduur noodzakelijk zijn".

(1) "samenwerking binnen een groep is alleen mogelijk wanneer tussen kundigheden, kennis, toewijding en toekomstplannen niet te grote onderlinge verschillen bestaan".

Commentaar: In zijn algemeenheid is dit geen onjuiste uitspraak, de vraag is echter op welk moment welke verschillen te groot worden om in beaalde mate samen te werken. Voor het lager onderwijs bijv. is het niet zo dat het gehanteerde systeem van zittenblijven resulteert in kleinere onderlinge verschillen tussen leerlingen in dezelfde klas, zie onderzoek vermeld door Cook (1951) en Doornbos (1970).

Ook is in het onderwijs een grote verscheidenheid vaak een gewenst goed, en vooral in het wetenschappelijk onderwijs waar vaak door argument en tegen-argument inzicht in een wetenschapsgebied verworven moet worden. Ook gaat dit argument uit de memorie van toelichting voorbij aan de vraag of binnen het onderwijs al het mogelijke gedaan is om ondanks altijd bestaande verschillen een goede samenwerking te realiseren.

Tenslotte lijkt hier niet zozeer de samenwerking van studenten onderling bedoeld te zijn, ons onderwijs werkt immers nog steeds in hoge mate individualiserend, meer eerder de "samenwerking" die bestaat uit de confrontatie tussen de docent en een groep studenten; m.a.w. blijkt hier voor te liggen een opvatting van onderwijs waarin de docent de actieve, en de student samen met zijn medestudenten een passieve rol heeft.

(2) "een maatschappij, die op een verdeling van arbeid berust, verwacht terecht dat diegenen die jonge mensen gedurende vele jaren van hun studie hebben begeleid en gadegeslagen een oordeel uitspreken over die kundigheden, kennis en toewijding en dat zij daarbij redelijke normen als toetsingscriteria voor een afsluitend examen hebben gesteld".

Commentaar: Moeten we hieruit opmaken dat de maatschappij "terecht verwacht" dat er in het onderwijs geselecteerd wordt? Daar ben ik nog niet zo zeker van. Wèl is zeker dat juist tegen dit soort ideologie steeds grotere bezwaren bestaan juist bij dàt deel van "de samenleving" dat onderwijs volgt. Maar afgezien van de twijfelachtige ideologie achter dit argument moeten er twee belangrijke vragen over deze uitspraak gesteld worden. Ten eerste is het nog maar de vraag of de docenten een gefundeerd oordeel uit kunnen spreken, uit de onderzoekingen die zich met dergelijke oordeelsvormingen hebben beziggehouden blijkt dit zeker niet evident te zijn (zie bijv. Cronbach, 1970). Ten tweede ligt het veeleer voor de hand de bedoelde garantie van bekwaamheid te zoeken in de kwaliteit van het onderwijs, dan in veelal weinig zeggende beoordelingen en examenresultaten. M.a.w., van een onderwijsinstelling verwacht men toch dat er in de eerste plaats onderwijs gegeven wordt, niet dat er in de eerste plaats geselecteerd wordt?

(3) "de snelle en versnelde "schaalvergroting" van het gehele onderwijs maakt het noodzakelijk dat grenzen worden gesteld aan het in volle dagtaak, zonder zorg voor dagelijks levensonderhoud, deelnemen aan dat onderwijs." [8]

Commentaar: Mogen we hieruit concluderen dat er geselecteerd moet worden omdat de aantallen beperkt moeten worden? Dat zou in ieder geval het enige juiste en eerlijke argument zijn, tenminste zolang redeneringen die zich baseren op "geschiktheid" van studenten niet aantoonbaar juist zijn.

Mede op grond van het voorgaande zullen we er voorlopig van uitgaan dat selektie als doel heeft het beperken van het aantal studenten. Het geschiktheids-argument vatten we niet op als een argument om te selekteren zonder meer, maar als een aangeven van de wijze waarop we die selektie willen uitvoeren: iedereen wil graag de meer "geschikten" aannemen en de overigen afwijzen.

We gaan er eveneens voorlopig van uit dat zoiets als "geschiktheid" voor de studie inderdaad bestaat, dat het in de uitslag van een propedeutisch examen "blijkt" en dat het de enige relevante variabele is op grond waarvan we een selectie kunnen en willen uitvoeren die betere resultaten oplevert dan bijvoorbeeld een lotingsprocedure. Of een en ander houdbaar is vormt onderwerp van deze beschouwing.

Posthumus (2e voortgangsnota blz.37).

"De eerste taak is dan: het opstellen van definities en het uitwerken van meetmethoden voor de drie intensieve grootheden: peil van het onderwijs, gemiddelde studiegeschiktheid der studenten, moeilijkheid van de examens.
Ik kom nog niet verder dan het antwoord, dat ik zo vaak op een tentamen heb gekregen: 'ik weet het wel, maar ik kan het niet zeggen'. Wij moeten voorlopig opereren met de best beschikbare definitie. Wij meten zowel de geschiktheid voor de studie als het peil van het onderwijs aan de uitslagen der examens. De instelling is geneigd hoge examenuitkomsten als resultaten van het onderwijs te beschouwen. Studenten zien daarin graag een aanwijzing voor hun geschiktheid. De buitenstaander daarentegen neigt er toe de uitslagen te beschouwen als maatstaf voor de moeilijkheid der examens".

In dit rapport zal geprobeerd worden te formuleren wat Posthumus niet kan zeggen. Of we inderdaad kunnen opereren met de "best beschikbare definitie" is ook een vraag waarop een antwoord gezocht zal worden, dit antwoord zal in belangrijke mate afhangen van de mogelijkheid om meetmethoden voor "peil", "geschiktheid" en "moeilijkheid" te vinden. Wat uit de literatuur over de aard en de waarde van dergelijke meetmethoden bekend is, zal worden geïnventariseerd.

WIE SELEKTEREN?

De memorie van toelichting (9-1, blz 18-19):

"Wanneer wij spreken over selektie, denken wij geenszins aan een eenzijdige handeling vanwege de docent. In belangrijke mate zal de student zelf door een betere ordening en door verbeterde representativiteit meer dan vroeger in staat zijn zich te "selecteren". Hij zal meer en doorgaans eerder inzicht krijgen in eigen aanleg en motivatie. Ook in sociaal opzicht vormt de voorgestelde regeling, die beoogt van de propedeuse een oriëntatiefase te maken in de ware zin van het woord, dan ook een verbetering die te gauw wordt onderschat"

Het propedeutisch examen is het belangrijkste instrument daarbij.

De memorie van toelichting (3-8 blz. 13):

"Het propedeutisch examen vervult - als elk examen - een selecterende functie: zowel de student als de faculteit dienen zich zo spoedig mogelijk een oordeel te vormen over de geschiktheid en de belangstelling voor de gekozen studierichting, zodat zowel zelf-selectie als consilium abeundi mogelijk zijn".

Het hanteren van de term "zelf-selectie" is erg makkelijk, maar we moeten ons afvragen hoe een dergelijke "zelf-selectie" verloopt, welke momenten daarbij bepalend zijn. Daarbij zal vooral het verband tássen de vormgeving aan het onderwijs en de wijze waarop zelf -selecterende beslissingen kunnen worden genomen, moeten worden nagegaan. [9]

Een tweede belangrijke vraag, die we daarna zullen bespreken, is de verenigbaarheid van zelf-selektie en selektie vanwege de onderwijsinstelling. Het vermoeden bestaat namelijk dat selektie door de docent een reële vorm van zelf-selektie door de student verhindert. Dit "vermoeden" zullen we meer concreet moeten maken.

Het eerste wat opgemerkt moet worden over zelf-selektie, is dat ook de student die "zichzelf selekteert" de beschikking moet hebben over alle informatie die relevant is voor zijn beslissing. [9, hoofdstuk 4, Wilbrink: 'Functies van de propedeuse; in het bijzonder de schriftelijke raad.]

Dit is een opmerking die niet zal verrassen, hoewel de implicaties ervan nogal vèrstrekkend zijn. Immers, we moeten ons bij de zelf selektie evenals bij de selektie door de onderwijs-instelling, afvragen of de daarbij gebruikte informatie inderdaad relevant, "geldig", is voor de genomen beslissing. Het grootste deel van dit rapport is besteed aan de vraag naar de "geldigheid" [10] van de door de onderwijs-instelling gepleegde selektie, ook voor de zelf-selektie zullen we in principe alle daar besproken problemen moeten beschouwen. We zullen dat hier niet doen, en volstaan met er op te wijzen dat de mate van "geldigheid" die verkregen kan worden in de selektie in zekere zin ook een bovenste grens vormt voor de mate van geldigheid van de zelf-selektie procedure. Met enige voorzichtigheid is al hetgeen volgt over selektie door de onderwijs-instelling eveneens van toepassing op selektie van de student op zichzelf. Wanneer de vooruitzichten op effektieve selektie procedures slecht blijken te zijn, mogen we ook niet veel verwachten over de mate waarin zelf-selektie zinvol kan zijn.

Het bovenstaande is een belangrijke overweging die we voortdurend voor ogen moeten houden, hoewel er in het volgende niet meer op terug gekomen zal worden.

De zinvolheid van zelf-selektie en van selektie hangen ons inziens dus zeer nauw samen, omdat van goeddeels dezelfde informatie gebruik gemaakt moet worden, en de beslissing van gelijke aard is. Helemaal gelijk is de situatie echter niet, zoals blijkt in het hoofdstukje "Kritiek op het gehanteerde selektiemodel". Wanneer we de student in zijn eerste studiejaar optimaal in de gelegenheid willen stellen om op goede gronden voor zichzelf te beslissen of hij deze studie zal voortzetten of niet, moet het onderwijs-programma daar ook op afgestemd worden. In dat verband wordt dan gesproken van "representativiteit", en "orienterend karakter" van de propedeuse. Laten we ons beperken tot de representativiteit, en dit begrip proberen te concretiseren. Het gaat er om dat de student zich een goede indruk kan vormen van het vak, de studie, en de eisen die vak en studie aan de student stellen.

Zodoende kan hij nagaan of zijn verwachtingen overeenstemmen met de "realiteit", en wanneer er geen te groot verschil is, zal hij besluiten door de studeren. Nu is zowel het verrichten van wetenschappelijk onderzoek als het verrichten van toegepast wetenschappelijk werk een dermate complexe activiteit, met bovendien een moeilijk invoelbare belevings-dimensie, dat iedere hoop om iets daarvan in een propedeuse te vangen ijdel zal blijken. [11]

Dan blijven over de studie en de eisen. Is het mogelijk in een propedeutisch jaar, waarin de aankomende studenten met honderden tegelijk door een zeer schools college en tentamen-programma heen gehaald worden, is het mogelijk in een dergelijke situatie een goede indruk te geven over wat het doctoraal-programma aan mogelijkheden biedt? Vele docenten zullen dat moeten betwijfelen. Resteren de eisen, de vraag of ik de studie zal kunnen "bolwerken". De nota's van Posthumus evenals de memorie van toelichting wemelen van de uitspraken over de relativiteit en de verschuifbaarheid van "normen". Als dit inderdaad de realiteit is zal de student zich moeten afvragen hoe hij uit de competitie-slag met zijn medestudenten te voorschijn zal komen, en òf hij bepaalde risico's om te "mislukken" wel wil aanvaarden. Welnu, het is duidelijk dat dergelijke overwegingen geen overtuigende indruk van de rationaliteit van self-selektie kunnen geven.

Het spijt me dat het voorgaande zo negatief uitvalt, maar we zullen weinig anders kunnen doen dan constateren dat iedere beslissing die de student neemt over zijn al dan niet verder studeren gebaseerd is op onvoldoende informatie, een situatie waarin wel enige verbetering gebracht zou kunnen worden, maar die toch in welke vorm die we aan ons hoger onderwijs ook geven, tot op grote hoogte onvermijdelijk is. En waar ons onderwijs in wezen competitief is ingesteld zullen overwegingen t.a.v. "slaagkansen" een overheersende rol gaan spelen, zeer ten nadele van de betrokkenen èn van het onderwijs. Dat namelijk deze slaagkansen moeilijk voorspelbaar zijn zal blijken uit dit rapport.

Het voorgaande staat wel in schrille tegenstelling tot de uitspraak van Posthumus (1e voortgangsnota, blz 38):

"In het voorgaande hoofdstuk over het afnemen van examens heb ik betoogd dat selectie moet betekenen: de optimale informatie over iemands mogelijkheden, zodat hij voor zichzelf en daarmee hopelijk ook voor de gemeenschap een zo verantwoord mogelijke keuze kan doen. Selektie moet met andere woorden de optimale voorwaarde voor zelfrealisatie scheppen."

In tegenstelling hiermee komen wij tot de conclusie dat zelf-selektie plaatsvindt op basis van onvolledige en irrelevante informatie, waarbij weliswaar de onvolledigheid geen obstakel hoeft te vormen, maar wel de irrelevantie van overwegingen t.a.v. slaagkansen, gezien de wijze waarop in ons huidige onderwijs deze slaagkansen bepaald worden (zie daarvoor o.a. "Rapport van de commissie studieduur" van de Academische Raad, 1964, het verslag van de zgn. "commissie-Posthumus").

Het tweede punt: zijn zelf-selektie en selektie met elkaar te verenigen? Ze worden door velen gezien als samenhangend, bijv. Posthumus (de universiteit etc. blz. 57):

"De functie van het propedeutisch onderwijs en het propedeutisch examen wordt als volgt gezien:
het verschaffen van inzicht aan de student in de methoden en de doelstellingen van de door hem gekozen studierichting;
de vorming van een oordeel door de student en door de faculteit omtrent de geschiktheid voor de gekozen studierichting.
Getracht moet worden propedeutisch onderwijs- en examen-programma's op te stellen, die beantwoorden aan voorwaarden van representativiteit en selectiviteit."

De manier waarop Posthumus de selektie zoals die uiteindelijk plaatsvindt omschrijft, doet al enige tegenstrijdigheid vermoeden (De universiteit etc., blz. 14:)

"Voor vrijwel alle examens geldt dat de vereiste prestaties door voortgezette studie kunnen worden verbeterd. Voorts kunnen vrijwel alle examens onbeperkt worden herhaald. De afgewezen kandidaat staat dus telkenmale voor de beslissing: herhalen of staken. De som van deze persoonlijke beslissingen bepaalt de statistische uitkomsten van de studieduur der geslaagden en het percentage van de afzwaaiers. Faculteiten en studenten tezamen vervullen daarmede een functie, die vaak "selecterend" wordt genoemd".

Docenten en studenten bepalen gezamenlijk de selektie. Het boze vermoeden rijst dat deze samenwerking hierin bestaat dat de docenten selekteren en de studenten zich laten selekteren. [12]

Wanneer de onderwijsinstelling gaat selekteren na bijvoorbeeld een jaar studie, is het onvermijdelijk dat het studiegedrag van de studenten gericht is op het examen, op een competitieve strijd met hun medestudenten. Vrijwel alle ruimte en gelegenheid tot oriëntering dreigt hierdoor opgeslokt te worden, een dreiging waartegen nòch het ontwerp noch de memorie van toelichting enige waarborgen schept. Wat in de praktijk zal gebeuren, en ook nu al op grote schaal gebeurt, is dat het propedeutisch jaar volgestopt wordt met programma's gericht op het verwerven van basiskennis, waarover aan het eind van het jaar op selektieve wijze getoetst gaat worden. Waar blijft de oriëntatie, waar vinden we posthumus' "zelf-realisatie", waar blijft de "representativiteit" van het eerste jaar? Aan het eind van het jaar vindt de grote wedstrijd plaats (Posthumus, De universiteit etc., blz.34):

"Het vergelijkend onderzoek naar de geschiktheid vindt plaats door de prestaties van de studenten, die hetzelfde onderwijs hebben gevolgd, met dezelfde maatstaven te beoordelen".

Waar Posthumus bovendien nog voorstelt dat het examen bij voorkeur moet bestaan uit meerkeuze studietoetsen, weten we helemaal zeker dat er van zelf-selektie op basis van een behoorlijke oriëntatie van de student en representativiteit van het onderwijsprogramma, niets meer overblijft.

Concluderend t.a.v. de vraag naar verenigbaarheid van zelf-selektie en selektie door de onderwijsinstelling, moeten we stellen dat iedere vorm van pressie die op de student uitgeoefend wordt door studieprogramma en inrichting van het examen ten koste gaat van de rationaliteit van zelf-selekterende beslissingen. Willen we de nadruk leggen op zelf-selektie, dan zullen we daar ook alle gelegenheid toe moeten scheppen door selektie van bovenaf achterwege te laten. Is dat niet het geval dan zijn alle zogenaamde zelf-selekterende beslissingen in feite door de onderwijs-instelling afgedwongen, en dus géén zelf-selektie. [13]

WAAROP SELEKTEREN?

Zoals gezegd gaan we er van uit, dat de selektie plaatsvindt omdat er niet voor iedereen plaats is. Er moet vervolgens een selektie-procedure gevonden worden, een lotings-procedure of, als we daar meer baat bij denken te hebben, een procedure waarbij we gebruik maken van al bekende of eventueel in te winnen informatie over de aankomende (of eerstejaars) studenten.

Een eerste selektie-drempel, het zij volledigheidshalve vermeld, is een eindexamen dat recht op toelating tot het hoger onderwijs geeft. Dit is overigens geenszins een triviaal gegeven, zoals nog zal blijken. Een deel van deze gelukkigen zal een plaatsje in een instelling voor hoger onderwijs ambiëren, en voor deze groep is ons selektieprobleem relevant.

Of het de beste procedure is om te selekteren op grond van een propedeutisch examen kunnen we nu nog niet zeggen, we gaan er wel voorlopig van uit dat, in overeenstenming met het ontwerp van wet, de propedeuse als selektie instrument gehanteerd wordt.

Allereerst zullen we daarbij selekteren op "uithoudingsvermogen" in het eerste jaar, waaruit dat dan ook mag bestaan. Het komt veel voor dat studenten wel onderwijs volgen maar niet opkomen voor een tentamen of examen, ofwel omdat zij juist de studie opgegeven hebben, ofwel omdat ze zichzelf weinig kans geven en nog liever even uitstellen. Voor de eerste kategorie geldt dat in feite de selektie-beslissing al gevallen is vóór het examen, en we zullen er achter moeten komen op welke gronden mensen menen een studie voortijdig te moeten staken omdat deze redenen veel of alles van doen hebben met de studie-omgeving en het gegeven onderwijs, zaken waarvoor de faculteit een grote verantwoordelijkheid draagt. Het is niet juist gevallen van vroeg afbreken van de studie zonder meer "zelf-selektie" te noemen omdat invloeden vanuit de onderwijssituatie hiertoe kunnen dwingen. Voor de tweede kategorie, de uitstellers, geldt dat zij daarmee ook de selektie-procedure uitstellen zij het dat hierdoor een grotere aanspraak op hun uithoudingsvermogen gedaan wordt, en andere omstandigheden (de beruchte "voorzieningen pakketten" die ingetrokken kunnen worden) een toenemende pressie op deze studenten zullen uitoefenen. Hun situatie is dan ook in hoge mate vergelijkbaar met die van de "gezakten" die zich op een herkansing voorbereiden.

Het bovenstaande moeten we o.a. dáárom signaleren, omdat hiervan veelal in allerlei statistieken niets terug te vinden is, en het verschijnsel een zeer belangrijk kenmerk kan zijn van de selektie zoals die, soms geheel ongewild, in de praktijk plaatsvindt.

Uit de volgende hoofdstukken zal blijken dat zoiets als "geschiktheid voor de studie" geen éénduidig begrip is, en niet eenvoudig valt te voorspellen. Voor het ogenblik echter gaan we er van uit dat er mee gewerkt kan worden. "Geschiktheid" wordt door velen gezien als de eigenschap die de belangrijkste bepalende factor in het toelatingsbeleid moet zijn. Zo bijv. Posthumus (De universiteit, blz. 34):

"Het vergelijkend onderzoek naar de geschiktheid vindt plaats door de prestaties van studenten, die hetzelfde onderwijs hebben gevolgd, met dezelfde maatstaven te beoordelen". [14]

Laten we nagaan hoe de situatie is wanneer de werkwijze van Posthumus gevolgd wordt.

Allereerst het punt van dezelfde maatstaven. Dit lijkt een eenvoudige en rechtvaardige zaak, maar pas op. Heel bekend is het verschijnsel dat op verschillende basis gevormde deelgroepen verschillende resultaten op dezelfde test behalen. Zo zijn er vrij wel altijd systematische verschillen in testscores tussen mannen en vrouwen. Voor propedeutische examens zijn er systematische verschillen tussen de groepen die op basis van genoten vooropleiding gegroepeerd zijn. Talloze fijnere verdelingen, of verdelingen op basis van persoonlijkheids-, motivatie-, intelligentie-, en andere gegevens zijn te maken waarbij veelal systematische verschillen in test-scores waarneembaar zijn. Wanneer dergelijke systematische verschillen geen invloed op de selektiebeslissingen mogen hebben, zullen we bij een selektieprocedure daarmee rekening moeten houden, en voor diverse onderscheidbare groepen verschillende maatstaven aanleggen. Op grond van deze overwegingen moeten we onderzoeken voor welke groepen we de slaag-zak grens omhoog of omlaag moeten brengen. Als we dit inderdaad gaan doen zal er ongetwijfeld tegen geprotesteerd gaan worden. Wanneer we het niet doen echter zullen we meer foutieve beslissingen nemen dan anders het geval zou zijn, en zullen we grotere onrechtvaardigheden tegenover de betreffende studenten begaan. De "Standards for Educational and Psychological Tests and Manuals (1966) (voortaan geciteerd als "Standards") [15] beveelt sterk aan om onderzoek te doen naar de validiteit van een test-procedure voor verschillende deelgroepen wanneer het vermoeden bestaat dat er verschillende kunnen bestaan tussen deze deel-groepen (blz.20). [17]

Belangrijker misschien dan de genoemde systematische groepsverschillen zijn individuele verschillen die niet relevant zijn voor de selektie-beslissing, maar die wèl beïnvloeden. Hier zullen persoonlijkheids-, motivatie-, en intelligentie-verschillen een grote rol spelen bij de kans die men heeft om afgewezen te worden, terwijl dergelijke verschillen voor het onderwijs meestal niet relevant zullen zijn. (Dit is een bron van onbetrouwbaarheid voor de examen-uitslagen). Om het te illustreren aan de intelligentie: zoals langzamerhand al meer algemeen bekend, bestaat er niet zoiets als "de" intelligentie, maar kunnen we vele verschillende factoren onderscheiden binnen het verzamelbegrip "intelligentie". Een heel vervelend verschijnsel waar we mee te maken hebben in het onderwijs is dat sterk geselecteerd wordt op factoren als verbale vaardigheden, die bijvoorbeeld in latere beroepspraktijk van veel minder belang kunnen zijn. Iets dergelijks doet zich bij ieder examen in feite voor: er wordt een sterker beroep gedaan op bepaalde intelligentie-factoren ten koste van andere, terwijl in het voorafgaande of het volgende onderwijs deze intelligentie-factoren vaak van minder belang zullen zijn. Een examen zal op deze wijze nooit optimaal kunnen zijn, terwijl bovendien bepaalde individuen systematisch in het nadeel zijn op examens, terwijl dat nadeel in de onderwijs-situatie niet relevant is. [16]

Niet alleen de meer standvastige variabelen als de bovengenoemde zijn van invloed, ook allerlei verschillen in voorbereiding(stijd) die al of niet toevallig ontstaan zijn, spelen een storende rol. Als belangrijk voorbeeld kunnen we milieu-faktoren noemen, die vaak een sterk verband houden met de kansen om uitgeselecteerd te worden (of zelf-selektie te moeten plegen) terwijl de feitelijke capaciteiten daartoe geen aanleiding zouden geven. (zie wederom de studie van Doornbos die relevante onderzoekingen bespreekt).

Hetgeen tot nu toe gezegd is over de gelijkheid van maatstaven heeft in feite betrekking op de metingen die aan deze maatstaven gerelateerd zijn, in casu het examen. Deze examenresultaten zijn in vaak forse mate onbetrouwbaar, een aantal bronnen van onbetrouwbaarheid hebben we juist genoemd, er zijn nog vele andere factoren (voor een systematische opsomming zie Schwarz (1971), die aan onbetrouwbaarheid van de metingen bijdragen. [18]

In dit rapport zal overigens weinig aandacht aan het vraagstuk van de betrouwbaarheid van toetsen etc. besteed worden, in tegenstelling tot wat in nederlandse literatuur gebruikelijk lijkt. Betrouwbaarheid zegt alleen iets over de vraag of we al dan niet iets "meten", en is als zodanig van belang als ondersteuning voor een analyse en schatting van inhoudelijke, voorspellende, en "construct" geldigheid, maar kan deze nooit vervangen. ("Standards" blz.28). Hoe groter de onbetrouwbaarheid is, des te minder waarde kunnen we aan de examenresultaten hechten. De "waarde" van deze resultaten wordt o.a. bepaald door de mate waarin studie-scores e.d. "voorspeelbaar" zijn op basis van deze propedeuse-resultaten (waarover in de volgende hoofdstukken meer). Een andere factor die van belang is voor het bepalen van de "waarde" van de examenprocedure is het onderzoek naar de mate waarin we met onze examenprocedure inderdaad iets als "geschiktheid" meten. (Het probleem van de "construct" geldigheid, zie bijv. de "Standards"). We zullen dan ook heel nauwgezet moeten formuleren wat we niet[sic] onder geschiktheid verstaan voordat we een examen opstellen.

In de mate waarin we hiermee nalatig zijn, zullen we examen-resultaten krijgen waarvan niet geheel duidelijk is hoe we ze moeten interpreteren, en die interpretatie is nodig omdat we op basis van deze resultaten moeten beslissen iemand af te wijzen of te accepteren. Bovendien zal vrij uitgebreid onderzocht moeten worden het verband tussen gedragingen en prestaties van studenten tijdens de studie en de behaalde examen-resultaten, omdat beide verband met elkaar moeten hebben wil er van een zinvolle examenprocedure sprake zijn. (Dit is dus iets anders dan het nog te bespreken verband tussen examen-resultaten en uiteindelijk studiesucces in de uitoefening van het vak). [19]

Het betreft hier een problematiek die uitgebreid behandeld wordt in literatuur over "Educational Measurement", bijv. het gelijknamige boek verzorgd door Thorndike (1971), of De Groot, Van Naerssen e.d. (1969). Onder verwijzing naar deze literatuur zullen we er hier verder het zwijgen toe doen.

In het wetsvoorstel wordt er stilzwijgend van uitgegaan dat selektie plaatsvindt op dezelfde wijze als nu gebeurt: door middel van tentamens en examens, al of niet in de vorm van meerkeuze-toetsen.

Zoals uit het voorgaande al gebleken is, betekent dit geenszins dat niet tevens op variabelen als vooropleiding, intelligentie, geslacht, milieu van afkomst etc. geselekteerd wordt. Dit zijn namelijk gegevens die verband houden met studieresultaat als gemeten door tentamens (ze correleren er mee). Wanneer we selekteren op examenresultaten, selekteren we in feite ook op alle variabelen die met deze examen-resultaten verband houden. (Uitgebreid besproken in Lord & Novick 1968). Omdat het zeer ongewenst is persoonlijkheids, biografische e.d. gegevens te gebruiken als gegevens voor selektie, moeten we onderzoeken in hoeverre examenresultaten hierdoor bepaald worden om dit mede te betrekken in studie van de vraag of een dergelijke selektie d.m.v. examens wel wenselijk is. De memorie van toelichting is op dit punt van een gevaarlijke vaagheid, waartegen scherp geprotesteerd moet worden (1-5):

"Bij deze selektie kunnen vele kenmerken, afzonderlijk of tezamen, worden gehanteerd: Kalenderleeftijd, sekse, lichamelijke of geestelijke eigenschappen, maatschappelijk milieu, kundigheden, vorderingen, diplomabezit, toekomstplannen". [20]

Wanneer we gebruik maken van tentamen-resultaten voor de selektie, houden we rekening met de mate waarin de student zich leerstof in het eerste jaar voldoende heeft weten eigen te maken. Dit is een merkwaardige constructie, omdat het eerste studiejaar nogal verschilt van de rest van de studie. Het studieprogramma is voor iedereen gelijk, terwijl voor het doctoraal programma een zo groot mogelijke keuze-vrijheid voorgesteld wordt. Dit is op z'n minst zeer inkonsekwent, maar betekent bovendien dat we voorzichtig moeten zijn met zonder meer te veronderstellen, dat examenresultaten over een gedwongen uniform studiepakket iets zeggen over te verwachten studiegedrag wanneer we de student vrijlaten. Een andere belangrijke overweging is dat de schoolsheid van het eerste studiejaar in schril kontrast staat tot de pretenties van wetenschappelijk onderwijs t.a.v. kritisch, zelfstandig, creatief etc. werk tijdens zowel als na de studie. Wanneer eerst geselekteerd wordt op schoolsheid kun je niet verwachten daarmee tevens een creatieve kritische etc. groep studenten aangenomen te hebben.

Dit zijn vrij ernstige tekortkomingen, zowel in de wijze waarop selektie vandaag de dag plaatsvindt, als waarop deze volgens Posthumus zal verlopen. Op deze wijze bereiken we een ongetwijfeld ongewenste uniformering van de studenten-populatie. Zeker voor het wetenschappelijk onderwijs is het daarentegen zeer gewenst een groot scala van interesses, capaciteiten etc. bij de studenten te bevorderen. Dit effect van ongewenste homogenisering van groepen is een bezwaar dat in het algemeen tegen massale, op tests of toetsen gebaseerde selektie gemaakt kan worden, omdat het een groot stuk onrechtvaardigheid t.a.v. individuele personen incorporeert. Bij selektie voor het hoger onderwijs komt daar nog bij dat ook aan de maatschappij op deze wijze schade toegebracht kan worden. Ook Hazewinkel (1971) waarschuwt voor dit gevaar. [21]

Als afsluiting van dit hoofdstuk signaleren we nog een belangrijke tekortkoming van het gebruik van tentamenresultaten als selektie gegevens. De student bereidt zich op een tentamen veelal "kort en hevig" voor, hij is in het ideale geval tijdens de tentamenafname op het toppunt van zijn kunnen. Indien vrij korte tijd later (een week, een paar maanden) onverwachts hetzelfde tentamen nogmaals afgenomen wordt, zullen we zien dat zijn prestaties een stuk gezakt zullen zijn. De mate waarin dit gebeurt is, wat de student betreft, afhankelijk van bijvoorbeeld de mate waarin hij de stof louter gememoriseerd en niet begripsmatig verwerkt heeft; wat het tentamen betreft is het afhankelijk van de mate waarin eenvoudige feitenkennis gevraagd wordt dan wel hogere cognitieve vaardigheden als "inzicht". Leer psychologisch onderzoek toont aan (zie ook Cook, 1951) dat feitenkennis snel verdwenen blijkt te zijn bij onverwachte toetsing een tijd later, maar dat verworven inzichten in samenhangen e.d. vaak nog onverminderd aanwezig zijn. Het is jammer dat juist het voorgestelde propedeutisch examen hoogst waarschijnlijk primair aanspraak zal doen op geheugenwerk en niet op inzichtelijk met de stof kunnen omgaan. (Zie op dit punt ook Cronbach's artikel over validiteit in Thorndike (1970)). [22]

Veranderingen in resultaten zoals juist beschreven zijn uiterst ongewenst wanneer het er om gaat iets te weten te komen over de stabiele eigenschappen van de student die van belang zullen zijn voor de wijze waarop hij zich in de verdere studie zal gedragen. We zullen op zijn minst inhoudelijke examenprocedures moeten ontwerpen die in veel mindere mate op dit punt te kritiseren zijn dan de huidige, doen we dat niet dan laten we een belangrijke bron van foutieve selektiebeslissingen bestaan.

DE CRITERIUM MAATSTAVEN (Het "peil")

In het voorgaande hebben we het propedeutisch examen als selektie-instrument besproken, met al wat er aan consequenties aan verbonden is. We hebben tot nog toe a.h.w. alleen over de werkwijze gesproken, en nog niet over de rationale, we hebben immers het "geschiktheids"-probleem nog even uitgesteld. Wat we tot nu toe "geschiktheid" hebben genoemd dopen we, in overeenstemming met de literatuur over selektie, het criterium, of de maatstaf, eventueel nog dubbel op: criterium maatstaf.

Hiermee verwijderen we ons van het dagelijks spraakgebruik waarin "geschiktheid" gezien wordt als een "eigenschap" die een student "bezit" of niet "bezit", aan het begin zowel als gedurende de studie. Het criterium daarentegen is een omschrijving van het (liefst meetbare) einddoel van het onderwijs; een einddoel dat de student, gesteund door het hem geboden onderwijs, in meerdere of mindere mate voor zichzelf zal realiseren (tenzij hij /zij om de een of andere reden vóór die tijd met de studie is opgehouden). In plaats van over een eigenschap van de student spreken we nu over een doelstellingenpakket van het onderwijs, dat voor een bepaalde student in een bepaalde mate bereikbaar blijkt. [23]

In het klassieke test-model gaan we er van uit dat we de selektie zó inrichten dat we die studenten aannemen die uiteindelijk de beste prestaties zullen leveren, afgemeten aan de voor dat bepaalde stuk onderwijs geformuleerde doelstellingen (of een dergelijke werkwijze zonder meer gevolgd mag worden zal onderwerp van diskussie zijn in een volgend hoofdstuk).

De vraag is dus hoe we over die eindprestaties gegevens kunnen verkrijgen, en welke waarde we aan die gegevens kunnen toekennen. Zoiets als 'het' criterium bestaat natuurlijk niet. Allereerst kunnen we onderscheid maken tussen criteria die te maken hebben met de studie bijvoorbeeld studieduur of gemiddeld eindexamen-cijfer, en criteria die te maken hebben met de wijze waarop de vroegere student zich in zijn beroepssituatie gedraagt, bijvoorbeeld aantal publicaties, maatschappelijke positie, plezier dat hij/zij in het werk heeft e.d.. We kunnen de criteria die betrekking hebben op de periode ná de studie maar beter vergeten, niet omdat ze onbelangrijk zouden zijn, integendeel zelfs, maar omdat ze in hoge mate ongrijpbaar. zijn, en alleen zeer kostbaar onderzoek daarover de nodige informatie zal kunnen verschaffen. Wanneer we ons beperken tot criteria die rechtstreeks met de studie te maken hebben, moeten we ons daarbij steeds blijven realiseren dat we ons daarmee in feite slechts met tussenliggende criteria bezighouden, de uiteindelijke criteria liggen tenslotte altijd in de beroepsuitoefening. [24]

De studie-criteria moeten afgeleid worden uit de doelstellingen van het onderwijs, de meer inhoudelijke doelstellingen zowel als de meer fundamentele, principiële, maatschappelijke, of hoe men ze noemen wil. Wanneer het niet lukt om de doorgaans slechts zeer vaag omschreven doelstellingen, waarmee men nog alle kanten uitkan, scherper en uitgebreider te formuleren, zodat in de gekozen doelstellingen precies datgene geformuleerd is wat men d.m.v. het onderwijs bij de studenten wil bereiken, zal het niet mogelijk zijn criterium prestaties van de studenten tijdens of als afsluiting van de studie vast te stellen. We hebben die doelstellingen absoluut nodig, omdat ons criterium precies het onderwijs doel moet representeren, niets meer, en ook zeker niets minder. [25]

Afhankelijk van de doelstellingen zullen we verschillende criteria kunnen onderscheiden. Te noemen vallen bijvoorbeeld: studieduur, kwaliteit van zelfstandig onderzoek, examencijfers, gebleken maatschappelijk verantwoordelijkheidsbesef, houding in sociale omgeving, etc. Dit zijn stuk voor stuk zaken die moeilijk of niet kwantificeerbaar zijn, of, in het geval van de cijfers en de studieduur, waar we grote moeilijkheden bij het interpreteren van de cijfers zullen hebben. Maar het is in principe denkbaar dat we voor iedere student aan het eind van de studie een serie gegevens hebben met betrekking op de relevante criteria.

Zijn deze gegevens echter voor verschillende studenten met elkaar vergelijkbaar? In het hoger onderwijs zeker niet, want iedere student heeft a.h.w. zijn eigen persoonlijke studieprogramma doorlopen, heeft onderzoek gedaan over onderwerpen die hem interesseerden, heeft deelgenomen aan een groot aantal, telkens verschillend samengestelde groepen, heeft speciaal voor hem samengestelde literatuurlijsten als tentamen opdrachten gehad etc.

Waar we bij het propedeutisch examen nog zo makkelijk de resultaten van verschillende studenten met elkaar konden vergelijken, zij het dat we de nodige kanttekeningen daarbij moesten maken, blijkt het relatief nagaan van studieprestaties op de daarvoor gehanteerde criteria niet meer mogelijk, tenzij we met beoordelaars gaan werken, met alle overweldigende bezwaren van dien. We blijven dan zitten met heel interessante gegevens voor iedere afzonderlijke student, maar we kunnen ze nauwelijks met elkaar vergelijken.

Als illustratie de conclusie van een onderzoek door Kelly en Fiske, zoals geciteerd en vertaald door Willems (1959):

"Een bevredigend enkelvoudig criterium voor succes bij de opleiding voor of bij het beoefenen van de klinische psychologie is er niet. De universitaire stafleden en de klinische psychologen, die de supervisie hadden, vertonen grote individuele verschillen in hun opvattingen over wat een succesvolle academische opleiding is en over wat vakbekwaamheid is."

Willems besluit een vrij uitvoerige bespreking van het criterium probleem met o.a. de volgende opmerking:

"De universiteit moet de doeleinden van de opleiding duidelijk aangeven en expliciteren in hoeverre deze doeleinden terug te vinden zijn in de eisen welke bij het doctoraalexamen, of equivalent daarvan, gesteld worden".

Met het voorgaande betoog is tevens duidelijk geworden dat degenen die zo makkelijk praten over het 'peil' en het 'niveau' van de opleiding woorden in de mond nemen die zij heel moeilijk door concrete demonstratie waar zullen kunnen maken.

Rest ons ten aanzien van de criteria nog de belangrijke opgave na te gaan waardoor de uiteindelijke studieprestaties zoals afgemeten aan deze criteria, bepaald kunnen zijn. Het ligt voor de hand hierbij te zoeken naar kwaliteiten van het onderwijs, naar kwaliteiten van de student, en naar hun onderlinge samenhang. Ook kan de gehanteerde meetprocedure van invloed zijn, omdat bij verschillende methoden verschillende resultaten zullen blijken. De geformuleerde doelstellingen vormen tevens een beperking, prestaties die daar buiten vallen zullen niet meetellen, omdat we ze niet meten. Onredelijk geformuleerde doelstellingen kunnen ten onrechte de indruk geven dat er iets mis is met het onderwijs of de studenten, waar in feite de doelen fout, of te hoog of te laag gesteld zijn. Tenslotte zijn de studenten die de eindstreep bereiken het resultaat van een langdurig selektieproces, deze selektie heeft gevolgen voor de meting van de criteria, o.a. ten aanzien van de score-variantie, maar waarschijnlijk ook op meer systematische wijze afhankelijk van de variabelen die samenhangen met het vroegtijdig moeten beëindigen van een studie.

Allereerst de kwaliteit van het onderwijs. Kolthoff, onderwijs onderzoeker aan de Universiteit van Amsterdam, in de Haagse Post van 6 november jl.:

"Het grootste bezwaar van ons wetenschappelijk onderwijs is niet dat het zo duur, zo inefficiënt en zo lang is, maar dat het zo slecht is".

Dit is een opmerking die relevant is voor het gehele selektie-probleem. Op dit moment interesseert ons alleen de onderwijskwaliteit. Deze kwaliteit moet, onder de gegeven omstandigheden, zo groot mogelijk zijn. Wanneer dit niet het geval is, en de opmerking van Kolthoff stelt onomwonden het onderwijs in gebreke, moeten we vele twijfels koesteren ten aanzien van de onder deze omstandigheden verkregen criterium gegevens.

Wanneer de nodige garanties t.a.v. de kwaliteit van het onderwijs niet gegeven kunnen worden, zullen we niet weten of prestaties van studenten voornamelijk aan henzelf ofwel aan tekortkomingen in het onderwijs toegeschrevene moeten worden. Het is op zich al een moeilijk probleem om de individuele- en de onderwijsbijdrage uit elkaar [te halen], en dat wordt alleen maar moeilijker gemaakt naarmate het onderwijs zelf slechter is, meer op een random proces gaat lijken.

De kwaliteiten van de studenten die de eindstreep halen zullen uiteraard grote verschillen tonen. Het zal echter ontzettend moeilijk worden om aan deze verschillen oordelen als "beter" of "slechter" te verbinden, want daartoe moeten we zeer verschillende criteriumscores combineren tot één score op een dimensie goed-slecht (dit probleem komt in het volgende hoofdstuk ter sprake). En kwaliteiten die betrekking hebben op creativiteit, kritische houding, zelfstandigheid, verantwoordelijkheidsbesef etc. zijn erg moeilijk te concretiseren. Dat betekent dat we misschien wel kunnen theoretiseren over de kwaliteiten van de student die bepalend zijn voor studie-criterium-prestaties, maar dat het aanwijzen van empirische samenhangen erg moeilijk zal worden. En dat is een frustrerende omstandigheid voor degenen die een aankomende studenten-populatie moeten selekteren, o.a. juist rekening houdend met deze kwaliteiten.

Dat er belangrijke onderlinge effekten zijn tussen kwaliteiten van studenten en die van het onderwijs, behoeft nauwelijks toelichting. Ook hier is echter de grote moeilijkheid een inzicht te krijgen in de aard, de omvang en de consequenties van het onderlinge beïnvloedingsproces tussen de student en zijn onderwijs-omgeving.

Dat bij verschillende meet-procedures andere verdelingen van de resultaten zullen optreden, ligt voor de hand omdat er niet één criterium is voor zoiets als succesvol beëindigen van de studie, waar we vele criteria kunnen onderscheiden die vaak met elkaar weinig verband houden. Het kiezen van een meet-procedure hoort dan ook op basis van zorgvuldige overwegingen te gebeuren, met daarbij als bedenking dat een zekere mate van willekeurigheid onvermijdelijk zal zijn. Als basis voor die overwegingen zullen de geformuleerde doelstellingen kunnen dienen, de hele gang van zaken is zelfs te beschouwen als operationalisatie van de doelstellingen, het concretiseren in termen van gedragingen van studenten van wat daarvoor nog slechts verbale abstracties waren. Aan een dergelijke ope-rationalisatie van onderwijsdoelstellingen kleven echter bezwaren waar men wél rekening mee zal moeten houden (Cronbach, 1971).

Tenslotte, waar het zo is dat we in het begin van de studie een prijs zetten op volgzaamheid, geheugenwerk, onzelfstandigheid, onderlinge wedijver etc., kunnen we niet verwachten dat degenen die de studie doorzetten aan het eind daarvan gekenmerkt kunnen worden door kritisch inzicht, creativiteit, zelfstandigheid, vermogen tot samenwerking etc. In de mate waarin dat ondanks alles tóch het geval is, moeten we verwachten op dit punt véél betere resultaten te kunnen behalen door in het begin van het onderwijs aan deze zaken meer aandacht te schenken en niet de verkeerde mensen uit te te selecteren of het leven zuur te maken. [26]

VOOSPELLENDE GELDIGHEID VAN DE SELEKTIE

We hebben nu een fors stuk voorbereidend werk achter de rug, en zijn min of meer klaar voor het beantwoorden van de vraag of er verband bestaat of bestaan kan tussen scores op het propedeutisch examen en criterium scores aan het eind van de studie. Daarna zullen we moeten onderzoeken wat het rendement van de selektie-procedure is, gegeven bekendheid van de voorspellende geldigheid.

Bij selektie à la Posthumus werken we in feite met een zeer complex model: enerzijds worden mensen via een ingewikkeld procedé van herkansingen afgewezen, anderzijds bieden we degenen die slagen een grote keuzevrijheid aan t.a.v. vormgeving aan de studie. Er wordt niet gewerkt met een bepaald aantal te vullen plaatsen, of met aannemingspercentages (Tenminste, het is nergens zo geformuleerd. In de praktijk kunnen natuurlijk wel andere dingen blijken te gebeuren). Omdat de geschetste situatie te complex is voor een analyse, gaan we er van uit dat er slechts twee mogelijkheden zijn bij een definitieve selektiebeslissing: aannemen of afwijzen. Op het feit dat mensen die aangenomen worden niet dezelfde "behandeling" krijgen, en dat er gewerkt wordt met herkansingen, komen we misschien later terug omdat er wel degelijk consequenties uit voortvloeien t.a.v. voorspellende geldigheid en rendement.

Wat is voorspellende geldigheid? Het gaat om de mate waarin scores op het propedeutisch examen iets zeggen over scores die later bereikt worden op de criterium toetsen aan het eind van de studie. Hoe groter dit verband is, meestal uitgedrukt als correlatie-coëfficient, hoe groter de voorspellende geldigheid. Voorspellende geldigheid zullen we niet beschouwen als eigenschap van het examen, maar van de beslissingsregel die we hanteren t.a.v. zakken en slagen. Dit betekent dat we niet moeten kijken naar de examen-cijfers, maar slechts naar het gegeven voldoende-onvoldoende voor het gehele examen als dat inderdaad samenvalt met de beslissing afwijzen-aannemen. Dit is zeker geen onbelangrijk punt, het is namelijk mogelijk dat we een grote voorspellende geldigheid vinden wanneer alle tentamencijfers bij de berekening gebruikt worden, en toch een lage voorspellende geldigheid vinden wanneer uitgegaan wordt van het gegeven voldoende-onvoldoende. Gegevens van deze aard zijn bijvoorbeeld te vinden in de dissertatie van Mellenbergh over studietoetsen (Psychol.Lab., Universiteit van Amsterdam, 1971) waar hij een zeer grote betrouwbaarheid van beoordeling van tentamen vragen vindt tussen een aantal beoordelaars, terwijl slechts over iets meer dan de helft van de studenten overeenstemming tussen de beoordelaars bestond of ze gezakt dan wel geslaagd waren! (Mellenbergh heeft dit punt geheel over het hoofd gezien). [27]

Welnu, voor het vinden van de voorspellende geldigheid van onze beslissingsregel (= selektie-procedure), moeten we logischerwijze een experiment opzetten waarbij na het examen alle studenten de kans krijgen om de studie af te maken, wat voor examenresultaten ze ook gehad mogen hebben.

"Bij onderzoek naar selektie vereist de experimentele opzet dat we iedereen aannemen, ongezien de examencijfers. (...) De verdere studieresultaten worden verzameld. Deze waargenomen studieresultaten zijn een afspiegeling van de doelstellingen van de onder-wijsinstelling of van de student". (Cronbach, 1971, blz.484).

Dit betekent in de praktijk dat we, voor iedere afzonderlijke studierichting een totale groep aankomende eerstejaars zonder enige vorm van selektie tot aan het doctoraal-examen moeten proberen te brengen. Studenten die op bepaalde momenten moeilijkheden bij de studie ondervinden, die in principe door goede begeleiding of beter onderwijs te voorkomen zijn, moeten zoveel mogelijk overreed worden door te gaan met de studie. Op zich is een dergelijke gang van zaken al opzienbarend, en het valt te voorzien dat ook de resultaten opzienbarend zullen zijn; nl. dat vele van "ongeschikt" bevonden studenten die we toch door laten studeren zullen blijken goede criterium-prestaties te behalen, en omgekeerd. En dit is precies de soort informatie die we nodig hebben; zonder een dergelijk, ongetwijfeld kostbaar, projekt zullen we geen voorspellende geldigheid van de selektie-procedure kunnen bepalen. [aantekening: zgn. "concurrente validering" geeft geen enkele zekerheid over de feitelijke voorspellende geldigheid, en deze procedure die veel goedkoper zou zijn, kan niet gehanteerd worden.

"Such concurrent validation must not be confused with a true follow-up study" (Cronbach, 1971, blz.484). [28]

Zonder inzicht in de voorspellende geldigheid weten we niet wat we doen, en in dergelijke gevallen kun je maar beter direct overgaan op lotings-procedures. Als er selektieprocedures voorgesteld worden, moet aangetoond worden dat ze "beter" zijn dan lotings-procedures; dat is het hele probleem waar we ons in dit rapport mee bezig houden. [29]

Wanneer we tenslotte examen- zowel als criterium-gegevens hebben verzameld (en in ons geval zal daar tenminste een jaar of zes, mee gemoeid zijn) moet onderzocht worden welke beslissingsregel, toepasbaar op de examenresultaten, een zo gunstig mogelijk resultaat zoals dat aan de criteria is afgemeten, oplevert. Wanneer we van meervoudige scores gebruik maken, moeten we zoeken naar die "gewogen" combinatie van afzonderlijke scores die een "zo goed mogelijke" beslissingsregel oplevert. In dit laatste geval moeten we echter het hele experiment nóg eens uitvoeren op een andere groep om te controleren of de specifieke wegings-combinatie die we gekozen hebben ook geldig is voor een andere groep. Vaak namelijk vinden we bij gebruikmaking van multi-variate scores en methoden dat oorspronkelijke uitkomsten specifiek zijn voor de gebruikte groep proefpersonen, en voor andere groepen niet of in mindere mate gelden.

In plaats van een beslissingsregel op empirische gegevens te baseren, kunnen we deze ook à priori formuleren. Dit ontslaat ons echter geenszins van de verplichting om het experimenteel onderzoek uit te voeren, omdat ook van deze á priori regel de geldigheid aangetoond moet worden (zie ook Cronbach, 1971, blz.485). [30]

"Het vinden van een beslissings-regel (voor een bepaalde studierichting) vereist een behoorlijk grote experimentele groep en een verdedigbaar criterium - vereisten waaraan wel eens moeilijk tegemoet kan worden gekomen" (Cronbach, 1971, blz.486).

Bij het uitvoeren van de geschetste experimentele procedure moeten we tevens allerlei effecten proberen uit te schakelen of te controleren die verband houden met verwachtingen van docenten over de prestaties van hun studenten. Talloze onderzoekingen hebben de invloed van dergelijke verwachtingen van de docent op het objectieve prestatieniveau van hun leerlingen aangetoond (zie o.a. Willems, 1959 voor een bespreking).

Dit effect speelt natuurlijk ook in de gewone onderwijssituatie, waar het al betreurenswaardig genoeg is. In onze experimentele opzet moeten we al hele speciale waarborgen creëren dat propedeuse resultaten die door studenten behaald zijn onbekend blijven aan de docenten, zodat propedeuse en criterium resultaten zoveel mogelijk experimenteel onafhankelijk van elkaar blijven.

"Empirische bepaling van de geldigheid is onvermijdelijk retro-spectief, terwijl het gebruik van de test toch altijd prospectief is." (Cronbach, 1971).

Vooral in onze situatie betekent dit dat we na al onze moeite uiteindelijk een gegeven over de voorspellende geldigheid hebben verkregen waarvan we niet weten in hoeverre we daarvan ook uit mogen gaan bij nieuwe te selekteren groepen. Het duurt tenminste een jaar of zes voordat het onderzoek gegevens oplevert op basis waarvan een voorspellende geldigheid te berekenen is. Dat betekent dat op het moment dat we hiervan praktisch gebruik willen gaan maken, er vele veranderingen zijn opgetreden in de situatie zoals die zes jaar geleden was: het onderwijsprogramina is vaak nogal ingrijpend veranderd, de inhoud van het vak is veranderd, er zijn mutaties in het docentenkorps opgetreden, en de groep studenten die aankomt moet op vaak andere wijze gekarakteriseerd worden als de oorspronkelijke proefgroep.

"Een onderzoek waarin (studie)succes voorspeld wordt met behulp van een statistische formule krijgt haar duidelijke betekenis wanneer de formule ontwikkeld wordt op de plaats waar zij ook toegepast zal worden (de betreffende studierichting) en deze situatie voldoende stabiel is dat de resultaten representatief zijn voor hetgeen in volgende jaren zal gebeuren. Slechts wanneer het aanbod van studenten en het onderwijs-programma goeddeels hetzelfde karakter behouden, is het aannemelijk dat de resultaten direct toepasbaar blijven" (Cronbach, 1971, blz. 485).

De grote flexibiliteit waardoor wetenschappelijk onderwijs altijd gekenmerkt zal moeten zijn, legt nog een extra zwaar accent op de gesignaleerde tegenstrijdigheid tussen de genomen selektiebeslissingen en de ondertussen verouderde gegevens op basis waarvan we de beslissingeregel hebben geformuleerd.

Het is nu tijd ons te bezinnen op de mogelijke consequenties van het niet rekening houden met aan de beroepspraktijk ontleende criteria. Deze uiteindelijke criteria zijn moeilijker te voorspellen dan studiecriteria omdat ze veel verder in de tijd verwijderd zijn van de selektie-situatie, omdat behoorlijke metingen moeilijk verkregen kunnen worden etc.. Dit zijn evenzovele redenen waarom de voorspellende geldigheid die we vinden t.a.v. studie-criteria een overschatting zal zijn van de voorpellende geldigheid t.a.v. succes in de beroepssituatie. En deze overschatting wordt nog sterker naarmate die beroepssituatie sterker verschilt van het geprononceerd verbale karakter waardoor onderwijs gekenmerkt wordt:

"Eén van de redenen waarom studiecriteria beter voorspelbaar zijn (dan beroepscriteria) is dat zij veelal afhankelijk zijn van verbaal gedrag (taalbeheersing) in school en op examens, wat makkelijk voorspelbaar is, terwijl succes in het beroep afhankelijk is van niet-verbale kwaliteiten die moeilijk te meten zijn. Maar al te vaak worden mensen uit sociaal minder bedeelde bevolkingsgroepen in het nadeel gesteld door de gehanteerde studiecriteria; en een test die een criterium "geldig" voorspelt, zou in dit opzicht een onjuiste grond voor (selektieve) beslissingen zijn. (Cronbach, 1971, blz.487)

Het is een algemene ervaring bij selektie-onderzoek dat discrepanties als de juist genoemde tussen uiteindelijke (beroeps-) criteria en tussenliggende (studie)-criteria optreden. Een waarschuwing van Cronbach:

"Bij het uitvoeren van selektie-onderzoek moeten we voortdurend de verleiding weerstaan om ons te concentreren op criteria die makkelijk te voorspellen zijn. We moeten onze aandacht richten op die criteria die we het belangrijkst vinden". (1971, blz.490).

Het gevaar dat hier gesignaleerd wordt is bijzonder groot. En wanneer we er niet speciaal op bedacht zijn, kan het nog sterk vergroot worden door het verschijnsel dat ook in de Nederlandse literatuur al bekendheid geniet als "restriction of range". Voor ons is het volgende aspect hiervan van belang: de aankomende student heeft een continue selektieproces van 12 jaar of meer achter de rug. Niettegenstaande de grote mate van willekeurigheid van deze selektie, die immers meer een sociale selektie vormt, heeft zij er toch in geresulteerd dat op een aantal eigenschappen de groep aankomende studenten een extreme groep is, vergeleken met de totale leeftijdsgroep. Dit is o.a. het geval t.a.v. intelligentie, en vooral al dié variabelen die samenhangen met de "overlevingskans" in het onderwijs. Dus ook in het hoger onderwijs. Met andere woorden: juist op een aantal variabelen die bij uitstek geschikt zouden zijn om te gebruiken bij de selektie-procedure, juist op dié variabelen zijn de studenten al geselekteerd. En zowel theoretisch als empirisch is aantoonbaar dat in een dergelijke situatie de betreffende variabelen moeilijk of niet bruikbaar zijn bij verdere selektie. Dit verklaart een belangrijk deel van de bijna onoverkomenlijke moeilijkheden bij het ontwerpen van een rationele selektie-procedure voor het hoger onderwijs. Iedereen is bij wijze van spreken al geschikt omdat hij /zij een eindexamen-papiertje bezit. [31] Wanneer we, ondanks dit gegeven, tóch een selektie-procedure ontwikkelen, lopen we daarbij groot gevaar in de door Cronbach genoemde val te lopen. Immers, op veelal werkelijk relevante eigenschappen verschillen de aankomende studenten niet genoeg meer om er op te kunnen selekteren, in welk geval het gevaar erg groot is dat er dan geselekteerd gaat worden op variabelen waarop er wél grote verschillen bestaan tussen de studenten, maar die voor het onderwijs minder belangrijk zijn. In feite zouden we dan met een selektie bezig zijn die neerkomt op willekeur. [32]

Dan rest ons nu nog het probleem, waaraan we in het voorgaande stilzwijgend voorbijgingen, dat er op de een of andere manier verband gelegd moet worden tussen een aantal examen-scores (bijvoorbeeld de verschillende tentamens waaruit dat examen bestaat) en een verzameling scores op al dié verschillende criteria die we geformuleerd hebben.

Het is waarschijnlijk dat deze verschillende criteria tamelijk onafhankelijk t.a.v. elkaar zijn (precies de reden waarom we ze niet makkelijk kunnen combineren tot één enkele criterium score). Ook met de examen-scores zal dit (in mindere mate) het geval zijn. Maar niet alleen kunnen scores op de criteria weinig verband (lage intercorrelaties) met elkaar hebben, ook blijken zij vaak met verschillende variabelen (onderdelen) van het voorspellende examen af te hangen.

"De tests die het ene resultaat voorspellen zijn vaak niet degene die een ander resultaat voorspellen, en een beslissingsregel waarin een bepaald resultaat gemaximaliseerd wordt zal mensen kunnen afwijzen die op een ander criterium uitmunten". (Cronbach, 1971).

Natuurlijk kunnen we alle verbanden tussen de verschillende scores analyseren, maar dat levert nog geen beslissingsregel op. Er zijn ook geen statistische methoden die ons hierbij kunnen helpen (ook canonische correlatie niet, zie Cronbach, 1971, blz.489-490) omdat

"de keuze van de combinatieregel afhangt van de doelen of de waarden van degene die beslist, d.w.z. de doelen of waarden van het instituut dat hij vertegenwoordigt". (Cronbach, 1971).

Het zal veel moeite en veel vergadertijd kosten om tot dergelijke combinatie-regels te komen. Het is echter noodzakelijk er aandacht aan te besteden omdat op andere wijze verkregen beslissingsregels in elk geval een impliciete weging van examen- en criteriumscores behelzen. Dan zouden bijv. de minder belangrijke, maar makkelijk voorspelbare, criteria een te groot gewicht kunnen krijgen. [33]

HET RENDEMENT VAN DE SELEKTIE PROCEDURE.

We weten nog steeds niet of we met onze selektie-procedure nu iets gewonnen hebben, of dat net zo goed geloot had kunnen worden Om deze vraag te kunnen beantwoorden, is het gegeven van de voorspellende geldigheid nodig, zoals dat verkregen kan worden door het uitvoeren van een onderzoek zoals dat in het voorgaande beschreven is. De voorspellende geldigheid wordt meestal uitgedrukt in een correlatie-coëfficiënt, de produkt-moment correlatie tussen selektie en kriterium score. Deze is bij perfecte voorspellende waarde gelijk aan 1.00, bij totaal ontbreken van voorspellende waarde is ze gelijk aan 0.

Welke waarde van deze zgn. geldigheids coëfficiënt is te verwachten? Cronbach (1970 blz.135):

"Het is ongebruikelijk om geldigheids-coëfficiënten te vinden hoger dan .60, hoewel dat nog lang geen perfecte voorspelling is. Hoewel we liever hogere coëfficiënten zouden hebben, is toch iedere positieve correlatie een aanwijzing dat voorspellingen op basis van de toets nauwkeuriger zijn dan bij raden. Of een geldigheidscoëfficiënt hoog genoeg is om voorspelling op basis van de toets te rechtvaardigen, hangt af van praktische overwegingen zoals de noodzaak van verbeterde voorspellingen, de kosten verbonden aan de toetsings-procedure, en de kosten en de geldigheid van de al in gebruik zijnde selektie-methoden. Op de vraag "Wat is een goede geldigheids-coëfficiënt*', is het enige zinvolle antwoord: "De beste die je kunt krijgen". Als een criterium voorspeld kan worden met slechts een geldigheid van .20, dan zou de toets nog steeds een op prijs te stellen praktische bijdrage kunnen leveren. Natuurlijk moet deze bijdrage groter zijn wanneer het gaat om een kostbare selektieprocedure dan bij een relatief goedkope".

In de situatie die zich voordoet bij selektie voor hoger onderwijs in Nederland mogen geen geldigheids-coëfficiënten hoger dan .30 of .40 verwacht worden, als het ons al mogelijk blijkt om ook maar enige geldigheid aan te tonen. (Willems 1959 en 1964, Hazewinkel 1971, Van Naerssen 1970). [34] Wanneer op basis van onderzoek een coëfficiënt gevonden wordt om .30 bijvoorbeeld, moet daarbij bedacht worden dat we werken met criteria die ook betrekking hebben op studiesituaties, en indachtig Cronbach's waarschuwing dat onderwijs-criteria makkelijker voorspelbaar zijn dan praktijk criteria, moet deze waarde van .30 heel voorzichtig geïnterpreteerd worden.

Welke praktische betekenis heeft nu een bepaalde, gegeven, geldigheids-coëfficiënt? Allereerst kan op basis daarvan berekend worden hoeveel foutieve toelatings- en afwijzingsbeslissingen genomen worden. [35] Om deze berekeningen, voor verschillende afwijzings-percentages, te kunnen uitvoeren moet een aanname gemaakt worden over het aantal "geschikte" studenten in de aankomende groep. Daarbij kan gebruik gemaakt worden van door empirisch onderzoek verkregen gegevens om op basis daarvan voor een bepaalde nieuwe groep een schatting te maken. Ook kan een à priori schatting gemaakt worden die redelijk lijkt. Laten we dan veronderstellen dat 80% van de aankomende eerstejaars de studie met succes en binnen redelijke tijd kan afsluiten. [36] Dit is een aanname waar ook Hazewinkel (1971) van uitgaat bij door hem uitgevoerde berekeningen waarvan we hier gebruik zullen maken.

RENDEMENT TABEL. Uitgaande van 80% geschikten onder de aankomende studenten, en voorspellende geldigheid van .40.

afwijzings % foutief     % foutief   totaal 
 %         toegelatenen  afgewezenen fouten % 
     0         20           ..        20
    10         15,3          5,3      20,7 
    20         12           12        24

Het aantal ongeschikten in de aangenomen groep neemt af naarmate een hoger afwijzingspercentage gehanteerd wordt, het aantal mensen dat afgewezen wordt maar die potentieel de studie goed hadden kunnen volbrengen, neemt echter sterk toe. Wat er gebeurt wanneer er geheel willekeurig geselecteerd wordt, bijvoorbeeld d.m.v. een lotings-procedure, wordt geïllustreerd door de resultaten vermeld in onderstaande tabel.

RENDEMENT TABEL. Uitgaande van 80% geschikten onder de aankomende studenten, en selektie d.m.v. loting. (tussen haakjes de overeenkomstige cijfers uit de eerste tabel).

afwijzings % foutief     % foutief   totaal 
 %         toegelatenen  afgewezenen fouten % 
     0         20          ..         20
    10         18 (15,3)    8 (5,3)   26 (20,7)
    20         16 (12)     16 (1)     32 (24)

Bij gebruik van een selektieprocedure met voorspellende geldigheid van .30, een à priori geschikte van 80%, en een afwijzingspercentage van 20%, worden 8% minder foutieve beslissingen gemaakt dan bij een lotingsprocedure!

We moeten hierbij wel bedenken dat het argument dat loting resulteert in een slechter resultaat omdat enkele zeer goede studenten afgewezen worden en enkele zeer slechte aangenomen, terwijl bij selektie de verschillen in capaciteiten tussen onterecht aangenomenen en afgewezenen kleiner zijn, dat dit argument slechts voor een klein deel opgaat. De mate waarin dit argument geldig is wordt namelijk ook bepaald door de voorspellende geldigheid van de selektieprocedure: hoe kleiner deze is, hoe minder deze redenering opgaat. Een validiteit van .40 maakt deze redenering erg zwak, omdat de selektie-resultaten dan slechts 16% van de variantie in criterium scores, d.w.z. het onderscheid tussen wie goede en wie slechte studenten gebleken zijn, verklaart.

Op basis van bovenstaande gegevens moet geconcludeerd worden dat, wanneer we alléén letten op het gegeven van de voorspellende geldigheid en geen rekening houden met bijvoorbeeld de kosten van de selektie-procedure, er beter geselekteerd dan geloot kan worden, hoewel de winst die behaald kan worden teleurstellend klein is. Bovendien moet bedacht worden dat stilzwijgend aangenomen is dat een beslissing die iemand onterecht afwijst even zwaar weegt als een beslissing die iemand onterecht aanneemt. Wanneer we willen proberen zo weinig mogelijk foutieve afwijzingens-beslissingen te maken, omdat we liever mensen onterecht aannemen dan anderen onterecht af te wijzen, zal ook daarmee in de te volgen selektie-procedure rekening gehouden moeten worden. [37]

Uit het bovenstaande is tevens gebleken dat voor het rendement van de selectieprocedure ook van belang is het selectie-percentage, het percentage mensen die we aannemen of afwijzen. Wanneer we dit percentage vrijelijk kunnen bepalen, dan kan op dit punt een "optimale" strategie gevolgd worden. (zie Van Naerssen, 1970, waaraan we het volgende numerieke voorbeeld ontlenen).

Wanneer bijvoorbeeld 10% van de aankomende studenten ongeschikt is voor de studie (een verdedigbare aanname), en we beschikken over een selektief examen met een voorspellende geldigheid van .50 (en dat is behoorlijk hoog!) dan is het onder deze condities de beste strategie om 5 van de 1000 studenten af te wijzen! In dit geval zouden de kosten van de selektieprocedure zeker niet opwegen tegen de winst die er mee behaald werd.

(Hierbij moet opgemerkt worden dat Van Naerssen niet uitgaat van het aantal foutieve beslissingen, maar dat voor hem de selektie verhouding optimaal is, wanneer "de som van de utiliteiten van de geaccepteerde personen" maximaal is.) [38]

Wanneer uit een groot aantal gegadigden slechts ongeveer de helft aangenomen zal worden, dan komen de genoemde cijfers veel gunstiger te liggen. Dan kan zelfs een examen met een geringe voorspellende waarde nog een winst opleveren, in die zin dat minder foutieve beslissingen worden genomen dan zonder het selectieve examen het geval zou zijn geweest. Voor het nederlandse hoger onderwijs is dit een situatie die zich echter bij hoge uitzondering zal voordoen.

Van Naerssen merkt in genoemd artikel over het nut van selektie op, m.b.t. het universitair onderwijs:

"Selektie kan alleen zin hebben als het percentage 'geschikten' bij het aanbod in de buurt van 50 ligt. Als bijvoorbeeld 80% van het aanbod op tijd de eindstreep haalt, dan heeft het (bij reële validiteiten) geen zin te selekteren op verwacht studiesucces. Als 80% van de afgestudeerden "zijn salaris waard is" dan heeft het geen zin door studentenselektie naar kwaliteitsverbetering te streven." [39]

Zoals al herhaaldelijk in dit rapport opgemerkt, moet rekening gehouden worden met de kosten die verbonden zijn aan de selektie-procedure. Het is immers mogelijk dat deze zo hoog zijn dat ze niet opwegen tegen de vermindering van het aantal foutieve beslissingen die er mee te behalen zijn. In het voorbeeld ontleend aan van Naerssen is wel heel duidelijk dat de kosten van de selektie het verkregen voordeel al gauw overtreffen. Een groot deel van de kosten die verbonden zijn aan deze wijze van selekteren moet gezocht worden in schade die toegebracht wordt aan de kwaliteit van het onderwijs [40], waarover in een volgend hoofdstuk gesproken zal worden. Daarnaast is er nog de belangrijke overweging van psychische schade die door stress-situaties, verloren jaren en op onjuiste gronden verloren kansen toegebracht wordt aan individuele studenten; ook een maatschappelijk ongunstig effect is inherent aan het hanteren van competitieve methoden in opvoedings-situaties. [41]

Meer in het oog lopende kosten zijn o.a. de volgende, waarvoor hier geen numerieke schattingen gegeven zullen worden:

- tijd door docenten en toets-specialisten besteed aan het maken, afnemen, en interpreteren van toetsen.

- financiële kosten die aan bovengenoemde activiteiten verbonden zijn

- de tijd die door studenten besteed wordt aan voorbereiding op en deelnemen aan tentamens en examens, die voor eigenlijke onderwijs-taken min of meer verloren is

- de zeer hoge kosten verbonden aan het uitvoeren van onderzoek naar de werkzaamheid van de selektie-procedure, zoals in voorgaande hoofdstukken beschreven. Een dergelijk onderzoek zou bovendien voor vrijwel iedere studierichting en universiteit afzonderlijk uitgevoerd moeten worden.

- de hoge administratieve kosten verbonden aan dergelijke toets-programma's

- bij selektie tijdens het onderwijs in plaats van vooraf komt daar nog bij de gedeeltelijk verloren gegane studietijd van de na één of meer jaren afgewezenen.

Bedenk dat deze kosten afgewogen moeten worden tegen bijvoorbeeld het behaalde voordeel in percentage foutieve beslissingen, of tegen behaalde extra utiliteit, zoals dat begrip door Cronbach en Gleser (1965) en Van Naerssen gehanteerd wordt. Afgezien nog van de nadelige gevolgen die selektie heeft voor de kwaliteit van het onderwijs, lijken de genoemde financiële kosten een selektie-procedure tot een minder zinvolle aangelegenheid te maken dan veelal verondersteld wordt. Daarnaast moet niet vergeten worden dat selektie niet de enige mogelijke oplossing van het probleem is, immers, we kunnen ook proberen de onderwijssituatie op zinvolle wijze aan te passen aan een vergroot aanbod van studenten, eventueel binnen bepaalde financiële restricties. Zolang de mogelijkheden in dit opzicht nog niet ten volle uitgebuit zijn. moeten we erg voorzichtig zijn met het naïevelijk hanteren van selek-procedures. [42]

Een andere frustrerende faktor bij het rendements-vraagstuk is de o.a. door Posthumus gesignaleerde wetmatigheid die optreedt in de percentages onvoldoendes-voldoendes die door docenten uitgedeeld worden.

Hofstee (1970) heeft in zijn inaugurele rede een treffende experimentele illustratie hiervan besproken. Het betrof een onderzoek van Aiken, waar in een aantal opeenvolgende jaren een steeds scherpere selektie voor een bepaalde studierichting gepleegd werd. Ondanks de hogere kwaliteit van de scherper geselekteerde groep (de selektie correleerde .70 met studiesucces!) bleven de studie-resultaten ongeveer gelijk. De docenten bleken eenvoudig hun normen verschoven te hebben:

"de gemiddelde opleidingsresultaten van de strengst geselekteerde groep waren praktisch gelijk aan die van de ongeselekteerde studenten in het eerste onderzoeksjaar".

Hofstee waarschuwt tegen de redenatie dat dan weliswaar het gemiddelde cijferresultaat hetzelfde is, maar dat dan toch ongetwijfeld het 'niveau' hoger zal liggen: Dit nml. is nog maar helemaal de vraag waarvoor Hofstee een aantal argumenten aanvoert.

Dergelijke gegevens doen vermoedens rijzen over de meer algemene geldigheid van het verschijnsel van "aanpassing van de beoordeling aan het niveau van de studenten". Hofstee:

"De schaarse gegevens wijzen erop, dat ook waar valide en aanvaardbare voorspellers van studie- of beroepsprestatie te vinden zijn, aanpassinqs- of feedback-verschijnselen kunnen optreden die het nuttig effekt van selektie ongedaan maken. De schaal waarop die processen optreden is onbekend. Het zou bijzonder prematuur zijn, op grond van de hier uitgesproken theoretische verwachtingen te concluderen dat selektie altijd en overal zinloos is; wel mag de eis worden gesteld, dat het selektie-onderzoek zich gaat bezighouden met de vraag van het reële rendement".

Onze conclusie tot dusverre is dat selektie-procedures voor de hoger onderwijs situatie niet of nauwelijks zinvol zijn, d.w.z. dat de kosten niet opwegen tegen het bereikbare voordeel. Hierbij is nog geen rekening gehouden met de kritiek die op de geschetste gang van zaken bij het ontwikkelen van een behoorlijke selektie-procedure geleverd kan worden, en die de nodige extra vraagtekens zet bij de rechtvaardigbaarheid van selektie. Ook de nadelige terugslag van het hanteren van selektieve methoden op de onderwijssituatie is nog niet in rekening gebracht. Beide punten vormen de volgende onderwerpen van beschouwing.

KRITIEK OP HET GESCHETSTE SELEKTIEMODEL.

Er kan nogal wat kritiek geleverd worden op het hanteren van een selektie-methode als juist beschreven. Een dergelijke kritiek is echter alleen van belang voor het aan de oppervlakte brengen van verborgen veronderstellingen die bij selektie in onderwijssituaties een rol kunnen spelen. Praktische gevolgen in de zin van betere methoden vloeien er vrijwel niet uit voort omdat een theoretische fundering in de test-theorie voorlopig nog ontbreekt door de complexiteit van de aan de orde gestelde problemen. (Zie voor een en ander: Cronbach en Gleser, 1965). Daarom zal hier ook met een paar korte opmerkingen volstaan worden.

Een eerste punt betreft de gevolgen die, zowel voor de onderwijsinstelling als voor de betreffende personen, voortvloeien uit de selektie-beslissingen. Geprobeerd moet worden deze gevolgen zoveel mogelijk te inventariseren, omdat bij beslissingen juist deze mogelijke gevolgen van groot belang zijn. Niet alleen kan dan duidelijker worden of gehanteerde selektie-procedures wel in overeenstemming zijn met de verwachtingen die we er altijd van gehad hebben, bovendien wordt het dan meer mogelijk om een zeer bewuste strategie te kiezen. De moeilijkheid hierbij zal zijn om tot een onderlinge vergelijking te komen van zaken die vaak verschillende "waarden" vertegenwoordigen. Genoemd kunnen worden: voldoen aan maatschappelijke behoeften aan academici, wenselijke studieduur, wenselijke kwaliteiten bij de afgestudeerden, minimaliseren van de opleidingskosten, individualiseren van het onderwijs, tegemoet komen aan ontplooiingsmogelijkheden die specifiek zijn voor individuele studenten etc. Dit vereist het afwegen tegen elkaar van zaken die niet objectief op hun waarde beoordeeld kunnen worden. Technieken hiervoor zijn misschien wel te ontwerpen als hulpmiddel voor een besluitvormingsproces (Bijv. Raiffa, Decision Analysis, 1968).

Een ander punt vloeit voort uit het groeps-gecentreerde karakter van huidige selektie-technieken.

Wanneer we gaan selekteren op basis van de in vorige hoofdstukken geschetste procedure, neemt de onderwijs-instelling een groot aantal beslissingen: over iedere aankomende student wordt beslist of hij /zij aangenomen of afgewezen wordt. Bij ieder van deze beslissingen worden dezelfde overwegingen of argumenten ge-hanteerd, een ieder wordt met dezelfde set van criteria vergeleken. Dit soort beslissingen wordt wel institutionele beslissingen genoemd, waarmee bedoeld is ze te contrasteren met individuele beslissingen. Cronbach & Gleser (1964, blz.130):

"Bij de individuele beslissingen is het niet mogelijk te kiezen tussen verschillende handelwijzen (doorgaan of niet met de studie bijv.) behalve op grond van de waarden van degene op wie de beslissingen betrekking heeft. In een groep studenten die advies vragen over de te kiezen studierichting moet voor ieder student afzonderlijk de beslissing geëvalueerd worden op een verschillende waarde-schaal. Omdat de student een bepaalde keus maar éénmaal doet, is het evident onmogelijk om een strategie op te stellen die, door de bank genomen, de beste is, omdat een gemiddelde in dit geval niet zinvol te definiëren is. Een bepaald besluit moet geëvalueerd worden op basis van het verwacht resultaat en zijn waarde voor de betrokken persoon".

Het gaat hier niet alleen om het meer tot zijn recht laten komen van de autonomie, de keuzevrijheid van de individuele student, maar evenzeer om een maatschappelijk belang. Wanneer bij het nemen van selektie-beslissingen de persoonlijke waarden van de betrokken studenten niet betrokken worden, wordt de selektie wel een stuk "makkelijker" gemaakt voor degenen die ze uitvoeren, maar zullen ook meer foutieve beslissingen genomen worden omdat een belangrijke bron van extra informatie niet aangeboord is. Daarnaast zal de maatschappij meer mogelijkheden moeten scheppen voor de realiseerbaarheid van individuele verlangens ten aanzien van opleidingsmogelijkheden. Dit laatste is vrij makkelijk te bereiken in het hoger onderwijs zonder dat daar direkt hoge kosten uit voort zouden vloeien, het lijkt echter gewenst om met een dergelijk model in het lager of voortgezet onderwijs te starten. [43]

Gedachten als deze zijn o.a. te vinden bij Meuwese (1970), waar hij een door hem voorgesteld onderwijsmodel bespreekt:

"Het moet een systeem impliceren waarin elke leerling optimale kansen krijgt zijn individuele capaciteiten en talenten te ontwikkelen. Dat wil zeggen dat het systeem maximaal "adaptief" moet zijn aan de specifieke eigenaardigheden van elke leerling. In de klassieke terminologie: het moet geïndividualiseerd onderwijs mogelijk maken. In dit uitgangspunt zit het waarde-oordeel opgesloten, dat elk individu recht heeft op maximale ontwikkeling van zijn vermogens, en dat die ontwikkeling niet beperkt mag worden door starheid van het onderwijssysteem. Ofwel: het onderwijs moet zich bij hem aanpassen, en niet hij zich aan het onderwijs".[44]

Het laatste vinden we ook beschreven in Schwarz (in: Thorndike, 1971):

"Tests werden in feite gebruikt om de studenten aan te passen bij het gegeven onderwijsprogramma; en slechte studieresultaten werden gezien als het gevolg van verkeerde selektie-beslissingen. Maar in toenemende mate wordt het onderwijs nu aangepast aan de studenten op een individuele basis, met behulp van een scala van nieuwe onderwijstechnieken, En de slechte resultaten worden nu gezien als een tekortkoming van de gehanteerde onderwijs-methodieken, een inzicht dat weer leidt tot veranderingen in het onderwijs".

Dit standpunt is de laatste jaren ook in Nederland meer en meer te horen, en heeft grote implicaties voor de wijze waarop in het onderwijs geselekteerd kan worden.

KRITIEK OP SELEKTIE TIJDENS HET ONDERWIJS

In het voorgaande is al veelvuldig verband gelegd tussen selektie en onderwijs, de velerlei wijzen waarop beide elkaar beïnvloeden. Dit hoofdstuk zal alleen enkele nog niet besproken punten bevatten, en moet dus niet gezien worden als een volledige behandeling van de invloed die op de kwaliteit van het onderwijs uitgaat van de wijze waarop tijdens dat onderwijs geselekteerd wordt.

Posthumus signaleert een spanning tussen wat hij noemt de selektie en de onderwijsfunctie van de docent (De universiteit etc.blz.18).

"De wens om de onderwijstaak zo optimaal mogelijk te vervullen dat een begingeneratie in een vastgestelde tijd in haar geheel naar een einddoel kan worden gebracht komt in strijd met de functie van 'selectie' zoals die in de, in toenemende mate op diplomabezit berustende, nederlandse statushiërarchie aan het onderwijs is toegevallen. Iedere docent kent het probleem van de verdeling van zijn aandacht tussen de begaafde en de achterblijvende studenten. Iedere examinator kent de dualistische strijd tussen welwillendheid tegenover de kandidaat en de vrees voor verlaging van het peil".

Waarmee Posthumus wel een conflict signaleert, maar zich er vervolgens bij neerlegt dat het niet ten gunste van het onderwijs oplosbaar is. Het handhaven van het selektieve beoordelings-systeem zoals we dat nu kennen, en zoals dat met Posthumus gecontinueerd zal worden, heeft een ongewenste invloed op de kwaliteit van het onderwijs (Meuwese, 1970):

"Het beoordelingssysteem is een van de krachtigste regelsystemen van het onderwijs. In kwalificerende cijfers uitgedrukte oordelen bepalen het studeergedrag van de leerlingen, bepalen het rendement van het onderwijs, maken via het al of niet behalen van diploma's de maatschappelijke carrière van leerlingen uit. Het cijfersysteem kan er toe leiden dat studenten en leerlingen niet meer gemotiveerd zijn een vak te beheersen, te Ieren denken of te leren kennis toe te passen, maar alles op alles te zetten om het cijfer te halen dat hen een stapje verder brengt op weg naar "het papiertje"."

Met deze effekten, die niet op zouden treden wanneer voorafgaand aan het onderwijs, of geheel niet, geselekteerd wordt, moet rekening gehouden worden bij de afweging van de voor- en nadelen van diverse selektie-procedures, loten of geheel niet selekteren. Voor zover nog niet eerder genoemd zullen een aantal belangrijke effekten besproken worden.

Voor de studie- en levenssituatie van de student maakt het enorm veel uit of hij moet werken onder de voortdurende dreiging er altijd nog uitgeschopt te kunnen worden, of dat hij zich in zijn studie gesteund weet door een staf van docenten die er allereerst op uit is hem in zijn studie vooruit te helpen. Het lijkt op het intrappen van een open deur dit telkens weer op te merken. Maar diezelfde deur zit bij Posthumus bijvoorbeeld, nog potdicht, hij wil immers een selektief propedeusejaar instellen, gevolgd door een doctoraal fase waarin de selektie "op de achtergrond" zou moeten treden. Nog afgezien van het ontbreken van garanties in het wetsontwerp, dat selektie in de doctoraal-fase geen rol van betekenis meer zal kunnen spelen, blijkt uit de voorgestelde constructie toch een te grote aarzeling om uit verworven onderwijskundige inzichten de volledige conclusies te trekken. Posthumus komt halverwege, en verschanst zich vervolgens achter een omschrijving van de status quo waarbij hij zich aansluit.

De grote aandacht die selektieve toetsing zowel van studenten als docenten opeist, resulteert in een overmatige aandacht voor de eenvoudige kennis, en toepassingsproblemen, terwijl de veel relevantere inzichtelijke verwerking van de stof, het creatief en kritisch kunnen omgaan met materiaal uit het eigen wetenschapsgebied, te weinig aan bod kunnen komen.

Dit nadelig effekt is zeker niet inherent aan iedere vorm van toetsing van leerresultaten, maar zal bij gebruik van toetsings-resultaten voor het nemen van beslissingen met selektief karakter (door docenten of door de student zelf) dit effekt meestal in hoge mate hebben. Dat beoordelingsmethoden een actief bij het onderwijs proces in te schakelen hulpmiddel kunnen zijn, zonder daarbij met cijfers of zak/slaag beslissingen te hoeven werken, is een zienswijze die pas aarzelend zijn intrede doet (=eigenlijk herontdekt wordt) (Bloom, Hastings en Madaus 1971 bijvoorbeeld, voor een zeer uitvoerige bespreking en illustratie met ervarings-gegevens).

Veel onderzoek naar de beschreven samenhangen is er nog niet gedaan. Zo zegt McKeachie (1963) in een overzicht over het bereikte in het Amerikaanse onderzoek van hoger onderwijs:

"Gezien het belang van beoordelingen voor zowel studenten als docenten, is het te betreuren dat er zo weinig empirisch onderzoek over beschikbaar is. Hoe leren studenten hun eigen vorderingen te beoordelen? Hoe leren ze zichzelf bepaalde doelen te stellen? Hebben verschillende beoordelingsmethoden verschillende invloed op dergelijke leerprocessen? Kunnen er niet meer onderwijskundige alternatieven voor het cijfersysteem worden ontworpen?"

Selectie in de loop van het onderwijsproces impliceert vrijwel onontkoombaar een competitief gedrag van studenten. Ieder voor zich, en God voor ons allen. Hofstee (1970, Universiteit en Hogeschool) heeft de competitieve momenten van "klassieke" beoordelings-vormen beschreven, o.a.:

"In gevallen waarin individuele beoordelingen worden gebruikt om "af te romen", d.w.z. om door vergelijkende examens een gefixeerd aantal plaatsen op te vullen met diegenen die de beste prestaties leveren, is het competitieve karakter het duidelijkst en wordt het door de betrokkenen ook doorgaans wel waargenomen (tenzij natuurlijk de hele beslissings-procedure zich aan hun waarneming onttrekt). Een goede prestatie van de één gaat hier automatisch ten koste van de slaagkans van de anderen", en: "Veel vaker wordt een systeem gehanteerd dat anders werkt, hoewel het ongeveer op hetzelfde neerkomt: men gaat uit van de gemiddelde prestatie, en kent een voldoende toe aan al degenen die daar niet te ver onder zitten. Dit systeem nu is echter nauwelijks minder competitief dan het "afromingsstelsel". 'Immers, iedere goede prestatie verhoogt ceteris paribus het gemiddelde en verhoogt dus de slaagkans van de anderen, wier prestaties met hetgemiddelde worden vergeleken".

Over het verband tussen dergelijke vormen van beoordeling en bovenstaand gedrag van studenten zegt Hofstee:

"Redeneringen als de bovenstaande zijn vrij subtiel en ik wil in de laatste plaats beweren, dat zulke implicaties voor iedere tentaminandus duidelijk zijn, wel moet gezegd worden, dat ze strikt logisch uit de geschetste beoordelingspraktijk voortvloeien. Belangrijker is nog dat, zoals de leerpsychologie overtuigend heeft aangetoond, mensen zich naar zulke implicaties kunnen gaan gedragen ook zonder zich ervan bewust te zijn. Er is dus reden om aan te nemen, dat de boven beschreven beoordelingsstelsels het concurrentiemotief aanwakkeren, en dus strijdig zijn met het bevorderen van een koöperatieve instelling; temeer omdat ze harmonisch aansluiten op andere competitieve beloningsstelsels in onze maatschappij.
Maar niet alleen de relaties tussen studenten onderling worden op deze wijze in een ongewenste richting gestuurd. Ook kontakten tussen student en docent worden door de ongelijke relatie die altijd tussen beoordelaars en beoordeelden zal bestaan, vertroebeld. Het resultaat is veelal een gebrek aan vertrouwen wederzijds en een tekort aan kommunikatie dat gaat ten koste van verbeteringen in het onderwijs en een goede begeleiding van de student. Dat tekort aan kommunikatie blijkt onder andere uit het verschijnsel dat veel docenten niet op de hoogte zijn van de aantallen studenten die voor het tentamen waarvoor zij verantwoordelijk zijn, afgaan of zelfs niet op hebben durven komen. Dat dergelijke informatie "verdrongen" wordt is een rem op de ontwikkeling naar nieuwe vormen van onderwijs in overeenstemming met veranderde inzichten.

[is dit inderdaad nog steeds geciteerd uit Hofstee? kan ik dit nog checken? b.w.]

De nadelige effekten die selektie heeft op de kwaliteit van het onderwijs en daarmee samenhangende zaken zijn moeilijk te becijferen. Dat neemt niet weg dat hier één van de belangrijkste punten van overweging ligt bij het besluit om al dan niet te selekteren tijdens het onderwijs. Ook kosten die moeilijk te berekenen zijn moeten afgerekend worden, al zal de afweging van voor- en nadelen van selektie er misschien niet makkelijker op worden. Waar het echter zó is dat andere kostenfaktoren het potentiële rendement van selektie al vrijwel "opgegeten" hebben, zoals beargumenteerd in de eerste hoofdstukken, lijkt het redelijk om onderwijskundige argumenten in dat geval de doorslag te laten geven. Dan is selektie tijdens het onderwijs een verliesgevende strategie.

ANDERE PROCEDURES

[45] Wanneer selektie tijdens het onderwijs af te raden is, welke mogelijkheden resten ons dan? Selektie vooraf zal voor een deel stuiten op dezelfde moeilijkheden en bezwaren als in dit rapport genoemd ten aanzien van selektie door middel van propedeutische examens e.d.. Selektie vooraf betekent daarentegen wèl dat in het volgende onderwijs alle tijd en energie ook inderdaad aan onderwijstaken kan worden besteed, en dat meer koöperatieve vormen van onderwijs tot de reële mogelijkheden gaan behoren. De kosten van de selektie-procedure zelf zullen echter in dezelfde orde van grootte liggen als bij het propedeutisch examen. Bovendien moet rekening gehouden worden met onvermijdelijke persoonlijke onrechtvaardigheden die aan iedere selektie-procedure op basis van prestatie-toetsen inherent zijn.

Hoewel selektie vooraf onmiskenbare voordelen heeft boven systemen waarin tijdens het onderwijs geselekteerd wordt, is het een kostbare procedure en kunnen tegen de gang van zaken principiële bezwaren gemaakt worden, zoals deze op verspreide plaatsen in dit rapport naar voren gebracht zijn.

Dan is er nog een mogelijkheid van geheel andere orde, al van ouds bekend als selektie middel voor een ander netelig probleem waarin kwesties van sociale rechtvaardigheid een grote rol spelen, namelijk het oproepen van dienstplichtigen voor het leger. Het klinkt belachelijk om in alle ernst voor te stellen te gaan loten voor een plaatsje in het hoger onderwijs. Maar laten we ons zelf niet voor de gek houden, immers een selektie-procedure op basis van gegevens met een slechts geringe voorspellende geldigheid komt goeddeels op hetzelfde neer. En ook wanneer de voorspellende geldigheid groot is, kunnen er bezwaren tegen geuit worden door personen of groepen die zich systematisch ten achter gesteld voelen in de gehanteerde examen-methoden. Het valt mij zwaar andere modellen van lotings-procedures te bedenken dan de juist genoemde schijn van belachelijkheid die aan het voorstel kleeft. De lijst van voordelen is echter erg lang, en misschien vinden velen hun bezwaren in de hier gepresenteerde lijst van voordeleen terug. Te bedenken is dan dat de bespreking van de lotingsprocedure zeer bewust uitgesteld is tot het allerlaatst, omdat voor een nuchtere afweging van de voor en nadelen inderdaad al het voorgaande nauwelijk gemist kan worden.

Daar gaan we dan:

Loten is op zich een goedkope procedure, het kost de maatschappij geen geld en de student geen tijd.

Loten heeft geen negatieve invloed op voorafgaand onderwijs, niemand kan zich er op voorbereiden (tenzij men op bepaalde wijze gekwalificeerd moet zijn om aan de loting mee te mogen doen, dit is echter geen problematische kant van de lotingsprocedure want de moeilijkheden liggen in dat geval in de selectieve situaties in voorafgaand onderwijs).

Loten is een zeer onthullende aangelegenheid, en wel het meest voor degenen die uitgeloot worden.

De politieke beslissng die ten grondslag ligt aan de noodzaak slechts een deel van de gegadigden tot het onderwijs toe te kunnen laten, wordt niet ingekleed in allerlei versluierende procedures. De slachtoffers weten waar ze moeten protesteren (en dat ze kunnen protesteren, een exa-menresultaat daarentegen heeft iets "onaantastbaars" (ten onrechte overigens, zoals we hebben gezien).

Uiteraard is loten een procedure die aan het onderwijs voorafgaat, het is niet zinvol haar pas na enige tijd - een jaar bijvoorbeeld - te houden. Selektie door loting impliceert dan ook een daaropvolgend onderwijs dat in belangrijke mate selektievrij kan zijn.

Bij loten kan niet het bezwaar gemaakt worden dat ongelijke monniken gelijke kappen opgezet worden: dat zou het geval zijn bij selektieve toetsing. Bij selektie door toetsing hebben we te maken met voor iedereen dezelfde procedure, waaruit gelijkertijd ongelijke kansen volgen, omdat er vrij grote persoonlijke verschillen zijn in mate en aard van voorbereiding, specifieke belangstellingen en begaafdheden, ingespeeld zijn op de toetsingssituatie zelf, etc. Bij loting zijn de kansen strikt gelijk.

Degenen die door loting afgewezen worden, krijgen niet het odium op zich geladen ergens voor "mislukt" te zijn, een kneusje te zijn. Hun kansen om elders aan de slag te komen of onderwijs te krijgen zijn niet ongunstig beïnvloed door slechte examenresultaten.

De kosten en opbrengsten van een lotingsprocedure moeten vergeleken worden met de kosten en opbrengsten van andere mogelijke vormen van selektie. Het gehele voorgaande betoog heeft geresulteerd in de constatering dat van selectieve examens al met al geen gunstig rendement kan worden verwacht, dat de er aan verbonden kosten - financieel, mankracht, verlies van kwaliteit v.h. onderwijs, persoonlijk welzijn v.d. student - dat deze kosten hoog, erg hoog zijn. Loten verdient dan een zekere voorkeur. [46]

LITERATUURLIJST.

Begeer, W.: "Numeriek Rendement", het selectieproces in het wetenschappelijk onderwijs, Wolters-Noordhoff, Groningen, 1968.

Bloom B.S.; Hastings, J.T.; en Madaus, G.F.: "Handbook on formative and summative Evaluation of Student Learning", McGraw Hill, New York, 1971.

Carroll, J.B.: "A model of school learning", Teachers College Record, 1963, 64, 723-733.

Cronbach, L.J.: "Test Validation", in: Thorndike (Ed.) "Educational Measurement", 1971.

Cook, w.w., The functions of measurement in the facilitation of learning In Lindquist (Ed.) "Educational Measurement", 1951.

Cronbach, L.J.: "Essentials of Psychological Testing", 3e editie, Harper & Row, New York, 1970.

Cronbach, L.J. en Gleser, G.C.: "Psychological tests and personnel Decisions, University of Illinois Press, Chicago, 1965.

Doornbos, K.: "Opstaan tegen het zittenblijven", Stichting voor Onderzoek van het Onderwijs, Staatsuitgeverij, 1970.

Fishman, "Some Social Psychological Theory for Selecting and Guiding College Students", in N. Sanford (Ed.) "The Amercian College", 1962.

De Groot, A.D.: "Methodologie" Mouton, Den Haag, 1961.

De Groot, A.D.: "Vijven en Zessen, Cijfers en beslissingen: het selectieproces in ons onderwijs". Wolters-Noordhoff, Groningen, 1966.

De Groot, A.D.; Van Naerssen, R.F., e.a.: "Studietoetsen", Mouton, Den Haag, 1969.

Halsey, A.H., Floud, J., en Anderson, C.A. (eds.): "Education, Economy, and Society", Free Press, New York, 1961.

Hazewinkel, A.: "Selectie van studenten", publicatie van afdeling onderwijs research, Medische faculteit Rotterdam, ook verschenen als artikel in Intermediair, 29 oktober 1971.

Heek, F. van, en anderen: "Het verborgen talent", milieu, schoolkeuze en schoolgeschiktheid. Boom, Meppel, 1968.

Hofstee, W.K.B.: "Beoordelingen van studieprestaties", Universiteit en Hogeschool, november 1970.

Hofstee, W.K.B.: "Selectie van personen", inaugurele rede, 1970.

Humphreys, L.G.: "The fleeting nature of the prediction of College and academic success". Journal of Educational Psychology, 1968, 59, blz.375 e.v.

Lavin, D.E.: "The prediction of academic performance", Wiley, New York, 1965.

Lindquist, E.F. (Editor): "Educational Measurement", American Council on Education, Washington, 1951.

Lord, F.M., en Novick, M.R.: "Statistical Theories of Mental test Scores", Addison-Wesley, London, 1968.

Meer, A.J.van der: "Tussen Start en Finish", een onderzoek naar het studieverloop van de studenten Sociologie en Psychologie aan de V.U., 1955-1969. Sociaal Wetenschappelijk Instituut. V.U., Amsterdam.

Meuwese, W.; Nelissen, Mevr. N., Tielens, H. "Een onderzoek naar de samenhang van enkele factoren met studieduur", T.H.Eindhoven 1969.

Naerssen, R.F. van, :"Het nut van selectie, enkele voorbeelden", in: Drenth, Willems en de Wolff (red.): "Bedrijfspsychologie", Kluwer, 1970.

Onderwijs en Studiebegeleiding in het eerste jaar. Rapport van de kommissie bestudering konsekwenties nota studiebegeleiding Rijksuniversiteit Utrecht, 1969.

Ontwerp van Wet (en memorie van toelichting) herstructurering wetenschappelijk onderwijs; vrijwel gelijk aan het voorontwerp, Staatsuitgeverij, 's Gravenhage, 1971. [2021 verbeterde verwijzing: Wijziging van de Wet op het wetenschappelijk onderwijs in verband met de hervorming van het wetenschappelijk onderwijs (Wet herstructurering wetenschappelijk onderwijs). Ontwerp van wet Zitting 1970-1971 - 11 281 Nr. 2. [hier zoeken: https://zoek.officielebekendmakingen.nl/uitgebreidzoeken/historisch Alle? documenten onder dossier 11 281: https://tinyurl.com/ae39shjp ] https://repository.overheid.nl/frbr/sgd/19701971/0000227393/1/pdf/SGD_19701971_0003874.pdf Nr. 3 Memorie van toelichting https://repository.overheid.nl/frbr/sgd/19701971/0000227394/1/pdf/SGD_19701971_0003875.pdf ]

Posthumus, K.: "De universiteit ~ doelstellingen, functies, structuren, oktober 1968.

Idem eerste voortgangsnota, december 1969.

Idem, tweede voortgangsnota, april 1970. Staatsuitgeverij, 's Gravenhage.

Rapport Studiegroep Selectie, T.H.Twente, Enschede 1971.

Rapport van de commissie studieduur, publicatie van de Academische Raad, november 1969.

Rulon, P.J.:, Tiedeman, 0.V.; Tatsuoka, M.M., en Langmuir, C.R.: "Multivariate Statistics for Personnel Classification", Wiley, New York, 1967.

Sanfords, N. (Ed): "The American College", Wiley, New York, 1962.

Schwarz, P.A.: "Prediction Instruments for Educational Outcomes", in: Thorndike (Ed.): "Educational Measurement", 1971.

Stanley, J.C.: "Reliability", in: Thorndike (Ed.):"Educational Measurementa", 1971.

Thorndike, R.L.: "Personnel Selection, Test and Measurement techniques", Wiley, New York, 1949.

Thorndike, R.L. (Ed.): "Educational Measurement", second edition, American Council on Education, Washington, 1971.

Wijnen, W.H.F.W.: "Onder of boven de maat", een methode voor het bepalen van de grens voldoende/onvoldoende by studietoetsen. Groningen, 1971. Proefschrift.

Willems, P.J.: "Voorspelbaarheid van studiegeschiktheid voor hoger onderwijs". Nijmegen, 1959. Proefschrift.

Willems, P.J.: "Een proefschrift beproefd", Ned.Tijdschrift v de Psychologie, 1964, XIX, blz.124-136.

Aantekeningen bij doorlezen in 2021

[1] Voorafgaand aan de bijeenkomst in Helvoirt stuurde Wynand Wijnen zijn commentaar op enkele bijdragen rond. Die commentaar was niet mals: Dato de Gruijyer (Leiden) kreeg ervan langs omdat hij te statistisch zou zijn, Ben Wilbrink omdat hij te activistisch/ideologisch zou zijn. Mind you, het was 1971. Wynand had ongetwijfeld in Groningen het nodige meegemaakt, waaronder stevige kritiek van aanstormend talent zoals de jonge hoogleraar Willem Hofstee, op selektie *). Ik regelde dus samen met Dato allereerst een gesprek, in Helvoirt, met Wynand. Dat gesprek was heel vruchtbaar, we kwamen dicht bij elkaar, en sinds die tijd heb ik een uitstekende relatie met Wynand gehad. Ons laatste contact was tijdens zijn autorit, in 1998, van Groningen naar Schiphol, waar we nog eens de hele onderwijsresearch en ontwikkelingen in het onderwijs hadden doorgenomen. Op schiphol zette hij mij af, daar kon ik verder per trein naar huis (Leiden).

Kongresboek '69. Aktie Demokratisering Subfaculteit Psychologie, R.U. Groningen (stuk 'K', met commentaar op selektiestuk van Hofstee, stuk 'I')

[2] Scherpe selectie in het voortgezet onderwijs komt in veel Europese landen voor, maar contrasteert wel sterk met het voortgezet onderwijs in het Verenigd Koninkrijk en vooral met dat in de Verenigde Staten. Het is van belang om dat goed voor ogen te houden, omdat op de situatie in de VS gebaseerde literatuur over toegang tot hoger onderwijs om genoemde reden niet geldig is voor het onderwijsstelsel zoals we dat in Nederland kennen. Voor de VS, zie Zwick (2017).

Rebecca Zwick (2017). Who Gets In? Strategies for Fair and Effective College Admissions Harvard University Press. isbn=9780674971912 info en https://www.ets.org/research/policy_research_reports/focus_on_rd/issue8" target='_blank'>interview.

[3] De thematiek staat ook wel bekend als 'democratisering van het hoger onderwijs'. Zie bijvoorbeeld Koppen (1991).

Jan Karel Koppen (1991). Een kwestie van discipline. Over de externe democratisering van het wetenschappelijk onderwijs. Amsterdam: Athena. Proefschrift UvA.

[4] Kwantificering van wat selektie op kan leveren, is in de volgende jaren bij voortduring aan de orde door zowel voor- als tegenstanders van loten bij numerus-fixusstudies. Een voorbeeld is mijn kwantificering van de kansen op toelating onder de door onderwijsminister Pais voorgestelde ingewikkelde voorrangsregeling, Wilbrink (1980).

Ben Wilbrink (1980). Kansberekeningen bij Pais' voorontwerp van wet toelating tot numerus fixus studies in het w.o. Amsterdam: Centrum voor Onderzoek van het Wetenschappelijk Onderwijs. html

[5] In deze jaren was 'permanente selectie' een veelbesproken onderwerp. De discussie was sterk aangezwengeld door 'Vijven en zessen' van A.D. de Groot, dat in 1966 was uitgekomen (Mertens (2016)). De vorm die de discussie in universitaire kringen kreeg was die van: als er dan moet worden geselkteerd, doe het bij de toelating, en zorg ervoor dat er daarna geen selectieve druk op studenten is. Vooral De Groot was daar een pleitbezorger van.

Ferdinand Mertens (2016). 'Vijven en zessen' van Adriaan de Groot, een boekje dat geschiedenis maakte. Wolf Publishers. brochure. 9789462403581

[6] Achter de koele cijfers gaan mensen schuil. Uitspraken zoals deze zijn een oproep tot ethische reflectie, tot aandacht voor wat rechtvaardig is. In latere jaren zou ik dat steeds meer handen en voeten gaan geven, onder andere door op te roepen om onderwijsproblematiek vooral ook vanuit de positie van leerlingen of studenten te leren zien, en analyseren. Cronbach & Gleser (1965) hadden al duidelijk gemaakt dat veel van de psychometrische literatuur betrekking heeft op wat zij 'institutionele beslissingen' noemen: het optimaliseren van uitkomsten zoals die voor onderwijsinstellingen van belang zijn. Dat is een voorbeeld van ontmenselijking: de waarde van een individu is wat het individu bijdraagt aan het bedrijfsresultaat. Sorry, aan het rendement van het onderwijs. Herken hierin ook de thematiek van meritocratisering, waarover nog veel meer valt te zeggen. Zie bijvoorbeeld Sandel (2019).

Michael J. Sandel (2020). The tyranny of merit. What's become of the common good? Farrar, Strauss & Giroux. isbn 9780374289980 info. Sandel in the NYTimes hier.

[7] Het is zeker verstandig om in concrete situaties waar geen passende kwantitatieve gegevens voorhanden zijn, af te gaan op expert-oordelen die op hun beurt gebaseerd zijn op de internationale onderzoekliteratuur. Een probleem in dit stuk is echter dat ik op andere plaatsen schrijf dat we door het ontbreken van passende kwantitatieve gegevens handelingsverlegen zouden zijn. Dat hoeven we dus niet te zijn. Een voorbeeld: bij een evaluatie van de extreem selectieve toelating tot de Nederlandse Politieacademie hebben Wilbrink en anderen (1990) zich bij gebrek aan kwantitatieve gegevens gebaseerd op de internationale literatuur.

Ben Wilbrink, met Willem van Hoorn, Leo J. Th. van der Kamp en Jen Algera (1990). Selectie voor politie-officier. De toelating tot de Nederlandse Politie Academie. Amsterdam: SCO. (Rapport 245)html.

[8] Dit is toch wel brisant hoor. Natuurlijk waren er grote zorgen dat de sterk groeiende aantallen studenten in het w.o. een te grote belasting voor de begroting (de samenleving) zuden gaan vormen. Posthumus zag het al gebeuren dat op termijn de begroting voor onderwijs de gehele rijksbegroting zou opslokken. Latere ontwikkelingen hebben evenwel laten zien dat de economie nog veel grotere aantallen hoger opgeleiden kon absorberen, en nodig had. Generieke getalsbeperking, in de Nederlandse situatie van een toch al scherp selecterend voorbereidend wetenschappelijk onderwijs, lijkt dus vooral misplaatst. Het is er in de erop volgende halve eeuw ook niet van gekomen. Alleen voor enkele opleidingen met een numerus fixus zou er sprake zijn van beperking van de instroom, maar afgewezen kandidaten zijn vrijwel allen in andere universitaire opleidingen ingestrooomd.

[9] De functies van de propedeuse zijn ook in latere jaren nog onderwerp van beleid en van onderzoek. Zoals eind 80er jaren, bij de evaluatie van de tweefasenstructuur door het SCO, in opdracht van OCW. Het laatste hoofdstuk van dat rapport bespreekt bovendien een langjarig project bij tandheelkunde en rechten aan de UvA om studenten in de propedeuse meer informatie te geven over hun studievorderingen, ook in relatie tot die van anderen. De 'projecten schriftelijke raad ex art. 24bis'. De gegevens die dat bij rechten opleverde, gaven in 1992 de mogelijkheid tot een onderzoek naar de wijze van tot stand komen van het onderwijsrendement als stilzwijgende onderhandeling tussen studenten en docenten als groeperingen. Ik kom er later nog op terug.

Marjon Voorthuis & Ben Wilbrink (1987). Studielast, rendement en functies propedeuse. Relaties tussen wetgeving, theorie en empirie. Deelrapport 2: Evaluatie-onderzoek Wet Twee-fasenstructuur. Amsterdam: SCO-rapport 112. ISBN 90-6813-135-4. html

[10] Beter zou zijn geweest om over validiteit te spreken, in plaats van over geldigheid. Validiteit is een technische term uit de testpsychologie, en duidt zoiets aan als de mate waarin een toets of examen doet wat het verondersteld wordt te doen. Een naukeuriger formulering is dat het niet gaat om een eigenschap van toets of examen, maar van de beslissingen die op basis van uitslagen ervan worden genomen. Het gaat hier om een beroepscode, waarvoor de Amerikaanse 'Standards' veelal als leidend worden beschouwd. Zie voor validiteit, standards, en ook voor Nederlandse richtlijnen voor tests en toetsen (de literatuur bij) hoofdstuk 8 van 'Toetsvragen ontwerpen'. Ben Wilbrink, Hoofdstuk 8 'Kwaliteit', van Toetsvragen ontwerpen. html

[11] De mogelijkheden om via goede voorlichting 'verkeerd' studiekeuzen te voorkomen zijn beperkt, zoals onder andere een voorlichtingsproject van de Groep Onderwijsresaerch aan de TH Eindhoven in de 60er jaren had uitgewezen. Hetzelfde probleem doet zich voor bij een propedeuse die oriënterend voor de verdere studie moet zijn. Natuurlijk moeten er goede voorlichting worden gegeven, en moet de propedeuse toch enigszins een indruk van de verdere studie kunnen geven, of van het beroep waartoe wordt opgeleid. Verwacht er geen wonderen van. De verplichte voorlichting zoals door Bussemaker in de jaren '10 voorgeschreven, heeft mijns inziens een twijfelachtige toegevoegde waarde, maar zorgt wel voor een hoop gedoen voor alle betrokkenen.

[12] Over studenten en docenten, en het niveau van eisen, heb ik in 1992 een boinde analyse kunen doen. Die analyse laat zien dat, inderdaad, studenten als in een stilzwijgende onderhandeling zijn met hun docenten als groep. De inzet van studenten is hun tijd, de inzet van docenten zijn de cijfers die ze te vergeven hebben. Het resulterende evenwicht bepaalt het niveau of het resultaat van het onderwijs. Dat niveau is een resultante van onderhandeling, en zeker geen abosluut gegeven.

Ben Wilbrink (1992). The first year examination as negotiation; An application of Coleman's (1990) social system theory to law education data. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. 1149-1152). Enschede: University of Twente. html

[13] Mijn somere verhaal over selektie versus zelf-selektie kan wel een beetje correctie gebruiken. Het is altijd al een probleem geweest om te achterhalen waarom studenten hun studie hebben gestaakt. Al in het grote Delftse onderzoek naar studiestaking aan de TH Delft was het een ontdekking dat veel afhakende studenten wel in de gekozen studierichting verder bleken te gaan, maar op hbo-niveau aan een Hogere Technische School. Studenten die hun studie staakten, waren niet in een maatschappelijke goot beland. Het zegt toch wel wat dat de onderzoekers - hoogleraren psychologie uit Amsterdam, Utrecht, Groningen - het nodig vonden om dat expliciet op te schrijven.

Een rijke dataset over de propedeuse rechten aan de UvA maakte het mogelijk om meer inzicht te krijgen in verschillen tussen studiestakers en de overige studenten (Wilbrink 1992). Dan is het beeld dat studiestakers al weifelend zijn binnengekomen, er niet voluit voor gaan om hun tentamens te halen, en in de loop van het jaar afhaken.

Begin 90er jaren wilde de UvA wel eens weten hoe het nu zat met spookstudenten. Daar bleek niets spookachtigs aan te zijn: bij onderzoek onder studenten die zich wel hadden ingeschreven maar zelden of helemaal niet opkwamen voor tentamens, bleken daar meestal goede redenen voor te zijn. Zo kwam het vaak voor dat studenten zich ook voor een tweede studie hadden ingeschreven, maar daar toch niet voldoende tijd voor hadden om serieus te studeren.

Ik had al eens een analyse gemaakt van zogenaamd lage studierendementen, en daar in 1980 over geschreven. Het bleek dus enorm mee te vallen met die zogenaamd hoge studieuitval. Ook onderzoek van collega Uulkje de Jong naar de bestemming van studiestakers bevestigde dat: zij zetten na enige tijd de studie toch voort, of ze waren van de universiteit overgestapt naar het hbo. Per saldo haalt toch meer dan 90% van de eerstingechrevenen een einddiploma in het hoger onderwijs. En dat is een radicaal ander beeld dan wat beleidsmakers en bestuurders meestal denken: dat een derde of meer van de studenten de studie staakt. Ook Voorthuis & Wilbrink (1987) geven rendementscijfers van studies in het wetenschappelijk onderwijs.

Ben Wilbrink (1992). modelling the connection between individual behaviour and macro-level outputs. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. pp. 701-704.). Enschede: University of Twente. html

Ben Wilbrink (1980). Uitval en vertraging in het wo: een overschat probleem. Onderzoek van Onderwijs, jaargang 9, december, 14-18. html

Ben Wilbrink, Uulkje de Jong & Marjon Voorthuis No-show en low-show in het wetenschappelijk onderwijs. Hoe beurs-, tempo- en keuzeproblemen van studenten leiden tot schijnbare afwezigheid. Amsterdam: SCO-Kohnstamm Instituut. (rapport 339). html

[14] 'Geschiktheid' als criterium voor toelating tot publiek onderwijs is bij uitstek een meritocratisch criterium. Het idee van een meritocratie als resultaat van doorgeschoten sturen op het beginsel van 'verdienste, niet afkomst' leefde nog niet in de 70er jaren. Want dat is afhankelijk van het inzicht dat 'verdienste' niet altijd is wat het lijkt. De 'Theory of justice' van John Rawls was ongetwijfeld een aanjager van dat inzicht. Ik was mij in de latere discussie over gewogen loting wel bewust van het onderscheid tussen 'merit' en 'desert' (Sher, 1987) in het Engels taalgebruik. Nadrukkelijk aandacht voor meritocratisch denken kreeg ik in 1997, bij het schrijven van een samenvattend overzicht van een bundel bijdragen over toegankelijkheid van primair en voorgezet onderwijs, Wilbrink (1957). Een recente publicatie over meritocratie die veel aandacht heeft getrokken is die van Sandel (2020). Maar veel meer ter zake is het boek van Paige Harden (2021), waarover ik nog een blog zal schrijven.

Paige Harden (2021). The Genetic Lottery: Why DNA Matters for Social Equality Princeton UP info

Natuurlijk ook de loterij van het gezin waarin je bent geboren. Fascinerend boek, met veel recent onderzoek dat bestaande beeldvorming doorbreekt.

Michael J. Sandel (2020). De tirannie van verdienste. Over de toekomst van de democratie. Ten Have. blog over Sandel

G. Sher (1987). Desert. Studies in moral, political, and legal philosophy. Princeton University Press. isbn 0691077452 info

Ben Wilbrink (1997). 'Terugblik op toegankelijkheid: meritocratie in perspectief'. In Marian Van Dyck, Toegankelijkheid van het Nederlandse onderwijs. Studies (p. 341-384). Den Haag: Onderwijsraad. html

[15]

De "Standards for Educational and Psychological Tests and Manuals (1966). Editie 2014 is open access hier ]

[16] Bij vergelijkende selectie kunnen de resultaten voor subgroepen sterker van elkaar verschillen dan de misschien geringe verschillen van de gemiddelden suggereren. Een voorbeeld daarvan is een simulatie-studie van wat er gebeurt wanneer er gemiddeld een klein verschil is tussen mannen en vrouwen als kandidaten voor de functie van schoolleider geeft Wilbrink (1994). Ik was voor dit fenomeen gevoelig gemaakt in mijn al genoemde stageonderzoek in 1968, over voorspelbaarheid van studiekeuze op basis van een persoonlijkheidstest.

Ben Wilbrink (1994). Wat met verbeteringen in de selectie-procedure is te bereiken: sekse-partijdigheid en rendement. Hoofdstuk 5 in: Edith van Eck, Ard Vermeulen en Ben Wilbrink. Doelmatigheid en partijdigheid van psychologisch onderzoek bij de selectie van schoolleiders in het primair onderwijs. Amsterdam: SCO-Kohnstamm Instituut. (rapport 359) html

[17] Intelligentie is geen aangeboren kenmerk, maar is mede het resultaat van het ontvangen onderwijs. Ieder jaar onderwijs extra maakt je 'intelligenter'. Het is dus een wat vreemde variabele in het onderwijs. Dat vreemde wordt scherp aangezet waar sociaal-economische achtergrond mede bepalend is voor die 'intelligentie'. Voorzichtigheid geboden dus. In latere decennia nemen aanzienlijke groepen leerlingen met een migratie-achtergrond deel aan het onderwijs, waardoor hogere eisen aan de eerlijkheid van het onderwijs worden gesteld. In een eenvoudig artikel probeer ik het duidelijk te maken, Wilbrink (2019).

Ben Wilbrink (maart 2020). ‘Intelligentie’ in historisch perspectief. Van Twaalf tot Achttien html

[18] Een belangrijke bron van onbetrouwbaarheid van examens is de Nederlandse gewoonte om voor examens te eisen dat in beginsel alle onderdelen voldoende moeten zijn gemaakt. Dat trekt de betrouwbaarheid van het examen in zijn geheel naar beneden. Het probleem is voor de psychometrici onder ons van een verpletterende eenvoud: compenseren van de onderdelen is altijd beter dan voor ieder onderdeel afzonderlijk een 'voldoende' resultaat te eisen. Door te compenseren, wordt het examen een technisch gezien een enkele lange toets, die bdus behoorlijk betrouwbaar kan zijn. Ik meen me te herinneren dat Van Naerssen er in een nationaal onderwijscongres in 1968 al op wees. Ik deed iets soortgelijks, in 1980.

Ben Wilbrink (1980). 'Beleid bij tentamens en examens' paper Nationaal Congres T.U. Eindhoven. In A. I. Vroeijenstijn: Kwaliteitsverbetering hoger onderwijs. Vierde nationaal congres onderzoek van het wetenschappelijk onderwijs. Voorburg: Stichting Nationaal Congres, 380-409. html

[19] Het verband tussen onderwijs en toetsen/examens moet volgens A.D. de Groot (1970) als volgt zijn: examen zijn doeltreffend voor te bereiden door de studenten. Er mag niets geheimzinnigs on onverwachts aan zijn. Hij vond dat belangrijker dat de eis van validiteit. Je zou ook kunnen zeggen: voor De Groot was validiteit juist die doorzichtigheid, althans in dit artikel. Jammer dat juist dit artikel in de onderwijskundige wereld vrijwel onbekend is gebleven.

Dat 'doeltreffend voor te bereiden' is een boeiende formulering. Zo lijkt het uit te sluiten dat examens competitief zijn, al zegt De Groot dat niet expliciet. De 'wetmatigheid van Posthumus' staat op sterk gespannen voet met het beginsel van 'doeltreffend voor te bereiden. In dit verband is het van belang erop te wijzen dat er een fundamenteel verschil is tussen toetsen en testen: voor toetsen moeten studenten zich (doeltreffend) kunnen voorbereiden, terwijl voor (psychologische tests) juist is voorondersteld dat niemand zich er op heeft kunnen voorbereiden. Zie Wilbrink (1986) voor een uitwerking van dit onderscheid.

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie en haar Grensgebieden, 26, 360-376. html

Ben Wilbrink (1986). 'Toetsen en testen in het onderwijs' In S.V.O. Jaarverslag / Jaarboek 1985. Den Haag: S.V.O., 275-288. html

[20] Laat ik toch maar toelichten waarom op dergelijke eigenschappen (persoonlijkheid, biografische gegevens) niet mag worden geselekteerd (tenzij). Allereerst verbiedt de Grondwet dat, in artikel 1. Ook zou er spanning ontstaan met in internationale verdragen vastgelegde rechten op onderwijs (en internationaal recht gaat boven nationale wetgeving).

Het is bij zowel selektie als zelf-selektie van belang om in de gaten te houden dat makkelijk winst kan worden geboekt wanneer geen enkele mogelijke variabele op voorhand is uitgesloten. We zien dat in de huidige tijd te vaak gebeuren bij geautomaseerde bureacratie op basis van algoritmen, al dan niet ontwikkeld met technieken van kunstmatige intelligentie. Afgrijselijk. Onze kwetsbare democratie ondergravend.

In dit verband heeft Hofstee er in de 70er jaren op gewezen dat A.D. de Groot weliswaar voorstander was van selektie voor numerus-fixusstudies, maar daarbij allerlei bedenkelijke variabelen zoals persoonlijkheid uitsloot. Kom daar in 2021 nog maar eens om, bij de wildgroei aan selectiemethoden bij decentrale selectie.

Ben Wilbrink. 'Alle geslaagden zijn geschikt; Hofstee vs De Groot over selectie. 1972'. blog

Gedeeltelijke transcriptie van Willem Hofstee, artikel in De Groene: 'De Groot komt met beperkte maatregelen, niet met een creatief beleid. Selektie en hoger onderwijs: een contra-expertise'
"4. Rationele selectiemethoden. Uit oogpunt van maatschappelijke progressie moge dit een twijfelachtig of ondergeschikt punt lijken, maar dat is het niet. Nog altijd wordt een zee van subjectieve willekeur en paternalisme verstopt in selectieve mondelinge tentamens, interviews, referenties, eindexamencijfers, vragenlijsten, projectietests: vooral de toelating tot het HBO is vaak op zeer ondoorzichtige wijze geregeld, en de buitenlandse folklore op het punt van selectiemethoden is al even bedroevend. De Groot is hier op z’n best: hij veegt met één korzelige klap de hele mikmak van tafel. En inderdaad, als er iets is waar “de geleerden het over eens zijn” – om een uitdrukking uit De Groot’s Minimale methodologie (1) te gebruiken – dan is het wel over de onbetamelijkheid van dit soort fratsen in althans de onderwijsselectie. Een consequentie die De Groot niet trekt, maar dat wil ik dan wel doen, is een aanbeveling om zulke dingen bij de wet te verbieden, net als kwakzalverij."

[21] Selektie op basis van een 'smal' examen van propedeutische kennis is een ongelukkige manier van selekteren. En wel hierom. Neem de studie geneeskunde. Het gaat er toch om goede artsen op te leiden? Waarom stellen we dan een hindernis (propedeutisch examen) op die weinig met het zijn van een goede arts heeft te maken? Omdat we nu eenmaal niet voorafgaand aan de opleiding kunnen voorspellen wie een goede arts zou worden, en wie vooral uit het ambt geweerd zou moeten worden? Testimonium paupertatis?

Dit is een belangrijk thema, dat zich vooral uitspeelde in de maatschappelijke discussie over de toelating tot numerus-fixusstudies, ik gaf er een overzicht van in 1997 in opdracht van de Commissie Drenth.

Ben Wilbrink (1997). 'Opsomming van de discussie over toelating bij numerus fixusstudies' In: Gewogen loting gewogen. Advies van de Commissie Toelating Numerus Fixusopleidingen, Bijlage, 121-203. html

[22] Deze alinea over tentamineren op feitenkennis versus inzichtelijk verwerkte kennis is onhandig en te kort geformuleerd. Ik heb er later een boek over geschreven zonder oordeel dat de ene vorm van kennis beter is dan de andere, want dat zal toch contextueel zijn. Wilbrink (1983)

Ben Wilbrink (1983). Toetsvragen ontwerpen. Het Spectrum, Aula 809 html

[23] Ik ben blij met deze passage, waarin het idee van 'geschikt' als een persoonlijke eigenschap van een kandidaat, wordt ingeruild voor (de mate van) bereiken van de doelen van de betreffende opleiding. Dat maakt een zindelijke bespreking van de thematiek mogelijk. Kort door de bocht kunnen we zeggen dat we 'geschikt voor de studie' operationaliseren als het bereiken van opleidingsdoelen. Voor definities zie ook de laatste paragraaf van hoofdstuk 3 van Toetsvragen schrijven.

Deze wijze van definiëren ligt in lijn met wat onderzoek naar validiteit van selektieve beslissingen vraagt: dat in dubbelblind onderzoek wordt nagegaan wie de einddoelen in welke mate behaalt. Dat klinkt ingewikkeld. Een eenvoudige variant van dergelijk onderzoek is in de jaren '0 gedaan aan de Leidse universiteit: het College van Bestuur wilde weten of selektie-aan-de-poort verstandig beeid zijn. Het onderzoek leverde op dat zulks bepaald niet het geval zou zijn. Zie De Gruijter (2004).

Zo'n onderzoek naar validiteit van selektieve toelating is niet altijd mogelijk, al was het maar omdat er vele jaren overheen gaan. Een voorbeeld van een ingrijpende selektieve drempel waarvoor nooit onderzoek naar validiteit is gedaan in de vorm van een dubbelblind onderzoek is de overgang van primair naar voortgezet onderwijs en de inzet van de 'citotoets' of eindtoetsen daarbij, Wilbrink (2020).

D.N.M. de Gruijter (november 2004). Gewogen loting bij Psychologie Onderzoek m.b.t. de toelatingsselectie bij de opleiding Psychologie in 2004 - 2005. Rapport nr. 142, ICLON Afdeling Hoger Onderwijs, Leiden. pdf

Ben Wilbrink (2020). Kunnen eindtoetsen (voorheen de ‘citotoets’) valide zijn? blog

[24] 'de uiteindelijke criteria liggen tenslotte altijd in de beroepsuitoefening'. Ik stel dan wel in 1971 dat onderzoek naar samenhang met kwaliteit van de beroepsuitoefening lastig is, maar is het wel gedaan, en wat kwam daar uit? Het ligt voor de hand om allereerst te zoeken in literatuur over personeelsselektie. Ik noemde eerder al de evalautie van de selektie voor de NPA, Wilbrink en anderen (1990). Dat is informele zin een personeelsselektie: toegalten kandidaten komen in dienst van Binnenlandse Zaken. Praktisch gesproken is het een hogere opleiding van vier jaar. Aan de evaluatie-NPA is een simulatie-onderzoek gekoppeld waarbij de criteria gezocht zijn in de beroepsuitoefening: wat zouden kandidaten bijdragen aan het 'bedrijfsresultaat' van het politiekorps waar zij komen te werken? Dat is modelmatig uitgewerkt, en ik heb er programmatuur voor geschreven: Wilbrink (1990). Die laatste aanpak sluit aan bij de onderzoekliteratuur op het gebied van personeelsselectie waarbij een besliskundige benadering is gebruikt, en bijdrage aan het bedrijfsresultaat het generieke criterium is.

Met het voorgaande heb ik nog niet de vraag beantwoord of er onderzoek is gedaan naar samenhang tussen selektie aan de poort, en latere beroepsuitoefening, en wat daar het resultaat van is. U voelt wel aan dat er heel veel jaren ligen tussen toelating tot de opleiding, en laten we zeggen 10 jaar gewerkt hebben in het daarop aansluitende beroep, en dat alleen al daardoor iedere aantoonbare samenhang beperkt zal zijn. Ik kan het even niet bewijzen met verwijzingen naar die onderzoekliteratuur.

Onderwijs is, even ruw geschetst, funderend en beroepsvoorbereidend. Voor veel geschoolde beroepen is expertise nodig. Het karakter van die expetise is beroepsspecifiek, en bepaald anders of verdergaand dan wat men uit het onderwijs meekrijgt. Over expertise valt veel te zeggen, er is een hele onderzoek-industrie ontstaan waarin vooral wijlen Anders Ericsson een voortrekker is geweest. Hij schreef er met Robert Pool een toegakelijk boek over: 'Peak', volgzaam vertaald als 'Piek'. Het punt is dat het ontwikkelen vanexpertise echt iets anders is als het in het onderwijs opdoen van kennis en vaardigheden. Wees dus niet verbaasd dat beroeps-expertise niet echt samenhangt met onderwijsprestaties van ooit. Onderwijs als poortwachter voor het beroep is niet altijd een slecht idee, maar het moet met bescheidenheid zo worden gebruikt.

Het hangt er dus maar van af, zou je kunnen zeggen. Is er niet iets van bovengrens aan de voorspelbaarheid van succes in het beroep, voor jongelui die nog aan de opleiding ervoor moeten beginnen? Ik ken geen onderzoek dat hier een begin van een antwoord op geeft, maar in een andere setting is er wel onderzoek gedaan naar de voorspelbaarheid van belangrijke levens-uitkomsten (een anglicisme, maar het dekt de betekenis goed): de uitkomsten voor 15 jarigen, de data op basis waarvan voorspeld kon worden waren verzameld tot hun 9e jaar. Een heel erg uitgebreide dataset. De voorspelbaarheid van bijvoorbeeld GPA van die 15-jarigen bleek maximaal 20% verklaarde variantie te zijn, wat op zich al erg teleurstellend is, maar dat wordt nog ernstiger wanneer u weet dat zo'n 160 teams van wetenschapper onafhankelijk van elkaar hadden geprobeerd zo goed mogelijk te voorspellen, gebruik makend van machine learning (kunstmatige intelligentie) op die zeer uitgebreide dataset. Het onderzoek is Salganik en zeer veel anderen (2020). Het is natuurlijk lastig zo'n onderzoek te generaliseren, maar wat er op zijn minst van valt te zeggen is dat de voorspelbaarheid van belangrijke levensuitkomsten veel geringer blijkt te zijn dan men over het algemeen geneigd is te denken. En dat is best fijn voor wie vreest dat die sociale wetenschappers nog eens gaan aantonen dat ons leven geheel gedetermineerd is.

Anders Ericsson & Robert Pool (2016). Peak. Secrets from the new science of expertise. Houghton Mifflin Harcourt. isbn 9780544456235 [Ook vertaald in het Nederlands: 'Piek'] http://www.hmhco.com/shop/books/Peak/9780544456235 Reviewed by Dan Willingham en reviewed by Mirjam Neelen. Ericsson & Pool interviewed EdWeek: http://blogs.edweek.org/teachers/classroom_qa_with_larry_ferlazzo/2016/04/peak_an_interview_with_anders_ericsson_robert_pool.html

Matthew J. Salganik et al. (2013). Measuring the predictabilityof life outcomes with a scientific mass collaboration. Proceedings of the National Academy of Sciences, 117, no. 15 (April 14, 2020): 8398-8403, https://doi.org/10.1073/pnas.1915006117 open [via Harden note 13 ch 6)

"Hundreds of researchers attempted to predict six life out- comes, such as a child’s grade point average and whether a family would be evicted from their home. These researchers used machine-learning methods optimized for prediction, and they drew on a vast dataset that was painstakingly collected by social scientists over 15 y. However, no one made very accu- rate predictions. For policymakers considering using predictive models in settings such as criminal justice and child-protective services, these results raise a number of concerns. Addition- ally, researchers must reconcile the idea that they understand life trajectories with the fact that none of the predictions were very accurate. "

Ben Wilbrink (1990). Complexe selectieprocedures simuleren op de computer. Amsterdam: SCO. (rapport 246) pdf bijlagen [bijlagen 304k pdf]

[25] Tja, doelstellingen. Het was in het tijdperk van de 60er en 70er jaren. De cognitieve taxonomie van Bloom maakte furore, de gedragsdoelen van Mager waren een soort van tegenwicht maar nog steeds doelen. Willem Meuwese, pionier van universitair onderwisjonderzoek in NL (ik deed tentamen onderwijsresearch over handboek van Gage bij hem) had een groot doelstellingen-ontwikkelingsonderzoek onderhanden. In heel het land zochten jonge onderzoekers in deze nieuwe discipline houvast bij het formuleren van onderwijsdoelen. A.D. de Groot was er een voorstander van, want formuleren van doelen en ontwerpen van keuzevragen, dat ging mooi samen. Ik ontkwam er ook niet aan. Tien jaar later (in 'Toetsvragen schrijven', 1983) was ik de onderwijsdoelen voorbij. Hoezo zijn er nog doelen nodig, wanneer je vrij precies weet wat er in je tentamen of examen gevraagd kan worden?

[26] Nou ja. Dit hoofdstuk was wel heftig in zijn overdrijving van de vraag wat werkbare criteria zouden kunnen zijn om in een onderzoek naar voorspelbaarheid te hanteren. In de basis is het inderdaad wel zo dat het kiezen van criteria een te willekeurige zaak is, en dat voor de hand liggende criteria als studieduur allerlei bezwaren hebben, maar helemaal onmachtig zijn we toch niet om onderzoek te doen, al is het met gebrekkige criteria. Ik weet anno 2021 overigens ook niet of deze problematiek wel ergens om draait. Laten we liever de vraag stellen waartoe het universitair onderwijs op aarde is, zal ik maar zeggen. Is een meritocratisch ingerichte toegang tot universitair onderwijs iets dat we moeten wilen? Dat is een politieke vraag, uiteraard, maar welke overwegingen en empirische gegevens zijn behulpzaam om keuzen te kunnen maken?

[27] Mijn tekst in 1971 is in overeenstemming met de nadruk die latere versies van de Standards [15] op validiteit als betrekking hebbend op de beslissingen en hun consequenties, gegeven de test- of examenresultaten. Mooi toch?

[28] Een voorbeeld van 'concurrente validering' biedt het proefschrift van Don Mellenbergh, die laat zien dat meerkeuzetoetsen de studenten op vrijwel gelijk ordent als tentamens met open vragen. Maar ik zou op basis van zo dun 'bewijs' mijn geld niet op meerkeuzetoetsen zetten .... . Het proefschrift is per abuis niet in de literatuurlijst 1971 vermeld. Bij deze:

G. J. Mellenbergh (1971). Studies in studietoetsen. Amsterdam: Psychologisch Laboratorium van de Universiteit van Amsterdam. Proefschrift (promotor A. D. de Groot). Op basis van zijn proefschrift heeft hij enkele artikelen gepubliceerd in het Nederlands Tijdschrift voor de Psychologie en haar Grensgebieden. Niets van dit alles is digitaal beschikbaar, helaas. Google weet niet alles.

[29] Deze alinea gaat wel een beetje kort door de bocht hoor! Als er geen idee is over de voorspellende validiteit van een selektieprocedure, dan is dat wel een probleem waar eens een keer iets aan moet worden gedaan, maar de consequentie is niet dat je dan maar beter op loten kunt overgaan.

Wie wil gaan selekteren waar dat tot dan niet gebeurde, moet daar wel een onderbouwing voor hebben. Van zo'n onderbouwing kan deel uit maken dat selekteren op enige wijze 'beter' is dan loten. Dan kan zijn omdat er een hoger 'rendement' wordt geboekt, maar waarom uitsluiten dat draagvlak voor selektie danwel loten een rol mag spelen?

De algemene regel in de testpsychologie is dat een test een meerwaarde moet hebben boven beslissen op basis van overigens al bekende gegevens. Dat speelt bijvoorbeeld in het maatschappelijk debat over de rol van schooladvies en 'citotoets' (tegenwoordig eindtoets basisonderwijs) bij de overgang van primaironderwijs naar voortgezet onderwijs. Toch begrijpt vrijwel niemand dat, en dan komen er redeneringen waarin de citotoets als criterium wordt gehanteerd voor de kwaliteit van de schooladviezen. Dat is dus amateurisme, dollen met de onderwijskansen van leerlingen. Karen Heij (2021) toonde dat op een verrassende manier aan: zij vond dat A.D. de Groot zijn Amsterdamse Schooltoets ijkte aan de adviezen van de schoolhoofden. Laat dat even tot u doordringen. Afijn, wettelijk gezien is de citotoets en zijn opvolger slechts een aanvulling op het advies, en dat klopt beter.

Karen Heij (2021). Van de kat en de bel. Tellen en vertellen met de eindtoets basisonderwijs. Proefschrift Tilburg. open access

[30] 'Verplichting' en 'moeten': dat is wel erg zwaar aangezet hoor. Nauurlijk is er geen verplichting om vrijwel onuitvoerbaar validiteitsonderzoek te ondernemen. En 'moet' validiteit (experimenteel) worden aangetoond? Aannemelijk maken is veelal voldoende, bedenk daarbij ook dat validiteit niet een kwantitatief kenmerk is, ook al zijn we gewoon om voorspellende geldigheid in een correlatiecoëfficiënt uit te drukken, maar een kwalitatief kenmerk van de inzet van de test voor een gespcificeerd doel (selektie in dit geval).

Alnaargelang de zwaarte van de beslissingen, is het ook belangrijker om validiteit ervan grondiger te onderbouwen. Een bijzondere vorm van onderbouwing is een wet, met zijn toelichting, behandeling in het parlement, en eventuele jurisprudentie. Zo is de beperking bij de toelating tot numerus-fixusstudies gebaseerd op wetgeving. De toelating tot scholen in het voortgezet onderwijs is minder transparant in wetgeving geregeld, maar dit terzijde.

De onderbouwing van selektie moet juridische toetsing kunnen doorstaan. Daarbij kan validiteit een rol spelen. In Nederland zijn advocaten en rechters naïef op dit terrein, anders dan in de VS waar ongelijke behandeling veel meer een issue is dan bij ons. Bij jurisprudenten in de VS spelen de Standards wel een belangrijke rol, anders dan hier in Nederland. Dat is goed voor de VS, beroerd voor Nederland. Maar zie ook de proefschriften van Job Cohen (1981) en Henk van Berkel (2019).

Henk van Berkel (2017). Juridisch correct examineren. Implicaties van uitspraken door beroepsorganen in het hoger onderwijs. Presentatie op het NVE-congres, 23 november 2017. powerpoint

Henk van Berkel (2019). Juridisch correct examineren. Een studie naar uitspraken van beroepscolleges in het hoger onderwijs. Proefschrift Universiteit Tilburg, te verdedigen 27 november 2019, 16:00 uur https://www.tilburguniversity.edu/nl/actueel/agenda/promotie-hjm-van-berkel. Exemplaren van het proefschrift zijn verkrijgbaar door een e-mail te sturen, met postadres, naar de auteur: henkvanberkel22@gmail.com. De kosten bedragen € 55 per exemplaar, inclusief verzendkosten, te voldoen na ontvangst van de factuur. Embargo tot eind 2024.

M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs Proefschrift Rijksuniversiteit Leiden. Zwolle: Tjeenk Willink. deel 1 (t/m blz 100), deel 2 blz 102-149, deel 3 blz 150-197 en deel 4 bijlage, samenvatting, literatuur, index

Beroep tegen beoordelingen in Californië resp. Oslo: Vidar Gynnild (2011). Student appeals of grades: a comparative study of university policies and practices. Assessment in Education: Principles, Policy & Practice, 18, 41-57. abstract [Dit artikel laat vooral zien dat er buiten Nederland vooral woestijn is, wat recht op beroep betreft: er is eigenlijk helemaal geen literatuur.]

[31] Dat 'eindexamen-papiertje' is niet zomaar een diploma, het vwo-eindexamen geeft namelijk toegang tot universitaire studies. Dat heeft de wetgever zo geregeld, en het betekent dus dat opleidingen niet zelf ook nog een selektie-aan-de-poort kunnen houden. In het HBO zijn er overigens wettelijke uitzonderingen voor bepaalde opleidingen in de kunsten, en voor de hogere hotelschool. Ook bij een numerus-fixus is er wettelijk een uitzondering op die toegankelijkheid gemaakt. Onderzoekers van selektie bij bijvoorbeeld geneeskunde verzuimen nogal eens om juristen te raadplegen over de wettelijke randvoorwaarden, waardoor dergelijk onderzoek meer misverstanden oplevert, dan dat het duidelijkheid verschaft. Vooral ook promotieonderzoek, waarbij toch promotoren meekijken zou je denken. Zie ook enige literatuur over decentrale selectie hier.

[32] 'Willekeur'. Jazeker. Er valt meer over te zeggen, maar dat geldt voor meer onderwerpen. Denk aan de inzet van algoritmen door overheden. Als die algoritmen zijn ontwikkeld met technieken van kunstmatige intelligentie, losgelaten op een database met persoonlijke gegevens, dan is willekeur een vrijwel zekere uitkomst. Er zijn nu al geoeg ongelukken mee gebeurd dat het besef ook bij topambtenaren en politici begint door te dringen dat burgers beschermd moeten worden tegen algoritmen die zonder de nodige waarborgen tegen discriminatie en dergelijke zijn ontwikkeld. Hetzelfde geldt voor methoden die worden ingezet bij decentrale selectie aan de poort. Of bij selektie in de propedeuse. Een gewaarschuwd mens telt voor twee.

Een voorbeeld van willekeur is de gewogen loting bij numerus-fixusstudies. Staatssecretaris Ger Klein waarschuwde ervoor dat selekteren op eindexamencijfers discriminerend zou gaan werken tegen vrouwen, want in 1974 haalden zij lagere eindexamenresultaten dan mannen. Om wonderlijke redenen vonden (rechtse) partijen in de Tweede Kamer dat in 1975 geen bezwaar om voor selektie op eindexamencijfers te gaan. Klein voelde zich gedwongen mee te gaan in een compromisvoorstel van Vermaat (ARP): een loting, maar dan met kansen gewogen door eindexamencijfers. En zo gebeurde. In later jaren sloeg het nadeel van vrouwen om een stevig voordeel: zij behaalden betere eindexamens dan mannen. In 1997 deed de Cie-Drenth er, onder druk gezet door Kok en Ritzen, nog een schepje bovenop: met hoge eindexamencijfers direct toegang tot NF-studies. Ook die directe toegang bevoordeelt vrouwen in het bijzonder. Niemand protesteerde. Ik meen dat ik in mijn analyse ten behoeve van de Cie-Drenth 1997 [21] evenmin melding maakte van die discriminatie naar sexe.

Nog een algemene methodologische opmerking. Eindexamenresultaten komen tot stand door inspanning (tijdbesting), intellectuele capaciteiten, en ambitie. In grote lijnen dan. Ik presenteerde er ooit, met Dick Tromp, een aardig paper over, in 1977. Kijk er gerust eens naar, het is een verdraaid handige heuristiek om na te denken over onderwijsresultaten. Het mooist is het natuurlijk wanneer de student een hoge ambitie heeft, hard werkt, en sterke intellectuele capaciteiten heeft: die student gaat negens en tienen scoren op een eindexamen. Maar eindexamens kunnen ook gehaald worden zonder ambitie, of met weinig inspanning, of geringe intellectuele capaciteiten vergeleken met anderen. Als dan op de beide andere variabelen de positie maar hoog is. Maar wie alleen kijkt naar eindexamencijfers, weet niet in welke mix van ambitie, inspanning en capaciteiten die tot stand zijn gekomen. Dat stemt tot nadenken, niet? Geen wonder dat eindexamenresultaat, en propedeuseresultaat maar een beperkte samenhang tonen. Afijn, zo kan ik ng wel even doorgaan, ik zal dat niet doen.

Dick Tromp & Ben Wilbrink (1977). 'Het meten van studietijd'. paper. In: Congresboek OnderwijsResearchDagen. html

[33] Wat ik in deze passages op doel is mij pas in een paar jaar later duidelijker geworden: het gaat om een besliskundige benadering, met meervoudige criteria, en meervoudige voorspellers, zoals behandeld in Keeney & Raiffa (1976). Het besliskundige idee was er al wel, op basis van Cronbach & Gleser (1965), Nu kwam dat boek van Keeney & Raiffa pas uit ruim na het tot stand komen van de Machtigingswet die de gewogen loting regelde. Maar goed, ook later heb ik van dezetoch wel complexe technieken geen gebruik gemaakt. Keeney & Raiffa geven onder een voorbeeld van de keuze van een locatie voor een nieuw vliegveld. Daarmee vergeleken zijn selektieproblemen toch wel met eenvoudiger middelen te benaderen, waarbij weliswaar het besliskundig gedachtegoed gevolgd is, maar zonder de complexe uitwerkingen. Het moet hier vermeld dat Bob van Naerssen een belangrijke rol speelde bij het in Nederland bekend maken van de besliskunde als hulpwetenschap bij de selectiepsychologie. Cronbach & Gleser (1965) hebben een bijlage die in korte vorm zijn promotieonderzoek (1962) over de selectie van chauffeurs bij de Nederlandse krijgsmacht beschrijft.

Ik heb in latere studies over rendement van selektie versus loten geen gebruik gemaakt van besliskundige nutsfuncties over rendement, als ik mij goed herinner, omdat de kernvragen voor de wetgever (en anderen) goed waren te beantwoorden met eenvoudiger middelen. Waarom ingewikkeld, als het ook eenvoudig kan — we denken dan meteen aan het scheermes van Ockham, maar waar ik nu op doel is wat Herbert Simon (1955) 'satisficing' noemt, of 'Theories of bounded rationality'. Het hoeft niet altijd ingewikkeld gemaakt te worden, en dat had ik in 1971 nog niet goed op mijn netvlies staan.

Ralph L. Keeney and Howard Raiffa (1976). Decisions with multiple objectives. Preferences and value tradeoffs. Cambridge University Press. isbn 0471465100

Er is in 1993 een ongewijzigde heruitgave geweest. info

R. F. van Naerssen (1962). Selectie van chauffeurs: onderzoekingen ten behoeve van de selectie van chauffeurs bij de Koninklijke landmacht. Groningen: Wolters. Proefschrift Universiteit van Amsterdam.

Van Naerssen was met deze studie in zekere zin te vroeg. Pas eind tachtiger jaren kwam er via het werk van Schmidt en Hunter, mede door Van Naerssen's studie geïnspireerd, een technische doorbraak voor het schatten van utiliteit. Zie ook P. E. A. M. van der Maesen de Sombreff (1992). Het rendement van personeelsselectie. Proefschrift, Rijksuniversiteit Groningen. (met computerapplicatie). Ook mijn simulatiestudie voor selectie, Wilbrink (1990), is een spin-off van werk van Van Naerssen en Schmidt & Hunter.

Herbert A. Simon (1955) 'A behavioral model of rational choice', The Quarterly Journal of Economics, vol. 69, n. 1, February: 99-118, compiled in, and quoted from, Simon (1957) Models of Man, Social and Rational: Mathematical Essays on Rational Human Behavior in a Social Setting, New York: John Wiley and Sons. (blz 241-260). Herdrukt in Herbert A. Simon (Ed.) (1979). Models of thought. New Haven: Yale University Press.

[34] 'Verwacht geen voorspelbaarheid hoger dan 0,30 tot 0,40'. Daar moet wel de kanttekening bij dat de selektie waarover het bij Posthumus voortdurend gaat, en dus ook in mijn nota van 1971, selektie op basis van de propedeuse is. Dus niet selektie-aan-de-poort. Bij die laatste zou het behalen van de propdeuse binnen redelijke tijd een criterium kunnen zijn, en dat is makkelijker voorspelbaar dan het op basis van de propedeuse voorspellen dat het kandidaatsof doctoraal behaald zal worden, tegenwoordig de afronding van de bachelor fase, of een master.

Het blijft in het onderwijs nu eenmaal zo dat studieresultaten het best te voorspellen zijn op basis van eerdere studieresutaten, en hoe dichter die twee bij elkaar liggen, hoe beter de voorspelling. Maar u voelt hem al aankomen: waar zijn we dan helemaal mee bezig? Deze vorm van voorspellen en selekteren gaat op de automatische piloot, en is in die zin herhaaldelijk door Posthumus gekritiseerd, in een leven voordat hij tot regeringscommissaris werd benoemd. Een bezwaar tegen deze gemakzuchtige vorm van selektie is ook dat zij voorbijgaat aan wat bij wet is geregeld en wat maatschappelijk gewenst is wat betreft eerlijke kansen en wat dies meer zij. Dit schrijf ik met overtuiging op in 2021, en het was blijkens de tekst uit 1971 ook destijds mijn overtuiging (maar het kon wel wat beter worden onderbouwd).

[35] 'Foutieve toelatings- en afwijzingsbeslissingen'. In de Nederlandse (en internationale) literatuur over selektieve toelating tot onderwijs wordt vrijwel zonder uitzondering gebruik gemaakt van simplistische modellen gegoten in termen van 'terechte' en 'onterechte' beslissingen tot doorlaten of afwijzen, vier categoeieën dus. Dit taalgebruik is verwarrend en onjuist. Op het moment van beslissen is er geen sprake van juiste en onjuiste beslissingen, want dat kunnen we alleen maar achteraf zeggen, 'met de kennis van nu'. En ook achteraf kunnen we alleen maar constateren dat sommige uitkomsten niet overeenkomen met de verwachting van destijds, maar niemand weet hoe er dan destijds anders beslist had kunnen worden met betere uitkomsten. In deze spraakverwarring kan een besliskundige benadering helderheid scheppen. Ik heb eind 70er jaren een poging gedaan, meegenomen in de vaart van de werkgroep criterium-gerefereerd toetsen die getrokken werd door Wim van der Linden en Don Mellenbergh. Zij het dat mijn besliskundige benadering uit de economische hoek kwam, terwijl Van der Linden juist een besliskundige benadering vanuit de statistiek gebruikte - dat communiceerde niet goed. Afijn, er kwamen twee artikelen uit, Wilbrink (1980a en 1980b). Ik laat zien dat beslissingen zakken-slagen, of afwijzen-toelaten, echt anders gezien worden bij een behoorlijk uitgewerkte besliskundige benadering, dan bij het simplisme van tellen van 'foute' beslissingen.

'Foute' beslissingen: dat is een binaire aanname, meestal opgevat als: kandidaten kunnen geschikt of ongeschikt blijken, het is een 'fout' een ongeschikte kandidaat aan te nemen, en een geschikte kandidaat af te wijzen. Het is alsof 'juiste' beslissingen nut=1 hebben, onjuiste beslissingen nut=0, binair opgevat. Maar besliskundig gezien is dit verward denken, bovendien verwart het de begrippen 'nut en 'verwacht nut'. Het proeschrift van Van de Gaag bevat een fraaie illustratie van de mentale knoop waar het niet onderscheiden van 'nut' en 'verwacht nut' toe leidt: twee proefpersonen vertikten het om een nutsfunktie te schetsen, zij voelden aan dat de opdracht intern tegenstrijdig was (conflict: een nutsfunktie, of een funktie van verwacht nut, welke is het nu? Maar als je geen taal hebt om dit uit te drukken, kun je de proefleider ook niet op de tegenstrijdigheid wijzen). Van de Gaag liet de kans lopen dit incident te benutten om haar foute theorie te corrigeren. Ook Don Mellenbergh, haar promotor, zag het niet.

Ik moet erbij vermelden dat ik de methode uit deze publicaties in 1980 nooit (is dat zo?) heb proberen toe te passen op selektie bij numerus-fixusstudies, dat zou nog wel eens een interessante oefening kunnen zijn. Maar zoals al eerder opgemerkt, in dat debat volstaat het om met eenvoudiger statistieken de analyses af te ronden.

N. v.d. Gaag (1990). Empirische utiliteiten voor psychometrische beslissingen. Proefschrift UvA 22 november 1990 (promotor: Don Mellenbergh; copromotor Wulfert van den Brink). Zie hier voor enkele aantekeningen erbij.

Ben Wilbrink (1980a). Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor Onderwijsresearch, 5, 49-62. html

Ben Wilbrink (1980b). Enkele radicale oplossingen voor kriterium gerefereerde grensskores. Tijdschrift voor Onderwijsresearch, 5, 112-125. html

[beide artikelen zijn eigen transcripties, het tijdschrift is ook in zijn geheel online beschikaar, de jaargang 1980 hier.]

[36] Die 80% is niet onredelijk, ook al is het een ruwe schatting. Er zijn altijd studenten die door persoonlijke omstandigheden niet in staat zijn de studie af te ronden. Een grotere groep verandert van tussentijds van studie, en lijkt zodoende tot de 'ongeschikten' te behoren terwijl zij toch merendeels in een andere ho- of wo-opleiding afstuderen. Ik wil niet graag de bestuurders de kost hoeven geven die deze situatie niet begrijpen, en verhalen de wereld insturen over drama's van studiestakende studenten. De tekst moet dus zo worden gelezen dat het gaat over eerstingeschreven studenten. Zie ook Wilbrink (1980), en Voorthuis & Wilbrink (1987).

[37] Een onderzoek langs deze lijnen is in opdracht van het CvB van de Leidse universiteit uitgevoerd door Dato de Gruijter, 2004. [23] Het is een mooi voorbeeld van goede data verzamelen, en dan de eigen knopen tellen. Het Leidse College besloot het voornemen tot selectie-aan-de-poort niet uit te voeren. Staatssecretaris Nijs had destijds toestemming gegeven voor een experiment in die zin, want de wet stond selectie-aan-de-poort niet toe.

[38] 'de som van de utiliteiten van de geaccepteerde personen maximaal is': Utiliteit is bij personeelsselectie: de bijdrage aan het bedrijfsresultaat. Als alle sollicitaten gerangordend zijn van grootste naar kleinste verwachte bijdrage, dan kunnen de beschikbare plaatsen van bvenaf met die kandidaten worden gevuld voor een maximaal verwacht resultaat. Maar zo eenvoudig is het niet: bij een sollicitatieprocedure spelen meerdere persoonlijke (test)gegevens een rol, en is de selectieprocedure mogelijk gefaseerd. Optimaliseren is dan niet echt vanzelfsprekend. Het komt dan goed uit een simulatieprogramme te hebben, waarmee verschillende varianten zijn door te rekenen. Ook al moet dat gebeuren onder vereenvoudigende modelaannamen, dan geven de verschillen in uitkomsten toch wel een richting aan die tot een zeker optimum kan leiden. Zo'n simulatieprogramma voor een selectie met meerdere tests en meerdere fasen (afvalronden) schreef ik in 1990 voor de selectie voor de NPA, ik refereerde er al eerder aan zie noot [24].

[39] Met dit citaat is nog eens duidelijk dat zelfs met tamelijk eenvoudige modellen en aannames, goede ondergrenzen voor de zin van selektie zijn te vinden. Het voorbeeld van Van Naerssen is een uitgewerkte versie van het vaak herhaalde expert-oordeel over selectie aan de poort van universitair onderwijs: daar valt geen winst mee te behalen, de groep kandidaten is al sterk geselecteerd in het voorafgaande onderwijs. In de laatste decennia is er wel sprake van een verschuiving naar steeds grotere aantallen die doorstromen naar universitair onderwijs, dus ergens is er wel een kantelpunt. Zijn we bezig geweet het universitair onderwijs in de laatste decennia te versimpelen? Dat zou zomaar hetgeval kunnen zijn. Over groeiende deelname aan universitair onderwijs zie ook een wat oudere nota van Wilbrink & Dronkers, 1993, hoewel zij destijds niet konden voorzien dat de groei zo enorm sterk zou doorzetten, politiek aangejaagd door wat EU-ministers van onderwijs vonden dat de toekomst zou moeten zijn _ 50% deelname aan hoger onderwijs, Lissabon?

Ben Wilbrink & Jaap Dronkers (1993). Dilemma's bij de groei van de deelname aan hoger onderwijs. Zoetermeer: reeks Achtergrondstudies van het Ministerie van Onderwijs en Wetenschappen. ('s-Gravenhage: DOP) html

[40] 'schade die toegebracht wordt aan de kwaliteit van het onderwijs'. Het gaat nog steeds over selektie door de propedeuse (schade aan het propedeuse-onderwijs), dus niet over selektie-aan-de-poort. Die laatste heeft ook negatieve impact op het voorafgaande onderwijs, maar dat is het vwo. Dergelijke schadeberokkening heet bij de buren wel 'washback'.

[41] 'stress' en 'competitie': loopt dat wel zo'n vaart? De felheid van de discussie in latere jaren over de gewogen loting laat zien dat de emoties hoog op kunnen lopen bij ouders en bij hoogleraren. Ook bij studenten, die zich moeilijk neer kunnen leggen bij uitloten, en dan bijvoorbeeld een parkeerstudie kiezen. Studenten kunnen in het begin van hun universitaire studie behoorlijk in de stress raken, maar dat hoeft niet zijn oorzaak in het aangeboden onderwijs te hebben. Andersom kan die stress tot studieproblemen leiden. Afijn, het onderwerp is wel een beetje een zijlijn hier.

[42] Waar ik me hier niet van bewust lijk: wie gaat er eigenlijk over selektie? Publiek onderwijs gaat ons allemaal aan, het is niet vanzelfsprekend wat en hoe een faculteit zoal zou mogen selecteren. Selectie is allesbehalve vanzelfsprekend, behalve voor de kleine ondernemer die een nieuwe loopjongen nodig heeft. Maar dat selectiemodel willen we toch niet op het publieke onderwijs toepassen, mag ik aannemen?

Laat ik hier volstaan met op te merken dat studierichtingen in het ho en hbo communicerende vaten zijn, zodat selectie voor sommige studierichtingen effecten heeft op andere studierichtingen. Er vallen duizend dingen over te zeggen, laat ik er nog een noemen, dan.

Als men bij geneeskunde begint om de slimste kandidaten voorrang te geven voor, dan heeft geneeskunde daar een voordeel bij. Of Nederland er een voordeel bij heeft, dat is echt een heel andere vraag. Bijvoorbeeld: anderen zien dat geneeskunde een voordeel heeft, en willen dat ook wel. Als nu steeds meer studierichtingen de slimste kandidaten voorrang geven, krijgen we uiteindelijk de beginsituatie weer terug, maar is iedereen heel druk met selecteren. Tel uit onze winst. Niet doen, dus.

[43] 'individuele verlangens ten aanzien van opleidingsmogelijkheden'. Kijk, daar ben ik in latere jaren echt anders over gaan denken. Omdat mensen perfect in staat zijn voor zichzelf dingen te verlangen die niet verstandig zijn. En wat is verstand: wel, dat komt nu juist met de (opleidings)jaren. Keuzevakken aanbieden is enorm kostbaar, en levert het een meerwaarde boven het standaard-programma? Dat programma is immers bedoeld als opleiding, en is hopelijk met zorg samengesteld. Sommige vakken zullen minder aantrekkelijk zijn dan andere, zeker, maar is het een goede zaak wanneer studenten die minder aantrekkelijke vakken kunnen overslaan? Dit is nu eens een onderwerp waarover mij weinig of geen onderzoek bekend is. Eigen onderzoek eind 80er jaren (1989) heeft geleerd dat vakken of de specialisatie gevolgd in de opleiding mogelijk geen verband heeft met kenmerken van de latere beroepsuitoefening. Ik heb het over economie, waar twee hoofdspecialisaties zijn: micro-economie en macro-economie. Ook latere functies kunnen in die zin worden gekenmerkt. Het bleek bij een omvangrijk vragenlijstonderzoek dat beide geen verband lieten zien. Het maakt niet uit wat iemand heeft gestudeerd, micro, of macro. Ook bij arbeidsmarktonderzoek microbiologie bleek iets dergelijks In de opleiding was slechts gelegenheid om een enkele complexe onderzoektechniek in de vingers te krijgen. In de beroepspraktijk moest meestal met andere technieken worden gewerkt. Dat was bij de werving en selektie geen probleem, omdat men wist dat de kandidaten zich een complexe techniek wisten eigen te maken, en dat dus ook met andere technieken aan zouden kunnen.

Via de omweg van wat er gebeurt opde arbeidsmarkt en in het eerstgevonden beroep blijkt er grote flexibilieit tussen onderwijs en beroep te zijn. Mooi is dat. (NB: dit is iets anders dan het fenomeen dat loodgieters nogal eens na hun opleiding iets heel anders gaan doen, en niet alleen loodgieters).

Ben Wilbrink (1989). Arbeidsmarkt en curriculum economie. Amsterdam: SCO. (rapport 198) pdf

[44] Anno 2021 ben ik gloeiend oneens met dit geïndividualiseerd onderwijs, en met mij vele anderen. Helaas zijn er nog veel meer die het in 2021 gloeiend eens zijn met Meuwese. Vooral in het primair en voortgezet onderwijs is het een enorme strijd, en wordt er met leerlingen geëxperimenteerd zonder dat er een haan naar kraait. Mijn argument komt kortweg neer op het volgende: bepalende factor in de klas is niet alleen 'time on task', Carroll, maar ook contacttijd van leerkracht en leerling. Juist in geïndividualiseerd onderwijs is die contacttijd marginaal geworden. Verdeel maar eens je aandacht over 25 leerlingen. Klassikaal onderwijs levert veel contacttijd op. Zo simpel is het. Ik laat het hier maar even bij.

[45] Deze laatste sectie over toelating tot opleidingen met een numerus fixus, en dan in het bijzonder de variant van loten om schaarse plaatsen. Welnu, daarover zouden nog dicussies gevoerd gaan worden in de volgende decennia. Daar wil ik het maar even bij laten.

[46] Dat was het dan. In het lijstje voordelen van loten in 1971 mis ik het belangrijke punt dat loten op een bepaalde manier gegarandeerd vrij is van discriminatie. Ik wees er al op dat discriminatie van vrouwen voor staatssecretaris Klein in 1974 een belangrijk argument was om voor integrale loting te gaan. In mijn serie blogs 'Alle geslaagden zijn gelijk' is dat terug te vinden (in de pers media, waarin Klein nogal heftig werd aangevallen op de loting, niet op het vermijden van discriminatie, ha.).

december 2021 \

http://www.benwilbrink.nl/publicaties/ htm