Selectie T & M kandidaten voor de NPA

In een speciaal op een groep 'Turkse en Marokkaanse' kandidaten gerichte selectieprocedure zijn deze kandidaten onderworpen aan zowel het 'normale' assessment-center, als een speciaal voor deze gelegenheid door Psychotechniek ontworpen assessment-center. Na de ontwikkeling van het Psychotechniek-AC van nabij te hebben gevolgd, en de bespreking van de selectie-resultaten van alle T & M kandidaten te hebben bijgewoond, lijkt het mij nuttig een aantal zaken die mij zijn opgevallen kort te rapporteren, en waar mogelijk te verbinden aan bestaande literatuur. Mijn opmerkingen zijn tentatief van aard, voorzetten die bij toekomstige voorbereiding van op minderheden gerichte selectie-procedures op de agenda kunnen worden geplaatst.

Mogelijk kunnen deze opmerkingen ook een rol spelen bij de te verrichten vergelijkende data-analyse voor het 'normale' AC en het 'Psychotechniek' AC, onder toezicht van Prof. dr. L.J.Th. van der Kamp uit te voeren.

Taalbeheersing en beoordeelbaarheid

Heel opvallend is de taalproblematiek: vrijwel alle kandidaten hebben taalproblemen. Voor meerdere kandidaten is de taalbeheersing zo gebrekkig dat ze niet beoordeelbaar zijn. Voor alle geselecteerde kandidaten geldt dat ze aan hun taalbeheersing nog moeten werken in een voorschakeling (voorafgaand aan toelating tot de NPA) van een half jaar (waarin voor de meeste kandidaten ook andere aandachtvragende aspecten aan bod komen.) Het probleem is dus dat er over bepaalde kandidaten selectie-beslisingen moeten worden genomen op een moment dat hun taalbeheersing verre van behoorlijk is, die beslissing kan niet echt worden uitgesteld tot na dat extra traject.

Het taalprobleem overheerst daarmee alle andere zaken die in de selectie aan de orde zijn. Bij de inrichting van selectieprocedures (en toeleidende trajecten) moet de taalbeheersing daarom de hoogst geprioriteerde problematiek vormen. Immers, voor kandidaten die vanwege gebrekkige taalbeheersing niet beoordeelbaar zijn, is deelname aan een hoe perfect ook ingerichte selectieprocedure volstrekt zinloos.

Het meest voor de hand ligt het om de grote taalachterstand weg te laten werken, en daar faciliteiten voor aan te bieden. De koppeling aan een toekomstige selectieprocedure is daarbij misschien meer tot last dan tot voordeel. Er kunnen aan het volgen van een intensieve taalcursus door de kandidaat geen bijzondere aanspraken m.b.t. de verdere selectie worden ontleend: de kandidaat was immers bij toelating tot de cursus niet beoordeelbaar, dus ook niet beoordeelbaar op 'selectie-potentiëel' als dat zo even mag worden aangeduid. Om deze reden zou het verre de voorkeur verdienen wanneer er voor taaltrainingen gebruik kan worden gemaakt van in de samenleving overigens reeds bestaande voorzieningen. Bestaan deze voorzieningen er in onvoldoende mate, dan ligt er een duidelijke taak voor de coördinerend minister voor minderheden (de minister van Binnenlandse Zaken).

Een schijn-oplossing zou zijn om in de selectieprocedure gebruik te maken van instrumenten, selecteurs e.d. die de kandidaat in de eigen taal aanspreken. Daarmee zou in beginsel wel het gesignaleerde selectieprobleem worden opgelost, maar blijft er een grote barrière bestaan tussen feitelijke selectiebeslissing en selectiebeslissing 'in beginsel': voordat de kandidaat aan enige opleiding kan beginnen zal de kandidaat het Nederlands moeten beheersen, en dus een mogelijk moeizaam schakeltraject moeten doorlopen. De selectie wordt daarmee gecompliceerd, omdat ook een prognose voor het doorlopen van een dergelijk schakeltraject moet worden opgesteld.

Zou voor bepaalde deelgroepen een selectieprocedure in de eigen taal nog wel kunnen worden georganiseerd, het is uitgesloten dat zoiets voor alle allochtone kandidaten kan gebeuren, daarvoor zijn de mogelijke varianten eenvoudig te talrijk.

Toetsen van taalbeheersing / testen van taalvaardigheid / testen voor selectie

In het voorgaande is de situatie besproken waarin taalproblemen dermate ernstig zijn dat de beoordeelbaarheid van de kandidaten in absolute zin (wel/niet beoordeelbaar) in het geding is. In het algemeen zal gelden voor kandidaten uit minderheidsgroepen dat er problemen met de taalbeheersing zijn die de beoordeelbaarheid gradueel beïnvloeden.

Er zijn nu een aantal verschillende issues die bij selectie gemakkelijk door elkaar kunnen gaan lopen. (1) Taalbeheersing, een geleerde vaardigheid, kan een voorwaarde zijn voor goed functioneren in onderwijs of beroep, en om die reden worden getoetst. (2) Taalbeheersing is mogelijk van invloed op de resultaten op andere selectieve tests, en kan om die reden worden getoetst om vervolgens in staat te zijn bepaalde correcties op de resultaten voor de selectieve tests uit te voeren (vgl. Testscreeningscommissie Hofstee; de verwachtingen voor een in dit opzicht goed kunnen gebruiken van gemeten taalbeheersing zijn zeker niet hoog gespannen, zoals Hofstee c.s. aangeven, en zoals ok uit de door Duran (1989) gerapporteerde onderzoeken moet worden geconcludeerd). (3) Taalvaardigheid is een intellectuele capaciteit die althans in beginsel onafhankelijk is van welke taal iemand als eerste taal spreekt; het is duidelijk dat hier noodzakelijk vermenging (confounding) optreedt van taalvaardigheid en taalbeheersing op het moment dat er getest wordt (dit is één van de redenen waarom een correctie op testscores, zoals in het voorgaande genoemd, niet eenvoudig is te realiseren).

De genoemde drie issues zijn buitengewoon belangrijk voor een eerlijke behandeling van kandidaten uit welke minderheidsgroeperingen dan ook. Voor een relatief zeer groot taalgebied (USA) geeft Duran (1989) een overzicht van onderzoekresultaten, en dat levert geen resultaten op waar de selecteur goed houvast aan heeft. Ook de APA-standards en de NIP-richtlijnen geven geen duidelijkheid, al worden er wel essentiële richtlijnen gegeven (hoe implementeer je die, dat is de hamvraag).

In het licht van demografische ontwikkelingen waaruit onomstotelijk duidelijk is dat een steeds groter aantal van kandidaten, zowel in de USA als in Nederland, zal behoren tot een of andere minderheidsgroepering, ontstaan hier ernstige problemen waar het gaat om het aanleggen van gelijke normen voor kandidaten met geheel verschillende achtergronden.

In de literatuur is nog geen sprake, voor zover ik heb kunnen nagaan, van het signaleren van een heel wezenlijke ongelijkheid die nu gaat ontstaan tussen autochtone en allochtone kandidaten (maar zie Rath, 1991!). Allochtone kandidaten (kandidaten uit minderheidsgroepen is een betere term) vormen geen homogene groep, waar dat voor de overige kandidaten wel het geval is. Aan de minderhedenkant is het probleem dat het ondoenlijk is dezelfde richtlijnen voor standaardisering te gebruiken als voor niet-minderheden het geval is. Het gevolg daarvan is echter dat iedere minderheid op zich toch gerefereerd wordt aan de meerderheid waarvoor wèl adequate standaardisering (inclusief betrouwbaarheidsonderzoek, validiteitsonderzoek etc.) is gedaan. Aan een dergelijke werkwijze, nl. impliciet iedere minderheidskandidaat refereren aan de meerderheidsgroepering, kleven grote risico's in maatschappelijk opzicht, gegeven huidige demografische ontwikkelingen. Hetzelfde proces speelt zich immers niet alleen af bij selectie, maar ook bij scholing en in de beroepssfeer; in het geval van de politie bestaat die beroepssfeer niet alleen uit de interne organisatie maar vooral uit de contacten met burgers.

Hoewel het op dit moment niet duidelijk is welke consequenties een en ander in selectie-technisch opzicht heeft, mag toch wel worden geconcludeerd dat er van de selecteurs expliciete aandacht voor deze problematiek mag worden gevraagd.

Er bestaan bij degenen die bij de NPA-selectie zijn betrokken bepaalde opvattingen over de kwaliteiten van taalbeheersing die voor de junior politie-officier van cruciaal belang zijn (vermijden van vormfouten e.d. bij processen-verbaal). Ik weet niet of deze kwaliteiten of criteria in het verleden al eens expliciet zijn onderzocht en geformuleerd, dergelijke stukken heb ik in ieder geval niet gezien. Hoe dat ook zij, wanneer de toelating van kandidaten kennelijk afhangt van een enigszins subjectief oordeel over taalbeheersing op slechts globaal aangeduide 'dimensies', is het zaak daar op korte termijn verbetering in aan te brengen, d.w.z. de selectie op dit punt in overeenstemming te brengen met de NIP-richtlijnen. Daarbij zal zeker een duidelijk onderscheid worden gemaakt tussen die vormen van taalvaardigheid die trainbaar zijn (taalvaardigheid van belang bij het correct opmaken van processen-verbaal), en die niet of slechts beperkt trainbaar zijn (omdat intellectuele capaciteiten hier bovengrenzen stellen).

In het Engelse taalgebied bestaat er een zekere industrie op het gebied van speciale taalbeheersingstests voor non-native speakers, zie Hughes (188), de Jong & Stevenson (1990), Linn (1989). Dat hangt samen met de vooral in de USA al langer en op groter schaal bestaande problemen met 'allochtone' kandidaten voor hoger onderwijs, en met de bezetenheid van tests en selectie bij de toelating tot instellingen van hoger onderwijs (zie Webber, 1989, voor een indringende analyse). In Nederland zijn er in de universitaire sfeer ook bepaalde activiteiten, maar ik vermoed dat cursussen daar worden afgesloten met toetsen die voor de gelegenheid door de docent zijn gemaakt.

Het boek van Hughes (1988) is direct relevant voor de ontwikkeling van tests voor taalvaardigheid. Enkele van de papers zijn: Ch. Alderson: Testing English for specific purposes: how specific can we get? A. Davies: Procedures in language test validation. A, Hughes: Achievement and proficiency: the missing link? A. Hughes: Introducing a needs based test of English for study in an English medium university in Turkey.

De Jong en Stevenson (1990) bevat o.a. de volgende bijdragen: G. Henning: National issues in individual assessment: the consideration of specialization bias in university language screening tests. Kalantzis, Slade & Cope: Minority languages and mainstream culture: problems of equity and assessment. G. Perrett: The language testing interview: a reappraisal. Westaway, Alderson & Clapham: Directions in testing for specific purposes.

Specifieke, cultureel bepaalde, minderhedenproblematieken

Er zijn vrijwel geen specifieke allochtonenproblemen aan de orde, althans niet in deze kandidatenbespreking. Met specifieke allochtonenproblemen bedoel ik dan: dat zij door hun specifieke culturele achtergrond zich in sollicitatie-situaties zo gedragen dat zij niet op vergelijkbare wijze als bij autochtone kandidaten zijn te beoordelen naar dat gedrag (O'Connor (1989) geeft een overzicht van deze problematiek voor gestandaardiseerde tests). Heel duidelijk komt dat naar voren in de problematiek van Aziatische hoog opgeleide sollicitanten en werknemers in de USA (besproken in het boek van Gibbons, zie bijv. Tsang (1989)). Het kan zijn dat dergelijke problemen perfect zijn opgevangen in de sollicitatie zelf, maar in het ontwerp van de diverse tests, opdrachten en situaties is daarmee geen rekening gehouden voorzover mij bekend. Het kan zijn dat T & M kandidaten met een behoorlijk opleidingsniveau geen sollicitatieproblemen van dit soort hebben, maar dat lijkt niet erg waarschijnlijk. Voor onderzoek dat onder meerdere culturen tegelijk plaatsvindt (cross-cultural research) is een zekere methodologie ontwikkeld, gebaseerd op gecumuleerde ervaringen in het veld opgedaan, zie bijv. Lonner & Berry (1986) (een deel in de Cross-cultural research and methodology series van uitgeverij SAGE),en Triandis & Berry (1980)(volume 2 van een 6-delig handboek corss-cultural psychology). Cultuur-vrije tests is een specialisme van testpsychologen, in Nederland bijv. Poortinga (KUB) en van der Flier (VU).

In Lonner & Berry (1986) o.a.: Malpass & Poortinga: Strategies for design and analysis. Brislin: The wording and translation of research instruments. Irvine: Cross-cultural assessment: from practice to theory. Guthrie & Lonner: Assessment of personality and psychopathology. Segall: assessment of social behavior. Berry, Trimble, & Olmedo: Assessment of acculturation.

In Triandis & Lonner o.a.: Irvine & Carroll: Testing and assessment across cultures: issues in methodology and theory. Pareek & Rao: Cross-cultural surveys and interviewing.

Wat bijvoorbeeld nog mist in de opzet van dit eerste Psychotechniek AC is een expliciete rechtvaardiging dat de beoordelingsdimensies voor dit AC cultureel gerechtvaardigd zijn voor kandidaten van Turkse en van Marokkaanse (welke dan ook) afkomst. Zijn er bijvoorbeeld in de literatuur duidelijke aanwijzingen te vinden over de aard van eventuele culturele verschillen die 'storend' zouden kunnen werken op de betrouwbaarheid en validiteit waarmee met deze dimensies kan worden gewerkt? Dat geldt in het bijzonder voor dimensies als 'authenticiteit' die zowel specifiek voor allochtonen zijn (autochtonen worden daar niet op beoordeeld), als mogelijk op gespannen voet staan met eigen culturele achtergronden. Rond die 'authenticiteit'-dimensie hebben zich in de bijeenkomst van 18 december wel enkele discussies afgespeeld, waarbij is teruggegrepen op biografische achtergrondgegevens van betreffende kandidaten. Maar daarbij ging het om achtergrondgegevens zoals die ook voor autochtone kandidaten in het geding zouden kunnen worden gebracht, dus niet cultureel-specifiek.

"Assessment of persons with non-English backgrounds is difficult because of the confound existing among culture, language and thought. Contemporary cross-cultural research suggests that there are intimate connections among the ways people perceive the nature of problem-solving situations, problem-solving tasks, the language surrounding tasks, and sociocultural experiences. The display of intended skills in assessment situations requires an aptitude itself seldom studied: the ability to understand the nature of assessment tasks and the nature of appropriate peformance. Everyday familiarity with the language in which assessment tasks are stated might not be adequate to ensure that individuals understand the task. (...) To perform as expected on tasks, persons have to first understand the social and cultural context of assessment situations, the modes of thinking expected, and the ways in which language is used in an assessment context. Thus, analysis of issues affecting the testing of language-minority persons is ultimately not totally reducible to consideration solely of how lack of familiarity with a language affects test performance." (Duran, 1989, p. 573-574).

Bijzondere maatregelen, bijv. de dimensie 'authenticiteit'.

De selectieprocedure voor deze T & M kandidaten is in een aantal opzichten afwijkend van de 'standaard'-selectie omdat er bijzondere maatregelen en beoordelingen zijn die niet zozeer voortvloeien uit selectietechnische problemen (zoals hierboven behandeld) als wel uit overwegingen van secundaire aard. Het beoordelen op 'authentiek gedrag' en 'emancipatoir gedrag' is een wel heel concreet voorbeeld. Hoewel het heel goed denkbaar is ook meerderheids-kandidaten op deze dimensies te testen en te beoordelen, gebeurt het nu voor het eerst bij alleen minderheids-kandidaten.

Er ontstaat dan een situatie waarbij een minderheidskandidaat zou kunnen worden afgewezen op grond van lage scores op dimensies waarop meerderheidskandidaten niet worden beoordeeld. Dat is een ongewenste, onredelijke, en op termijn onhoudbare situatie. (Ik moet erkennen dat ik deze implicatie ten tijde van de voorbereiding van het AC niet heb gezien, en op dat moment dus ook niet aan de orde heb gesteld). Nu is het bij de nogal globale wijze van uiteindelijke beoordeling van de kandidaten waarschijnlijk niet aantoonbaar dat enige kandidaat hierdoor benadeeld is; maar hier speelt het grote gewicht van de taalbeheersingsmanco's doorheen, en de overigens heel kleine aantallen kandidaten.

Is het denkbaar scores op dergelijke bijzondere dimensies alleen 'in positieve zin' te gebruiken? Dat hangt van de selectie-situatie af. Bij selectie in het onderwijs is er vaak sprake van selectie op louter geschiktheid. Bij personeelsselectie gaat het meestal, ook bij de NPA-selectie, om het vullen van een gegeven quotum. In de quotum-situatie leidt de positieve behandeling van de ene kandidaat tot een negatief gevolg voor een andere. Alleen wanneer er geen quotum is, of een gesteld quotum niet wordt gehaald, zou een overigens net niet geschikte kandidaat door compenserende scores op 'authentiek' en 'emancipatoir' gedrag toch nog kunnen worden toegelaten. Maar dat veronderstelt een onwaarschijnlijk fijne bepaling van wat precies de grens tussen 'geschikt' en 'ongeschikt' zou zijn.

Beter zou het zijn, bij handhaven van dergelijke beoordelingsdimensies, om ook meerderheidskandidaten hierop te onderzoeken. Dan ontstaat onmiddellijk het volgende probleem: wat is voor een kandidaat uit een meerderheidsgroep precies onder 'authentiek' en 'emancipatoir' gedrag te verstaan? Het zorgvuldig uitwerken van de bedoelde begrippen en dimensies kan de kwaliteit van de selectie alleen maar ten goede komen, want problemen bij de toepassing van deze begrippen op meerderheidskandidaten wijzen erop dat ook bij toepassing op minderheidskandidaten er kennelijk enkele probleempjes gemakshalve buiten beschouwing zijn gelaten. Ik wil erop wijzen dat 'emancipatie van een minderheidsgroepering' stilzwijgend vooronderstelt dat de minderheidsgroep in belangrijke opzichten is achtergesteld bij bijv. de meerderheidsgroep, en dat wat voor de groep geldt ook voor individuele leden van de groep geldt. Beide vooronderstelling zijn niet verdedigbaar (zie bijv. Petersen & Novick, 1976; Novick & Ellis, 1977; Novick, 1980). Het probleem is dat dergelijke abstracte formuleringen voorbij gaan aan de operationalisatie van wat 'achterstand' en dus wat 'emancipatie' in concrete individuele gevallen betekent. Overigens bleek in de bespreking van 18 december dit probleem zich inderdaad in heel herkenbare vorm voor te doen, bij kandidaten die weliswaar per definitie tot de T & M groep behoren, maar overigens als volstrekt 'geëmancipeerd' en 'zonder achterstand' zijn te kenmerken. De tegenwerping dat wat voor de kandidaten zelf geldt minder belangrijk is dan wat voor de groep als geheel geldt, snijdt geen hout, omdat daarbij stilzwijgend de groep als 'homogeen' wordt beschouwd terwijl nu juist blijkt dat dat de facto niet het geval is. Het zijn juist dergelijke kandidaten die bijzonder kwetsbaar zijn voor negatieve oordelen op de dimensies 'authentiek' en 'emancipatoir' gedrag, en in tenminste één concreet geval leidde dat ook tot een zeer uitgebreide discussie tussen de diverse assessoren.

Sign or sample?

Het is duidelijk dat geen van de bij de selectie betrokken instituties (LSCP/RPD-Advies, Psychotechniek) duidelijk ofwel een sign, ofwel een sample benadering heeft. Iedereen doet beide: er wordt lustig geïnterpreteerd naar persoonlijkheidskenmerken op basis van in specifieke situaties waargenomen gedrag, en waargenomen gedragingen worden makkelijk als 'sample' van toekomstig gedrag gezien. Mijns inziens zou het heel nuttig zijn hier eens wat nauwkeuriger naar te kijken, al was het slechts omdat de validiteitsargumenten hier wat al te rommelig zijn.

Eerst het onderscheid 'sign' - 'sample' zelf. Laat ik beginnen met het onderscheid te illustreren aan toetsen in het onderwijs, een heel andere situatie dan personeelsselectie. De traditionele benadering is hier een typische 'sign'-benadering: het zou gaan om het toetsen van kennis, begrip, inzicht, etc. Dat zijn typische constructen die worden verondersteld 'achter' de op toetsen en examens gegeven antwoorden te liggen. De beroemde taxonomie voor het cognitieve domein van Bloom c.s. (1956) is daar de exponent van. Voorzover ik kan overzien zijn er slechts twee uitzonderingen, twee alternatieven die als 'sample'-benadering zijn te kenmerken.

De eerste is door mijzelf uitgewerkt (Wilbrink, 1983),. Allereerst door de botte stelling dat de omweg over de cognitieve taxonomie van Bloom inderdaad een omweg, en dus overbodig is. Vervolgens door de constructie van een toets op te vatten als het trekken van een steekproef uit een domein van voor het betreffende vak- of leergebied relevante vragen (en antwoorden). Het relevante domein is daarbij niet gedefinieerd op de kennis en inzichten etc, van Bloom, maar op wat in wetenschapstheoretisch opzicht als de relevante kennis in het betreffende gebied mag worden opgevat, en waaruit de docent een bepaalde selectie maakt. Alle psychologie is daarmee buiten de deur gezet. Ik moet eerlijk zeggen dat ik destijds mij niet bewust was van het 'sign' versus 'sample' onderscheid, anders had ik dat zeker beter uitgebuit. Een en ander neemt niet weg dat een naar model-Wilbrink geconstrueerde toets best vanuit de 'sign'-benadering kan worden geïnterpreteerd door wie daar behoefte aan heeft (ik niet).
De tweede doorbraak van de 'sign'-benadering in het onderwijs is een schijn-exercitie, waar het label 'sample-benadering' wordt opgehangen aan het 'samplen' van cognitieve processen (Snow & Lohman, 1989, p. 317). Een cognitief proces is een abstractie, en kan niet worden gesampled. Er is dus behoorlijke verwarring mogelijk over het onderscheid 'sign' - 'sample'.

De ombuiging van een 'sign'- naar een 'sample'-benadering is dus mogelijk, maar in het gegeven voorbeeld was sprake van toetsen, dus van situaties waarin de kandidaten zich uitvoerig op de betreffende toetsen kunnen voorbereiden op datgene wat getoetst zal worden. Voor personeelsselectie gaat het om iets geheel anders, de kwaliteit van de toekomstige beroepsuitoefening moet worden voorspeld.

Zouden de kandidaten al voor dat beroep zijn opgeleid, dan zou mogelijk een eerste selectie kunnen plaatsvinden op relevante beroepskennis- en vaardigheden, in de 'sample' betekenis, maar zou in de overblijvende groep nog verder moeten worden geselecteerd op kenmerken (of gedrag) dat juist niet in de voorafgaande opleiding is gevormd (op zich een interessante constatering, die door Wilbrink en Koppen (1990) is uitgewerkt tot een model voor de arbeidsmarkt voor hoger opgeleiden). Het laatste levert een situatie op die bij uitstek geschikt is voor de 'sample'-benadering, waarbij natuurlijk de validiteit van een en ander wel aannemelijk moet kunnen worden gemaakt.

Voor de NPA-selectie is de situatie echter minder eenduidig: immers, de te selecteren kandidaten moeten hun opleiding nog krijgen, en kunnen dus niet op diezelfde opleidingsresultaten worden voor-geselecteerd. Er zou een eerste schifting op basis van vooropleiding kunnen plaatsvinden, maar daarvan is in ieder geval voor de lopende selectieprocedure nog afgezien. Omdat de kandidaten nog niet zijn opgeleid, kunnen geen levensechte 'samples' van gedrag worden verkregen, omdat zij immers met de aangeboden situaties niet professioneel om kunnen gaan. Voor de NPA-selectie ontstaan dan de wat ongelukkige situatie dat de sample-benadering alleen hanteerbaar is te maken via een soort 'sign'-interpretatie: er moeten immers situaties worden gevonden waarvoor het niet nodig is dat de kandidaat zijn/haar professionele opleiding al heeft gehad, maar die desalniettemin toch tot gedragingen (van verschillende kandidaten) leiden die op zo'n manier van elkaar verschillen dat (1) er kwaliteitsverschillen tussen deze gedragingen bestaan (een soort betrouwbaarheidsonderzoek is daarvoor nodig), en (2) die kwaliteitsverschillen moeilijk door opleiding of training zijn te beïnvloeden (zou dat wel zo zijn, dan ontstaat een heel andere selectie-vraag), en (3) die verschillen samenhangen met gedragsverschillen die later in de beroepspraktijk zullen blijken, ook in situaties waarvoor wèl een professionele opleiding een minimum-voorwaarde is voor adequaat op kunnen treden (dat is de validiteitsvraag, jazeker).

Het is duidelijk dat de keuze voor de 'sample'-benadering bij het AC betekent dat de bijzondere omstandigheden van de selectie voor de NPA daar een relatief grote rol bij spelen: zij compliceren de selectie in technisch opzicht nogal. Het is dan ook niet verwonderlijk in de nabespreking van de kandidaten sign- en sample-uitspraken in een vrolijke mix door elkaar te zien gebruiken, maar een gewenste situatie is dat natuurlijk niet. Voor de toekomst zal er bij evaluatie en verbetering van de nieuwe AC's zeker op de hier aangestipte punten moeten worden gelet.

High-fidelity versus low-fidelity. De oefeningen in het AC zijn weliswaar bedoeld te lijken op wat de junior politie-officier in de praktijk kan tegenkomen, maar zelfs met heel veel goede wil zijn het geen 'high fidelity' situaties te noemen. Voor de selectie van piloten zou een 'high fidelity' testsituatie een werkelijke vlucht zijn, met een rit in een vlucht-simulator als iets dat daar heel dicht in de buurt komt. Een indringend gesprek over wat de piloot zou doen wanneer ineens zijn zicht wegvalt door aanslag van vulkaanas op de machine, is geen 'high fidelity' situatie. Het onderscheid tussen 'high fidelity' en 'low-fidelity' wordt heel aardig uitgewerkt in Motowidlo, Dunnette & Carter (1990), die een schriftelijke vragenlijst voor selectie voor de politie ontwikkelen op basis van hun 'low-fidelity' concept. Erkennen dat de typische AC-oefening een low-fidelity oefening is, althans zeker voor AC's voor de NPA-selectie, is van belang bij het evalueren en verbeteren van deze AC's. Tegelijk is het een waarschuwing gedragsobservaties uit een AC niet zonder meer als 'sample' te beschouwen van hoe deze kandidaat zich ook in 'high-fidelity' situaties zou gedragen.

Erkennen dat voor de NPA-selectie noodzakelijk slechts met 'low-fidelity' situaties kan worden gewerkt lost nog niet het probleem op dat dat bovendien situaties moeten zijn die geen aanspraak op professionele kennis en ervaring mogen doen, maar wel 'true to life' moeten zijn. Dat blijft lastig, en hier kunnen alleen met grote creatieve krachtsinspanning goede oplossingen worden gevonden. Een voorbeeld van goede uitwerking van deze benadering is te vinden in Schmitt & Ostroff (1986). Het zou een aardige oefening zijn eens na te gaan in hoeverre het Psychotechniek-AC voldoet aan de ontwerp-eisen zoals door Schmitt & Ostroff uitgewerkt.

Overigens, het zou overdreven zijn te stellen dat de 'sign' versus 'sample' benadering een belangrijke controverse zou zijn onder psychologen die zich op enige wijze met persoonlijkheid bezig houden: in de index van het recente handboek van Pervin 1990) komen geen van beide termen voor! In dat handboek is er wel aandacht voor de recent breder aangehangen opvatting dat persoonlijkheid niet zozeer een kenmerk van personen is, als wel van personen in interactie met bepaalde situaties, en ook langs die weg schuift men op van 'sign' naar 'sample' benadering omdat immers die situaties 'gesampled' moeten worden.

Groeipotentieel, trainbaarheid, plooibaarheid.

Een belangrijk onderdeel van beoordeling en beraadslaging is het groeipotentieel, de trainbaarheid, de plooibaarheid van de kandidaten. Het gaat dan om zowel de voorschakeling, het NPA-traject, als het functioneren in een korps. In vergelijking tot autochtone kandidaten moet bij deze T & M kandidaten nogal sterk worden gespeculeerd over de mogelijkheden van persoonlijke ontwikkeling in gewenste richtingen, ter opheffing van gesignaleerde tekorten of gebreken. Dat is heel boeiend, omdat het in de literatuur over personeelsselectie een vrijwel niet bestaande thematiek is, maar weer wel in de folklore van personeelsmanagers wanneer het over loopbaanplanning gaat. Het is zeker nodig een poging te doen ingangen in de literatuur te vinden om met deze merkwaardige problematiek verder te komen.

Bij Jansen (1991) is in de index niets te vinden op de trefwoorden van deze paragraaf, wel op 'talent' en 'potentieel'. Jansen stelt dat zijn boek bij uitstek over talent en potentieel handelt (p. 9): "In het eerste deel staan de vele manieren om management-talent op het spoor te komen centraal, in het tweede deel de diverse technieken voor het tot bloei brengen van management-capaciteiten." Heel teleurstellend is het dan te ontdekken dat 'management-potentieel' niet wordt gedefinieerd of beschreven, en geen verwijzingen naar relevant empirisch onderzoek over dat begrip worden gegeven. Management-potentieel is bij Jansen iets dat bestaat 'in the eye of the beholder': top-managers kunnen over management-potentieel oordelen. Kenmerkend zijn passages als deze (p. 62): "In alle gevallen is het bij schoolverlaters zinvol met een stofkam op zoek te gaan naar de dimensie-taak-combinaties in hun studieverleden die passen in het gewenste profiel van leiding geven, en die na evaluatie informatie zouden kunnen geven over de aanwezigheid van management-potentieel." Verdere toelichting, uitleg, en techniek geeft Jansen niet. Bij Jansen blijft het beoordelen van management-potentieel een intuïtieve zaak, met volstrekt onbekende validiteit, en hij geeft ook geen aanwijzingen hoe assessoren kunnen worden getraind op dit soort beoordeling. Jansen is daarin niet de enige, bijv. ook McLeod (1988) begint een hoofdstuk over assessment-centres met vergelijkbare uitspraken over potentieel, Seegers (1989) drukt de gelijkstelling al in de titel van zijn hoofdstuk uit. Het probleem lijkt te zijn dat auteurs in de wereld van assessment-centers het AC zèlf bijna 'per definitie' gelijkstellen met assessment van management-potentieel. Dat is een cirkelredenering waar niemand wijzer van wordt, en die niet tot zinvol valideren kan leiden. De term 'potentieel' houdt niets meer in dan de voorspelling die op basis van AC, of welke andere test dan ook, kan worden gedaan, het gaat om predictieve validiteit voor management-functies.

Over trainbaarheid gesproken. Teruggrijpend op het eerder gegeven voorbeeld van toetsen in het onderwijs: in de traditioneel overal gangbare 'sign'-benadering is er altijd het risico dat studietoetsen afglijden tot intelligentietests. Immers, een toets opgevat als 'sign' voor de mate waarin iemand de stof 'begrijpt', zet de deur open naar toetsvormen waarbij alleen op dat begrip wordt gelet, veronachtzamend dat het gaat om begrip dat in het onderwijs of door zelfstudie moet zijn verkregen, en dat is per definitie iets geheel anders dan algemene intellectuele vaardigheid. Een 'sample'-benadering zou in het onderwijs het heilzame effect kunnen hebben dat erin wordt benadrukt dat het gaat om stofbeheersing die door studie moet zijn verkregen.

Voor de NPA-selectie doet zich in zekere zin het omgekeerde voor: het is alleen zinvol gedrag te 'samplen' wanneer het gaat om moeilijk of niet verder te trainen gedragingen. In bijzondere gevallen kan afzonderlijk worden onderzocht of bepaalde kandidaten op bepaalde gedragsdimensies die wèl trainbaar zijn, die extra training ook nodig hebben. Voor de selectie van allochtone kandidaten is het laatste in zekere zin niet relevant, omdat kandidaten die overigens geschikt zijn, hierop niet zullen afvallen, ook al zijn er extra opleidingskosten mee gemoeid.

Ook voor het begrip 'trainbaarheid' is het probleem dat er moeilijk literatuur over is te vinden, en daarmee ontbreekt dan ook de mogelijkheid tot een empirische onderbouwing voor het gebruik van 'trainbaarheid' voor selectie. Zo is daar het boek van Phillips (1990) dat over iets vergelijkbaars gaat, nl. de investeringen die door werkgevers van jonge mensen met een hoge opleiding worden gedaan, terwijl toch vaak deze mensen, althans in de USA, na relatief korte tijd van werkgever veranderen. Phillips geeft geen enkel aanknopingspunt voor zoiets als 'trainbaarheid', al geeft hij wel zeer veel informatie over waarom trainingen voor de werkgever vaak slecht aflopen, nl. met het vertrek van de trainee waarin juist veel is geïnvesteerd. Downs (1989) gaat wel uitgebreid in op trainbaarheidstests, maar dat blijkt uitsluitend eigen werk te betreffen, zij het ook dat het een indrukwekkend research- en ontwikkelingsprogramma is. Het idee van Downs is het bekende: niets voorspelt zo goed als eerder succes: "A trainability test is, as its name implies, a test to predict the ability of apllicants to succeed in training. It involves giving applicants a highly structured period of training in the skill they will have to learn if their apllication is successful, and then seeing how well they have absorbed the instruction and can carry out the test they have been taught." Downs spreekt dan over ambachtelijke taken. In Nederland is iets dergelijks ooit gedaan met een proefklas als selectie voor het gymnasium (Stellwag, 1955).

Voor allochtone kandidaten die zich bovendien door taalproblemen moeilijk laten beoordelen wordt de verleiding groot de selectieve beoordeling als het ware te vervangen door een beoordeling op groeipotentieel etc. Het laatste zou geen aanvaardbare procedure zijn, tenzij voor de beoordeling op groeipotentieel etc. dezelfde maatstaven voor kwaliteit van de selectieprocedure worden aangelegd (validiteit). Een complicatie is hier dat de selectie niet alleen in relatieve zin moet worden onderbouwd, daarvoor is een redelijke predictieve validiteit voldoende, maar ook in absolute zin: er moet een zekere garantie zijn dat kandidaten uiteindelijk zullen voldoen aan minimale geschiktheidseisen, kandidaten moeten het risico dat zij uiteindelijk niet aan geschiktheidseisen voldoen zelf kunnen dragen. De gebruikte formulering suggereert dat de beoordeling op groeipotentieel etc. gebeurt juist omdat kandidaten op het moment van selectie niet voldoen aan minimale geschiktheidseisen.

In hoeverre wordt 'groeipotentieel' inderdaad als afzonderlijke dimensie, als afzonderlijk kenmerk beoordeeld? Of is het misschien zo dat het een soort aanhangsel is bij ieder van de andere beoordelingsdimensies: de kandidaat staat op deze dimensie zus en zo, 'maar heeft groeipotentieel'?

Groeipotentieel, trainbaarheid en plooibaarheid zijn aan de persoon toegedachte kenmerken, en daarbij wordt impliciet de situatie waar de persoon zich in bevindt als gegeven en niet plooibaar beschouwd. Het gaat dan tenminste om drie nogal verschillende typen situaties: die van de selectieprocedure zelf, het opleidingstraject, en het korps waarin de junior politie-officier komt te werken. Het is evident dat juist voor allochtone kandidaten de situatie waarin moet worden gepresteerd niet buiten beschouwing kan worden gelaten. Maar ook vanuit de 'sign' versus 'sample' problematiek bezien is het duidelijk dat het alleen letten op persoonlijke kenmerken geen recht doet aan de kandidaten, en kwaliteitsgebreken in de organisatie toegedekt houdt.

Voor autochtone kandidaten, evenals overigens voor allochtone kandidaten in de 'normale' procedure, is groeipotentieel niet een afzonderlijke beoordelingsdimensie. Toch op deze dimensie beoordelen voor bijzondere groepen zoals de T & M groep vergt een heldere positiebepaling.

Intellectuele capaciteiten

Een opvallend verschil met de 'normale' selectieprocedure is dat er kandidaten zijn die op intellectuele capaciteiten als 'matig' worden beoordeeld. Dat is een stand van zaken die vraagt om nadere uitwerking en standpuntbepaling. Wat zijn de gevolgen van een naar deze dimensie toegeeflijk toelatingsbeleid, kan het aannemelijk worden gemaakt dat deze allochtone kandidaten in hun verdere loopbaan vergelijkbare mogelijkheden hebben als andere groepen in de selectie voor de NPA?

Intellectuele capaciteiten zijn in het type selectieprocedure zoals voor de NPA de belangrijkste bepalers van de predictieve validiteit van de selectie. Het is op zich denkbaar en verdedigbaar om bepaalde groepen kandidaten toe te laten die naar intellectuele capaciteiten bezien gemiddeld anders, lager, scoren dan andere groepen: daar kunnen immers andere compenserende kenmerken tegenoverstaan, of andere doelstellingen.

Een mogelijk probleem is hier de wet van de remmende achterstand. Deze kandidaten zullen het in veel opzichten in hun opleiding en functie moeilijker hebben dan overigens vergelijkbare autochtone kandidaten. Voor deze kandidaten komt daar dan bij dat zij juist minder persoonlijke vaardigheden bezitten om met die extra moeilijkheden goed om te gaan. Ook hebben zij in opleiding en beroep dagelijks te maken met autochtone collega's die zeer scherp juist op intellectuele capaciteiten zijn geselecteerd. De vraag is dan hoe deze T & M kandidaten het straks gaan doen, in vergelijking tot andere deelgroepen. Het is mogelijk dat T & M kandidaten in de mix van toegelaten dagstudenten, extraneï, academici en andere allochtonen een eigen aanvaardbare en aanvaarde plaats innemen. De vraag is of de kans daarop voldoende groot is. Wat het NPA-traject betreft zullen ervaringen dat op korte termijn uit kunnen wijzen. Voor het beroeps-traject zullen de empirische gegevens nog lang op zich laten wachten, en moet er voorlopig op worden gespeculeerd dat wat in de NPA-periode goed is gegaan, dan waarschijnlijk ook in de beroepssituatie goed kan gaan.

Zolang geen empirische gegevens voor deze groep kandidaten beschikbaar zijn, kan worden gekeken naar empirisch onderzoek voor andere groepen, onder mogelijk analoge omstandigheden.
Zo heeft Chacko (1982) een onderzoek gedaan naar de relatie tussen de mate waarin vrouwelijke managers voelen te zijn toegelaten op basis van een voorrangsregeling en de voldoening die men in het werk heeft, de binding aan de organisatie, en stress in het werk. "The results showed that those women who perceived that they were selected because of their sex had less organizational commitment, less satisfaction with their work, with supervision, and with their co-workers, and experienced more role conflict and role ambiguity than women who felt sex was not an important factor in their selection." Het is duidelijk dat hier een moeilijk en complex terrein wordt betreden. Het gaat gaat er echter om de risico's in kaart te brengen, om daaruit af te kunnen leiden op welke signalen in het bijzonder moet worden gelet. Wanneer attributie in de door Chacko aangeduide zin voor een bepaalde groep kandidaten een probleem bij het toekomstig functioneren kan gaan worden, dan kan gekeken worden of in de selectieprocedure inzicht kan worden verkregen in attributief gedrag van kandidaten.

Wiggers (1991) geeft een zorgvuldige uitwerking van het begrip voorkeursbehandeling en zijn maatschappelijke betekenis of mogelijke maatschappelijke gevolgen voor betrokkenen. Patterson (1989) geeft een overzicht van de Amerikaanse situatie.

Het is te verwachten dat uitwerken van deze thematiek uiteindelijk leidt tot discussie over de vraag op welke wijze bepaalde gegevens en aanwijzingen van invloed zullen zijn op uiteindelijke selectie-beslissingen. Wanneer bepaalde kandidaten duidelijk grotere risico's lopen in de toekomst uit te vallen, dan zou immers dat risico voor de minister nog aanvaardbaar kunnen zijn, terwijl het dat voor de kandidaat al lang niet meer is (en omgekeerd).

Het ligt niet erg voor de hand de juist geschetste problemen in het persoonlijk functioneren op te vangen of te voorkomen door de groepscohesie zo groot mogelijk te maken. Daar zijn weliswaar technieken en procedures voor te ontwerpen, maar het zou haaks staan op ieder beleid dat is gericht op de kwaliteit van de organisatie (van zowel NPA als het afzonderlijke korps).

Extreme scores en gedrag

Enkele kandidaten scoren extreem slecht. Dat is zelfs zo opvallend, dat naar bijzondere redenen voor dat slechte scoren zou kunnen worden gezocht, en inderdaad is daarover ook gespeculeerd (vooral in termen van geblokkeerd zijn door vervelende ervaringen of teleurgesteld zijn in verwachtingen). Er zijn geen doorkoppelingen naar culturele problemen gemaakt.

Dit is een heel 'tricky' gebied, omdat in feite de zich zo gedragende kandidaat zich onttrekt aan het regime van de selectieprocedure. Het kan natuurlijk niet zo zijn dat heel aannemelijke verklaringen voor extreem slecht scoren in de plaats komen van het gedrag dat bij het betreffende onderdeel juist ter beoordeling behoort te staan. Een kandidaat die zich zo weet te verschonen van bepaalde onderdelen van de selectieprocedure, blijft onbeoordeelbaar, hoe goed de argumenten ook zijn, omdat een beoordeelbare prestatie of gedraging niet is geleverd.

Er ligt hier mogelijk een probleem op het punt van culturele bias. De typische Nederlandse selectieprocedure is gebaseerd op stilzwijgende afspraken over hoe men zich in dergelijke procedures gedraagt, en die afspraken zijn ongetwijfeld cultureel bepaald. Allochtone kandidaten vallen mogelijk veel makkelijker uit deze 'rol' dan autochtone kandidaten. Op zich verandert dat niets aan de conclusie dat voor een bepaald onderdeel er geen bruikbare beoordeling kon worden verkregen, maar het zou er wel toe kunnen leiden dat in bepaalde gevallen dan wordt overgegaan tot verlenging van de selectieprocedure, tot een herkansing onder condities waarin de kandidaat wèl kan 'scoren'.

gelijke kansen - speciale behandeling

In de literatuur wordt vooral veel aandacht besteed aan gelijke kansen en onbevooroordeelde tests (Drenth, 1989). De selectie voor de T & M groep, hoewel daar mogelijk 'bias' aanwijsbaar is bij onderdelen van de selectie, geeft zeker geen aanleiding tot twijfel aan tenminste gelijke kansen voor deze kandidaten vergeleken met autochtone kandidaten. Integendeel, het gevaar bestaat dat er zoveel positieve actie in de procedure zit dat een en ander tot een te zware belasting van de kandidaten leidt, zeker voor de kandidaten die uiteindelijk worden afgewezen of op een later moment alsnog afvallen.

Een punt van aandacht zou moeten zijn dat er wel heel erg veel personen en instanties rechtstreeks bij de selectie van deze kandidaten zijn betrokken. Daardoor kan het gevaar ontstaan dat kandidaten klem komen te zitten tussen deze vele raderen, zonder dat dat wordt opgemerkt. Wanneer bij de evaluatie blijkt dat bepaalde kandidaten eigenlijk beter niet aan de selectieprocedure hadden kunnen deelnemen, is dat een duidelijk signaal dat de selecteurs gezamenlijk de regie ontberen van een enkele persoon die persoonlijk verantwoordelijk is voor ieder van de kandidaten die deze procedure doorlopen. In het algemeen zou een poing kunnen worden gedaan de selectieprocedure expliciet te rechtvaardigen, in vergelijking tot richtlijnen (NIP, APA) of codes (bv. de Engelse 'Commission for Racial Equality Race Relations Code of practice, gedeeltelijk afgedrukt in Sidney (1988, p. 363)).

Een dergelijke directe persoonlijke verantwoordelijkheid is ook van belang voor de kandidaat zelf, en voor de zuiverheid van de selectieprocedure. De kandidaat heeft dan een duidelijk adres waar hij of zij met eventuele problemen terecht kan, zodat tenminste sommige blokkades kunnen worden vermeden. De zuiverheid van de selectieprocedure vraagt dat assessoren zo weinig mogelijk privé-omstandigheden van de kandidaten hoeven te weten, maar dat deze uiteindelijk wel tot gelding kunnen worden gebracht bij het opstellen van de aanbeveling aan de minister.

Tenslotte

Het bovenstaande is nogal 'problematiserend' van karakter. Het is uitdrukkelijk mijn bedoeling geweest een aantal thema's aan te snijden die in de nabije toekomst aandacht behoeven. Het is niet waarschijnlijk dat de genoemde problemen op een bevredigende manier kunnen worden opgelost of vertaald naar procedures en instrumenten. Het gaat niet zozeer om het bereiken van oplossingen, als wel om het kiezen van duidelijke standpunten. Een heldere positiebepaling maakt het mogelijk alle betrokkenen en vooral de kandidaten zelf de bedoelingen van de selectieprocedure goed uit te leggen. In kaart brengen van de belangrijke en gevoelige thema's is bovendien nodig om gebruik te kunnen maken van belangrijke ontwikkelingen elders, in zowel de wetenschap als de toepassingspraktijk (bv. Gifford, 1989 a,b).

Literatuur

Chacko, T.I. (1982). Women and equal employment opportunity: some unintended effects. Journal of Applied Psychology, 67, 119-123.

Downs, S. (1989). Job sample and trainability tests. In Herriot, P. (Ed.) Assessment and selection in organizations. London: Wiley, 391-399.

Drenth, P.J.D. (1989). Psychological testing and discrimination. In Herriot, P. (Ed.) Assessment and selection in organizations. London: Wiley, 71-80. Eerder gepubliceerd als: Psychologische selectie en discriminatie. Gedrag en Observatie, 1988, vol. 1, #3, 12-22.

Duran, R.P. (1989). Testing of linguistic minorities. In Linn, R.L. (Editor) (1989). Educational Measurement. London: Collier Macmillan Publishers, 573-588.

Gifford, B.R. (Ed.)(1989). Test policy and the politics of opportunity allocation: the workplace and the law. Dordrecht: Kluwer Academic Publishers.

Gifford, B.R. (Ed.)(1989). Test policy and test performance: education, language and culture. Dordrecht: Kluwer Academic Publishers.

Hughes, A. (Ed.)(1988). Testing English for university study. Modern English Publications in association with the British Council.

Jansen, P.G.W. (1991). Het beoordelen van managers. Effectiviteit van assessment center methoden bij selectie en ontwikkeling van managers. Baarn: Nelissen.

Jong, J.H.A.L. de, & Stevenson, D.K. (Eds.)(1990). Individualizing the assessment of language abilities. Philadelphia: Multilingual Matters Ltd.

Linn, R.L. (Editor) (1989). Educational Measurement. London: Collier Macmillan Publishers.

Lonner, W.J., & Berry, J.W. (Eds.)(1986). Field methods in cross-cultural research. London: SAGE.

Motowidlo, S.J., Dunnette, M.D., & Carter, G.W. (1990). An alternative selection procedure: the low-fidelity simulation. Journal of Applied Psychology, 75, 640-647.

Novick, M.R., & Ellis, D.D. (1977). Equal opportunity in educational and employment selection. American Psychologist, 32, 306-320.

Novick, M.R. (1980). Policy issues in fairness in testing. In Kamp, L.J.Th. van der, Langerak, W.F., & de Gruijter, D.N.M. (Editors). Psychometrics for educational debates. New York: Wiley 123-137.

O'Connor, M.C. (1989). Aspects of differential performance by minorities on standardized tests: linguistic and sociocultural factors. In Gifford, B.R. (Ed.) Test policy and test performance: education, language and culture. Dordrecht: Kluwer Academic Publishers, 129-182.

Patterson, P.O. (1989). Employment testing and Title VII of the Civil Rights Act of 1964. In Gibbons, B.R. (Ed.)(1989). Test policy and the politics if opportunity allocation: the workplace and the law. Dordrecht: Kluwer, 83-120.

Pervin, L.A. (Editor)(1990). Handbook of personality. Theory and research. London: Teh Guilford Press.

Petersen, N.S., & Novick, M.R. (1976). An evaluation of some models for culture-fair selection. Journal of Educational Measurement, 13, 3-30.

Phillips, J.J. (1987). Recruiting, training and retaining new employees. Managing the transition from college to work. San Francisco: Jossey-Bass.

Rath, J. (1991). Minorisering: de sociale constructie van 'etnische minderheden'. Amsterdam: Sua.

Schmitt, N. en Ostroff, C. (1986). Operationalizing the 'behavioral consistency' approach: selection test development based on a content-oriented strategy. Personnel Psychology, 39, 91-108.

Seegers, J.J.J.L. (1989). Assessment centres for identifying long-term potential and for self-development. In Herriot, P. (Ed.) Assessment and selection in organizations. London: Wiley, 745-771.

Snow, R.E., & Lohman, D.F. (1989). Implications of cognitive psychology for educational measurement. In Linn, R.L. (Ed.). Educational measurement. London: Collier Macmillan Publishers, 263-331.

Testscreeningscommissie (1990). Toepasbaarheid van psychologische tests bij allochtonen. Rapport van de testsscreeningscommissie (voorzitter W.K.B. Hofstee) ingesteld door het LBR in overleg met het NIP. Utrecht: Landelijk Bureau Racismebestrijding. Amsterdam: Nederlands Instituut van Psychologen.

Triandis, H.C., & Berry, J.W. (Eds.)(1980). Handbook of cross-cultural psychology. Volume 2: Methodology. London: Allyn and Bacon.

Tsang, C.L. (1989). Informal assessment of Asian Americans: a cultural and linguistic mismatch? In Gifford, B.R. (Ed.) Test policy and test performance: education, language and culture. Dordrecht: Kluwer Academic Publishers, 231-258.

Webber, C. (1989). The mandarin mentality: civil service and university admissions testing in Europe and Asia. In Gibbons, B.R. (Ed.)(1989). Test policy and the politics if opportunity allocation: the workplace and the law. Dordrecht: Kluwer, 33-60.

Wiggers, J.H. (1991). Recht doen aan gelijkheid. Een beschouwing over voorkeursbehandeling en de betekenis van het gelijkheidsbeginsel in het grensgebied van recht en sociaal-politieke ethiek. Nijmegen: Ars Aequi Libri.

Wilbrink, B. (1980). Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor Onderwijsresearch, 5, 49-62. html

Wilbrink, B. (1983). Toetsvragen schrijven. Utrecht: Het Spectrum. (Aula 109) (oorspronkelijke tekst is Aula 1983 1.4 Mb pdf, herziening gestart 2006 op hfdst 1 e.v.)

Wilbrink, B., & Koppen, J.K. (1990): Employment prospects for graduates. Paper EAIR European Association for Institutional Research, 12th international forum september 1990, Lyon. html

overige literatuur

Hunter, J.E., & Schmidt, F.L. (1978). Differential and single-group validity of employment tests by race: a critical analysis of three recent studies. Journal of Applied Psychology, 63, 1-11. (The single-group validity hypothesis asserts that some tests will be valid for whites but not for blacks, and vice versa; the evidence against this hypothesis is now virtually overwhelming. The differential validity hypothesis asserts that some tests will be more valid for one race than the other; the evidence now suggests that this hypothesis will also prove false.)

Bobko, P., & Bartlett, C.J. (1978). Subgroup validities: differential definitions and differential prediction. Journal of Applied Psychology, 63, 12-14. Repliek op Hunter & Schmidt (1978).

Boehm, V.R. (1978), Populations, preselection, and practicalities: a reply to Hunter and Schmidt. Journal of Applied Psychology, 63, 15-18. (Arguments are presented indicating that Hunter and Schmidt's (1978) conclusions are both statistically questionable and irrelevant to practical issues involved in differential prediction.)

Katzell, R.A., & Dyer, F.J. (1978). On differential validity and bias. Journal of Applied Psychology, 63, 19-21. Repliek op Hunter & Schmidt (1978). (... we reassert that it is premature to dismiss the issue of differential validity. Furthermore, that issue is not relevant to the one of test fairness.)

Ironson, G.H., Guion, R.M., & Ostrander, M. (1982). Adverse impact from a psychometric perspective. Journal of Applied Psychology, 67, 419-432. (Applying latent trait theory to an analysis of a 64-item multiple choice skill test administered to 1,035 police recruits, we illustrate how two shorter tests measuring the same attribute, but having different test characteristic curves, have different degrees of adverse impact. ... We propose that the concept of adverse impact be redefined in terms of the degree to which test scores distort any underlying true subgroup differences in the attribute measured.)

Chacko, T.I. (1982). Women and equal employment opportunity: some unintended effects. Journal of Applied Psychology, 67, 119-123. (relationships between perceived preferential selection and several organizational outcome variables such as organizational commitment, role stress, and satisfaction.)

Darlington, R.B. (1971). Another look at 'cultural fairness'. Journal of Educational Measurement, 8, 71. (Four definitions of 'cultural fairness' are examined and found to be not only mutually contradictory, but all based on the false view that optimum treatment of cultural factors in test construction or test selection can be reduced to completely mechanical procedures.)

Petersen, N.S., & Novick, M.R. (1976). An evaluation of some models for culture-fair selection. Journal of Educational Measurement, 13, 3-30. (It is then suggested that the necessary level of compensatory treatment for disadvantaged persons can be guaranteed only through the formal use of an appropriate model based on the Von Neumann-Morgenstern theory of maximizing expected utility. Three of the models studied (Cleary, Einhorn and Bass, Gross and Su) are based on what we judge to be the correct conditional probability and are special cases of the Expected Utility Model, but each has limited applicability.)

Cronbach, L.J. (1976). Equity in selection - Where psychometrics and political philosophy meet. Journal of Educational Measurement, 13, 31-42.

Darlington, R.B. (1976). A defense of 'rational' personnel selection, and two new methods. Journal of Educational Measurement, 13, 43-52.

Linn, R.L. (1976). In search of fair selection procedures. Journal of Educational Measurement, 13, 53-58.

Sawyer, R.L., Cole, N.S., & Cole, J.W.L. (1976). Utilities and the issue of fairness in a decision theoretic model for selection. Journal of Educational Measurement, 13, 59-76.

Novick, M.R., & Petersen, N.S. (1976). Towards equalizing educational and employment opportunity. Journal of Educational Measurement, 13, 77-88.

Breland, H.M., & Ironson, G.H. (1976). DeFunis reconsidered: a comparative analysis of alternative admissions strategies. Journal of Educational Measurement, 13, 89.

Wright, R.J., & Bean, A.G. (1974). The influence of socioeconomic status on the predictability of college performance. Journal of Educational Measurement, 11, 277. (Bij kandidaten uit lagere sociaaleconomische milieus zijn studieresultaten op basis van de SAT minder goed voorspelbaar)

Jones, M.B. (1973). Moderated regression and equal opportunity. Educational and Psychological Measurement, 33, 591-602.

Katzell, R.A., & Dyer, F.J. (1977). Differential validity revived. Journal of Applied Psychology, 62, 137-145.

Kaye, D. (1982). Statistical evidence of discrimination. Journal of the American Statistical Association, 77, 773-783. (It is suggested that the classical method of hypothesis testing used by the Supreme Court is not appropriate to testing whether a given defendant discriminated. Presentation of p values, prediction of confidence intervals, and likelihood functions are shown to be preferable. Bayesian methods are also considered. Comments by S.E. Fieberg, D.H. Jones, L. Brilmayer, and rejoinder by D. Kaye 783-792.)

Kirp, D.L., & Yudof, M.G. (?). Educational policy and the law. Cases and materials. Berkeley, California: McCutchan. (p. 477: DeFunis v Odegaard)

Ledvinka, J., Markos, V.H., & Ladd, R.T. (1982). Long-range impact of 'fair selection' standards on minotity employnt. Journal of Applied Psychology, 67, 18-36. (Alternate statistical standards of 'fair selection' are reviewed, including the standard that seems to be implict in the federal employee selection guidelines. A human resource planning model is developed to simulate the impact of each standard on minority employment. ... The model is apllied to staffing data from an existing organization. The simulation shows that the fairness standard implicit in the federal selection guidelines (Cleary's regression model) would have a worse effect on black employment than would the implicit fairness standard typically used by employers (similar to Thorndike's constant ratio model).)

Linn, R.L. (1978). Single-group validity, differential validity, and differential prediction. Journal of Applied Psychology, 63, 507-512.

Novick, M.R., & Ellis, D.D. (1977). Equal opportunity in educational and employment selection. American Psychologist, 32, 306-320.

Novick, M.R. (1980). Policy issues in fairness in testing. In Kamp, L.J.Th. van der, Langerak, W.F., & de Gruijter, D.N.M. (Editors). Psychometrics for educational debates. New York: Wiley 123-137.

Petersen, N.S. (1980). Bias in the selection rule - bias in the test. In Kamp, L.J.Th. van der, Langerak, W.F., & de Gruijter, D.N.M. (Editors). Psychometrics for educational debates. New York: Wiley, 103-122.

Rohrbough, J., McClelland, G., & Quinn, R. (1980). Measuring the relative importance of utilitarian and egalitarian values: a study of individual differences about fair distribution. Journal of Applied Psychology, 65, 34-49.

Rudner, L.M., Getson, P.R., & Knight, D.L. (1980). Biased item detection techniques. Journal of Educational Statistics, 5, 213-233. (Limitations and advantages of the approaches in terms of their underlying assumptions and psychometric soundness are discussed.)

Schmitt, N., Coyle, B.W., & Mellon, P.M. (1978). Subgroup differences in predictor and criterion variances and differential validity. Journal of Applied Psychology, 63, 667-672.

Thomas, C.L., Stanley, J.C. (1969). Effectiveness of high school grades for predicting college grades of black students: a review and a discussion. Journal of Educational Measurement, 6, 203-215. (Results tend to indicate that high school grades do not consistently make the greatest contribution in predicting college grades of black students, perhaps particularly of men, whereas they do for whites.)

Thomas, G.E. (1980). Race and sex group equity in higher education: institutional and major field enrollment statuses. American Educational Research Journal, 17, 171-181.

Bartlett, C.J., Bobko, P., & Pine, S.M. (1977). Single-group validity: fallacy of the facts? Journal of Applied Psychology, 62, 155-157.

Boehm, V.R. (1977). Differential prediction: a methodological artifact? Journal of Applied Psychology, 62, 146-154.

Thorndike, R.L. (1971). Concepts of culture-fairness. Journal of Educational Measurement, 8, 63.

Trattner, M.H., & O'Leary, B.S. (1980). Sample sizes for specified statistical power in testing for differential validity. Journal of Applied Psychology, 65, 127-134.

overig overig

Alexander et al. (1975). The Wisconsin model of socioeconomic achievement: a replication. AJS.

Angoff & Ford (1973). Item-race interaction on a test of scholastic aptitude. Journal of Educational Meausrement, 10, 95-105.

Angoff, W.H. (1982). Equating and equity. An essay on how standardized tests help ensure that all candidates 'run precisely the same race'. Teh College Board Review, no. 125, Fall , 3-5.

Arvey (1979). Unfair discrimination in the employment interview: legal and psycholoical aspects. PB, 736-765.

Baird (1976). Biographical and educational correlates of graduate and professional school admissions test scores. EPM, 36, 415-420.

Bartlett, C.J., Bobko, P., & Pine, S.M. (1977). Single-group validity: fallacy of the facts? Journal of Applied Psychology, 62, 155-157.

Bichel et al. (1975). Sex bias in graduate admissions: data from Berkeley. Science, 187, 398-404. Reprint in Fairley & Mosteller (1977): Statistics and public policy.

Bobko, P., & Bartlett, C.J. (1978). Subgroup validities: differential definitions and differential prediction. Journal of Applied Psychology, 63, 12-14. Repliek op Hunter & Schmidt (1978).

Boehm (1972). Negro-White differences in validity of employment and training selection procedures. JAP, 56, 33-39.

Boehm, V.R. (1977). Differential prediction: a methodological artifact? Journal of Applied Psychology, 62, 146-154.

Boudon, R. (1973). Education, opportunity, and social inequality. New York: Wiley.

Breland, H.M., & Ironson, G.H. (1976). DeFunis reconsidered: a comparative analysis of alternative admissions strategies. Journal of Educational Measurement, 13, 89.

Byham, W.C., & Spitzer, M.E. (1971). The law and personnel testing. American Management Association. (met daarin de 1970 Guidelines on employment selection procedures.).

Byrne, D., Williamson, B., & Fletcher, B. (1975). The poverty of education: a study in the politics of opportunity. London: M. Robertson.

Cavalier & Slaughter (1982). Autonomy versus affirmative action: what price social justice? Higher Education, 11, 381-395.

Child (1969). Personality in culture. In Borgatta & Lambert (Eds.) Handbook of personality. 82-147.

Cleary (1968). Test bias: prediction of grades of negro and white students in integrated colleges. JEM 5, 115.

Cleary, & Hilton (1968). An investigation of test bias. Educational and Psychological Measurement, 28, 61-75.

Cleary, et al. (1975). Educational uses of tests with disadvantaged students. American Psychologist, 30, 15-41.

Clignet, R. (1974). Liberty and equality in the educational process. New York: Wiley.

Cronbach, L.J. (1976). Equity in selection - Where psychometrics and political philosophy meet. Journal of Educational Measurement, 13, 31-42.

Crooks (1972). An investigation of sources of bias in the prediction of job performance. A six-year study. Proceedings of the inivitational conference, E.T.S.

Darlington, R.B. (1976). A defense of 'rational' personnel selection, and two new methods. Journal of Educational Measurement, 13, 43-52.

Diamond (1979). Sex equity and measurement practices. New Directions for Testting and Measurement, #3, 61.

Drasgow (1982). Biased test items and differential validity. Psychological Bulletin, 95, 526-531.

Duncan, D.D., Featherman, D.L., & Duncan, B. (1972). Socioeconomic background and achievement. London: Seminar Press.

Echternacht (1974). A quick model for determining test bias. Educational and Psychological Measurement, 34, 271-280.

Einhorn, & Bass (1971). Methodological considerations relevant to discrimination in employment testing. Psychological Bulletin, 75, 261-269.

Einhorn, H.J., & Bass, A.R. (1971). Methodological considerations relevant to discrimination in employment testing. Psychological Bulletin, 75, 261-269.

Fincher (1975). Differential validity and test bias. Personnel Psychology, 28, 481-500. (geen kopie)Humphreys & Taber (1973). Ability factors as a function of advantaged and disadvantaged groups. JEM, 10, 109-115.

Flier, v.d., & Drenth (1980). Fair selection and comparability of test scores. Waarschijnlijk In Kamp, L.J.Th. van der, Langerak, W.F., & de Gruijter, D.N.M. (Editors). Psychometrics for educational debates. New York: Wiley

Flude, M. (1974). Sociological accounts of differential educational achievement. In Flude & Ahier (Eds.).

Frazer, Miller & Epstein (1975), Bias in prediction: a test of three models with elementary school children. JEP, 67, 490-494.

Gael, & Grant (1972). Employment test validation for minority and non-minority telephone company service representatives. JAP, 56, 135-139.

Goldman & Hewitt (1975). An investigation of test bias for Mexican-American college students. JEM, 12, 187-196.

Goldman & Hewitt (1976). Predicting the success of black, chicano, oriental and white college students. JEM, 13, 107-118.

Goldman & Richards (1974). The SAT prediction of grades for mexican-american versus anglo-american students at the university of California, Riverside. JEM, 11, 129.

Goldman (1973). Hidden opportunities in the prediction of college grades for different subgroups. JEM, 10, 205-210.

Gross, & Su (1975). Defining a 'fair' or 'unbiased' selection model: a quesion of utilities. JAP, 60, 345-351.

Hansen, et al. (1972). Socio-economic inequities in college entry: a critical specification. AERJ, 9, 573-590.

Heyns, B. (1974). Selection and stratification within schools. American Journal of Sociology, 79, 1434-1451.

Hook & Cook (1979). Equity theory and the cognitive ability of children. Psychological Bulletin, 86, p. 429.

Hout & Morgan (1975). Race and sex variations in the causes of the expected attainments of high school seniors. AJS.

Humphreys (1973). Implications of group differences for test interpretation. In ETS Conference.

Humphreys (1973). Statistical definitions of test validity for minority groups. JAP, 58, 1-4.

Hunter, J.E., Schmidt, F.L., & Rauschenberger, J.M. (1977). Fairness of psychological tests: imlications of four definitions for selection utility and minority hiring. Journal of Applied Psychology, 62, 245-260.

Hunter, Schmidt & Hunter (1979). Differential validity of employemnt tests by race: a comprehensive review and analysis. Psychological Bulletin, 86, 721-735.

Iest, K., & Sloot, B. (1979). Positieve discriminatie en de Amerikaanse grondwet - De zaak Bakke. Ned. JuristenBlad, 11 augustus, afl. 28, 597-608.

Jansen, A. (1976). Uitgangspunten en principes bij personeelsselectie. Nederlands Tijdschrift voor de Psychologie, 31, 161-177.

Jensen (1970). Selection of minority students in higher education. Reprinted in Jensen (1973). Educational differences, p. 223.

Jensen (1971). Do schools cheat minority children? Ed. Res. 14, 3-28. Reprinted in Jensen (1973) Educational differences, p. 274.

Jensen (1974). The effect of race of examiner on the mental test scores of white and black pupils. Journal of Educational Measurement, 11, p. 1.

Jensen (1970). Selection of minority students in higher education. In Jensen (1973) Educational differences. p. 223.

Jensen, A.R. (1980). Bias in mental testing. New York: Free press. Besproken in Psychometrika, 1981, 46, p. 227

Jones, M.B. (1973). Moderated regression and equal opportunity. Educational and Psychological Measurement, 33, 591-602.

Katzell, R.A., & Dyer, F.J. (1977). Differential validity revived. Journal of Applied Psychology, 62, 137-145.

Kirp, D.L., & Yudof, M.G. (?). Educational policy and the law. Cases and materials. Berkeley, California: McCutchan. (p. 477: DeFunis v Odegaard)

Lerner, B. (1978). The Supreme Court and the APA, AERA, NCME Test Standards. American Psychologist, 915-919.

Lerner, B. (1979). Legal issues in construct validity. In: Construct validity in psychological measurement. Proceedings of a colloquium on theory and application in education and employment. Princeton, N.J.: ETS.

Lerner, B. (1979). Tests and standards today: attacks, counterattacks, and responses. New Directions for Testing and Measurement, 3, 15-31.

Lewy (1973). Discrimination among individuals versus discrimination among groups. JEM, 10, 19-24.

Linn & Werts (1971). Considerations for studies of test bias. Journal of Educational Measurement, 8, 1-4.

Linn (1973). Fair test use in selection. Review of Educational Research, 43, 139-163.

Linn, Levine, et al. (1981). Item bias in a test of reading comprehension. Applied Psychological Measurement, 5, 159-173.

Linn, R.L. (1976). In search of fair selection procedures. Journal of Educational Measurement, 13, 53-58.

Linn, R.L. (1978). Single-group validity, differential validity, and differential prediction. Journal of Applied Psychology, 63, 507-512.

Linn, R.L., & Harnisch, D.L. (1981). Interactions between item content and group membership on achievement test items. JEM, 18, p. 109-..

Madaus, G.F. (Ed.)(1983). The courts, validity, and minimum competency testing. Boston: Kluwer-Nijhoff. Besproken in Cont. Ed. Rev., 1983, 2, 43-52.

McCarthy, M.M. (1979). Court cases with an impact on the teaching of reading. Jornal of Reading, 23, 205-212.

Mellenbergh (1982). Contingency table models for assessing item bias. Journal of Educational Statistics, 7, 105-118.

Meredith (1965). A method for studying differences between groups. Psychometrika, 30, 15-30.

Messick, D.M., & v.d. Geer, J.P. (1981). A reversal paradox. PB, 90, 582-593). abstract: "The reversal paradox refers to the possibility of having two variables that are positively (begatively) related while at the same time having the variables negatively (positively) related within each level of some third variable. The relationshp between the paradox and the notion of exchangeability is described. This paradox plays an important role in the theory of the evolution of altruism, and it underlies a chalenge to the 'sure-thing principle' in decision theory. It is involved in a finding that would tempt one to conclude erroneously that sexual discrimination was practiced in graduate admissions by a prominent university. Finally, principles for creating 'reversing' decompositions of statistical relationships are described."

Nichols, D.C., & Mills, O. (Eds.)(1970). The campus and the racial crisis. Washington, D.C.: American Council on Education.\Jencks, & Brown (1975). Effects of hogh schools on their students. Harvard Educational Review, 45, 273-324.

Novick, M.R. (1980). Policy issues in fairness in testing. In Kamp, L.J.Th. van der, Langerak, W.F., & de Gruijter, D.N.M. (Editors). Psychometrics for educational debates. New York: Wiley 123-137.

Novick, M.R., & Ellis, D.D. (1977). Equal opportunity in educational and employment selection. American Psychologist, 32, 306-320.

Novick, M.R., & Petersen, N.S. (1976). Towards equalizing educational and employment opportunity. Journal of Educational Measurement, 13, 77-88.

Oxford Review of Education, vol. 1 nr. 1. Themanummer on equality and education.

Rosenbaum, J.E. (1976). Making inequality (The hidden curriculum of high school tracking). London: Wiley.

Sawyer, R.L., Cole, N.S., & Cole, J.W.L. (1976). Utilities and the issue of fairness in a decision theoretic model for selection. Journal of Educational Measurement, 13, 59-76.

Schmidt, Berner & Humphreys (1973). Racial differences in validiy of employment tests. JAP, 58, 5-9.

Schmitt, N., Coyle, B.W., & Mellon, P.M. (1978). Subgroup differences in predictor and criterion variances and differential validity. Journal of Applied Psychology, 63, 667-672.

Sewell, Hauser, & Featherman (Eds.)(1976). Schooling and achievement in American society. London: Academic Press.

Sewell, W.H., Hauser, R.M. (1975). Education, occupation, & earnings: achievement in the early career. London: Academic Press.

Shepard et al. (1981). Comparison of procedures for detecting test-item bias with both internal and external ability criteria. Journal of Educational Statistics, 6, 317-375.

Silverman et al. (1976). Minority group status and bias in college admissions criteria. EPM, 36, 401-407.

Stanley & Porter (1967). Corelation of SAT score with college grades for negroes versus whites. JEM, 4, 199.

Stanley (1971). Predicting college success of the educationally disadvantaged. Science, 171, 640-647. Reprinted in Aiken (1973: 130).

Stolzenberg (1975). Education, occupation, and wage differences between white and black men. AJS.

Thomas, C.L., & Stanley, J.C. (1969). Effectiveness of high school grades for predicting college grades of black students: a review and a discussion. Journal of Educational Measurement, 6, 203-215. (Results tend to indicate that high school grades do not consistently make the greatest contribution in predicting college grades of black students, perhaps particularly of men, whereas they do for whites.)

Thomas, G.E. (1980). Race and sex group equity in higher education: institutional and major field enrollment statuses. American Educational Research Journal, 17, 171-181.

Thorndike, R.L. (1971). Concepts of culture-fairness. Journal of Educational Measurement, 8, 63.

Trattner, M.H., & O'Leary, B.S. (1980). Sample sizes for specified statistical power in testing for differential validity. Journal of Applied Psychology, 65, 127-134.

Whiting (1968). Methods and problems in cross-cultural research. In Lindzey & Aronson (Eds.) 693-728.Willingham, W. (1970). Free-access higher education. New York: College Entrance Examination Board.

Williams, P. (Ed.)(1969). Cross cultural studies. Penguin Books. Wilson & Porter (1975). The educational attainment process: results from a national sample. AJS.

Young, & Gibson (1963). In search of an explanation of social mobility. BrJStPs, 16, 1-10. (kopie).

Actualiteiten

Commissie Gelijke Behandeling (2011). Het voorkeursbeleid van Rijksuniversiteit Groningen om meer vrouwen te bevorderen tot hoogleraar is niet in overeenstemming met de eisen die aan een dergelijk beleid worden gesteld: verboden direct onderscheid op grond van geslacht bij de bevordering. html

De Volkskrant (24 mei 2006). 'Politie werft nauwelijks Turken en Marokkanen.'

Pogingen om de politie te versterken met meer Turken en Marokkanen missen hun doel. Dat komt naar voren uit onderzoek van tv-programma NOVA. Op een totaal van ruim 46 duizend agenten is 0,6 procent van Marokkaanse komaf en 1,1 procent is van Turkse origine. In landelijke cijfers is dat respectievelijk 1,9 procent Marokkaans en 2,2 procent Turks.
Minister Remkes van Binnenlandse Zaken is daarover teleurgesteld. 'De cijfers zijn te laag,' aldus de bewindsman. 'Ik vind dat er te weinig aan wordt gedaan.' Slechts acht van de 26 korpsen halen hun streefcijfers.

Een vreemd bericht overigens, ik neem toch aan dat de meeste van de bedoelde agenten gewoon in Nederland zijn geboren, en Nederlander zijn. Misschien is de cultuur waarvan 'onze verslaggever' onbedoeld blijk geeft, wel de wortel van het hier gerapporteerde probleem?

Anja Sligter (2006). Gekwalificeerde allochtoon maakt bij politie weinig kans. De Volkskrant, 17 mei 2006 p. 4.

Selectie T & M kandidaten voor de NPA

Enkele observaties en signaleringen

Ben Wilbrink 17 januari 1992

Inhoud

Literatuur

overige literatuur

overig overig

Actualiteiten