annotation Borsboom et al. 2008: Is fair selection possible?

Sorry, I will do my annotations in Dutch. The subject is rather difficult, and too subtle to risk wasting it in an attempt to write in English. I will refer frequently to publications of mine written in Dutch. However, if you happen to be interested in a particular topic, let me know, and I will probably be able to translate it for you (and add the translation to this page).

the main point

The authors use indices success ratio, sensitivity and specificity that earlier were introduced by Millsap and Kwok (2004). Both articles neglect earlier work on bias using the same indices, Petersen and Novick provide an overview. Models using indices of the kind again introduced bij Millsap and Kwok, are called by Petersen and Novick group parity models, because fairness in selection in defined in terms of proportions of the (sub)group that have success if selected, etcetera. The problem with these group parity models is that they are not coherent, as proved in Petersen and Novick. Therefore, interpretation of these indices is difficult, if possible at all in a useful way. Regrettably, Millsap and Kwok, as well as Borsboom, Romeijn and Wicherts, are not aware of earlier work on these same indices. For details see my annotation of Millsap and Kwok here. This is a serious problem, because adopting these indices implies particular positions on what is and is not fair in selection, an unhappy choice from among the models discussed in Petersen and Novick (1976) because the models chosen are not coherent. One of them has not even been endorsed before: the model analysed by Linn (1973) as an academic exercise only.

Millsap & Kwok 2004

Because the article uses questionable methods developed in by Millsap and Kwok (2003), a critical annotation of Millsap & Kwok is in order. I will annotate that article here.

Millsap, Roger E., and Oi-Man Kwok (2004). Evaluating the Impact of Partial Factorial Invariance on Selection in Two Populations. Psychological Methods, 9, 93-115.

waarom annoties bij dit artikel

Alleen al de vraag in de titel Is eerlijke selectie mogelijk? wekt mijn nieuwsgierigheid, want eerlijke selectie is een hoofdthema in mijn onderzoek sinds, laten we zeggen, 1968. Omdat Denny Borsboom heeft bewezen in staat te zijn gevestigde denkbeelden in de psychometrie stevig op te kunnen schudden, zal het zeker de moeite lonen dit artikel grondig te bestuderen.

Ik heb ook een stevige basis in theorie over partijdigheid (bias) nodig, niet alleen voor mijn werk over ontwerpen van toetsvragen, maar ook om greep te krijgen op de elders op mijn website aangekaarte vraag of de Cito Basistoets in zijn rekenopgaven wel eerlijk is voor leerlingen met Nederlands als tweede taal. Ik verzamel de bias-literatuur in een afzonderlijke pagina, waarin dus ook de literatuur is te vinden waarnaar ik in deze annotaties verwijs: hier.

Individual and Institutional Models (Applicant and Employer models)

Laten we, evenals Cronbach en Gleser (1957/1965) deden, helder onderscheid maken tussen twee belangrijke posities die er bij selectieve beslissingen bestaan: de individuele en de institutionele. Wat voor de ene partij een zinvolle analyse is, hoeft dat voor de andere niet te zijn, en vice versa. Natuurlijk is het complexer: beide partijen zullen tot op zekere hoogte rekening willen houden met het belang van de ander. Beide partijen hebben ook nog te maken met concurrenten. Beide partijen handelen strategisch, voorafgaand aan test en beslissing (psychometrici doen vaak alsof alleen analyse achteraf van belang is). En beide partijen kunnen worden overvleugeld door maatschappelijke belangen, zoals neergeslagen in wet- en regelgeving, maar ook in analyses van de maatschappelijke effecten van selectie overal in de samenleving (macro-psychometrie?). Dit lijkt me een vruchtbare opdeling, die weliswaar ongebruikelijk is, maar niet onbekend. Cronbach maakt in 1976 op verhelderende wijze opnieuw dat onderscheid, nu tessen E (employer) en A (applicant), in een analyse van verschillende posities die m.b.t. eerlijkheid betrokken kunnen worden.

Lee J. Cronbach and Goldine C. Gleser (1957/1965). Psychological tests and personnel decisions. Urbana, Illiois: University of Illinois Press.

Cronbach, Lee J. (1976). Equity in selection - Where psychometrics and political philosophy meet. Journal of Educational Measurement, 13, 31-42.

Bij medische diagnostiek is dit onderscheid minder pregnant aanwezig omdat belangen van arts en patiënt meer op een lijn liggen (horen te liggen). Nu ik dat zo opschrijf vind ik het vreemd dat bij beoordelen in het onderwijs het gevoelen dat leerling en leraar hetzelfde belang hebben niet zo duidelijk aanwezig is, mogelijk omdat we dat beoordelen zo vergaand losgemaakt hebben van het onderwijzen zelf.

fouten, verkeerde beslissingen

De inleiding begint met de rol van psychologische tests bij tal van beslissingen, en spreekt in dat verband losjes over verkeerde beslissingen die genomen kunnen worden, en fouten die worden gemaakt. Als Jan zijn studie geneeskunde niet afmaakt, is zijn toelating een foutje geweest, een verkeerde beslissing. Dat is het idee. Het is een wat slordige gedachte, heel gebruikelijk overigens in de psychometrische literatuur (bv. Novick en Jackson, 1974, p. 7 en 117). Het slordige is dat wijsheid achteraf niet helpt bij het nemen van beslissingen vooraf. Een beslissing genomen op basis van een verkeerde interpretatie van beschikbare gegevens, dat mag echt een verkeerde beslissing heten. Maar dat is niet waar dit artikel over gaat: alle beslissingen in dit artikel gebruiken de best beschikbare informatie op een juiste manier, en zijn dus juiste beslissingen. In besliskundige termen: de beste beslissing is die welke het verwachte nut maximaliseert. Overigens is de positie van Cleary (1968) een andere dan maximaliseren van nut: zij optimaliseert de voorspelling als puntschatting op het criterium. Dat verwachtingen meestal niet uitkomen, dat is een andere zaak. De mate waarin dat het geval is, is hopelijk ongeveer bij de beslissers bekend uit onderzoek naar de voorspellende waarde van de gebruikte gegevens. Nieuwe informatie, over Jan die zijn studie staakt, kan desgewenst worden toegevoegd aan het bestand van kennis over de gebruikte predictoren, maar dat de beslissing om Jan toe te laten een verkeerde was, dat volgt op geen enkele manier. Het model van Einhorn en Bass is overigens een mooi voorbeeld hoe het ook kan, zonder 'foute' beslissingen te impliceren: bij een gegeven score op de predictor gat het om de waaschijnlijkheid dat kandidaten met deze score zich op het criterium boven een bepaalde grensscore bevinden. Dat criterium mag ook de onderliggende trek zijn (de Millsap en Kwok aanpak via meetinvariantie; Borsboom e.a. maken nu de logische combinatie van (schending van) meetinvariantie op de voorspellende test, met (schending van) predictie-invariantie van de predictor t.o.v. het te voorspellen riterium). Een waarschijnlijkheid dus, niet een 'terechte' of 'onterechte' beslissing.

Het punt is voorlopig alleen dat het oppassen is met de woorden die het artikel gebruikt. Straks zal nog blijken dat de wiskundige modellen ook op dit idee van fouten zijn gestoeld. Dat betekent niet dat de resultaten van de analyse dan ondeugdelijk zijn, maar ze hangen wel af van een mogelijk te simpele vooronderstelling over hoe het zit met die beslissingen. Natuurlijk zijn er vereenvoudigende vooronderstellingen nodig om de vraagstelling van het artikel hanteerbaar te maken, daar gaat het op zich niet om. De vraag is: zijn de gemaakte keuzen overtuigend gezien alternatieven die ook beschikbaar zijn, zij het elders in de literatuur.

Het artikel noemt voorbeelden voor John en Mary van fouten, waarbij opvalt dat het nog knap lastig zal zijn er achter te komen wat er dan precies fout is, omdat de fout bij John slaat op een (latent) vermogen om met succes te studeren, en bij Mary p een (latente) ziekte (condition). Wat latent is, verborgen is, is niet zichtbaar. Deze voorbeelden zijn onhandig, omdat van hieruit de stap volgt naar eerlijkheid: iedere geteste kandidaat moet een eerlijke kans hebben op een juiste beslissing (dat is: een beslissing met een uiteindelijk goede afloop). Wat is ‘eerlijk’? In ieder geval dat de test niet partijdig, niet biased, is tegen deze of gene groep. Dit is het thema van het artikel.

Van belang is om meteen al te weten dat de eerlijkheid van de bedoelde kans op een juiste beslissing in dit artikel gerefereerd is aan de kansen van anderen die op de latente trek zoals door de test gemeten, dezelfde positie hebben (even slim, even goede ware beheersing, etcetera; en mogelijk behorend tot een andere groep). NB: in deze formulering (de mijne), doet het er niet toe dat het om de juiste beslissing gaat: vervang hem door bijvoorbeeld toelating, dat komt op hetzelfde neer: eerlijkheid is kansgelijkheid voor wie gelijk is op de door de test gemeten latente trek, ongeacht groepslidmaatschap.

NB: Ik moet nog eens opnieuw checken of Borsboom e.a. eerlijkheid definieren voor personen met dezelfde positie op de latente trek: als dat zo is, dan is ongebrijpelijk dat zij vervolgens met populatie-proporties werken om eerlijkheid te verkennen, dus een group parity model hanteren, zelfs meerdere tegelijkertijd (namelijk voor success ratio, sensitivity en is het in feite telkens een ander model, vgl Petersen en Novick 1976). Het zal nog blijken dat de positie van een individu en die van een groep verschillend zijn, en mogelijk gaat dit artikel wat slordig met dat verschil om. Ik wijs op de reeks modellen zoals besproken in Petersen en Novick (1976), een reeks die uiteenvalt in twee categorieën: modellen conditioneel op een gekozen waarde voor de voorspeller (Cleary, 1968; Einhorn & Bass, 1971), en group parity models waarbij eerlijkheid gedefnieerd wordt in termen van proporties uit de hele groep kandidaten die een verschillende behandeling krijgen en verschillend uitkomen op de criterium-variabele (bij Borsboom c.s.: de onderliggende trek). Merk ook nog op dat deze indeling van twee typen modellen niet noodzakelijk iets heeft te maken met het onderscheid tussen individuele en institutionele beslissingen. Het wordt dus meteen al ingewikkeld, en dat is ook het probleem met analyses van en onderzoek naar bias: het gaat teleksn om een grote handen vol lastige begrippen die in relatie tot elkaar ook nog weer complexe patronen kunnen vormen.

Melvin R. Novick and Paul H. Jackson (1974). Statistical methods for educational and psychological research. London: McGraw-Hill.

partijdigheid (bias)

De eerlijkheid waarvan sprak is in de titel van dit artikel heeft een iets andere betekenis dan welke dit begrip in het dagelijks leven heeft. In de psychometrische literatuur zijn verwante begrippen die van partijdigheid (Kok, 1988), de overtaalde Engelse term bias, of scheefheid als een neutrale vertaling van bias. Het gaat hier om begrippen zoals die in de psychometrische literatuur, en literatuur over educational measurement zijn te vinden. Hoewel er wel verwijzingen zijn naar andere disciplines, is het toch vooral het geval dat het denken onder psychometrici weinig heeft te maken met dat van juristen (over gelijke behandeling), rechtsfilosofen (zoals Rawls), of sociologen (die bij direct betrokkenen informeren wat zij ervaren aan eerlijkheid of gebrek daaraan). Een belangrijke constatering is ook dat de psychometrische literatuur vooral op theoretische ontwikkelingen is gericht, en zich minder gelegen laat liggen aan de concrete selectie- en toetspraktijk. Kok, 1988, doet onderzoek naar partijdigheid van toetsitems in de Cito Basistoets, evenals Uiterwijk in 1994. Er wordt zeker wel empirisch onderzoek gedaan, door Kok gebeurt dat in nauwe samenhang met de ontwikkeling van de theorie (Mellenbergh, 1989), maar dat empirisch onderzoek blijkt buitengewoon lastig en levert dus niet zomaar heldere resultaten op. Dat laatste is ook niet verwonderlijk: Shepard (1982) kenmerkt eerlijkheid als een aspect van validiteit van toetsen (en dus ook van toetsvragen), en van onderzoek naar validiteit van tests en toetsen weten we dat dat uiterst moeizaam is. Voor psychologische tests kwam in dat empirisch onderzoek pas een doorbaak eind zeventiger jaren, met de uitvoering van meta-analyses op alle tot dan toe bekende onderzoek dat zich kenmerkte door wisselende en elkaar soms ook tegensprekende resultaten. Voor onderzoek naar partijdigheid ligt er waarschijnlijk hetzelfde probleem: voorzover bekende meta-analyses niet tevens uitsluitsel geven over eerlijkheid, zal er nog heel wat water door de Rijn stromen voordat gerichte studies die antwoorden wel leveren. Ik ben dus wel benieuwd naar wat de literatuur over al wel bekende empirische studies heeft te melden. Borsboom, Millsap, en anderen in deze lijn van onderzoek naar eerlijkheid (measurement invariance) stellen dat onderzoekers zoals Jensen (1980) ten onrechte hebben geconcludeerd uit afwezigheid van overprediction en underpredictio dat de betreffende tests of selectieprocedures vrij zijn van bias. Het gaat dus wel over enorm belangrijke zaken.

Het artikel hanteert definities van partijdigheid die technisch van aard zijn, dus niet prettig in lijn liggen met wat er in het dagelijks spraakgebruik onder wordt volstaan, en ook niet met de vakliteratuur over partijdigheid waar duizend bloemen bloeien als het op de invulling van het begrip partijdigheid aankomt (zie bv. Shepard, 1982). Daarom is het goed dat bredere kader ook een beetje bij de hand te hebben.

Wat partijdigheid is, dat weet iedereen: bevoordelen van bepaalde personen of groepen ten opzichte van anderen. In verschillende tijden en culturen wisselt het inzicht in wat ‘bevoordelen’ is: het is nog niet zo gek lang geleden dat afkomst belangrijker was aantoonbare capaciteiten, en vandaag de dag is er een levendige discussie in hoeverre belangrijke beslissingen alleen op prestaties zouden moeten berusten: het idee van een meritocratie doet velen rillen (Wilbrink, 1997 html). Kortom, psychometrici willen graag iets neutralers presenteren, en dan is er ruime keus uit een forse bibliotheek over partijdigheid. Een Nederlandse dissertatie op het onderwerp is die van Frank Kok (1988), hij analyseert (statistisch, niet inhoudelijk) onder andere de vragen in de rekentoets in de Cito Basistoets van 1982. Hetzelfde doet Henny Uiterwijk in een proefschrift waarin hij samen met een vakgroep van de KB de Basistoetsen 1987 en 1989 onderzoekt op bias. Een bijzonder grondige Amerikaanse publicatie is die van Arthur Jensen (1980) over partijdigheid van tests, maar de grondigheid staat onder grote druk sinds aangetoond is dat de methodologie in de lijn van Cleary (1968) tot Jansen (1980) ondeugdelijk is (zie Millsap, 2007). Merk op dat er in de literatuur kennelijk een onderscheid is tussen vraagpartijdigheid van afzonderlijke testvragen (bv. Kok), en die van tests in hun geheel (bv. Borsboom e.a. 2008). Dat onderscheid wil ik ook helder proberen te krijgen. Dan is er nog een belangrijke bundel van Berk (1982), waarin ook aandacht voor de methoden zoals gebruikt door grote toetsinstituten in de VS (p 228-314). Overigens vermoed ik dat er na de genoemde publicaties van een kwart eeuw geleden, geen echt bijzondere ontwikkelingen in het veld zijn geweest, maar het kan nog blijken dat ik me daar in ieder geval dan in vergis (procedures gevolgd door bedrijven zoals het Cito zijn mogelijk ingewikkelder geworden, bureaucratischer, en niet noodzakelijk ook beter; ook dat is een boeiende vraag om antwoord op te zoeken). Excuus dat de hier genoemde literatuur (Kok, Berk, Jensen) niet online beschikbaar is, bibliotheken blijven nog even onmisbaar. Stephen Jay Gould heeft Jensen besproken in The New York Review of Books (html not for free), en daar volgde een repliek en dupliek met o.a. Eysenck op.

De keuze van concrete voorbeelden en casus is van belang om abstracte analyses contact te laten maken met de werkelijke wereld, en zo de lezer ook betere kansen te bieden te begrijpen wat er op het spel staat, en hoe dat spel wordt gespeeld. Een a-typisch casus uit eigen onderzoek is dat naar mogelijke partijdigheid bij de selectie van vrouwelijke schoolleiders in het primair onderwijs (Van Eck, Vermeulen en Wilbrink, 1994 html), waarbij kwantitatieve oefeningen op complexe selectieprocedures zijn gedaan met inzet van simulatieprogrammatuur voor dergelijke situaties. Schoolleiders zijn er niet zoveel, leerlingen die Cito-toetsen maken des te meer: Bügel en Sanders (1998 pdf hebben uitgeschreven waar het Cito zich aan houdt. Een boek dat veel concrete situaties, en concrete rechtzaken (Amerikaanse) behandelt is dat van Arvey en Faley (1988), een sleutelpublicatie op het onderwerp, waarin bijvoorbeeld ook een overzicht over statistische benaderingen (hoofdstuk 5).

Met bovenstaande schets blijk ik ongeveer op dezelfde lijn te zitten als door Shepard (1982) aangegeven. Die duizend bloemen blijken ook min of meer onvermijdelijk te moeten bloeien. De kern van Shepard's zaak is dat onpartijdigheid een kwestie van validiteit is, onder die noemer is het dan ook te analyseren en onderzoeken. De verwijzing naar validiteit maakt het er niet meteen eenvoudiger op, omdat de lezer dan verstrikt raakt in het web van wat constructieve validiteit is gaan heten. Maar daar is wel een oplossing voor, aangedragen door Borsboom, Mellenbergh en Van Heerden (2004 pdf). Ik ben benieuwd hoe Borsboom de dwarverbinding in het te annoteren artikel heeft weten te leggen. In dit verband is een uitspraak van Cronbach uit 1980 van belang, geciteerd in Shepard (1982), dat validiteit niet alleen maar een kwestie is van meten wat bedoeld is te meten (een constructivistische definitie, het hele semantische netwerk kan erbij worden gehaald), maar vooral ook van antwoord op de vraag waarom je dat zou moeten of willen meten (waarmee Cronbach zoniet in realistische richting opschuift, dan toch in ieder geval in praktische richting). Het is een oude hobby van Cronbach: in godsnaam geen zaken gaan meten omdat we in staat zijn er een meetinstrument voor te bouwen, en ondertussen heenkijken langs wat werkelijk telt in dit ondermaanse. Zoek het sleuteltje dat je 's nachts hebt laten vallen niet onder het licht van een lantaarnpaal, maar op de plek waar het moet zijn gevallen. Toets niet alleen kennis, maar ook wat wat studenten ermee kunnen doen, hoe ze de kennis strategisch gebruiken, en hoe ze erover denken (zie bv. een aardige schets van Schoenfeld, voor wiskunde, 2007 pdf.

Arvey, Richard D., and Robert H. Faley (1988). Fairness in selecting employees. Amsterdam: Addison-Wesley.

Berk, Ronald A. (Ed.) (1982). Handbook of methods for detecting test bias. Baltimore: The Johns Hopkins University Press.

Denny Borsboom, Gideon J. Mellenbergh and Jaap van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071. pdf

K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf

Edith van Eck, Ard Vermeulen en Ben Wilbrink (1994). Doelmatigheid en partijdigheid van psychologisch onderzoek bij de selectie van schoolleiders in het primair onderwijs. Amsterdam: SCO-Kohnstamm Instituut. (rapport 359) [Hoofdstuk 3. Het psychologisch onderzoek html; Hoofdstuk 5. Seksepartijdigheid en rendement html]

Frank Kok (1988). Vraagpartijdigheid. Methodologische verkenningen. Item bias Methodological Research. Amsterdam: SCO (Stichting Centrum voor Onder- wijsonderzoek van de UvA); 1988; 225 blz. (Proefschrift UvA); SCO-publ. 88. Alan H. Schoenfeld (Ed.) (2007). Assessing mathematical proficiency.. Cambridge University Press.

Alan H. Schoenfeld (2007). What Is Mathematical Proficiency and How Can It Be Assessed? In Alan H. Schoenfeld: Assessing mathematical proficiency.. Cambridge University Press. p. 59-73. pdf (van het hoofdstuk)

Lorrie A. Shepard (1982). Definitions of bias. In Berk (zie boven), 9-30. (ander werk van Shepard over bias: html)

Ben Wilbrink (1997). Terugblik op toegankelijkheid: meritocratie in perspectief. In Marian Van Dyck (Red.): Toegankelijkheid van het Nederlandse onderwijs. Studies (p. 341-384). Den Haag: Onderwijsraad. html

kern van het artikel

"The theoretical work reported in this article has shown that if latent differences between groups exist and measurement-invariant tests are used, selection procedures will produce different rates of incorrect decisions in these groups."

Het gegeven citaat is de openingszin van de discussie. Lees even over de nog niet besproken technische termen heen, dan staat er dat het artikel aantoont dat subgroepen die van elkaar verschillen op een eerlijke selecterende variabele (zoals intelligentie), verschillende proportie terecht toegelaten resp. afgewezen opleveren (op basis van hun op de test gescoorde IQ). Ik kijk eerst even naar een voorbeeldsituatie waarin er gewoon sprake is van bekende cijfers of scores, niet van latente capaciteiten, en van voorspellen van studiesucces. Laten we zeggen: selectie voor toelating tot de studie geneeskunde. Er zijn in de afgelopen decennia veel cijfers bijeengeharkt die laten zien dat kandidaten met hogere eindexamencijfers betere studieprestaties behalen dan kandidaten met lagere cijfers, als iedereen zou worden toegelaten. Dat betekent dat in de eerste groep de proportie 'geschikten' (zoals A. D. de Groot, 1972, ze zou noemen) hoger is dan in de tweede groep. That's all there is to it. Het artikel brengt allerlei verbijzonderingen aan (in het bijzonder claimt het een principieel heel andere situatie te modelleren waarin de testscore de onderliggende capaciteit voorspelt in plaats van studiesucces). Het is mij aanvankelijk (voorafgaand aan een gedachtenwisseling met Borsboom, en kennisnemen van recente publicatie van o.a. Millsap) een raadsel waarom de auteurs dit artikel hebben geschreven. Het lijkt erop dat het artikel ingewikkeld doet over een probleem dat overigens niemand ooit heeft gezien, en dat de auteurs in feite bij dit artikel zelf introduceren.

Een belangrijke gedachte die aan het artikel ten grondslag lijkt te liggen is dat bijvoorbeeld uitvalcijfers in het onderwijs plegen te verschillen tussen onderscheiden subgroepen, ook wanneer beide subgroepen door dezelfde, eerlijke, selectieprocedure zijn gekomen. Een boeiende methodologische ingang op deze thematiek is dan de hunch dat hier sprake is van een speciale vorm van Simpson's paradox (de aggregation fallacy): door onhandige statistische interpretatie kan makkelijk de indruk ontstaan dat zo'n selectie uiteindelijk toch oneerlijk is, gezien de studieresultaten die voor de betreffende subgroepen uiteenlopen. Denk aan achterstandsleerlingen in het vmbo, tegenover de overige leerlingen. Het paradoxale is dan dat op de voor de selectie gebruikte toets beide groepen dezelfde kansen op goede resultaten hebben, gegeven dezelfde onderliggende capaciteiten, maar na een paar jaar blijken ze dan in verschillende mate de studie te hebben gestaakt. De schijnbare paradox ontstaat doordat betrokken partijen slordig redeneren, helemaal niet redeneren, of liegen met de statistieken: door leerlingen die op cruciale kenmerken van elkaar verschillen, op een grote hoop te gooien. Maar er is veel meer aan de hand dan alleen het uitspelen van Simpson's paradox.

In een gedachtenwisseling met de eerste auteur blijkt dat dit artikel staat in een reeks publicaties die een verrijking van methoden voor onderzoek naar partijdigheid van tests bieden, zoals met het begrip measurement invariance dat in de literatuur van de zeventiger jaren niet of nauwelijks is terug te vinden. Maar belangrijker dan die verrijking is dat deze lijn van onderzoekeen belangrijk probleem blootlegt in de methoden voor het onderzoeken en aantonen van partijdigheid zoals sinds Cleary (1968) in de zeventiger jaren ontwikkeld met het boek van Jensen (1980 als een soort sluitstuk. Het probleem is dat het criterium van regressie-invariantie voor de onpartijdigheid van prectieve tests en toetsen een belangrijk tekort in zich bergt: het is aantoonbaar dat overigens als eerlijk ervaren selectieprocedures kunnen resulteren in een belangrijke vorm van schending van de regressie-invariantie die met die eerlijkheid samen zou moeten gaan: een op de eerlijke predictor lager scorende subgroep kan een selectief voordeel krijgen, dat zich later uit in schijnbaar tegenvallende prestaties op het voorspelde criterium. Het verschijnsel heet overprediction, en is een statistisch artefact dat volgt uit het verschil in selectieverhouding tussen subgroep en de overigen. Is de selectieverhouding voor de subgroep scherper, dan spelen toevalligheden daar een relatief sterkere rol dan bij de selectie uit de rest van de groep. Omdat de selectie uit de top van de subgroep gebeurt, vallen de toevalligheden niet tegen elkaar weg, maar zijn het vooral toevalligheden waardoor kandidaten net boven de aftesgrens scoren. Voor afzonderlijke groepen is het fenomeen goed bekend onder de naam regressie naar het midden. In de context van onderzoek naar partijdigheid gaat het om de vergelijking van subgroepen, en dan is overprediction een verrassing waar onderzoekers in de zestiger en zeventiger jaren niet op bedacht waren. Het artikel noemt die overprediction, maar veronderstelt teveel kennis van de lezer, althans van mij als lezer, om het punt goed op te pakken. Het begrip selectie-invariantie moeten de auteurs dan als een variant op die overprediction hebben bedoeld. Ik ga dus proberen om te begrijpen hoe dit allemaal in elkaar grijpt.

Denny Borsboom, Jan-Willem Romeijn and Jelte M. Wicherts (2008). Measurement invariance versus selection invariance: Is fair selection possible?

Psychological Methods, 13, 75-98 pdf

Annotated by Ben Wilbrink (work in progress)