home     sitemap




Merit ranking: How fair can it be?

An investigation

Ben Wilbrink


Merit almost never is a simple thing. It is a combination of effort, talent, luck, circumstance, sacrifice, nature and nurture. Above all, merit is contingent. Whatever it may be, it is a combination of many variables, and it is in the eyes of the beholders. Merit ranking, therefore, is a very, very tricky business. One butterfly over Colorado will effect the ranking in Amsterdam to come out different. Rankings are like the weather, which in the case of rankings is to say that they can not be consistent at all. Of course this is no news, we have taken our precautions against inconsistencies showing up too conspicuously. For one thing, time measurement in major sport events is ridiculously precise, effectively shutting out one factor of luck: the jury members' verdicts. As long as supporters want to believe time to be the real measure of merit on the 100 yards, on this particular race, that's fine with me. Supporters believing the same thing about grades in education is something else altogether. I would like to find out the connection between grading in education, and the impossibility of merit ranking ever to be consistent, or at least fully consistent (is there a difference, then? I have always learned that inconsistent preferences in the races will cost you money, nothing here is 'fully'; 'foolly' maybe?).

While starting this project, I do not know what it will lead to, what its outcome will be. It has been triggered by a reading of an old copy of Vassiloglou and French (1982), a chapter from Rawls' dissertation (1953), and a discussion with a friend about even the smallest differences in merit justifying winners to take all. This looks like the working of serendipity, yet there is some merit involved too: human capital amassed in years of struggling with problems in educational assessments and knowing my literature about, for example, decision-making, makes me intuit that the theme will turn out to be highly interesting and be of consequence in the design of achievement test items and in the theory of strategic preparation for achiement tests.




Assuming all grading of students in essence to be ranking, a number of powerful theories can be used to analyze what is happening in assessment in our schools and universities. The more so if one remembers that ranking of options is exactly what most of decision-making is about (for example, Lichtenstein and Slovic, 2006).


In order to get some distance to the existing literature on assessment, I will call the object of what is to be ranked 'merit.' Merit or achievement, it does not matter. At least concept of merit does not have all the connotations that educational achievement has.


I use the term 'grading' or valuation, assuming that the student's work has been scored on its correctness, these scores or a total score then has to be translated into a rank or a grade or whatever. Scoring is a process dictated by whatever it is in the particular discipline to be correct. Scoring is nearly the same as providing immediate feedback to the student. My own work that directly is related to this scoring is the design of achievement test items. Grading is something else altogether, it places the students achievement on a particular scale or in a particular frame of references, more often than not existing of the achievement of a reference group. This 'reference group' might be anything, from the intuition of the teacher with long years of experience, to the randomly sampled refrence group used in the development of an intelligence test.


My position is that grading is a form of ranking, in fact grading has evolved from the educational practice of ranking, see my (1997 html). If you do not concur, then for the sake of argument, assume this to be the case.


A convincing argument may be found in recent work of Ronald Giere, the philosophical position he calls perspectivism, a position in between or combining that of objectivism/realism and subjectivism/constructivism. In his (2006) the example is the case of color vision. Colors as such do not exist in the physical world, yet color vision is based on physical phenomena, specific physiology, constructivist neuropsychology, and of course culture and language.

Now apply this perspectival analysis on what may be called merit vision. Or rank vision. Grading educational achievements surely is not as thoroughly physical as color vision is. How much more involved, tricky, and complex than color vision it must be! If not outright subjective, it surely is highly perspectival and at least somewhat arbitrary. How, then, could its outcomes ever be called fair? Or is this only a societal myth, 'myth' in the sense Alexander Astin talks about societal myths of selection processes? The link to the work of Astin (university admissions in the US) is highly relevant, because selective processes feed on merit rankings on the basis of GPA's etcetera.

Giere (2006)


My intention is to get better insight in the processes of valuation and grading in education, insight that probably will not in itself lead to better methods or procedures. My feeling at the beginning of this project is that at least this exercise will teach us to be very, very humble in doing our daily jobs in assessing students. The fear is that Arrow's Impossibility Theorem applies to the kind of decision-making that we call assessment: it is not possible to be consistently fair in the grading (of work) of students.


Number of wins (out of four comparisons) of candidate i (rows) over j (columns)
                   Candidate
              1    2    3    4    5    Row-
            _________________________  sums
            |                       |
          1 | -    2    4    1    2 |   9
          2 | 2    -    1    1    3 |   7
Candidate 3 | 0    3    -    3    4 |  10
          4 | 3    3    1    -    2 |   9
          5 | 2    1    0    2    - |   5
            |_______________________|

Vassiloglou and French (1982, p. 191)


An example may make it clear what this is all about. The above table shows in every cell how many times out of four the row candidate or item has been ranked above the column candidate. Are the rowsums sufficient for the overall ranking? Wood and Wilson (1980) say they are. Then along come Vassiloglou and French, they construct the following table, by deleting candidate 3 from the above one.


                   Candidate
              1    2    4    5    Row-
            ____________________  sums
            |                  |
          1 | -    2    1    2 |   5
Candidate 2 | 2    -    1    3 |   6
          4 | 3    3    -    2 |   8
          5 | 2    1    2    - |   5
            |__________________|

Vassiloglou and French (1982, p. 191)


The amazing result is that the the ranking of the four candidates left has been changed from 1-3-1-4 to 3-2-1-3. That is not a nice result, because leaving out one candidate should not change the ranking of the others relative to each other; Vassiloglou and French term this the principle of the Independence of irrelevant alternatives.

In case you did not notice: these data could have been from the ranking of five examinees on each of four essays comprising a four essay examination. Or whatever else you might construct it to be.


The above example has been disturbing. Surely it is artificial, because generally essays are not rated or ranked in this way. But then, if our assessment tradition would have been otherwise, they would, wouldn't they? There seems to be at least some arbitrariness in the way we rank or grade essays, students, sportsmen, bets, or whatever.





at the start of this project february 2008
I will start with a fast inventory of what it is that I see as the problem here, how that will fit in in some of my own projects, what will probably be the key publications to use. I will do this in Dutch, to really be fast.



In onze samenleving is er op veel plaatsen sprake van rangordes op basis van verdienste. Dat is evident in de sport, want daar gaat het juist om het wedstrijdelement in dat rangordenen. Het is evident op de arbeidsmarkt, waar de vragende partij (werkgevers) in beginsel zelf bepaalt iwe aan te nemen, en wie niet. Het is evident in het onderwijs, al wordt het daar al meer toegedekt dan op de arbeidsmarkt het geval is.
Het is niet vanzelfsprekend evident op allerlei markten, marktwerking is geen werking van verdienste. Marktmacht hebben berust niet per definitie op verdienste, en is niet per definitie verdienste.

Het is daarom niet van belang ontbloot dat dat rangordenen op verdienste ergens op slaat, dat het in beginsel eerlijk is.

Het idee is nu dat die eerlijkheid op de tocht komt te staan wanneer aangetoond kan worden dat rangordenen op verdienste in beginsel niet op consistente wijze mogelijk is. Ik vermoed dat zoiets al door Arrow is aangetoond, daar gaat waarschijnlijk zijn Impossibility Theorem over. De enige uitzondering is mogelijk de situatie waarin verdienste echt eendimensionaal is, ik meen dat zoiets in de brute werkelijkheid niet voorkomt, ook niet in de sportwereld.

Veronderstel eens dat Arrow gelijk heeft, en dat dat gelijk ook van toepassing is op het beoordelen in het onderwijs. Wat hebben we dan voor situatie? Misschien is dat wat ondoorzichtiger dan eerst maar eens een toepassing op een kunstmatige wereld te doen: de sport, met zijn spelregels die een zekere eendimensionaliteit bewerkstelligen. Neem de sprint op de honderd meter. Het criterium is tamelijk eenduidig: wie het eerst over de streep komt, wint. Maar hoe zit het dan met het combineren van een reeks verschillende wedstrijden? Welke hardloper is over die reeks wedstrijden dan de 'beste' geweest?

De conclusie gaat al heel snel worden dat in het dagelijks leven het toekennen van verdienste een vergelijking met anderen impliceert, en dat we daar bepaalde procedures voor hanteren die de schijn van een zekere eendimensionaliteit opleveren, daarmee het wezenlijke probleem van de inconsistentie toedekkend. (Tournaments, competities, afvalwedstrijden, de hele reutemeteut. Daar zijn ongelooflijk veel varianten op mogelijk, daar is ook erg veel literatuur over neem ik aan)
Kennelijk vinden we dat gezamenlijk meestal niet erg, we kunnen ermee leven, brengen af en toe veranderingen in procedures aan, en dat is het dan. We doen geen zielpijnigend onderzoek naar wat dan de gevolgen zijn van het verdringen van het feit van de principiële inconsistentie.

Wat zou zo'n zielpijnigend onderzoek op kunnen leveren aan nieuwe inzichten? Zou er een geruststelling uit kunnen komen, in die zin dat er zeker inconsistenties zijn, dus dat bij iets andere procedures er andere winnaars uit de bus zouden komen, maar de groep winnaars of wie net zo goed winnaar had kunnen zijn is toch wel echt een groep die zich van de grotere rest onderscheidt? Zou het kunnen zijn dat de principiële inconsistentie zich beperkt tot een zekere fuzziness in de rangordeningen, maar deze niet wezenlijk anders kunnen zijn wanneer alle mogelijke varianten beproefd zouden worden? Wie kan daar op voorhand al van overtuigd zijn?

Mijn vermoeden is, en daar zal dus de zoektocht vooral over gaan, dat het aantonen van wezenlijke inconsistentie, net als dat overigens in de besliskunde het geval is, betekent dat je in een spelsituatie van een rationele tegenstander altijd gaat verliezen. Het kost geld wanneer je weddenschappen aangaat op basis van inconsistente voorkeuren, van inconsistente rangordeningen. Volgt daar dan ook uit dat het de samenleving kost wanneer de samenleving werkt met inconsistente voorkeuren in haar rangordeningen van verdienste?

Een paar getallenvoorbeelden zouden de zaak meteen op scherp kunnen zetten. Die voorbeelden moeten er ook zijn of komen, want als ze niet geconstrueerd kunnen worden, dan is er kennelijk van wezenlijke inconsistentie geen sprake. Wood en Wilson gevene een getallenvoorbeeld, en Vassiloglou en French gaan daar weer verder op in. Ik ga me dus eerst eens met die getallenvoorbeelden intensief bezighouden, want ik wil deze webpagina juist met een paar van die voorbeelden beginnen, dan is iedereen meteen bij de les. Ik moet onmiddellijk duidelijk maken dat het niet een academische vraag is die hier aan de orde is, maar dat uitmaakt in ons onderwijs, op de arbeidsmarkt, in de sport. (Het zou mooi zijn wanneer ik een verbinding zou kunnen maken met de oefeningen van Hofstee over jury-oordelen).

Het gaat bij dit rangordenen niet alleen maar om wie er als 'besten' uitkomen: er kunnen heel wat bijzondere punten op de schaal zijn waarbij het van belang is of je er net onder danwel net boven uitkomt, zeg maar alkles waar een bepaalde cesuur wordt gehanteerd. Die cesuur zelf is meestal ook inherent relatief, maar kan plaatselijk wel absoluut zijn, bijvoorbeeld omdat tevoren is toegezegd of vastgelegd wat de cesuur zal zijn, ongeacht de resultaten etcetera.

Is ieder verschil in verdienste voldoende voor welke verschillende behandeling dan ook?



Er is discussie mogelijk hoe bijvoorbeeld John Rawls in zijn Theorie van rechtvaardigheid omgaat met de vraag of verschillen in verdienst, hoe klein ook, ieder verschil in behandeling, hoe groot ook, rechtvaardigen. Zo geformuleerd mag wel duidelijk zijn dat Rawls dat nooit zal hebben beweerd. Wat is dan wel zijn standpunt hierover? (zijn eerste hoofdstuk in de bundel artikelen, ik meen de punten vi en vii daarin, waarin vi een beginsel van proportionaliteit verwoord, en vii het beginsel dat meer verdienste een claim oplevert).

¥ winner takes all?
¥ proportionaliteit
¥ democratische verdeling (winnaars hebben respect voor verliezers en doen daar dus ook het nodige mee

Wat kan er zoal van invloed zijn op een rangorde?

Toetsen
¥ welke vragen uit de verzameling zijn voorglegd
¥ wie de andere deelnemers aan deze toets zijn
¥ of de resultaten van een bepaalde deelnemer worden meegenomen of niet
¥ wat er gebeurt met vragen die achteraf ondeugdelijk blijken te zijn
¥ welk type vragen wordt gebruikt (mc, essay, etc)
¥ wie heeft de vragen ontworpen / wat is de kwaliteit van de vragen
¥ hoe zijn de vragen over de stof verdeeld
¥ hoe zijn de vragen over vormen van beheersing verdeeld (reproductie, toepassing, etc)
¥ wat zijn de omstandigheden van de toetsafname
¥ wat is de conditie van de deelnemers
¥ hoe worden de afzonderlijke antwoorden beoordeeld/gescoord/gewaardeerd, door wie etc.
¥ hoe worden de oordelen, cijfers etc. voor afzonderlijke vragen gecombineerd tot een eindoordeel of eindwaardering of eindcijfer?

Een deel van de bovenstaande punten zou je kunnen vatten onder de operationele definitie van verdienste voor dat vak en die toets.

Bij de rankingmethoden in Wood en Wilson heb ik de gedachte dat je bij heel onbetrouwbare toetsen of beoordelen best wel eens van deze ranking tabelletjes kunt krijgen die er vrijwel hetzelfde uitzien als bij juist heel betrouwbare beoordelingen. (Bijv. door een aantal leerlingen of gesimuleerde tests op basis van dezelfde mastery e nemen, versus leerlingen/tests randm getrokken uit een bredere betaverdeling voor mastery). Ik zou dat graag uitzoeken, het zou leuk zijn als ik dat kon opnemen in het spa_model, want het lijkt me dat ik met deze methoden nog veel meer kan doen dan auteurs als Wood en Wilson, of Vassiloglou en French, al uitwerken. Maar pas op, het is best mogelijk dat er recent al ontzettend veel meer is bereikt bij studie van tournaments, en/of in de social choice theory. Ik moet dus ook snel een literatuurverkenning doen, uitgaande van de set van publicaties rond het werk van Wood en Wilson, en van Vassiloglou en French.


Meritocracy


Young, M. (1958). The rise of the meritocracy, 1870-2033: An essay on education and equality. London: Thames and Hudson.

Gascoigne, J. (1984). Mathematics and meritocracy: the emergence of the Cambridge Mathematical Tripos. Social Studies of Science, 14, 547-584.

Ralf Dahrendorf (2005). The rise and fall of meritocracy. Commentary. Project Syndicate. www.project-syndicate.org html

Lemann, Nicholas (1999). The big test. The secret history of the American meritocracy. New York: Farrar, Strauss and Giroux.

Kenneth Arrow, Samuel Bowles and Steven Durlauf (Eds) (2000). Meritocracy and Economic Inequality New Delhi, Oxford University Press.

Jerome Karabel (2005). The chosen. The hidden history of admission and exclusion at Harvard, Yale, and Princeton. Boston: Houghton Mifflin. The last paragraph The dark side of meritocracy from the last chapter The battle over merit pdf (on another website of mine). For some citations see here

Ben Wilbrink (1997). Terugblik op toegankelijkheid: meritocratie in perspectief. In Marian Van Dyck, Toegankelijkheid van het Nederlandse onderwijs. Studies (p. 341-384). Den Haag: Onderwijsraad. html


Historical examples


Howard Machin and Vincent Wright (1989). Les élèves de lÕécole Nationale dÕAdministration de 1848-1849. Revue de lÕhistoire moderne et contemporaine, 36, 605-639.


Literature


Ronald N. Giere (2006). Scientific perspectivism. The University of Chicago Press.

D. H. Krantz, R. D. Luce, P. Suppes, and A. Tversky (1971/2007). Foundations of Measurement Volume I: Additive and Polynomial Representations. Dover (reprint appearing January 30, 2007).

Sarah Lichtenstein and Paul Slovic (Eds) (2006). The construction of preference. Cambridge University Press contents.

Percy B. Lehning (2006). Rawls. Lemniscaat.

Serena Olsaretti (Ed.) (2003). Desert and justice. Oxford University Press.

John Rawls (1993). Political liberalism. New York: Columbia University Press.

John Rawls (1999). The law of peoples. With "The idea of public reason revisited." Cambridge, Massachusetts: Harvard University Press. David Gordon review - pdf

John Rawls (2001). Justice as fairness. A restatement. Belknap Harvard University Press.

John Rawls (1971/2006). Een theorie van rechtvaardigheid. Vert. Frank Bestebreurtje. Lemniscaat. bespreking door Enno de Wit.

John Rawls (2001). Lectures on the history of moral philosophy. Harvard University Press.

Marilena Vassiloglou and Simon French (1982). Arrow's theorem and examination assessment. British Journal of Mathematical and Statistical Psychology, 35, 183-192.

Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23, 31-48. html

Robert Wood and Douglas T. Wilson (1980). Determining a rank order when not all individuals are assessed on the same basis. In L. J. Th. van der kamp, W. F. Langerak and D. N. M. de Gruijter: Psychometrics for education debates (p. 207-230). Wiley.

literature on weighting


Marilyn W. Wang and Julian C. Stanley (1970). Differential weighting: a review of methods and empirical studies. Review of Educational Research, 40, 663-705.

Robyn M. Dawes (1979). The robust beauty of improper linear models in decision making. American Psychologist, 34, 571-582.



February 22, 2008 \ contact ben at at at benwilbrink.nl

Valid HTML 4.01!   http://www.benwilbrink.nl/projecten/meritranking.htm