Tijdschrift voor Onderwijsresearch, 1980, 5 nr. 3, 112-125. online


Enkele Radicale Oplossingen voor Criterium-Gerefereerde Grensscores


Ben Wilbrink


Centrum voor Onderzoek van het Wetenschappelijk Onderwijs - Universiteit van Amsterdam


    Some radical answers to the criterion-referenced cutting score problem

A serious defect in decision analytic approaches to the cutting score problem hitherto has been that remedial treatment effects are rather implicitly subsumed in utility assignments to an incomplete set of possibie outcomes. The correct decision analysis is presented, using results from a second validation study on students assigned to the remedial treatment irrespective of their testscores. The specification of utilities, not longer being mixed up with probabilistic contingencies resulting from remediation, is now possible in a rather clear-cut way. The obvious relation to Cronbach and Snow's (1977) ATI methodology is summarily pointed out. The given approach, however correct, is still rather impractical; the best and simplest procedure is suggested to be the simultaneous optimization of the cutting scores on the set of tests, experiment-wise varying cutting scores and observing resulting achievements and needed studytimes.


In een voorgaand artikel (Wilbrink, 1980) werd een eenvoudige decisie-analytische methode voor het bepalen van optimale grensscores bij criterium gerefereerde toetsjes gepresenteerd, en gerelateerd aan andere, meer omslachtige en minder doorzichtige benaderingen in recente literatuur gegeven. Zowel deze eenvoudige als de omslachtige aanpak lijden aan het gebrek dat er gesmokkeld wordt met het effect dat de behandeling bijspijkeren heeft: impliciet is dat effect opgenomen in de toekenning van utiliteiten aan de uitkomsten die de beslissingsalternatieven doorlaten of bijspijkeren op kunnen leveren. Het is niet moeilijk om in de decisie-analyse deze bijspijkereffecten op te nemen, effecten die in een afzonderlijk valideringsonderzoek geschat moeten worden. Prettige bijkomstigheid is dat nu ook veel duidelijker is hoe utiliteitsfuncties bepaald kunnen worden, een probleem dat tot nu toe onder het kleed geveegd pleegde te worden met de opmerking dat het natuurlijk erg moeilijk is utiliteiten toe te kennen, maar dat de beslissingnemer (docent) dat toch moet kunnen omdat hij immers tot nog toe ook zijn zak-slaagbeslissingen altijd heeft kunnen nemen, zelfs zonder hulp van een decisie-analyse (Raiffa en Schlaifer 1962, blz. 22 bijv.).

Op natuurlijke wijze wordt in deze benadering aansluiting gevonden bij het werk van Cronbach en Snow (1977) over de Aptitude Treatment Interaction methodologie. Omdat bij dit alles de analyse er wel beter maar niet praktischer op wordt sluit ik het artikel af met enkele suggesties voor methoden om voor meerdere toetsjes tegelijk via een meer experimentele procedure goede grensscores te bepalen.

 
Een alledaags probleempje als analogon


Ik heb een kaartje voor een theatervoorstelling. Het liefst zou ik daar op de fiets naar toe gaan, maar ik ben wat verlaat zodat ik dan misschien niet op tijd zal zijn. Het alternatief is een taxi te nemen, waardoor ik het gedeelte voor de pauze waarschijnlijk niet hoef te missen. Waar het in dit alledaagse beslissingsprobleem om gaat is niet hoe laat ik aankom, maar of ik nog voor het begin van de voorstelling aankom. Een probleem met drempelverlies dus. Kijk ik alleen naar het al dan niet op tijd komen, ongeacht de wijze waarop ik reis, dan heb ik te maken met de utiliteit U0 van te laat komen, en de utiliteit U1 van op tijd zijn. Het verschil tussen op tijd of te laat komen is het verschil tussen een goede en een vergalde avond, voor mij iets méér dan de, prijs van mijn toegangskaart, en in dit geval op 30 gulden te schatten. Op tijd komen is de doelvariabele waar het in dit probleem om gaat. Maar de kosten van de taxi spelen ook een rol, vormen een bijkomende doelvariabele: als het even kan ga ik liever op de fiets. Voor mij kost de fiets niets, en ben ik voor die taxi 10 gulden kwijt. Door voor beide doelvariabelen de utiliteit in guldens uit te drukken worden ze op dezelfde waarderingsschaal gebracht. Is mijn waardering voor deze relatief kleine geldbedragen ongeveer lineair, dan kan ik voor iedere mogelijke uitkomst de utiliteit van beide variabelen bij elkaar optellen, en zijn zo verkregen uitkomstutiliteiten ook met elkaar vergelijkbaar.

De kosten van fiets en taxi zijn resp. K0 = -0 en K1 = -10. De kans f op tijd te komen met de fiets schat ik op 2/3. De kans t per taxi op tijd te komen schat ik op 9/10. Er zijn geen bruggen, sluizen of spoorwegovergangen te nemen, dus die twee kansen zijn onafhankelijk van elkaar.

Voor beide alternatieven kan ik nu de verwachte utiliteit V Uf, V Ut, berekenen. Voor ieder alternatief zijn er twee mogelijke uitkomsten, iedere uitkomstutiliteit vermenigvuldig ik met de kans op die uitkomst, en tel beide bij elkaar op:

V Uf = (1- f ) (U0 + K0 ) + f (U1 + K0 ) = (1/3) U0 + (2/3) U1

V Ut = (1- t )(U0 +K1) + t (U1 +K1) = (1/10) (U0 - 10) + (9/10) (U1 - 10)

Ik kies het alternatief met de grootste verwachte utiliteit. Gebruik makend van het gegeven dat U1 - U0 = 30, bereken ik dat het verschil V Ut - V Uf = -3, zodat ik toch maar snel op de fiets stap.

Let in het gegeven voorbeeld op de volgende punten. Er is netjes geïnventariseerd om welke doelvariabelen het bij de beslissing gaat, nl. op tijd komen, en vervoerskosten. Over beide doelvariabelen zijn utiliteiten bepaald op dezelfde schaal (guldens) die bij benadering lineair is. Voor beide overwogen alternatieven werd de kans geschat op tijd te kunnen komen, en daarbij werd opgemerkt dat beide kansen van elkaar onafhankelijk geacht konden worden. Er kon volstaan worden met bepalen van de utiliteit van het verschil U1 - U0.

Houd zorgvuldig het onderscheid in de gaten tussen utiliteiten of utiliteitsfuncties over doelvariabelen, uitkomstutiliteiten van mogelijke uitkomsten, en verwachte utiliteiten voor beslissingsalternatieven. De reden dat ik niet over verliezen heb gesproken is dat deze in dit voorbeeld omslachtiger te berekenen zijn, en dat is een opmerkelijk punt waarop ik straks nog terugkom.

 
Criteriumgerefereerd toetsen en beslissen


Allereerst ga ik bekijken welke informatie beschikbaar moet zijn om te kunnen beslissen of een leerling die toetsscore Xi blijkt te hebben bijspijker onderwijs moet volgen. Omdat het theatervoorbeeld als analoog voor precies dit beslissingsprobleem is geconstrueerd, ga ik hier evenzo te werk. Eerste doelvariabele is het al dan niet beneden de drempel op een vervolgtoets scoren. Bij criteriumgerefereerde toetsing moet doorlaten of bijspijkeren iets te maken hebben met het op een volgende toets verwachte succes; dat volgt immers uit de filosofie achter deze vorm van toetsing. De drempel kan aangewezen worden als het meest gewenste niveau op de vervolgtoets, zie ook Wilbrink (1980).

Afwijzen van een leerling betekent dat hij of zij een stukje extra onderwijs volgt, een extra studie inspanning pleegt, en de zin daarvan moet liggen in een verhoogde kans na deze behandeling het volgende stukje onderwijs vlot te kunnen doorlopen en op de bijbehorende toets boven de drempel te scoren. Voor beide behandelingen, bijspijkeren of doorlaten, is deze doelvariabele op dezelfde wijze van belang, en moet de waardering voor scores al dan niet beneden de drempel gelijk zijn. Analoog aan het al dan niet op tijd komen, per fiets dan wel met de taxi, uit het theatervoorbeeld. Beneden de drempel scoren heeft utiliteit U0, tenminste gelijk de drempel scoren heeft utiliteit U1. Ik bekommer me nog niet direkt om de waarden die U0 en U1 zouden kunnen hebben, en werk eerst met deze symbolen verder.

Een tweede doelvariabele vormen de kosten aan bijspijkeren verbonden. Ook van die kosten is de utiliteit vast te stellen, op dezelfde schaal als waarop U0 en U1, gezet worden. Noem de utiliteit van bijspijkeren T, en laat nog even in het midden welke waarde T concreet zal hebben.

Dan heb ik nodig de kans Pi dat een leerling met score Xi tenminste gelijk aan de drempel op de vervolgtoets scoort. Uit onderzoek dat ik eerder gedaan moet hebben naar het verband tussen toetsscores en het al dan niet beneden de drempel op de vervolgtoets scoren is deze kans bekend, zie ook Wilbrink (1980). Maar bovendien moet ik weten hoe groot de kans Ri is dat een leerling met toetsscore Xi na bijspijkeren tenminste gelijk aan de drempel scoort. Ook deze kans moet verkregen zijn uit onderzoek, nu met een groep leerlingen die ongeacht hun toetsscore de bijspijker-behandeling hebben gekregen; overigens is dit onderzoek op dezelfde wijze te verrichten als het voorgaande.

Uit hetzelfde onderzoek kan ook informatie verkregen worden over de samenhang van de tijd besteed aan bijspijkeren, en de toetsscore. Wordt dat bijspijkeronderwijs klassikaal gegeven, dan zal voor iedereen die tijd ongeveer gelijk zijn. Worden de kosten van bijspijkeren voornamelijk door dit tijdbeslag bepaald, dan zou je aan kunnen nemen dat T dezelfde verwachte waarde heeft voor leerlingen met verschillende toetsscores.

Abstract zijn de verwachte utiliteiten voor doorlaten en bijspijkeren, V Ud en V Ubij, op dezelfde wijze als in de voorgaande paragraaf te bepalen als:

(1) Vi Ud = ( 1- Pi ) U0 +Pi Ul

(2) Vi Ubij = ( 1 - Ri ) (U0 + T) + Ri ( Ul + T )

Zoals in Wilbrink (1980) besproken moet voor de optimale grensscore Gopt gelden dat beide verwachte utiliteiten aan elkaar gelijk zijn. Voor de optimale grensscore is het mij, de beslissingsnemer, immers onverschillig of leerlingen met deze score doorgaan, danwel bijspijker onderwijs zullen volgen.

Uit gelijkstellen van (1) en (2) volgt na uitwerking dat

(3) Ri - Pi = -T / ( U1 -U0 )

Een formule die volkomen doorzichtig is: de kosten van bijspijkeren moeten tenminste gedekt worden door de met R - P verhoogde kans op de 'winst' Ul -U0. Het enige probleem is dat je in deze context met drempels niet goed uit de voeten kunt, zoals in het voorgaande artikel (Wilbrink, 1980) in de discussie aangegeven, maar dit is straks te verhelpen door op een beter passende utiliteitsfunctie over vervolgtoetsscores over te gaan (zie figuur 5 voor een illustratie).

De optimale grensscore Gopt is dan gelijk aan de toetsscore Xi waarvoor (3) precies opgaat, óf indien er geen Xi is die daar precies aan voldoet is het van beide dichtst bij zijnde scorewaarden de hoogste.

De traditionele oplossing voor de optimale grensscore Gopt wordt gegeven door de selectieparameter P = ( B - A )/( B - A + C - D ) , zie Wilbrink (1980). Formule (3) geeft echter aan dat P = R + T/( Ul - U0 ). Nu zal het best mogelijk zijn om de vier uitkomstutiliteiten A, B, C, en D zó te kiezen dat P dezelfde waarde krijgt als de werkwijze uit de voorgaande paragraaf oplevert. Maar hoe kan een beslissingnemer zó te werk gaan dat hij daarin ook slaagt, wanneer hij niet beschikt over een goede schatting van R behorend bij de optimale grensscore? De koninklijke weg is dan ook niet om van de beslissingnemer impliciet een subjectieve schatting van R te vragen, maar die schatting expliciet op basis van daartoe verzamelde empirische gegevens te maken. Je kunt ook als bezwaar tegen de traditionele aanpak, althans waar het om de beslissing over verschillende behandelingen gaat, aanvoeren dat de beslissingnemer niet gevraagd wordt zuivere utiliteiten te bepalen, maar utiliteiten die gecontamineerd zijn door een onbekende kans R. Wil je met een decisie-analytische aanpak van je beslissingsprobleem enige waarborg voor een aanvaardbaar resultaat verkrijgen, dan zul je juist dergelijke contaminaties moeten voorkomen.

 
Drempelverliezen nader bekeken


Het grensscore probleem bij criteriumgerefereerd toetsen wordt gewoonlijk aangepakt als een probleem met drempelverliezen, volgens de lijn door o.a. Novick en Jackson (1974, blz. 7 en 117) beschreven: de beslissing t.a.v. een leerling met toetsscore Xi kan juist of onjuist zijn, zodat er in het eerste geval géén (gelegenheids)verlies is, in het tweede geval wél. Er is in die redenering maar één manier waarop de beslissing bijspijkeren onjuist kan zijn: wanneer deze persoon zónder bijspijkeren boven de drempel of daaraan gelijk zou hebben gescoord. Maar wat te doen met de mogelijkheid dat ook na bijspijkeren de score van deze persoon nog beneden de drempel blijft? In dat geval heeft bijspijkeren niets opgeleverd, en wordt het (gelegenheids)verlies -T geleden, de kosten van het bijspijkeren. Bovendien kan in het geval zonder bijspijkeren tenminste gelijk aan de drempel gescoord zou worden de beslissing bijspijkeren op twee manieren onjuist zijn: de eerste manier is dat ook na bijspijkeren tenminste gelijk aan de drempel gescoord wordt, wat het (gelegenheids)verlies -T oplevert, omdat bijspijkeren voor niets is geweest; de tweede manier is dat na bijspijkeren de score zelfs, beneden de drempel blijft, met het gelegenheidsverlies U1 - ( U0 + T ), volgens de regel dat het (gelegenheids)verlies gelijk is aan de uitkomstutiliteit van de beste beslissing verminderd met de uitkomstutiliteit van de genomen beslissing. De beslissing doorlaten tenslotte is alleen ten onrechte wanneer beneden de drempel gescoord wordt terwijl na bijspijkeren tenminste gelijk aan de drempel gescoord zou worden: het (gelegenheids) verlies is dan (U1 +T ) - U0. Zodat de volledige verliestabel voor het drempelverlies model er uit komt te zien als in figuur 1.

Het is niet mogelijk om deze tabel te vereenvoudigen tot de 2 bij 2 tabel van de traditionele benadering, met maar twee verliezen, zonder de kans Ri in de uitkomstutiliteiten zelf op te nemen. Verwarren of contamineren van utiliteiten en kansen is, het behoeft geen verdere toelichting, in een decisie-analyse onzinnig en verwerpelijk.

Verwachte verliezen voor de beide beslissingsalternatieven zijn te berekenen door in figuur 1 ieder verlies met zijn waarschijnlijkheid te vermenigvuldigen, en deze producten te sommeren. De beste beslissing is die met het kleinste verwachte verlies.

 


State of nature variabele: vervolgtoetsscore zoals die er na beide respectievelijke behandelingen uit ziet (zou zien)


zonder
bijspijkeren

< D ≥ D < D ≥ D
 

met
bijspijkeren

< D < D ≥ D ≥ D

beslis-
sing

door-
laten

0 0 (U1+Ti) - U0 0

bijspij-
keren

- T i U1 - (U0+T i) 0- T i

waarschijn-
lijkheid
state of nature

(1-Pi)(1-Ri) Pi (1-Ri) Ri (1-Pi)    Pi Ri   

Figuur 1. Verliestabel voor het drempelverlies model. U1 en U0 zijn de utiliteit van resp. tenminste gelijk aan de drempel en er beneden scoren, Ti de verwachte kosten, uitgedrukt op dezelfde utiliteitsschaal als U1 en U0, van bijspijkeren voor een persoon met toetsscore Xi.

De analyse via verwachte verliezen levert dezelfde resultaten als via verwachte utiliteiten, en het is nu wel duidelijk dat de laatste methode, via verwachte utiliteiten, in dit soort beslissingsprobleem eenvoudiger is.
Wie liever niet aan een vervolgtoets, maar aan een kritisch niveau op de onderliggende ware beheersing refereert, kan in grote lijnen dezelfde analyse gebruiken. Het nadeel van deze aanpak is dat ware beheersing een abstractie is, die je vervolgens weer concreet moet proberen te maken door te werken met scores op paralleltoetsen, e.d. Zo kun je op een paralleltoets de drempel aanwijzen, en al dan niet beneden die drempel scoren als doelvariabele hanteren. Van daar af gaat de analyse precies als voor het geval de drempelscore op een vervolgtoets als doelvariabele gebruikt wordt.

In dit verband stelt zich ook de vraag naar de betrouwbaarheid van toets en vervolgtoets (paralleltoets), of misschien beter de vraag naar de rol die de grootte van de standaardmeetfout voor de individuele leerling speelt. Wat de toets betreft, is deze te manipuleren door het aantal vragen te variëren, en dat doet de nieuwe optimaliseringsvraag rijzen hoeveel vragen, in samenhang met de bepaalde optimale grensscore, gewenst zijn. Voor de vervolgtoets valt te bedenken dat de drempel aangewezen wordt als een observeerbare toetsscore, en dat daarbij dan ook met de kwaliteit van de vervolgtoets als meting rekening gehouden moet worden. Een alternatief is om de drempel op de onderliggende schaal voor ware stofbeheersing aan te wijzen, zie daarvoor Van der Linden (1979).

Wordt de toets gebruikt om te selecteren, dan wordt er niet bijgespijkerd maar gewoon afgewezen. In figuur 1 verdwijnt dan eenvoudig alles wat met bijspijkeren te maken heeft, zodat je een 2 bij 2 tabel overhoudt van afwijzen-doorlaten versus beneden of boven de drempel scoren. Dan zijn we terug bij het model van Alf en Dorfman zoals in het voorgaande artikel besproken.

 
Beschrijf de beoordelingsregeling behoorlijk


In het voorgaande heb ik stilzwijgend aangenomen dat de leerling na bijspijkeren doorgaat met het verdere onderwijsprogramma. Het is natuurlijk ook mogelijk om de leerling na bijspijkeren opnieuw te toetsen, en hoe zijn score ook uitvalt hem of haar in ieder geval door te laten gaan. Deze tweede toets zou dan kunnen dienen als evaluatie van het bijspijkeronderwijs en als terugkoppeling naar de leerling. Meer gebruikelijk is echter om op die tweede toets wederom een beslissing doorlaten of bijspijkeren te nemen, en zo ook bij een derde toetsing, zodat theoretisch de mogelijkheid bestaat dat een leerling een bepaald stukje onderwijs pas na meerdere herkansingen kan afsluiten. In zo'n regeling fungeert iedere toets als selectiemiddel voor het er op volgende onderwijs, echter zonder dat een afwijzing ooit definitief is. Het is niet duidelijk wat daarvan de onderwijskundige zin kan zijn, hoe deze komplekse beslissingsprocedure te modelleren en te valideren is. In een vergelijkbaar geval, tentamens met onbeperkte herkansingen, is wel een model bekend voor de optimale studiestrategie door de student te volgen (Van Naerssen, 1976; Wilbrink, 1978), ik kom daar later nog op terug. Vrijwel altijd zal de groep die voor 2e of 3e herkansing opkomt te klein zijn om er zinnig valideringsonderzoek mee te kunnen verrichten. Daar komt bij dat deze criteriumgerefereerde toetsjes meestal erg kort zijn, en daardoor een relatief grote standaardmeetfout zullen hebben. Het lijkt dan ook beter om, wanneer dat maar enigszins mogelijk is, leerlingen te vrijwaren van de frustratie van meerdere herkansingen. Het werken met maar één keer bijspijkeren en daarna doorgaan met bet verdere onderwijs heeft als voordeel, zoals in het voorgaande rijkelijk gedemonstreerd, dat een doorzichtige modellering en validering van de beslissingsproblematiek dan ook binnen handbereik ligt.

 
Algemeen


Voor ieder beslissingsprobleem waar tussen twee of meer verschillende behandelingen gekozen moet worden op basis van toets of test gegevens, moet op basis van valideringsonderzoek de relatie tussen deze toetsscores en de doelvariabele(n) bekend zijn. Bij criteriumgerefereerd toetsen zijn de beide behandelingen doorlaten en bijspijkeren, en is de regressie van vervolgtoetsscores op toetsscores onder beide behandelingen afzonderlijk te onderzoeken. In het voorgaande artikel werd aandacht besteed aan een eenvoudige methode om de kans op tenminste gelijk de drempel te scoren, gegeven de toetsscore, te bepalen voor een groep leerlingen die ongezien hun toetsscore doorgegaan zijn met het vervolgonderwijs. Hetzelfde kan ook gedaan worden voor een groep leerlingen die ongezien hun toetsscore bijspijkeronderwijs gevolgd hebben. Dat levert voor iedere Xj, i = 0, 1, ... n, waarbij n het aantal toetsvragen is, de twee schattingen ^Pi en ^Ri op. Het is ook mogelijk voor beide delen van het onderzoek een of andere vorm van regressie-analyse te doen, wat een resultaat op zou kunnen leveren als in figuur 2 geïllustreerd.

 
80gif/80bGrens1.gif


Figuur 2. Ook empirische gegevens om de regressie van vervolgtoetsscores op toetsscores voor degenen die bijspijker onderwijs krijgen te kunnen bepalen zijn nodig.

 
In het algemeen zal er sprake zijn van een ordinale interactie, de verwachte vervolgtoetsscore is na bijspijkeren altijd hoger, en wel des te meer zo naarmate de toetsscore lager is. Zou je een en ander nu tot een concreet model uit willen werken, dan ligt het voor de hand daarbij te beginnen met een model waarbij de toetsscores de negatief hypergeometrische verdeling hebben, en waar ook de conditionele verdeling voor vervolgtoetsscores f (Y | Xi ), ook de voorspellende kansverdeling voor de vervolgtoetsscores genoemd, negatief hypergeometrisch is. Het is niet mijn bedoeling om dit hier verder uit te werken, het is een aanwijzing hoe je je deze f (Y | Xi ) kunt voorstellen. In principe is op grond van valideringsonderzoek zowel fd (Y | Xi ) voor doorgelaten leerlingen, als fbij (Y | Xi ) voor leerlingen die de bijspijker behandeling gekregen hebben, te bepalen voor alle Xi. In het algemeen mag je verwachten dat bijspijkeronderwijs leidt tot een hogere verwachte score op de vervolgtoets, zodat fbij t.o.v. fd in de richting van de hogere Y scores opgeschoven zal zijn, zie figuur 3.

 
80gif/80bGrens2.gif


Figuur 3. Voorspellende kansverdelingen voor vervolgtoetsscores gegeven Xi, met de uitkomstutiliteiten over vervolgtoetsscores, onder de alternatieven doorgaan en bijspijkeren.

 
In figuur 3 zijn ook de uitkomstutiliteitsfuncties ingetekend. In het drempelverlies model is de uitkomstutiliteit afhankelijk van de vervolgtoetsscore Y, zodat ze als functie van Y geschreven zijn: Ud (Y) is de uitkomstutiliteitsfunctie bij beslissingsalternatief doorlaten, Ubij (Y) bij bijspijkeren. Voor het alternatief doorlaten telt alleen het resultaat op de vervolgtoets, zodat Ud (Y) in dit geval gelijk is aan de utiliteitsfunctie over vervolgtoetsscores. Voor het alternatief bijspijkeren hebben we te maken met precies dezelfde utiliteitsfunctie over Y (al dan niet beneden de drempel scoren wordt gelijk gewaardeerd voor doorgelaten zowel als bijgespijkerde leerlingen), maar bovendien zijn er nu de kosten van het bijspijkeren, op dezelfde utiliteitsschaal gewaardeerd op T, en de combinatie van beide levert een uitkomstutiliteitsfunctie op die een constante waarde -T beneden Ud (Y) ligt.

De kosten van bijspijkeren kunnen een constante waarde T hebben, bijvoorbeeld wanneer dat bijspijkeren klassikaal gebeurt, of een verwachte waarde Tj afhankelijk van Xi wanneer het een ervaringsgegeven is dat bijspijkeren minder kost bij hogere waargenomen toetsscores bijvoorbeeld. Gegeven Xi is Tj dan toch constant.

Het beste alternatief is dat wat de hoogste verwachte utiliteit oplevert. De verwachte utiliteit voor d (doorlaten) gegeven Xi is

(4) Vi Ud = Σmj=0 Ud ( Yj ) . fd ( Yj | Xi ),

waarin m = aantal vragen in de vervolgtoets. Voor Vi U bij zijn in (4) Ud en fd door Ubij en fbij te vervangen.

In zo'n drempelverlies model is het soms handig de hoogste uitkomstutiliteit de waarde 1 toe te kennen, en de laagste de waarde 0, waarna voor de overige nog hun waarde op dit schaaltje te bepalen is (waarvoor bijvoorbeeld technieken gegeven door Raiffa (1968) bruikbaar zijn). In figuur 3 zijn deze schaalwaarden rechts van de figuur aangegeven.

August 7, 2015. ‘Cost’ here is a fuzzy concept. It can be replaced by time spent by students, making it more definite. Quite another solution is possible, however:
Call the expected utility of a student with score on the first test X=x E(u1 | X=x), and the expected utility of the same student on the resit , E(u2 | X=x) Plot E(u2 | X=x) - E(u1 | X=x) for X = 0, 1 .. n. For an impression of this kind of plot, see the figure.
gif/toetsen_HN.png
A good criterion now might be to set the cutting/passing score X=c at the score c where the difference in expected utilities E(u2) - E(u1) is smaller than the corresponding difference for X = c-1. Assume the plot of differences to be decelerating in the range of interest, and deceleration first to increase and then to decrease. The optimum passing score then is the score corresponding to the inflection point: the number correct at the righ end of the steepest strech. Is this a procedure resulting in the optimal cutting score, within the restrictions of the situation as given? No, but it obviates fuzzy talk about costs. Call this solution ‘satisficing’ (Herbert A. Simon): it is evidently the case ‘better’ models can be developed, but this solution in many cases will do perfectly.