Nationale Wetenschapsquiz 2011: het ontwerp van de vragen

De quiz is uitgekomen: 3 december, De Volkskrant, nrc, www.nwo.nl/quiz. De uitzending is maandagavond 26 december 2011 om 22.00 uur op Nederland 2.

Ik heb tot mijn verrassing gezien dat mijn WQ-pagina 2010 vorig jaar in de maand december 5000 keer is aangeklikt. En ik maar denken dat dit een obscure webpagina is, bezocht door een enkele liefhebber die mijn zure opmerkingen nog steeds kan pruimen. Ik zal dus beter op mijn taalgebruik gaan letten: meer voor een publiek schrijven, dan vooral voor mezelf. Dan moet ik zeker ook wat nadrukkelijker uitwerken wat ik zelf verwacht van een wetenschapsquiz, zolang NWO zelf dat niet expliciet aangeeft. Laat ik meteen wat suggesties doen. In mijn eerste uitwerking van de quiz 2011 komt vaak het oordeel‘triviaal’ voor: mijn idee dat het bij deze vraag waarschijnlijk gaat om een specifieke kennis die vrijwel niemand heeft. Hierbeneden geef ik een belangrijke nuancering: het kan ook om kennis gaan die je waarschijnlijk niet hebt, maar waar je wel in staat bent om die kennis gericht te zoeken in een encyclopedie, wikipedia, google.scholar. Dit laten zoeken lijkt te stuiten op op de paradox van Meno — hoe kun je zoeken naar iets dat je niet weet — maar dat is niet waar ik naartoe wil. In tegensteling daarmee is mijn idee dat het bij een wetenschapsquiz gaat om het maken van een onderscheid tussen wat wetenschappelijk is en wat niet, wat een wetenschappelijk argument kan zijn en wat niet, het maken van een onderscheid tussen het doen van een uitspraak over de wereld en het empirisch onderzoeken of die uitspraak juist is. En dergelijke. Dat is allemaal nog niet zo eenvoudig, maar mijn verwachting is dat aan de hand van wetenschapsquizvragen die de toets van de triviant-kritiek doorstaan, wel duidelijk is te maken wat quizvragen zijn die aan deze bijzondere criteria voldoen. En dan heeft de ontwerper een instrument in handen waarmee het mogelijk is om gricht die goede vragen te ontwerpen.

Mijn misvatting volgt ook wel een beetje uit een bijna perfecte stilte die over mijn WQ-pagina’s hangt: als ik het wel heb, heb ik er in de afgelopen jaren precies één spontane email over ontvangen. Vandaag. Een mail met onder andre de tip dat de quizvragen niet alleen maar zijn bedoeld om in enkele minuten te beantwoorden zonder hulpmiddelen, maar ook om er enkele weken over te kunnen puzzelen in huiselijke kring of met de hele klas, experimentjes te doen, het internet af te struinen, de school-experts te bevragen, enzovoort. Een heel nuttig onderscheid, ik zal er rekeneng mee proberen te houden.

Voor de analyse van het ontwerp van deze quizvragen maak ik vrijelijk gebruik van mijn schema voor ‘Collegiale toetsing van toetsvragen’ hier:

1. Eerste indruk van de vraag
2. Wat wil de ontwerper weten over de kennis van de kandidaat?
3. Is de vraag inhoudelijk adequaat?
4. Is de vorm van de vraag adequaat?
5. Krijgt de ontwerper de bedoelde informatie?
6. Is het OK wanneer kandidaten zich gericht op vragen zoals deze gaan voorbereiden?
7. Overige punten van kwaliteit (zoals taal)

Maar eerst bekijk ik alleen de stam van ieder van de vragen, dus zonder de alternatieven te hebben gezien. Een beetje vouwen met de krant, dan lukt dat wel.

Wetenschapsquiz 2011

De kwaliteit van het ontwerp van afzonderlijke vragen hangt natuurlijk allereerst af van wat de bedoeling van de WQ is. Laten we zeggen dat NWO er toch een bepaalde bedoeling mee moet hebben, iets in de trant van: belangstelling voor wetenschap wekken of tenminste onderhouden, laten zien wat het belang van wetenschap is voor het dagelijks leven. Of misschien nog beter: wat het belang van wetenschappelijk denken en van een wetenschappelijke houding is in het dagelijks leven — thuis, onderwijs, beroep, bestuur en politiek, vrije tijd.

Verschillende opvattingen zijn dan mogelijk. De meest voor de hand liggende is deze: er is interessant wetenschappelijk onderzoek gedaan, laten we daar eens een vraag over stellen. Dat is ongeveer zoals docenten ook wel eens toetsvragen maken bij opgegeven leerstof: vraag de stof terug. Niet bijster opwindend, en eigenlijk ook helemaal niet goed, want veel te passief. Dicht in de buurt liggen dan de opgaven die gaan over bekende onderwerpen uit specifieke disciplines; soms in dezelfde categorie als oefenopgaven over opgegeven leerstof, of opgaven met een twist die ze bijzonder maakt. Een bekend voorbeeld in de laatstgenoemde categorie is het Monty Hall-probleem, of varianten daarop.

Al dergelijke benaderingen hebben het inherente probleem dat ze tamelijk doorzichtig zijn voor wie in de betreffende discipline goed de weg weet, en voor buitenstaanders alleen maar iets te raden overlaat. Kan het ook anders?

Als er zoiets bestaat als een wetenschappelijke benadering van de verschijnselen in de wereld, een wetenschappelijke houding, dan zou daarop aan te haken zijn. Denk dan aan de manier waarop we in ons dagelijks leven redeneren over de zaken en problemen die we tegenkomen: doen we dat met stoplappen die verder nadenken blokkeren, of doen we dat met een zekere logica en een open geest zodat we in staat zijn houdbare conclusies te trekken? Een aanwijzing voor dat laatste vind ik in het Flynn-effect: het verschijnsel dat doorheen de afgelopen eeuw de gemiddelde intelligentie van de bevolking stevig is gestegen. Niet alleen in Nderland, maar over ter wereld, zij het me locale varianties. De verklaring die James Flynn er zelf aan geeft is precies wat ik zoek: we zijn niet intelligenter geworden wat de omvang van onze woordenschat betreft, ook niet in het functioneren van de hersen (evolutie werkt nou ook weer niet zó snel . . . . ), maar wil in wat meer wetenschappelijke vormen van denken zijn: logisch redeneren, analogieën, en dergelijke. De reden dat we dat massaal zijn gaan doen: in het dagelijks leven worden we steeds meer ondergedompeld in wetenscappelijk denken, ook kinderen, zodat we dat met de paplepel ingegoten krijgen (nurture dus, geen nature). Wat levert dit inzicht ons op als het gaat om de mogelijke bedoeling van een WQ die door NWO wordt gesponsord?

Juist in een samenleving waarin er bij voorduring wordt geredeneerd over van alles en nog wat, komen er ook veel redeneringen voor die ondeugdelijk of misleidend zijn, zonder de redenaars dat in de gaten hebben, en vaak ook zonder dat de toehoorders het beseffen. Ik geef een markant voorbeeld. Naar aanleiding van de gebeurtenissen rond de Schiedammer parkmoord ondrvraagt de Tweede Kamer de minister van justitie, Piet Hein Donner. De minster legt uit dat er weliswaar DNA-sporen waren gevonden die waarschijnlijk van de dader afkomstig zijn, maar dat deze informatie door de aanklagers niet is gebruikt omdat er wel 100.000 Nederlanders bij deze onvolledige DNA-sporen zouden passen. Niemand in de Tweede kamer maakte gebruik van de interruptiemicrofoon. Vraag: Wat had een kamerlid tegen deze redenering van Donner in kunnen brengen, uitsluitend en alleen op basis van wat Donner had gezegd, en enig ‘wetenschappelijk’ inzicht? Het antwoord staat onderaan deze webpagina.

De actualiteit, zoals deze in de media is te vinden, wemelt van de ‘wetenschappelijke’ redeneringen, waaronder zeer vele die volgens eenvoudige maatstaven niet deugen. Dagblad X stelt onomwonden dat A de oorzaak is van B, terwijl alleen een samenhang tussen A en B is aangetoond maar geen oorzakelijke richting (B kan A veroorzaken, of C is oorzaak van zowel A als B). Vooral rapportages van sociaal-wetenschappelijk onderzoek worden op deze manier in de pers nogal eens verminkt, als de onderzoekers dat niet zelf al hebben gedaan. Economisch onderzoek hoort hier ook bij: het CPB doet nogal eens uitspraken die niet door de empirische gegevens gerechtvaardigd zijn.

Kortom: een rijk terrein voor indringende vragen met een wetenschappelijk karakter, die toch voor de meeste belangstellenden inzichtelijk zijn, maar niet vanzelfsprekend op het eerste gezicht onjuistheden worden herkend. Ik heb deze insteek voor de WQ in mijn achterhoofd, bij het beoordelen van het ontwerp van de quizvragen 2011, en ben dan iedere keer teleurgesteld wanneer een quizvraag daar niet voldoet, althans niet ongezien het juiste antwoord en de toelichting die de ontwerper daarvoor geeft. En dat is wel een punt van belang: ik verlang van de vragen in deze WQ dat zij duidelijk maken waar het over gaat en dat het een interessante of belangwekkende vraag is. Dus niet dat pas achteraf blijkt dat en vraag eigenlijk best interessant is, gezien de toelichting op het juisteantwoord.

Michael J. Ford & Ellice A. Forman (2006). Redefining disciplinary learning in classroom contexts. Review of Research in Education, 30 ch. 1, 1-32. abstract / first page

Het ontwerpen

Het zal sommige lezers verbazen dat de mijn aantekeningen bij de quizvragen een scherpe toon hebben. Het is goed om daar het volgende over te zeggen. Wat de toon op zich betreft: ik doe mijn best die te matigen, al lukt dat niet altijd en niet in eerste instantie. Scherpe kritiek daarentegen, heeft een duidelijke functie: het ontwerp van de toetsvragen moet bestand zijn tegen scherpe kritiek, en als het dat niet is, dan moeten de vragen dus anders of opnieuw worden ontworpen. Zo mogelijk, en daar moet ik meer mijn best voor doen, zal ik ook aangeven hoe het dan wel zou kunnen. Het uitgangspunt is: eerst sloopwerk, dan opbouwen. Dat uitgangspunt werkt prima in bijvoorbeeld training in het ontwerpen van toetsvragen. De situatie in een training is evenwel een iets andere dan hier bij de WQ: daar zijn het allereerst de collega’ die het sloop- en opbouwwerk voor hun rekening moeten nemen, collega’ die in dezelfde onderwijssituatie zitten en misschien hetzelfde vak geven.

Mijn eigen sloopwerk is riskant, zeker bij vragen in de WQ, omdat ik natuurlijk ook maar heel opervlakkige kennis heb van de meeste vakgebieden die hier voorbij komen. Ook al kan ik vaak aan de vorm en de opbouw van een vraag wel vermoeden dat er een bepaald type ontwerpprobleem speelt, zeker weten kan ik dat niet als het gaat over vakgebieden waar ik niet mee vertrouwd ben. Ik zal met mijn kritiek dus relatief vaak ongelijk blijken hebben: de ontwerper heeft een goed antwoord op de aangedragen kritiek. Op basis van enkele ervaringen met docenten die echt van wanten weten waar het gata om het ontwerpen van hun tentamenvragen, is mijn inschatting dat mijn kritische opmerkingen in de helft van de gevallen misgeschoten zijn.

De vragen zonder de alternatieven

Een goed uitgangspunt bij het ontwerpen van keuzevragen is dat de stam van de vraag op zichzelf een goede open vraag is. Het is geen doodzonde hiervan af te wijken, maar daar moet dan wel een goede reden voor zijn. Ik heb mijn bril afgezet, en van de website van NWO alleen de stammen gekopieerd.

Als u de quiz nog niet heeft gemaakt, is het een goed idee eerst eens te proberen deze open vragen te beantwoorden. Mij gaat het niet om het goede antwoord, maar om het ontwerp van de quizvragen. Ik wil eerst dus kijken of ik mag vermoeden dat de vragen op basis van alleen de stam, zijn te beantwoorden. Het te verwachten probleem is dan dat er enkele vragen zullen zijn, misschien wel veel vragen, waarbij de informatie die de alternatieven bieden, nodig is om te begrijpen wat de vraagsteller precies bedoelt. Dat is jammer dan, want in die gevallen ben ik streng en oordeel ik dat het ontwerp niet deugt, de stamvraag op zichzelf een riviale vraag is, en dergelijke.

Waarom is dit eigenlijk een belangrijk kwaliteitskenmerk van meerkeuzevragen? Het gaat mij niet om de quiz als zodanig, maar om toetsen en examens in het onderwijs. In dit geval dus: meerkeuzevragen in het onderwijs. Leerlingen leggen waarschijnlijk in hun onderwisjloopbaan honderden toetsen af, waarvan vele meerkeuzevragen bevatten. Het is dus van groot belang dat die meerkeuzevragen echt goed zijn ontworpen. De reden dat de stam van de vraag op zichzelf een volledige vraag moet zijn, is eenvoudig dit: na het lezen van de stamvraag moet de leerling al een helder idee kunnen hebben van wat het antwoord waarschijnlijk is, althans van wat er precies wordt gevraagd. Daarna moet het lezen van de alternatieven dus geen verrassingen meer inhouden. Sterker nog: wat een leerling terecht als een goed antwoord bedenkt, bij het lezen van alleen de stam van de vraag, moet in de aangeboden alternatieven terugkomen (anders komen we in een schemergebied terecht van gissen wat de ontwerper van de toetsvragen dan zou kunnen ehbben bedoeld, hoe moeten we het ene minder juiste alternatief afwegen tegen het andere, enzovoort).

1: Na het inschenken van de drank stijgen champagnebelletjes sneller op dan bierbelletjes van dezelfde grootte. Hoe komt dat?

Eerste indruk: triviant. Let op de qualifier (belletjes van dezelfde grootte): is dat een slag om de arm van de ontwerper, of is het een hint? Valt hier iets aan te beredeneren? Heeft champagne een hoger soortelijk gewicht dan bier? Wat zit er in de belletjes? Welke wereldles zit er in de beantwoording van deze vraag?

Tweede indruk: Stel ik neem de proef op de som, na een bezoek aan de slijter. Maar het is al gegeven dat de ene soort belletjes sneller stijgt dan de andere (in het eigen milieu dan). Er staat niet in de vraag dat gegeven is dat de belletjes champagne en bier even groot zijn. Het gaat dus niet om een proef op de som, maar om een proef om te zien wat er gebeurt. Misschien zijn er belletjes van allerlei omvang, worden ze op andere plaatsen gevormd, whatever. Zou in die waarnemingen een aanwijzing kunnen zitten over de oorzaak van dat verschil in stijgsnlelheid? Of is dit een verkeerde aanpak van het probleem, en moeten we onderzoeken wat de fysica is van belletjes in vloeistoffen?

Uiteindelijk zal er een verklaring te vinden zijn, misschien zelfs meerdere verklaringen. Wat ik nu vermoed: dat die verklaringen specifieke kennis behelzen. Het algemene beginsel hebben we immers al in de vraagstelling: gasbelletjes in vloeistof stijgen met variabele snelheden afhankelijk van de fysieke omstandigheden. Als dat zo is, dan is de vraagstelling triviaal omdat het om specifieke kennis gaat, respectievelijk een speurtocht naar specifieke data (champagne, bier, belletjes).

Een mogelijkheid om een nieuw probleem op te lossen: zoek een verwant probleem dat al is opgelost. Ik herinner mij dat in een eerdere WQ er een vraag is geweest over belletjes in champagne. Het is kennelijk een aantrekkelijk onderwerp!

2: De meeste olympische zwembaden zijn 3 meter diep. Wat gebeurt er met de zwemtijden van de verschillende deelnemers tijdens een olympische sprintwedstrijd als er gezwommen wordt in een bad van maar 1,5 meter diep?

Eerste indruk: Gáát die ergens over? Er zullen wel empirische cijfers beschikbaar zijn. Maar niet ieder empirisch cijfer laat zich even makkelijk verklaren. Waar slaat het ‘gebeuren’ op: op de tijden die worden gemaakt, of ook op verklaringen voor afwijkende tijden?

Tweede indruk: ‘Wat gebeurt er met de zwemtijden van de verschillende deelnemers’ is een onbepaalde vraagstelling. De informatie in de aangeboden alternatieven moet uitwijzen wat ermee is bedoeld. En dat is niet de bedoeling van meerkeuzevragen.

3: Je kunt bij Facebook heel goed zien hoeveel vrienden jouw vrienden hebben. Hebben mensen op Facebook gemiddeld net zoveel vrienden als hún vrienden?

Eerste indruk: dit ziet eruit als een strikvraag; het antwoord dat op de punt van de tong ligt is immers ‘ja’. Maar hoe gaan sommige quizvragen: een subtiel verschil van één vriend zou van belang kunnen zijn. Dan blijkt dit nog een lastige vraag te zijn als je hem onder tijdsdruk moet beantwoorden: wat is hier een passend wiskundig modelletje? Noem het gemiddeld aantal vrienden m. Een willekeurig gekozen persoon heeft naar verwachting dus m vrienden. Kies uit die vrienden willekeurig een vriend: je kent dan al één vriend van die willekeurig gekozen vrienden. Hoe het verder precies gaat is misschien ingewikkeld, maar de vraag lijkt te beantwoorden.

Dit is m.i. een interessante vraag. Ik ben wel benieuwd wat de ontwerper verder kan aangeven over het belang van deze vraag: in welke situaties in het dagelijks leven, de politiek, het recht of de wetenschap speelt dit probleem een rol? Het heeft waarschijnlijk iets te maken met het Monty Hall-probleem! (zie de eerste Nationale Rekentoets, gepresenteerd door Ronald Plasterk).

4: Je druppelt voorzichtig een waterdruppel van 1 millimeter groot op een metalen plaat waarvan de temperatuur ver onder het vriespunt ligt. Wat is de vorm van de ijsdruppel die zal ontstaan?

Eerste indruk: dit is triviant. Als ik dan toch een antwoord moet geven: peervormig, want bevriest bij eerste aanraking???

Wat is ‘ver’? Dit is een ontwerpfout: het mag niet ongewis zijn hoe ver ‘ver’ is. Nul graden Kelvin?

Tweede indruk: Mijn vermoeden blijft: triviant. De reden is mijn vermoeden dat het gaat om een experimentje onder heel specifieke omstandigheden, waar achteraf een min of meer theoretisch lijkende verklaring bij zal zijn gezocht. Het ontgaat mij wat het wetenschaps-appeal van deze vraag is. Of het praktisch belang.

I.p.v. ‘ver onder het vriespunt’ gewoon aangeven hoe ver onder het vriespunt.

5: Een gps-satelliet wordt vlak voor zijn lancering altijd zo ingesteld dat de interne klok net een fractie langzamer loopt dan klokken op aarde. Waarom doet men dat?

Eerste indruk: de vraag is wollig geformuleerd. Wat is ‘een fractie langzamer’?

Vincent Icke heeft eens een column geschreven over het belang van relativiteitstheorie voor het dagelijks leven, i.h.b. voor communicatie via dergelijke satellieten: ‘tijd’ moet worden gecorrigeerd.

Tweede indruk: Misschien bedoelt de ontwerper dat in de vraag herkend moet worden om welke natuurkundige theorie dit gaat: die van Aristoteles, Newton, Einstein, of Schroedinger. De vraag ‘Waarom doet men dat’ zou dan beter zijn: op welke natuurkundige theorie berust dat?

Dit is een vraag die in een WQ past. Ik trek mijn eerste indruk van ‘wolligheid’ terug, al kan de vraag zeker beter worden geformuleerd.

6: Je hebt je shirt binnenstebuiten aan en je handen zijn aan elkaar vastgebonden met handboeien. Is het mogelijk om je shirt goed te krijgen zonder je handen los te maken?

Probeer de volgende vraag te beantwoorden: is het mogelijk dat iemand anders je shirt goed kan krijgen zonder je handen los te maken (zonder het shirt uit te trekken)? Ik kan het mij niet voorstellen. Misschien is het antwoord gewoon ‘nee’, heel de vraagstelling suggereert dat het misschien mogelijk is.

Tweede indruk. Ik heb nog geen idee wat de pointe van deze vraag kan zijn. Misschien is het antwoord inderdaad gewoon ‘nee’, of kan het wel, maar dan met de hulp van iemand anders, of laat ik me foppen door een tekort aan ruimtelijk voorstellingsvermogen (je kunt dat shirt over je hoofd proberen te trekken; dat zou ook het experiment zijn dat ik zou doen?).

Ik heb bij deze vraag het woord ‘triviant’ niet laten vallen, omdat ik vermoed dat er iets achter deze vraag steekt dat hem tot een goede WQ-vraag maakt; de aangeboden alternatieven zullen een deel van het raadsel oplossen. Het intrigeert me wel.

7: Het is alsof bomen weten waar andere bomen staan. Hoe komt het dat volwassen bomen elkaar niet verdrukken of met hun takken tegen elkaar aan staan?

De beukenhaag achter in de tuin is een voorbeeld van het tegendeel. De vraagsteller doet hier een universele uitspraak die waarschijnlijk niet waar is. Ik begrijp de vraag dus niet.

Tweede indruk. Ik begrijp nog niet waar de vragensteller precies heen wil. Ik vermoed dat hij/zij een bepaald fenomeen op het oog heeft, dat door de informatie in de vraag niet adequaat wordt aangeduid. Ik verwacht dat de aangeboden alternatieven nodig zijn om de vraag goed te begrijpen.

8: Er bestaat een vrij recent ontdekt ontladingsverschijnsel boven de wolken, dat vernoemd is naar een wezen uit een toneelstuk van:

Eerste indruk: dit fenomeen was deze week nog in het nieuws: het zou ook op andere planeten voor kunnen/moeten komen. Hoe heten ze ook alweer, ‘sprites’? Ken ik een ‘wezen’ sprite?

Het lijkt me dat geen passende WQ-vraag is: het is geen natuurkunde, en geen literatuurweteschap. Dan moet het triviant zijn.

9: Op Groenland ligt ongeveer 2,9 miljoen km³ ijs. Stel dat al dat ijs smelt en zich onmiddellijk verdeelt over het hele oceaanoppervlak. Hoeveel meter zeespiegelstijging zou dit aan de Nederlandse kust veroorzaken?

Eerste indruk: er wordt verwarring gezaaid met ‘aan de Nederlandse kust’: wat is er speciaal aan de Nederlandse kust?

Het aantal meters zeespiegelstijging door dit smelten is een cijfer dat regelmatig in wetenschapsbijlagen opduikt. Als je het niet weet, dan kun je rap de oppervlakte van 2/3e van de aarde uitrekenen, in km², enzovoort. Ha, je moet je natuurlijk realiseren dat het landijs is dat smelt, geen noordpoolijs.

Tweede indruk: het probleem met deze vraag, zonder de alternatieven gezien te hebben, is dat velen al wel weten hoeveel meter zeespiegelstijging het afsmelten van de Groenlandse ijskap tot gevolg zal hebben. Maar wat moet ik dan met de info over het aantal kubieke kilometers, en die Nederlandse zeekust? Het ontwarren van deze knoop heeft niet met wetenschap van doen, ik ben benieuwd of de aangeboden alternatieven deze moeilijkheid wegnemen.

10: Een grijs beeldscherm is gevuld met willekeurig geplaatste zwarte en witte stippen. Op het scherm verschijnt steeds een nieuw beeldje waarbij de stippen iets naar rechts zijn verplaatst. We zien dan de stippen vloeiend naar rechts bewegen. Wat gebeurt er nu met de beweging als we bij elk even beeldje (nummer twee, vier, zes, etc.) de witte stippen zwart maken en de zwarte stippen wit?

Eerste indruk: dit is triviant. Ik heb in mijn leven heel wat waarnemingspsychologie opgenomen, maar ik ga er echt niet aan beginnen om voor deze onzin een hypothese op te stellen. Kom nou, zeg!

De formulering van de vraag is erg slordig: beeldschermen worden niet met afbeeldingen gevuld, projecties laten afbeeldingen zien. Door deze slordigheid is het ook de vraag: gaat het om analoog beeld (tv-buis, tv of monitor), of om digitaal beeld (lcd etcetera).

Slordig is ook dat de tijd ongespecificeerd is: ‘verschijnt steeds’: is dat om de minuut, seconde, honderdste seconde?

Tweede indruk: mijn eerste reactie was enige verontwaardiging. In tweede aanleg blijft dat zo. Ik herinner me dit ook wel van voorgaande jaren: vragen uit de doos van de waarnemingspsychologie, waar ik als waarnemingspsycholoog niets van kon bakken. Ik ben natuurlijk gewoon gefrustreerd, laten we het daar even op houden. De verklaring voor het mislukken van deze vraag is waarschijnlijk eenvoudig dit: zo’n waarnemingsexperimentje laat zich niet in kort bestek beschrijven. Er zijn best goede vragen over te ontwerpen, maar dit lijkt er niet een van te zijn. Tenzij de crux van de vraagstelling zit in de aangeboden alternatieven.

11: Je hebt de keuze om voor het eerst op een ouderwetse hoge bi (vélocipède) of op een moderne ligfiets te rijden. Op welke van deze twee fietsen kun je het makkelijkst je evenwicht bewaren?

Eerste indruk: dit is alleen een interessante vraag wanneer het voor de hand liggende antwoord niet juist is. Het zal dus wel een strikvraag zijn.

Gegeven dat gyroscopische effecten niet bepalend zijn voor het overeind blijven van tweewielers, moet het dus gaan om de mogelijkheden om verlies van evenwicht snel te compenseren.

Ook deze vraag is weer slordig geforumleerd: ‘je evenwicht’ kan slaan op het evenwicht van de persoon op de fiets, of op dat van de bereden fiets. Dat zijn verschillende zaken. Er zijn legio vragen in de wetenschapsquiz geweest waarbij het antwoord afhangt van subtiele interpretaties.

Tweede indruk. De precieze bedoeling ontgaat me nog steeds. Nu valt me ook op dat de vraag niet gaat over makkelijk fietsen, of makkelijk leren fietsen, maar over makkelijk je evenwicht bewaren.

Het WQ-gevoel is er wel bij deze vraag, maar het kan nog even niet landen. Het is interessante natuurkunde, een beetje raadselachtig ook.

Nu ik er nog eens over denk: het is een gelaagde vraag. De eerste laag is: hoe bewaar je op een gewone fiets tijdens het rijden je evenwicht. De tweede laag: is dat anders bij een ligfiets, en ook weer anders bij een ouderwetse hoge fiets, of wel wezenlijk hetzelfde maar heeft misschien de hoogte van zwaartepunt van de combinatie fiets-berijder een specifieke betekenis? Een complexe vraag dus, maar ik verwacht dat de aangeboden alternatieven de complexiteit aanzienlijk zullen reduceren. Als dat zo is, waarom was het dan niet mogelijk om de stam van de vraag aan te scherpen?

12: Een 35-jarige man transplanteert schaamhaar naar zijn hoofd om de snel oprukkende kaalheid, die in zijn familie veel voorkomt, te bestrijden. Hoe ziet hij er tien jaar later uit?

Eerste indruk: ergerlijke triviant. Net als bij de zwembad-vraag zal er wel empirisch materiaal voorhanden zijn. Ik ben er helemaal niet benieuwd naar. Hoog leukheidsgehalte, weg ermee.

13: Als je een theedoek nat maakt, wordt hij donkerder van kleur. Laat je hem drogen dan wordt hij weer lichter. Wat veroorzaakt deze kleurverandering?

14: Je hebt drie doosjes met bonbons. In het ene zitten twee witte bonbons, in het andere zitten twee pure bonbons en in het derde doosje zitten een pure en een witte bonbon. Je kiest willekeurig één van de drie doosjes en pakt daaruit ook weer willekeurig één van de twee bonbons. Die bonbon is wit. Wat is nu de kans dat de andere bonbon in het gekozen doosje ook wit is?

Eerste indruk: Is dit een variant op het Monty Hall-probleem? Dat moet haast wel. Altijd leuk voor een quiz, maar wat leert een mens ervan? Het is een onderwerp waar je een boek over kunt schrijven. En dat is er dus ook, mogelijk zijn er ondertussen meerdere.

Jason Rosenhouse (2009). The Monty Hall problem. The remarkable story of math’s most contentious brain teaser. Oxford University Press.

Tweede indruk: Het Monty Hall (Willem Ruis, wie zijn show nog kent) probleem is natuurlijk verdraaid aardig vanwege de hoog oplopende ruzies tussen hoogleraren die het beter weten, en het experiment dat glashelder aantoont wat precies de kansen zijn. Maar ik vind dat voor een wetenschapsquiz geen geschikte vraag (als hoogleraren er ruzie over kunnen krijgen, dan is het dus te moeilijk), wel voor een show als die van Willem Ruis. Er moeten in het dagelijks leven, en in het beroepsmatige leven, volop situaties zijn waarin het er enorm toe doet. Dus: ruil die bonbons in voor een realistische situatie (medische diagnostiek, zou dat kunnen? Erkend lastig, maar leerzaam om dat eens geïllustreerd te zien).

15: Een schip dat drinkwater vervoert ligt te wachten in een grote zeesluis. Door een gat in het schip stroomt zeewater het schip in. Om te voorkomen dat het schip gaat zinken, pompt de bemanning het drinkwater de sluis in. Er stroomt net zoveel water het schip in, als de bemanning wegpompt. Het waterniveau in de sluis:

Eerste indruk: dit is alleen een interessante vraag wanneer het antwoord niet het voor de hand liggende is.

De puntjes op de i: het schip vervoert drinkwater, maar waar is dat dan opgeslagen, beneden de waterlijn? Maakt dat uit, dan?

Tweede indruk: het heeft wel iets weg van een vraag in een intelligentietest: ben je in staat om je snel een adequaat beeld te vormen van de situatie?

Het lijkt me evident dat het verschil tussen zoet en zout water hier een rol speelt, of loop ik dan in de valkuil die de ontwerper voor mij heeft neergelegd?

Wie tijd heeft voor een experimentje, kan dat doen. Sterker nog: bedenken hoe je het experiment aan zou pakken, geeft waarschijnlijk ook het antwoord, of tenminste een sterke hint in welke richting het antwoord is te zoeken.

Ik hou niet van gekunstelde probleemsituaties, maar overigens lijkt me dit een aardig WQ-probleem. Wat zou een minder gekunstelde situatie zijn, en toch hetzelfde probleem?

Waarom heb ik een probleem met gekunstelde situaties: die zijn er met de haren bijgesleept, stel dan liever een directe vraag zonder context. Over soortelijk gewicht van A en B of zo.

De keuzevragen

1: Na het inschenken van de drank stijgen champagnebelletjes sneller op dan bierbelletjes van dezelfde grootte. Hoe komt dat?

Door de hogere viscositeit van het bier.
Doordat bierbelletjes bij het opstijgen 'beplakt' raken met eiwitten waardoor ze een hogere weerstand ondervinden.
Door de hogere gasdruk in champagnebelletjes waardoor de opwaartse kracht groter is.

Waarom is dit triviant? Omdat er nog verdere toelichting nodig is waarom het juiste alternatief juist, en de onjuiste alternatieven onjuist zijn. Maar dat is bij goed ontworpen vragen meestal ook het geval. Het verschil is hier, naar mijn mening (maar ik kan het verkeerd hebben), dat het juiste antwoord een proefondervindelijk antwoord is. Daar is op zich ook niets mis mee, als je de proeven zelf zou kunnen doen. Maar zonder die proeven is de vraag triviant.

Op de website zijn de alternatieven niet afgesloten met een punt, in de kranten is dat gelukkig wel het geval: een alternatief dat een volledig zin is, wordt met een punt afgesloten.

Ik reageer geërgerd op deze drie alternatieven. De reden is dat ik me gedwongen voel om ieder alternatief te bestuderen en te overwegen, terwijl ieder alternatief over een heel ander fysisch of chemisch proces gaat. In de vakliteratuur heet deze ontwerpfout: de alternatieven zijn heterogeen van aard. Het is een ontwerpfout, omdat hier in beginsel drie afzonderlijke vragen in het keurslijf van deze ene keuzevraag zijn geregen. Het is niet onmogelijk dat de ontwerper tegenwerpt dat een verstandige lezer ook zonder de aangeboden alternatieven kan weten wat het goede antwoord is. Ook al zou dat waar zijn, dan ontstaat er voor deze kundige quizdeelnemer (ik ben jaloers op deze persoon) bij het aanbieden van deze drie alternatieven alsnog het probleem dat hij/zij moet nagaan of die andere twee alternatieven inderdaad onjuist zijn.

Ik heb verdraaid weinig natuurkundige kennis paraat, en heb geen idee waarom de onjuiste alternatieven onjuist zijn: ik weet niet welke twee het zijn, en ik weet niet of het mogelijk is om bijv. op basis van kennis van wat gasdruk in opstijgende belletjes is, het derde alternatief als op zich onjuist te herkennen. ‘Beplakt raken met eiwitten’ kan wat mij betreft even goed falikante onzin zijn, als een biochemische mogelijkheid.

Ik hoop dat bij de toelichting op het juiste antwoord, ook nog even wordt aangestipt waarom de beide andere antwoorden onjuist zijn (in voorgaande jaren gebeurde dat niet, en vaak evenmin in de uitzending zelf als ik me goed herinner).

Het kan zijn dat deze vraag een goede WQ-vraag is, maar dat ik de algemene kennis mis om hem te kunnen beantwoorden. Voor hetzelfde geld is het inderdaad triviant. Mijn eerste opwelling, bij het zien van de alternatieven, was dat het triviant moet zijn; mijn tweede indruk is dat het misschien mogelijk is om op basis van de alternatieven en met enige algemene natuurkundige kennis te beredeneren welke de juiste moet zijn. Ik moet het afwachten.

Als er dan meerkeuzevragen worden gebruikt (waarom is dat eigenlijk nodig voor deze quiz), dan is het inderdaad verstandig om het aantal te beperken tot drie alternatieven. Prima.

De zwemtijden gaan allemaal evenveel omhoog
De zwemtijden komen verder uit elkaar te liggen
De zwemtijden komen dichter bij elkaar te liggen

Nou ja, zeg! Dit is toch volstrekt oninteressant? Het moet in een wetenschapsquiz toch niet gaan om dit soort triviale empirische waarnemingen, maar om mogelijke verklaringen voor de empirische feiten zoals die zijn geconstateerd?

Deze drie alternatieven zijn homogeen, ze horen bij elkaar, zal ik maar zeggen. Prima. Wat een heterogeen stel alternatieven is, laat vraag 1 zien. Kritiek op de formulering van alternatief a.: strikt genomen kan dit antwoord niet juist zijn, omdat dit never ever is aan te tonen. Als er gestaan had dat ze gemiddeld allemaal evenveel omhoog gaan, was het een adequaat alternatief geweest.

Er valt iets te zeggen voor de juistheid van alternatief b.: de snelste zwemmer ondervindt geen hinder van wervelingen veroorzaakt door de concurrentie, de laatste zwemmer heeft mogelijk hinder van wervelingen veroorzaakt door een aantal concurrenten. Aangenomen dat wervelingen inderdaad hinderlijk zijn.

Informatie in alternatief a. wordt herhaald in b. en c. Die informatie moet in de stam van de vraag staan, niet in de alternatieven.

Met deze alternatieven erbij, is de zwembad-vraag van de regen in de drup geraakt. Als er al iets van wetenschappelijke interesse zou zijn, zit dat verborgen is het antwoord dat de ontwerper van deze vraag heeft aangemerkt als het juiste. Ik verwacht eigenlijk wel dat er een interssante verklaring zal komen waarom welk alternatief juist is, maar het is een gemiste kans dat die wetenschappelijke crux van de zaak op geen enkele manier is gebruikt in de vraagstelling zelf.

Is het mogelijk om op deze vraagstelling eigen onderzoek te doen? Ik heb daar twijfels over. Stel, er is een zwembad in de stad met twee baden die voldoen aan de omschrijving in de vraag. Kom jongens, we doen een paar zwemwedstrijdjes. Is het denkbaar dat er in afzienbare tijd statistisch significante resultaten vallen te noteren?

Of zie ik iets eenvoudigs over het hoofd, iets dat met wetenschap niets heeft te maken, zoals de diepte van de duik na de afsprong?

Is te beredeneren dat de tijden in ieder geval niet dichter bij elkaar komen te liggen? Aannemend dat bij een ondiep bad de condities voor snelle tijden minder gunstig zijn? Iedereen doet er langer over, door de bank genomen groeien de tijdverschillen dus ook iets langer door?

Ik begin een argwanend gevoel te krijgen dat de ontwerper alternatief a. als juist antwoord heeft.

3: Je kunt bij Facebook heel goed zien hoeveel vrienden jouw vrienden hebben. Hebben mensen op Facebook gemiddeld net zoveel vrienden als hún vrienden?

Ja.
Nee, gemiddeld hebben hun vrienden meer vrienden dan zij.
Nee, gemiddeld hebben hun vrienden meer vrienden dan zij.

Ontwerpfout: twee alternatieven herhalen het ‘gemiddeld’ dat al in de stam van de vraag staat. Door die herhaling, die onverwacht is, is de lezer geneigd de stamvraag opnieuw te lezen.

Deze alternatieven passen inderdaad logisch bij een op zich volledige stamvraag. Met een kleine aanpassing in de stam van de vraag is het mogelijk om alternatieven a., b. en c. te verkorten tot a. evenveel, b. minder, c. meer. Of beter, de logische volorde aanhouden: a. minder, b. evenveel, c. meer.

Hier speelt hetzelfde probleem als bij de zwemtijden: interessant is natuurlijk het waarom: de ontwerper had ervoor kunnen kiezen om bij het ontwerp uit te gaan van de verklaring, niet het blote antwoord. Dat kan een andere stamvraag opleveren, een vraag die is toegespitst op een cruciaal aspect van het probleem en zijn verklaring. Een veel minder complexe vraag dus. Het is maar een ingeving, ik weet niet of dit een haalbaar idee is, daarvoor moet ik uitgaan van de verklaring die de ontwerper geeft, op 26 december.

Het onbevredigende van deze WQ-vraag is dat de deelnemer die geen flauw idee heeft hoe de vraag aan te pakken, evenmin weet wat het gebrek aan kennis of inzicht is waardoor deze vraag een raadsel blijft. Totdat als een duveltje uit een doosje — kiekeboe — achteraf de uitleg wordt gegeven.

4: Je druppelt voorzichtig een waterdruppel van 1 millimeter groot op een metalen plaat waarvan de temperatuur ver onder het vriespunt ligt. Wat is de vorm van de ijsdruppel die zal ontstaan?

De druppel krijgt een perfecte bolle bovenkant.
De druppel vloeit plat uit en bevriest dan als een soort pannenkoek.
De druppel krijgt een spitse bovenkant.

Het experiment zal het uitwijzen. Zie voorgaande aantekeningen bij vergelijkbare quizvragen, in feite alle drie voorgaande vragen. Het verklaren van verschijnselen, toch bij uitstek wat wetenschappelijk zou moeten zijn aan deze quiz, is weggeduwd naar de latere uitleg van de antwoorden, in plaats van in de vragen zelf verwerkt, en dat vooral in situaties waarin er waarschijnlijk op voorhand geen plausibele verklaringen te bedenken zijn tenzij iemand het betreffende expriment toevallig al kent?

5: Een gps-satelliet wordt vlak voor zijn lancering altijd zo ingesteld dat de interne klok net een fractie langzamer loopt dan klokken op aarde. Waarom doet men dat?

Om te compenseren voor de hoge snelheid van de satelliet.
Om te compenseren voor de veranderde zwaartekracht op de satelliet.
Om te compenseren voor de lage temperatuur van de satelliet.

Op basis van het vermoeden van relativiteitsverschijnselen, vallen twee alternatieven af. Maar gaat het daarom? Het ontgaat mij verder volkomen wat hier aan de orde wordt gesteld. Is het toch weer triviant?

Merk op dat de alternatieven weer een heterogene set vormen: drie volkomen verschillendsoortige verklaringen.

Heeft de ontwerper daarom die compensatie drie keer in de alternatieven genoemd, in plaats vanéén keer in de stam van de vraag?

Ik vermoed dat het idee om drie verschillend geaarde verklaringen als alternatieven te kiezen, het de ontwerper vervolgens bijna onmogelijk maakt om tot een interessante vraagstelling te komen. Zou zoiets in het algemeen inderdaad een valse start bij het ontwerpen van een vraag kunnen zijn? De ontwerper is dan bovendien afgeleid door niet ter zake doende natuurkunde. Als daar een kern van waarheid in zit, dan zijn de vragen met een heterogene set van alternatieven door de bank genomen minder geslaagd dan de vragen met een homogene set alternatieven. Ik kan straks dus gaan tellen.

Is alternatief b. een strikformulering? Wat is ‘zwaartekracht op de satelliet’? ‘Veranderde’ zwaartekracht, bovendien.

Om welke klokken gaat het? ‘Klokken op aarde’ lijkt me nogal onbepaald. Deze formulering suggereert wel onmiddellijk dat er een relativiteitseffect aan de orde is. Maar waarschijnlijk is alleen bedoeld: hetzelfde type klok als in de satelliet. Of gaat het niet om de klok, maar om de tijd? Ik wacht antwoord en uitleg af.

6: Je hebt je shirt binnenstebuiten aan en je handen zijn aan elkaar vastgebonden met handboeien. Is het mogelijk om je shirt goed te krijgen zonder je handen los te maken?

Ja, dat kan, na wat moeite zit je shirt weer goed.
Nee, dat kan niet want je shirt eindigt ondersteboven.
Nee, dat kan niet want je shirt eindigt achterstevoren.

De alternatieven passen bij een stamvraag die op zichzelf een volledige vraag is. Dat is mooi. De nieuwe informatie over twee mogelijk verkeerde aflopen van het experiment, nuanceren het ontkennende antwoord: als je denkt dat het niet kan, wat is dan wèl het eindresultaat?

De eerste reactie op het zien van de vraag is: het zal wel ‘ja’ zijn, waarom zou de vraag anders interessant zijn? De alternatieven b) en c) geven er dan een interessante draai aan: de vraag is ineens ook interessant als het niet blijkt te kunnen, en hoe dan. Mooi gedaan. Stel dat alternatief b) juist is, en de ontwerper is met dat gegeven begonnen, dan is het een mooie wending om de stam van de vraag te stellen zoals hir is gebeurd.

Maar goed, dit schrijf ik op zonder nog over de alternatieven b) en d) te hebben nagedacht: kan ik vanuit deze alternatieven terugredeneren?

7: Het is alsof bomen weten waar andere bomen staan. Hoe komt het dat volwassen bomen elkaar niet verdrukken of met hun takken tegen elkaar aan staan?

Ze detecteren signaalstoffen die de buurbomen via hun wortels afgeven aan het grondwater.
Ze detecteren het lichtspectrum dat van hun buurbomen afkomt.
Ze detecteren de zuurstof die door hun buurbomen via fotosynthese wordt geproduceerd.

Een beetje wonderlijk antropomorfisme. Bomen weten natuurlijk niets, en detecteren niet.

Een heterogene set alternatieven. Dat het in drie gevallen gaat om ‘detectie’, maakt de set niet homogeen.

Nemen de aangeboden alternatieven mijn onzekerheid weg over wat de ontwerper precies bedoelt te vragen? Nee, al wordt de zoekruimte wel ingeperkt.

Ik ben benieuwd wat waarom het juiste alternatief is, en hoe het dan zit met de beide andere alternatieven. Ik neem aan dat de ontwerper geen onzin heeft zitten bedenken, en dat wat er in de drie alternatieven staat op zich allemaal juist is, maar slechts in één geval tevens een verklaring is. Maar de echte verklaring moet dan nog achteraf worden gegeven: wat het gevolg is van de betreffende detectie, en hoe dat dan resulteert in het uit de buurt blijven van de buren.

8: Er bestaat een vrij recent ontdekt ontladingsverschijnsel boven de wolken, dat vernoemd is naar een wezen uit een toneelstuk van:

Sophokles.
Shakespeare.
Goethe.

Er verandert niets.
Tussen de 2 en 3 meter.
Tussen de 7 en 8 meter.

Deze alternatieven geven aan dat de vraag eigenlijk uit twee delen bestaat: is er een effect op de zeespiegel, en zo ja, hoe groot is dat effect ongeveer? Het is een beetje ingewikkeld, het kan beter zijn om de vraag op één van beide toe te spitsen

Is dit nog een homogene set alternatieven? Ik dacht het wel, ook al is de vraag te splitsen in twee deelvragen, het blijft wel een homogeen geheel.

Die Nederlandse kust heeft er dus niets mee te maken. Dat soort flauwekul moet een ontwerper van toetsvragen nalaten: het risico van misverstand en dubbelzinnigheid is gewoon te groot.

Stel nu eens dat team A antwoord b. kiest, en team B. kiest antwoord c. Wat weten we dan over de kennis en/of het inzicht van de beide teams? Precies, daar weten we met enige zekerheid niet echt heel veel van. Van het team met het foute antwoord weten we in ieder geval dat ze het juiste antwoord niet hebben geweten (maar misschien hadden ze wel een goede redenering, wat lerlingen met een veel beter dan gemiddelde beheersing van de stof vaak overkomt). Van het team met het juiste antwoord weten we allen dat ze het juiste antwoord hebben aangestreept, maar dat kan geraden zijn, het kan op basis van kennis zijn (iemand had het laatst nog in de krant gelezen), of het kan op basis van inzicht zijn (iemand heeft het razendsnel uitgerekend: de oppervlakte van de aarde in vierkante kilometers, daar tweederde van, enzovoort). Over toevallig iets gelezen ehbben: ik las onlangs dat in het voortgezet gewoon lager onderwijs aan het begin van de vorige eeuw een rekenregel voor de oppervlakte van een bol met een gegeven straal werd aangeleerd. Dat zou handige kennis voor deze vraag zijn geweest.

We zien dezelfde beweging maar sterk versneld.
We zien geen beweging omdat je hersenen geen eenduidige verplaatsing zien.
We zien de bewegingsrichting omdraaien.

Het alternatief b. is onzin; dat schept het probleem dat de ontwerper misschien iets bedoelt dat niet goed is geformuleerd. Ik keur dit alternatief af. Ik moet dat toelichten. De ontwerper vindt het nodig om niet te volstaan met ‘We zien geen beweging’, en voegt er een verklaring aan toe. En dat is bijzonder, want een dergelijke verklaring is niet bij alternatieven a. en c. gegeven. De verklaring hoeft geen onzin te zijn: misschien is er een cognitieve theorie die voorspelt exact hoe en waar de gewaarwording van beweging in de hersenen plaatsvindt, en is daar een empirische toets op te doen met de inzet van een fMRI-scanner.

Afgezien van het gesignaleerde gebrek, is de set alternatieven homogeen: zien we beweging, en zo ja welke is dat dan?

Alternatief c. is een hint, al dan niet in de juiste richting: in films zien we immers bij draaiende wielen met spaken vaak een terugdraaiende beweging, een effect dat onstaat omdat film nu eenmaal een opeenvolging is van afzonderlijk geschoten beelden, en hoe dan maar eens bij of je dezelfde spaken ziet, of andere. Zou dit fenomeen bedoeld zijn? Dan zijn er toch voldoende mogelijkheden om een betere vraag te stellen dan hier is gedaan.

11: Je hebt de keuze om voor het eerst op een ouderwetse hoge bi (vélocipède) of op een moderne ligfiets te rijden. Op welke van deze twee fietsen kun je het makkelijkst je evenwicht bewaren?

De hoge bi.
De ligfiets.
Maakt niet uit, op beide is het even moeilijk.

Mijn verwachting dat in de altrenatieven extra informatie zou worden geboden over de achterliggende natuurkunde, is dus niet uitgekomen. Ook hier wordt hetdus weer wachten op ‘kiekeboe’ die komt uitleggen waarom welk antwoord het juiste is. Eigenlijk komt dat er dus op neer dat het ‘wetenschappelijke motiveren’ van de deelnemers aan de quiz hier niet gebeurt bij het lezen en proberen op te lossen van de vraag, maar achteraf bij de uitleg. Dat is jammer, dat kan beter anders: zowel bij het lezen en beantwoorden zelf, alsook achteraf bij het verder uitwerken van een en ander.

Het experimentje is leuk om te doen. Ik vermoed dat het niet uitmaakt of in plaats van de hoge bi een gewone moderne fiets wordt genomen

De hunch is: die ligfiets is veel sneller, dat zou best ook iets met evenwicht te maken kunnen hebben. De kritiek is natuurlijk: stel dat het experiment duidelijk is, wat weten we dan over de natuurkunde van het evenwicht? Precies: nog steeds niets. Voor een wetenschapsquiz is dat teleurstellend. De verklaring komt dan achteraf uit de mond van een uitlegger.

Aan de TH Delft is onderzoek gedaan naar evenwicht en fietsen. Daar zal het idee van de vraag ook wel vandaan komen.

12: Een 35-jarige man transplanteert schaamhaar naar zijn hoofd om de snel oprukkende kaalheid, die in zijn familie veel voorkomt, te bestrijden. Hoe ziet hij er tien jaar later uit?

Kaal: het schaamhaar valt net als het hoofdhaar uit.
Behaard: het schaamhaar zit er nog maar de kans op krullen is heel groot.
Behaard: het schaamhaar zit er nog en heeft vorm en kleur van het hoofdhaar overgenomen.

Het schema zijn we eerder tegengekomen: is hij kaal of niet, en zo nee, ziet het haar er dan uit naar waar het vandaan komt, of naar waar het getransplanteerd is?

13: Als je een theedoek nat maakt, wordt hij donkerder van kleur. Laat je hem drogen dan wordt hij weer lichter. Wat veroorzaakt deze kleurverandering?

Het water fungeert als een soort glasvezel waardoor het licht diep doordringt in het materiaal.
Doordat de brekingsindex van water dicht bij die van textiel ligt neemt de verstrooiing af.
Water absorbeert meer rood en groen licht dan textiel.

Mijn natuurkundige kennis schiet tekort om hier vooruitgang te kunnen maken. Ik neem aan dat ieder alternatief op zich wel een juiste uitspraak is, maar niet de gevraagde verklaring hoeft te zijn. Is het juiste alternatief te vinden door beredeneerd afstrepen van de twee andere?

1/3,
1/2,
2/3.

Ja, dat was te verwachten. De stam van de vraag is op zichzelf al bijna een driekeuzevraag. Prima set alternatieven, homogeen.

Stijgt.
Daalt.
Blijft gelijk.

Er valt iets voor te zeggen om de alternatieven in een logische volgorde te zetten, ook om de indruk weg te nemen dat alternatief c. niet op zichzelf een logisch antwoord zou zijn (want geboren uit de verlegenheid van de ontwerper om na de stijgen of dalen nog een derde alternatief te bedenken). Dus bijvoorbeeld: daalt, blijft gelijk, of stijgt.

De alternatieven zijn met een hoofdletter geschreven, dat is niet correct: het gaat immers om een woord dat de zin in de stam van de vraag afmaakt. Maar ook als het niet gaat om het afmaken van een zin, dan kunnen de alternatieven gewoon met een kleine letter worden geschreven: het is niet nodig om een antwoorden als zinnen op te vatten.

Antwoorden

“De uitslag is na afloop ook op teletekst en in de VPRO-gids terug te vinden. Een uitgebreide toelichting staat vanaf 29 december op deze site.”

Deze WQ was een ramp. Neem bijvoorbeeld de eindstand van de teams: 20 goede antwoorden uit 45, voor elk. Driekeuzevragen. De verwachte score bij raden is 15. In het wetenschapsteam scoorde Peter Verlinden 3 vragen goed door ze te goed te beredeneren. Een terecht Spinoza-prijs voor Peter! Overigens hebben de wetenschappers op bijna alle vragen moeten raden. Een teken aan de wand. Een belediging van de deelnemers, wetenschappers zowel als architecten. En overige deelnemers en kijkers. Het was ook overduidelijk in de presentatie: meestal konden deelnemers geen behoorlijke argumenten voor hun argumenten produceren, en stonden de presentatoren te popelen om hun kiekeboe-uitleg te presenteren, met bijbehorend leuk proefje, of spektakel.

Deze WQ is absoluut triviant: goede antwoorden blijken buitengewoon zeldzaam. Een goed voorbeeld is vraag 5, over de klok in de GPS-satelliet: er zijn twee effecten van belang, waarvan het effect van de zwaartekracht overheersend is. De enige Nederlander die deze vraag binnen 30 seconden goed beargumenteerd kan beantwoorden, zat in het wetenschapsteam.

Hoe zit het met de deelnemers thuis? Die konden voor hun inzending veel tijd besteden aan research op de gestelde vragen. Waar de gemiddelde goedscore iets beter was dan 6 goed uit 15, waren er toch twee deelnemers die een perfecte score haalden. Het is absoluut zeker dat deze score niet is bereikt door gelukkig te gokken. Wie dat wil uitzoeken, kan gebruik maken van deze applet die de scoreverdeling kan simuleren voor bijvoorbeeld 3500 quizdeelnemers die op iedere vraag moeten raden, of 100 deelnemers die in staat zijn om op quizvragen zoals deze een verwacht aantal goed van 12 te scoren (als het ware een stofbeheersing van 0,8). Bijzonder is dat de door loting aangewezen prijswinnaar ook op de WQ van 2010 bijzonder scoorde: hij werd tweede. Mogelijk is hij een klasse apart binnen de ongetwijfeld kleine groep die echt veel werk heeft gemaakt van de beantwoording van de vragen. Lof voor dit doorzettingsvermogen.

Dit resultaat van twee deelnemers bewijst niet dat alle vragen van de WQ, met het nodige doorzettingsvermogen, correct beantwoord kunnen worden, maar voor de meeste vragen geldt dat zeker wel. Ik ben heel benieuwd naar de onderbouwing die deze twee deelnemers hadden kunnen geven bij hun antwoorden, als daarnaar was gevraagd.

De uitvoerige toelichting door NWO komt pas 29 december beschikbaar. Ik begin vast met de bespreking van de antwoorden op basis van mijn geheugen, en ga er daarna nog een keer doorheen op basis van opnieuw bekijken van de uitzending.

1. Belletjes.

Het juiste alternatief B. bleek aantrekkelijk. Beide teams scoorden hier meteen behoorlijk op. Maar niemand kon aangeven wat er dan precies aan de hand is, met die eiwitten en belletjes. Triviant. Een vraag met een heterogene set antwoorden die dus de mist in gaat.

2. Zwembaden.

Ik heb gemist wat het juiste antwoord was, dat zal dus wel A. zijn geweest (anders zou er een ingewikkelde uitleg zijn geweest over verschillen in tijden tussen deelnemers). De demonstratie met een bakje water was aardig gevonden, maar waarom zou zo’n schaalmodel een valide model zijn voor de vraag over een olympische wedstrijd in twee baden van verschillende diepte? Dat laatste levert trouwens een tegenspraak op: in een ondiep bad wordt echt geen olympische wedstrijd gezwommen, terwijl de presentatoren dat uitdrukkelijk wel zo presenteerden.

Er is voor de ontwerper een eenvoudige oplossing: stel de vraag niet in termen van een echte wedstrijd, maar van een proef in een bak water van enkele centimeters diepte, waar poppetjes doorheen worden getrokken.

De kiekeboe-uitleg achteraf met een bord volgekalkt met formules, moet voor de toekomst worden verboden, op straffe van langdurige opsluiting in een kooi van Faraday.

3. Vrienden van jouw vrienden.

Ik weet nog niet waarom de argumentatie van NWO juist is: het proefje was zo verwarrend, evenals de uitleg, dat ik het niet heb kunnen volgen. Ik zie graag een gewoon bewijs voor dit soort zaken, niet een oploop van deelnemers met afzetlinten.

Er zit wel iets in: wie heel veel vrienden heeft, heeft waarschijnlijk veel vrienden die zelf minder vrienden hebben.

Een grappig voorbeeld is misschien het volgende: in de negentiger jaren beperkte de wetgever de aftrekbaarheid van beroepskosten: alleen dat wat gebruikelijk is in de beroepsgroep, was aftrekbaar. Om te bepalen wat gebruikelijk is in de beroepsgroep, neemt de inspecteur een steekproef, waar de betreffende belastingbetaler zelf niet in voorkomt. U ziet hem al aankomen: het gemiddelde waar de inspecteur op uitkomt, is voor sommige belastingbetalers naar verwachting lager dan het gemiddelde zou zijn wanneer zij wèl in de steekproef getrokken souden kunnen worden. In dit anonieme casus zag de inspecteur de bui hangen, en zorgde hij ervoor dat de zaak niet voor de rechter zou komen.

De oplossing die ik zelf vermoedde, is waarschijnlijk ook juist: omdat jouw vrienden in ieder geval jou al als vriend hebben, zal het gemiddelde aantal vrienden van jouw vrienden een fractie hoger zijn dan het aantal vreinden van een willekeurige steekproef uit facebook. Dat bewijzen laat ik graag aan anderen over.

4. Waterdruppels.

Jawel hoor: recent onderzoek heeft laten zien dat de bevroren druppel een spits heeft, en er is ook een verklaring bij gevonden. En koud is inderdaad erg koud: vloeibaar stikstof wordt aangerukt, min 196 graden Celcius.

Het is dus echt triviant om op basis van dat gegeven de WQ-vraag te stellen zoals hij is gesteld. Er zijn toch legio mogelijkheden om met hetzelfde gegeven wat te stoeien, en een WQ-vraag te ontwerpen waarin het mogelijk is om op basis van een wetenschappelijk-rationele redenering tot een antwoord te komen dan juist ànders is dan wat allereerst op basis van common sense valt te bedenken.

5. GPS-klok.

Grappig is dat de deelnemers hier een demonstratie geven van de trivialiteit van de WQ-vraag zoals gesteld: alleen de internationale top-expert op het gebied van zwaartekracht kon aangeven waarom het juiste alternatief inderdaad juist is. Hij had het ook gekozen. Peter Verlinden.

Natuurlijk roept de uitleg van de presentatoren meer vragen op dan ermee worden beantwoord. Wie wordt hier wijzer van? Motiveert dit jonge kijkers om als de wiedeweerga voor de studie natuurkunde te kiezen?

6. Topologie.

Altijd leuk om het proefje dan te doen. Natuurlijk wordt er iets uitgelegd over donuts en toplogie. Prachtig toch dat een hele discipline in een paar minuten is uit te leggen? Waarom is deze WQ-vraag dus gesteld? Entertainment? Ik herinner me niet een voorbeeld te hebben gezien waarom dit voor het dagelijks leven, of voor mijn part voor de ruimtevaart, relevant is om te weten.

7. Bomenfluisteraar.

Als ik het goed heb begrepen, dan groeit alles naar het licht toe, en blijven bomen daarom van elkaars takken af. Het eerste wist ik al, maar ik had graag het tweede bewezen gezien, want ik meen dat er tegenvoorbeelden in overvloed zijn waar bomen en struiken wel degelijk in elkaars kruin groeien. Een ontmaskering van een aantal evidente tegenvoorbeelden had ik eigenlijk wel verwacht, niet een arcane uitleg over licht in het verre infraroodspectrum. De biologe wist deze vraag goed te beredeneren. Voor het wetenschapsteam dus tenminste 4 goed beantwoorde vragen van de 45, mogelijk 16 door raden goed gemaakte antwoorden.

nota bene: ik moet misschien nog apart aandacht schenken aan het echt foutM/b> weten van vragen: dat is immers iets totaal anders dan fout raden. Maar ik vermoed dat, waar het al zeldzaam is dat met enige zekerheid een goed antwoord wordt gekozen, het nog zeldzamer is wanneer met zekerheid een fout antwoord wordt gekozen. In deze WQ.

8. Sprites. Ontladingsverschijnselen.

De WQ-vraag is echt onzin. Ook onzin gebleken, niemand kon er iets mee. Wat is hier waarschijnlijk gebeurd: er was een prachtige kans om ontladingsverschijnselen te demonstreren, dankzij een opstelling van TU-Einendhoven. Spektakel. Daar moest dan nog een vraag over worden bedacht . . . . .

9. Bezwaard Groenland.

Deze vraag hield een verrassing in: het bleek te gaan om zwaartekrachteffecten van die ijsmassa. Ik meen dat ik Peter Verlinden verrast zag kijken, ik moet dit fragment in ieder geval terugkijken. Als hij verrast was, dan is het niet door het fenomeen, maar dat de vraag dit zwaartekrachtfenomeen tot onderwerp had. Voor hem is het mogelijk een strikvraag geweest. Voor de anderen is het dan ook een strikvraag. Ik vind het inderdaad een strikvraag. De ontwerper bedoelt iets te vragen over de knolvorm van de aarde (in plaats van een afgeplatte bol) en hoe de watermassa over deze aardappel is verdeeld, maar stelt in plaats daarvan een vraag die heel direct suggereert dat de gemiddelde zeespiegelstijging moet worden voorspeld. Zeker, er zat een aanwijzing in de formulering van de vraag: ‘aan de kust van Nederland’. Dat had Peter Verlinden op een idee kunnen brengen: er zijn mogelijk locale effecten die ertoe leiden dat het uitrekenen van een gemiddelde zeespiegelstijging te simpel is. Ik vind het een knol van een ontwerpfout: de vraag had moeten gaan over dat zwaartekrachteffect zelf, in plaats van dat effect als een deus-ex-machina achter de hand te houden. Kiekeboe.

Wie literatuur zoekt: er is een aardig historisch boek. Edwin Danson (2006). Weighing the world. The quest to measure the earth. Oxford University Press.

10. Met zwart en witte stippen.

Beroerde vraag, knullige demonstratie, irrelevante uitleg. Een zwarte vraag in de geschiedenis van de WQ.

Alternatief c is het als juist bedoelde antwoord. Maar wat we zien is geen omdraaiing, maar een beweging de andere kant op. Ik vind de demonstratie twijfelachtig. De illusie van beweging naar links is mogelijk het resultaat van het schijnbaar verschijnen van stippen aan de rechterkant, en verdwijnen van stippen aan de linkerkant.

Als waarnemingspsycholoog zou ik aan dit soort anti-propaganda voor het vak geen behoefte hebben.

11. Vélocipède.

Heel knullig allemaal. Ik heb er niets van opgestoken, behalve dat het makkelijker is om op zo’n wiel te rijden dan ik dacht.

Waarom is het op de vinger balanceren van een kort stokje en een lange stok relevant voor deze kwestie?

12. Schaamte.

Er zit een kiekeboe-uitleg achter. Waarom de WQ-vraag dan niet toegespitst op dat verklarende mechanisme van haargroei?

13. Natte vaatdoek.

Door de overlading met irrelevante verklaringen (heterogene set alternatieven) gaat deze vraag toch enigszins de mist in. Interessant verhaal over de brekingsindex, maar in dit korte bestek natuurlijk volkomen onbegrijpelijk voor wie er niet al mee bekend is.

14. Bonbons.

Een hoop gehannes. Knap verwarrend. Wat blijft hangen is dat dit een geintje is, niet dat er sprake is van een fenomeen dat consequentis heeft in het dagelijks leven of in de wetenschap.

15. Het zoet en het zout.

Dit is een mooi voorbeeld van beroerde contextvragen zoals deze als een tsunami het onderwijs zijn binnengerold.

Een heel mooi gebaar van de presentator: niks water wegpompen, gewoon het model leeggieten in de waterbak. Wat is dan de bedoeling van de vraag geweest: da de delnemer zich realiseert dat je een eenvoudig model kunt maken: een bak zout water, met daarin weer een drijvend bakje zoet water, een meter voor de waterstand in de bak, en als experimentele handeling het leeggooien van het zoetwaterbakje in de grote bak, opnieuw vullen van het kleine bakje met het mengsel zoet-zout, en terugplaatsen in de bak. Hoe hoog is dan de waterstand?

Dat is al heel wat overzichtelijker. Het gaat natuurlijk om het relevante verschil tussen zoet en zout water. Moet daar zo’n kunstmatige heisa om worden gemaakt? Het is toch mogelijk om daar veel directere vragen over te stellen, op zo’n manier dat deelnemers die eerder op rationele wijze dan met hun boerenverstand redeneren (boeren niette na gesproken), een juist antwoord kunen geven.

Literatuur

Ben Wilbrink (1983/2006) Toetsvragen schrijven / Toetsvragen ontwerpen. Oorspronkelijke uitgave als Aula 809, het Spectrum pdf 1.4Mb. Herziening in 2006, hoofdstuksgewijs hoofdstuk 1 etc. Zie Toetsvragen ontwerpen 2006 voor verwijzingen naar de literatuur, voor veel titels zijn daar op het www beschikbare bronnen gegeven.

Zie ook de bespreking van de ontwerpkwaliteit van de vragen in de Nationale Rekentoets 2006, 2007.

links

Physics 2000 site, een site met interactieve natuurkundige experimenten, en met een missie statement.

‘Voorzitter, de heer Donner verzuimt te vermelden dat deze onvolledige DNA-data dus bijna de hele Nederlandse bevolking, op 100.000 na, vrijpleiten van deze moord. Mogelijk ook de eerste verdachte, als rechterlijke dwaling veroordeeld voor deze moord.’

Het ontwerp van de vragen in de Nationale Wetenschapsquiz 2011 NWO-site en VPRO-site

Ben Wilbrink

Wetenschapsquiz 2011

Het ontwerpen

De vragen zonder de alternatieven

De keuzevragen

Antwoorden

1. Belletjes.

2. Zwembaden.

3. Vrienden van jouw vrienden.

4. Waterdruppels.

5. GPS-klok.

6. Topologie.

7. Bomenfluisteraar.

8. Sprites. Ontladingsverschijnselen.

9. Bezwaard Groenland.

10. Met zwart en witte stippen.

11. Vélocipède.

12. Schaamte.

13. Natte vaatdoek.

14. Bonbons.

15. Het zoet en het zout.

Literatuur

links

Het ontwerp van de vragen in de
Nationale Wetenschapsquiz 2011
NWO-site en VPRO-site