Waarom natuurkundigen goed kunnen pokeren

chocolade poker — **Afbeelding 1. Chocoladepoker.**Wie wint de meeste chocoladerepen? Misschien wel de natuurkundige – die heeft in elk geval het juiste wiskundige gereedschap. Afbeelding gemaakt met ChatGPT.

Naast natuurkundige, en hoofdredacteur van deze website, ben ik in mijn vrije tijd enthousiast toernooipokerspeler. Een vraag die mensen me vaak stellen is: “Dus je hebt een goede pokerface?” Dat is waarschijnlijk wel het geval, maar het is zeker niet de belangrijkste reden waarom ik het als wetenschapper goed doe aan de pokertafel. Achter poker – en achter heel veel andere spellen – gaat namelijk ook mooie wiskunde schuil, en die wiskunde, de speltheorie, heeft veel gemeen met de wiskunde die natuurkundigen graag gebruiken.

Op dit moment ben ik in Las Vegas voor de jaarlijkse World Series of Poker. Het leek me daarom leuk om hiervandaan een artikel te schrijven over een wiskundig begrip dat zowel in de speltheorie als in de natuurkunde een centrale rol speelt: dat van een evenwicht. Laten we het belang van dat begrip proberen te ontdekken aan de hand van een heel eenvoudig, poker-achtig spel.

Het spel

Stel je voor dat we het volgende spel spelen. Iemand – laten we zeggen: het casino – stelt een prijs van één chocoladereep beschikbaar. Om aan het spel mee te mogen doen, moeten jij en ik, de twee spelers, allebei zelf ook een chocoladereep meebrengen; ons ‘speelbudget’. In plaats van kaarten krijgen we als spelers nu een getal uitgedeeld – laten we zeggen: een willekeurig¹ getal tussen 0 en 1. Jij krijgt bijvoorbeeld een getal als 0,671032, en ik het getal 0,352881. Degene van ons die het hoogste getal heeft gekregen, heeft de beste ‘kaarten’, maar: we weten alleen ons eigen getal, niet dat van de ander!

Nu ben jij als eerste aan de beurt, en mag je zeggen of je denkt het hoogste getal te hebben. Denk je dat inderdaad, dan doe je jouw eigen chocoladereep óók in de pot. Denk je dat je niet het hoogste getal hebt, dan mag je passen – dat kost je niets, maar de reep van het casino die al in de pot zat gaat dan naar mij.

Denk jij dat je wel de hoogste kaart hebt, en zet je jouw reep dus in, dan mag ik vervolgens kiezen: als ik jou geloof dan pas ik, en gaat de chocoladereep van het casino naar jou. Denk ik daarentegen dat ik zelf misschien wel het hoogste getal heb, dan stop ik ook mijn reep in de pot – in totaal bestaat die dan dus uit maar liefst drie chocoladerepen. Vervolgens vergelijken we onze twee getallen, en wie daadwerkelijk het hoogste getal heeft² krijgt alle drie de repen.

De regels van dit spel zijn eenvoudig, maar toch zijn er alles bij elkaar al heel wat mogelijke uitkomsten en keuzes die de spelers kunnen maken. Het helpt om het hele spel daarom samen te vatten in het volgende diagram:

**Afbeelding 2. De mogelijke spelverlopen.** Elke box is een moment in het spel; als er uit een box meerdere pijlen komen kunnen er verschillende dingen gebeuren. De lichtrode boxen zijn de verschillende eindsituaties.

Je ziet dat er uiteindelijk vier mogelijke eindsituaties zijn, weergegeven in de lichtrode boxen:

Jij past direct,
Jij zet in en ik pas,
We zetten allebei in en jij wint,
We zetten allebei in en ik win.

Onder elk van de uitkomsten heb ik met twee getallen het resultaat voor mij en het resultaat voor jou aangegeven; als jij bijvoorbeeld direct past win ik één chocoladereep en win of verlies jij niets; dat is aangegeven met de getallen (+1,0).

De vraag is nu: hoe kan elk van ons het spel zo goed mogelijk spelen? Wanneer moeten we onze reep inzetten, en wanneer passen? Denk voor je verder leest vooral zelf eerst eens na over wat je een goede strategie lijkt, en hoeveel chocoladerepen je gemiddeld verwacht na afloop van dit spel te hebben.

De strategie

Het moge duidelijk zijn dat het niet de beste strategie is om zomaar willekeurig af en toe ‘ik zet in!’ of ‘ik pas!’ te roepen. Laten we ervan uitgaan dat we allebei als doel hebben om met zo veel mogelijk chocoladerepen naar huis te gaan. Iets preciezer: we willen onze strategie zo kiezen dat we, als we het spel heel vaak spelen, gemiddeld met zo veel mogelijk chocoladerepen eindigen. Het is dus slim om, als je een heel hoog getal krijgt, je reep in te zetten – je zult dan een goede kans hebben om te winnen – en als je een heel laag getal krijgt, juist te passen – dan zul je immers vaak je eigen reep verliezen als je die wel zou inzetten. Maar ja, waar ligt precies de grens van “heel hoog” en “heel laag”?

We laten die precieze grenzen nog even in het midden, maar kiezen met het bovenstaande in het achterhoofd voor een strategie die er als volgt uitziet:

Als jouw getal hoger is dan een getal \( x \) dat je vooraf bepaald hebt, zet je je chocoladereep in; anders pas je.
Als jij inzet, en als mijn getal hoger is dan een bepaald getal \( y \) dat ik vooraf bepaald heb, zet ik óók in; anders pas ik.

We kunnen daarmee direct al zien hoe vaak we, als we het spel heel vaak spelen, bij de verschillende uitkomsten terecht zullen komen. Stel bijvoorbeeld dat jij \( x=0{,}3 \) kiest. Je zult dan in 30% van de gevallen passen, en in 70% van de gevallen je reep inzetten. In 30% van de gevallen (precies een fractie \( x \)) komen we dan dus in eindsituatie (1) hierboven terecht. Je kunt op dezelfde manier voor jezelf narekenen dat voor de verschillende eindsituaties het volgende geldt:

In een fractie \( x \) van de gevallen komen we in eindsituatie (1) terecht,
In een fractie \( (1-x) \times y \) van de gevallen komen we in eindsituatie (2) terecht,
In een fractie \( (1-x) \times (1-y) \) van de gevallen komen we in eindsituatie (3) óf (4) terecht.

De laatste mogelijkheid moeten we natuurlijk nog opsplitsen: wanneer komen we nu precies in situatie (3) terecht, en wanneer in situatie (4)? Laten we voor het gemak even aannemen dat de waarde voor \( y \) die ik kies, groter is dan de waarde voor \( x \) die jij hebt gekozen[3]. Het volgende plaatje maakt de verschillende eindsituaties dan inzichtelijk:

**Afbeelding 3. De mogelijke uitkomsten.** Afhankelijk van onze “kaarten” en de keuzes die we maken voor x en y, zijn er vier mogelijke eindsituaties. De kans op elke eindsituatie is gelijk aan het oppervlak van het betreffende gebied.

Langs de horizontale as staat jouw getal (jouw “kaart”) uitgezet; langs de verticale as mijn getal (mijn “kaart”). Gebied (1) bevat alle gevallen waarin we in eindsituatie (1) terechtkomen (namelijk: steeds als jouw getal kleiner is dan \( x \)); gebied (2) bestaat uit alle gevallen waarin we in eindsituatie (2) terechtkomen (namelijk: als jouw getal groter is dan \( x \), en het mijne kleiner dan \( y \)) en de schuine lijn (waarbij onze getallen exact gelijk aan elkaar zouden zijn) verdeelt het resterende gebied precies in de eindsituaties (3), met jouw getal groter dan het mijne, en (4), met mijn getal het grootste. De fractie van de gevallen waarin we in de verschillende situaties terechtkomen is nu precies het oppervlak van de gebieden, en dus kunnen we met wat rekenwerk ons eerdere lijstje afmaken:

In een fractie \( x \) van de gevallen komen we in eindsituatie (1) terecht,
In een fractie \( (1-x) \times y \) van de gevallen komen we in eindsituatie (2) terecht,
In een fractie \( (1-y) \times (1-y) / 2 \) van de gevallen komen we in eindsituatie (3) terecht,
In een fractie \( (1-y) \times (1+y-2x) / 2 \) van de gevallen komen we in eindsituatie (4) terecht.⁴

Ten slotte kunnen we nu de verwachtingswaarde van ons spel uitrekenen. Laten we zeggen dat we dat vanuit jouw perspectief doen – we kijken dan dus steeds naar het tweede getal tussen de haakjes in afbeelding 2. We zien dan:

In een fractie \( x \) van de gevallen win of verlies jij niets,
In een fractie \( (1-x) \times y \) van de gevallen win jij één chocoladereep,
In een fractie \( (1-y) \times (1-y) / 2 \) van de gevallen win jij twéé chocoladerepen,
In een fractie \( (1-y) \times (1+y-2x) / 2 \) van de gevallen verlies jij één chocoladereep.

Tellen we die aantallen repen maal de fracties bij elkaar op, dan weten we precies hoeveel repen jij verwacht te winnen of te verliezen:

\( \text{EV} = 0 \times x + 1 \times (1-x) \times y + 2 \times (1-y) \times (1-y) / 2 – 1 \times (1-y) \times (1+y-2x) /2. \)

De letters EV staan voor “expectation value”, de Engelse term voor “verwachtingswaarde”. We kunnen de bovenstaande uitdrukking door alle haakjes uit te werken (en de overbodige \( \times \)-tekens weg te laten) nog wat vereenvoudigen, tot

\( \large \text{EV} = \frac12 + x – y – 2xy + \frac32 y^2 \)

We kunnen nu direct wat waarden uitproberen: kiezen we er bijvoorbeeld allebei voor om nooit te passen (dus \( x=0 \) en \( y=0 \)), dan zul je gemiddeld een halve chocoladereep winnen. Die uitkomst is logisch: de helft van de tijd zal jouw getal groter zijn dan dat van mij, en dan win je de chocoladereep van het casino.

Kiezen we ervoor om altijd te passen, dus \( x=1 \) en \( y=1 \), dan komt er (check vooral zelf!) uit de bovenstaande formule precies 0; ook logisch, want als jij past zul je nooit iets verliezen, maar ook nooit iets winnen.

Kies jij ervoor om nooit te passen (\( x=0 \)) en kies ik ervoor om altijd te passen (\( y=1 \)), dan komt er uit de formule een winst van één chocoladereep voor jou; ook dat klopt weer met de regels van ons spel, want jij krijgt dan altijd de reep van het casino.

Merk ten slotte op dat het omgekeerde geval, \( x=1 \) en \( y=0 \), niet tot de juiste uitkomst leidt: jij past dan altijd en speelt dus quitte, maar de formule lijkt te suggereren dat je maar liefst anderhalve chocoladereep wint! De reden hiervoor is dat we, om de formule af te leiden, hadden aangenomen dat \( x \) kleiner dan \( y \) was – de formule geldt dus alleen in die gevallen!

Evenwicht

Mooi, nu kunnen we dus voor allerlei waarden van \( x \) en \( y \) de gemiddelde uitkomst van ons spel uitrekenen, maar hoe kies jij nu een slimme waarde voor \( x \), en ik een slimme waarde voor \( y \)?

balans — **Afbeelding 4. Evenwicht.** De optimale strategie in een pokerspel blijkt uiteindelijk tot een situatie van evenwicht te leiden. Afbeelding via Wikimedia Commons.

Om een optimale strategie⁵ te bepalen, is het handig om het volgende te bedenken: jij zult zo veel mogelijk chocoladerepen willen winnen, maar tegelijkertijd zal ik willen dat jij zo weinig mogelijk chocoladerepen wint – niet omdat ik jou niet aardig vind, maar omdat er maar drie chocoladerepen in het spel zijn, en elke reep die jij wint, win ik niet – en ik wil natuurlijk zélf zo veel mogelijk chocoladerepen mee naar huis nemen!

Iets wiskundiger geformuleerd: jij zult \( x \) dus zo willen kiezen dat de verwachtingswaarde, EV, maximaal is; ik wil \( y \) juist zo kiezen dat jouw verwachtingswaarde minimaal is. Daarmee zijn we er echter nog niet helemaal, want de verwachtingswaarde hangt van allebei de variabelen \( x \) en \( y \) af – hoe kan ik dus ooit een slimme \( y \) kiezen, als ik niet weet welke waarde jij voor \( x \) zult kiezen?

Hier komt het slimme idee van John Nash om de hoek kijken. Hij bedacht: als wij het spel allebei optimaal spelen, zal geen van ons dus nóg meer kunnen winnen door een andere strategie te kiezen. Het spel is dan in evenwicht: de verwachtingswaarde verandert noch als we \( x \) veranderen, noch als we \( y \) veranderen. Wiskundig gezegd: de afgeleides naar \( x \) en naar \( y \) van de verwachtingswaarde EV zullen allebei nul zijn!

Tijd voor wat rekenwerk, dus. De afgeleide van EV naar \( x \) is gelijk aan

\( \large \frac{\mathrm{d}\text{EV}}{\mathrm{d}x} = 1-2y. \)

Die afgeleide wordt nul als \( y=1/2 \). Hier zien we al iets bijzonders: ik moet mijn grenswaarde \( y \) gelijk aan 1/2 kiezen, om te zorgen dat jij je verwachtingswaarde niet groter of kleiner kunt maken. Dit blijkt een heel algemeen geldend resultaat: mijn doel wordt als het ware om te zorgen dat jij je situatie niet meer kunt verbeteren, en omgekeerd. In de speltheorie zeggen we dan dat ik moet zorgen dat jij “indifferent” wordt. Die Engelse term betekent in het Nederlands “onverschillig” – het maakt jou door mijn keuze dus niet meer uit welke waarde je zelf precies kiest.

Omgekeerd is de afgeleide van EV naar \( y \) gelijk aan

\( \large \frac{\mathrm{d}\text{EV}}{\mathrm{d}y} = -1-2x+3y. \)

Nu we al weten dat ik \( y=1/2 \) zal kiezen, zien we dat dat betekent dat

\( \large \frac{\mathrm{d}\text{EV}}{\mathrm{d}y} = \frac12 – 2x. \)

Daarmee kun jij nu op jouw beurt mij “indifferent” maken door \( x=1/4 \) te kiezen; daarmee wordt de \( y \)-afgeleide immers nul. En daarmee hebben we onze optimale strategie gevonden: jij zult een kwart van de keren passen (met alle getallen kleiner dan 0,25) en ik zal als jij niet past de helft van de keren meespelen, met alle getallen groter dan 0,5.

Als we deze getallen ten slotte invullen in de formule voor EV zelf zien we ook hoeveel chocoladerepen je gemiddeld mee naar huis zult nemen: de formule geeft dat EV=3/8, dus je “verdient” gemiddeld drie achtste van de chocoladereep van het casino (en daarbij natuurlijk de reep waar je mee begon). Ik zal daarom gemiddeld vijf achtste van die casino-reep verdienen.

Ik laat jou dus graag beginnen bij dit spelletje – het blijkt iets gunstiger te zijn om als tweede te mogen kiezen wat je doet! Ook dit geldt weer veel algemener in de speltheorie: als de tegenstander eerst een keuze moet maken, geeft hij of zij daarmee al bepaalde informatie weg, en kan ik dus beter mijn keuze maken. Ook in bijvoorbeeld pokertoernooien geldt dit: het is altijd gunstig om ná je tegenstander aan de beurt te zijn.

Evenwichten in de natuur

Al het voorgaande is leuk als je graag spelletjes speelt, maar de natuurkunde is in dit alles natuurlijk nog ver te zoeken. Toch zijn we hier gestuit op een begrip dat ook op allerlei plekken in de natuur een belangrijke rol speelt: dat van een evenwicht.

thermisch evenwicht met koffie — **Afbeelding 5. Op weg naar evenwicht.** Plaats warme koffie in een koude omgeving, en de koffie zal uiteindelijk de temperatuur van de omgeving aannemen – daarna verandert die temperatuur niet meer.

Denk aan de thermodynamica, oftewel: de warmteleer. Als we warme objecten in een koude omgeving plaatsen, of andersom, is er sprake van een temperatuurverschil. De thermodynamica stelt dat dat temperatuurverschil in de loop van de tijd zal afnemen, totdat het precies nul is geworden: dan is een (temperatuur-) evenwicht bereikt. De wiskunde is hier heel vergelijkbaar: pas als de afgeleide – in dit geval naar de tijd – van het temperatuurverschil nul is geworden, is het systeem in evenwicht en is de optimale situatie bereikt.

Ook in prooi-roofdier-systemen komt zoiets voor. Dat voorbeeld ligt alweer wat dichter bij de speltheorie, want hier hebben zowel de prooien als de roofdieren een doel: niet opgegeten worden in het eerste geval, wel opeten in het tweede. De prooien hebben als “strategie” om veel nageslacht te creëren, zodat uiteindelijk niet álle prooidieren worden opgegeten. De roofdieren creëren ook nageslacht, maar liefst niet té veel – het eten moet immers onder alle roofdieren verdeeld worden. In sommige gevallen gaat het uiteindelijk mis: ofwel de prooien sterven uit, ofwel – bij gebrek aan voldoende voedsel – de roofdieren. Maar soms ontstaat een evenwicht, waarbij er precies evenveel prooien in een bepaalde periode geboren worden, als er door de roofdieren opgegeten worden, en waarbij er precies zoveel roofdieren overleven dat ook hun aantal niet verandert. Ook dan zijn de afgeleides van de aantallen naar de tijd weer gelijk aan nul; het “spel” heeft een evenwicht!

Er zijn nog veel meer voorbeelden van evenwicht in de natuur. Als de krachten die op een voorwerp werken elkaar precies opheffen zal het niet bewegen. Als een bewegend systeem zoals een slinger precies evenveel energie verliest (door wrijving) als wint (door een aandrijving) zal het systeem eeuwig blijven bewegen. Enzovoort, enzovoort. In al die gevallen is er sprake van een evenwicht, en zijn er bepaalde afgeleides die gelijk zijn aan nul.

A beautiful mind

Ter afsluiting van dit artikel nog even terug naar John Nash, de bedenker van het speltheoretische evenwichtsbegrip. Nash, die in mei 2015 op 86-jarige leeftijd overleed, was een heel interessante figuur. Hij had al een veelbelovende carrière in de wiskunde achter de rug toen hij in 1959 tekenen van paranoïde schizofrenie begon te vertonen. Hij zou decennialang met die ziekte worstelen, en bracht meerdere periodes van zijn leven in psychiatrische klinieken door.

beautiful mind film poster — **Afbeelding 6. A beautiful mind.** Filmposter van de film uit 2001 met Russel Crowe in de hoofdrol. Afbeelding via Wikimedia Commons.

Uiteindelijk herstelde Nash toch, en in de loop der jaren werden ook zijn mooie bijdragen aan de wiskunde steeds meer gewaardeerd: hij won in 1994 de Nobelprijs voor de Economie voor zijn werk aan de speltheorie (die zoals gezegd ook in de economie een centrale rol speelt), en kreeg in 2015 de belangrijke wiskundige Abelprijs toegekend voor zijn werk aan differentiaalvergelijkingen – vergelijkingen waarin afgeleides ook weer een centrale rol spelen.

Over het leven van John Nash is in 2001 de prachtige film A Beautiful Mind gemaakt. Of je nu van spelletjes (of rekenen met afgeleiden) houdt of niet, beslist een aanrader!

[1] Iets preciezer: het getal tussen 0 en 1 dat we krijgen is niet alleen willekeurig, maar de kans om in de buurt van elk getal uit te komen is ook steeds precies even groot – we noemen dat een uniforme kansverdeling.

[2] Theoretisch kunnen we natuurlijk allebei precies hetzelfde getal krijgen en dus ‘gelijkspelen’, maar als onze getallen maar genoeg decimalen bevatten zal die kans vrijwel nul zijn, en kunnen we die situatie dus buiten beschouwing laten.

[3] Dit is een logische aanname: als jij je keuze moet maken, kan ik nog elk mogelijk getal hebben. Als ik mijn keuze moet maken, weet ik al dat jij ervoor gekozen hebt het spel te spelen, en zul jij dus al een goede ‘kaart’ hebben. Ik moet dus een nóg betere kaart denken te hebben om het spel te willen spelen.

[4] Dit kun je meetkundig bepalen, maar de eenvoudigste manier om de laatste fractie uit te rekenen is door te gebruiken dat alle vier de fracties samen moeten optellen tot 1.

[5] Eén mogelijkheid komt in dit artikel niet ter sprake: die van bluffen. Jij zou er zo nu en dan voor kunnen kiezen om juist met een heel slechte “kaart” tóch in te zetten, in de hoop dat ik vaak genoeg zal passen om ook die bluf-inzet rendabel te maken. In het simpele spel dat ik hier beschrijf blijkt zoiets uiteindelijk niet te werken – en voor het begrip “evenwicht” waarover ik het in dit artikel heb, is het ook minder relevant – maar in de algemere speltheorie en in het pokerspel is bluffen natuurlijk een heel interessante extra mogelijkheid, die ook weer tot heel boeiende wiskunde leidt.

Waarom natuurkundigen goed kunnen pokeren

Marcel Vonk

Het spel

De strategie

Evenwicht

Evenwichten in de natuur

A beautiful mind

Marcel Vonk

Marcel Vonk

Theoretisch Natuurkundige

Hoofdredacteur Quantum Universe

Het spel

De strategie

Evenwicht

Evenwichten in de natuur

A beautiful mind

Marcel Vonk

Deel dit artikel