User:Jeroen N/Kladblok

Les: Het gevangenendilemma

Onderdeel van de cursus Speltheorie, unit 1.

Cursus Speltheorie

Lessen:

Unit 1. Introductie
- Les 1: Het gevangenendilemma
- Les 2:

Bronnen

Bibliotheek

Leerdoelen

Aan het eind van deze les begrijp je het zogenoemde "gevangenendilemma" en waarom twee rationele spelers in bepaalde situaties zullen kiezen voor een strategie die niet in hun beider belang is. Je kent aan het eind van deze les de begrippen "strikte dominantie" en "Nash-evenwicht".

Les

Het gevangenendilemma

Het gevangenendilemma of "prisoner's dilemma" kan op de volgende manier geformuleerd worden:

Twee personen worden ervan verdacht dat zij een bank wilden beroven, maar de politie heeft alleen hard bewijs voor verboden wapenbezit. Hierop staat een gevangenisstraf van 1 jaar. De politie heeft extra bewijs nodig om de twee te kunnen vervolgen voor bankroof, waarop een gevangenisstraf van 10 jaar staat. Hiervoor moet een van de verdachten een bekentenis afleggen.

De verdachten worden in aparte verhoorkamers gezet en de volgende deal aangeboden. Als niemand bekent heeft de politie geen bewijs en zullen de twee slechts 1 jaar gevangenisstraf krijgen voor verboden wapenbezit. Als een verdachte bekent, en de ander niet, gaat de bekennende verdachte vrijuit en moet de andere verdachte 10 jaar brommen. Als beide verdachten bekennen moeten ze beiden 5 jaar de cel in.

Uitgangspunt van het gevangenendilemma is dat beide verdachten, laten we ze voor het gemak speler 1 en speler 2 noemen, rationeel zullen handelen. Dit wil zeggen dat elke verdachte een strategie ("bekennen" of "niet bekennen") zal kiezen die voor hem het beste resultaat teweegbrengt. Een ander uitgangspunt is dat de verdachten onafhankelijk van elkaar kiezen, zonder dat zij weten welke strategie de ander zal kiezen.

Een en ander kan als volgt in een matrix worden weergegeven.

		Speler 2
		Bekennen	Niet bekennen
Speler 1	Bekennen	-5 , -5	0 , -10
Speler 1	Niet bekennen	-10 , 0	-1 , -1

We zien in de tabel dat elke speler twee strategieën heeft: bekennen of niet bekennen. Bij de vier mogelijke uitkomsten is het aantal jaren gevangenisstraf aangegeven, wat te lezen is als "verloren jaren" (de rode uitkomsten zijn voor speler 1, de blauwe voor speler 2). Bezien we de mogelijke uitkomsten van speler 1. Als hij bekent, en speler 2 bekent ook, dan is zijn uitkomst -5 (dat is dus een gevangenisstraf van vijf jaar). Bekent hij, maar bekent speler 2 niet, dan is speler 1's uitkomst 0: hij gaat vrijuit. Bekent hij niet, maar bekent speler 2 wel, dan heeft speler 1 een uitkomst van -10. Ten slotte krijgt hij een uitkomst van -1 als hij niet bekent en speler 2 ook niet bekent. De uitkomsten van speler 2 zijn precies hetzelfde, omdat het hier om een zogenaamd symmetrisch spel gaat.

Wat zal nu de uitkomst van dit spel zijn? Duidelijk is dat het voor beide spelers gezamenlijk beter is om niet te bekennen, omdat ze dan allebei slechts 1 jaar gevangenisstraf krijgen. Dit ten opzichte van een gevangenisstraf van 5 jaar als beide verdachten bekennen, en een risico om 10 jaar achter de tralies te verdwijnen als de een wel en de ander niet bekent. Maar is het rationeel om te kiezen voor "niet bekennen" als je niet zeker weet of de andere verdachte dezelfde strategie zal kiezen, daarbij dus het risico nemende dat je een uitkomst van -10 krijgt?

Bekijken we wat rationeel zou zijn voor speler 1 om te doen gegeven een strategie van speler 2 (omdat het een symmetrisch spel is geldt precies hetzelfde voor speler 2). Stel dat speler 1 weet dat speler 2 gaat bekennen. De matrix ziet er dan als volgt uit (speler 2's kolom "niet bekennen" is verwijderd):

		Speler 2
		Bekennen
Speler 1	Bekennen	-5 , -5
Speler 1	Niet bekennen	-10 , 0

Als speler 1 nu kiest voor bekennen krijgt hij een uitkomst van -5. Kiest hij om niet te bekennen, dan is zijn uitkomst -10. Omdat -5 beter is dan -10 is het beter om ook te bekennen. Stel nu dat speler 1 weet dat speler 2 niet gaat bekennen. Dan ziet de matrix er als volgt uit:

		Speler 2
		Niet bekennen
Speler 1	Bekennen	0 , -10
Speler 1	Niet bekennen	-1 , -1

Nu zien we dat als speler 1 bekent, hij een uitkomst van 0 krijgt. Bekent hij niet, dan is zijn uitkomst -1. 0 is beter dan -1, dus zal hij bekennen. We zien dus dat, wat speler 2 ook kiest, het voor speler 1 beter is om te bekennen. We zeggen dat speler 1's strategie "bekennen" zijn strategie "niet bekennen" strikt domineert.

Laten we hetzelfde doen voor speler 2. Als we aannemen dat speler 1 zal bekennen ziet de matrix er zo uit:

		Speler 2
		Bekennen	Niet bekennen
Speler 1	Bekennen	-5 , -5	0 , -10

Als speler 2 nu ook bekent krijgt hij een uitkomst van -5. Kiest hij ervoor om niet te bekennen, dan is zijn uitkomst -10. -5 is beter dan -10, dus zal hij bekennen als speler 1 bekent. Als speler 1 niet bekent ziet de matrix er zo uit:

		Speler 2
		Bekennen	Niet bekennen
Speler 1	Niet bekennen	-10 , 0	-1 , -1

Ook nu is het beter voor speler 2 om te bekennen. Als hij bekent krijgt hij namelijk een uitkomst van 0, terwijl hij een uitkomst van -1 krijgt als hij niet bekent. Bekennen is dus de betere strategie, en omdat dit zo is ongeacht wat speler 1 zal kiezen zeggen we dat speler 2's strategie "bekennen" zijn strategie "niet bekennen" strikt domineert.

We weten dus dat het ongeacht speler 2's keuze beter is voor speler 1 om te bekennen ("bekennen" is strikt dominant). Hetzelfde geldt voor speler 2: het is beter voor hem om te bekennen ongeacht wat speler 1 doet. Anders gezegd hebben beide spelers een strikt dominante strategie, namelijk "bekennen". "Niet bekennen" is de strikt gedomineerde strategie. Omdat het niet rationeel is om een strikt gedomineerde strategie te spelen kan deze strategie worden weggestreept. Het gevolg is dat beide spelers nog maar één reële strategie hebben, namelijk "bekennen":

		Speler 2
		Bekennen	Niet bekennen
Speler 1	Bekennen	-5 , -5	0 , -10
Speler 1	Niet bekennen	-10 , 0	-1 , -1

Dit betekent dus dat rationeel handelen van beide spelers ertoe leidt dat zij allebei een uitkomst van -5 krijgen, en dat terwijl het voor beide partijen beter zou zijn om gezamenlijk niet te bekennen en een uitkomst van -1 te krijgen. Hoe komt dit? Nu, stel dat beide spelers vooraf aan het verhoor hebben afgesproken niet te zullen bekennen, omdat ze dan alleen vervolgd kunnen worden voor verboden wapenbezit. Bekijken we de matrix, dan zien we dat beide spelers een prikkel hebben om zich niet aan deze afspraak te houden:

		Speler 2
		Bekennen	Niet bekennen
Speler 1	Bekennen	-5 , -5	0 , -10
Speler 1	Niet bekennen	-10 , 0	-1 , -1

Beide spelers kunnen kiezen om toch te bekennen, omdat ze dan verwachten een uitkomst van 0 te krijgen, wat natuurlijk beter is dan een uitkomst van -1. We zeggen dat de strategieset (niet bekennen, niet bekennen) niet in evenwicht is. Een strategieset is in evenwicht als er voor geen van beide partijen een prikkel bestaat om van de gekozen strategie af te wijken. De strategieset (bekennen, bekennen) is wel in evenwicht, zoals te zien is in de matrix:

		Speler 2
		Bekennen	Niet bekennen
Speler 1	Bekennen	-5 , -5	0 , -10
Speler 1	Niet bekennen	-10 , 0	-1 , -1

Afwijken van de gekozen strategie is voor speler 1 niet aantrekkelijk, omdat hij dan een uitkomst van -10 verwacht te verkrijgen. Precies hetzelfde geldt voor speler 2. De strategieset (bekennen, bekennen) is in Nash-evenwicht.