Dylemat więźnia i równowaga Nasha

Co to jest dylemat więźnia?

Dylemat więźnia to paradoks w analizie decyzji, w którym dwie osoby działające we własnym interesie nie osiągają optymalnego wyniku.

Dylemat więźnia, będący doskonałym przykładem teorii gier, został opracowany w 1950 roku przez matematyków z RAND Corporation, Merrilla Flooda i Melvina Dreshera, w czasie zimnej wojny (ale później nazwę tę nadał mu teoretyk gier Alvin Tucker). Niektórzy spekulują, że dylemat więźnia został stworzony w celu symulacji strategicznego myślenia między USA i ZSRR w czasie zimnej wojny.

Dziś dylemat więźnia jest paradygmatycznym przykładem tego, jak strategiczne myślenie między jednostkami może prowadzić do nieoptymalnych wyników dla obu graczy.

Dylemat więźnia to sytuacja, w której poszczególni decydenci zawsze mają motywację do wyboru w sposób, który tworzy mniej niż optymalny wynik dla jednostek jako grupy.
Dylematy więźnia występują w wielu aspektach życia.
W klasycznym dylemacie więźnia jednostki otrzymują największe wypłaty, jeśli zdradzą grupę zamiast współpracować.
Jeśli gry są powtarzane, możliwym jest, że każdy gracz opracuje strategię, która nagradza współpracę.
Ludzie opracowali wiele metod pokonywania dylematów więźnia, aby wybrać lepsze wyniki zbiorowe pomimo pozornie niekorzystnych bodźców indywidualnych.

Typowy dylemat więźnia jest ustawiony w taki sposób, że obie strony wybierają ochronę siebie kosztem drugiego uczestnika [gry]. W rezultacie obaj uczestnicy znajdują się w gorszym stanie niż gdyby współpracowali ze sobą w procesie decyzyjnym. Dylemat więźnia jest jedną z najbardziej znanych koncepcji we współczesnej teorii gier.

Dylemat więźnia przedstawia sytuację, w której dwie strony, oddzielone od siebie i nie mogące się porozumieć, muszą wybrać pomiędzy współpracą z drugą stroną a jej brakiem. Najwyższa nagroda dla każdej ze stron występuje wtedy, gdy obie strony zdecydują się na współpracę.

Klasyczny dylemat więźnia wygląda następująco:

Dylemat więźnia i równowaga Nasha

W jednym dniu policja dokonała dwóch z pozoru niepowiązanych  aresztowań.  Niejakiego Ala złapano  na gorącym uczynku, gdy sprzedawał narkotyki. Prosta sprawa.
Tego samego dnia ujęto pana o imieniu Bill. Jego także przyłapano na handlu narkotykami.
Przywożą ich, oddzielnie, na posterunek. Każdemu mówią: „Szybko pójdzie. Sąd skaże cię za handel narkotykami. Dostaniesz 2 lata”. Mówią to każdemu z osobna.

Obaj sprzedawali takie same narkotyki, lecz niezależnie od siebie. Dwa lata za narkotyki. Tyle dostaną, jeśli nic się nie zmieni. Ale z każdym z nich oddzielnie rozmawia prokurator okręgowy.
Przy tej okazji podkreśla, że ciąg dalszy jest jasny: jeśli nic się nie zdarzy, obaj dostaną po 2 lata.
Nagle zdaje sobie sprawę, że ci dwaj ludzie przypominają…
Zaczyna podejrzewać, że popełnili znacznie poważniejsze przestępstwo: parę tygodni wcześniej
dokonali napadu z bronią w ręku.
Prokurator okręgowy opiera się wyłącznie na przeczuciu, podejrzeniu.
Nie ma żadnych dowodów. Stara się więc zawrzeć układ z każdym z tych facetów, nakłonić ich, żeby donieśli na siebie nawzajem.
Mówi każdemu z nich: „Dostaniesz dwa lata. Masz to jak w banku”. Ale od razu dodaje: „Chyba że… Jeśli przyznasz się do winy… Jeśli ty się przyznasz, a ten drugi nie, drugi nie… to ty dostaniesz rok, ty dostaniesz rok, a ten drugi… ten drugi facet… dostanie 10 lat”.

Mówi więc: „Al, posłuchaj. Dziś złapaliśmy też Billa. Jeśli zeznasz, że razem z nim dokonałeś tego napadu, zamiast dwóch lat dostaniesz rok, a Bill, oczywiście, posiedzi znacznie dłużej.
Zwłaszcza że z nami nie współpracuje. Nie przyznaje się. Ale prawdą jest też takie stwierdzenie:
jeśli ty wyprzesz się wszystkiego, a tamten przyzna się do winy, a tamten się przyzna… to role się odwrócą. Ty dostaniesz 10 lat, bo nie współpracujesz, a ten drugi – twój wspólnik – może liczyć na złagodzenie wyroku. Dostanie rok”.

Al słyszy: „Jeśli wyprzesz się udziału w napadzie, a Bill cię wyda,
to ciebie posadzą na 10 lat, a jego tylko na rok. Jeżeli obaj się przyznacie… Obaj się przyznają… to dostaniecie po 3 lata.

Obaj po 3 lata.  Ten scenariusz nazywamy „dylematem więźnia”.

Zaraz zobaczymy,  że istnieje optymalne wyjście  dla obu: wyprzeć się.
Wyprzeć się i dostać 2 lata.  Ale zobaczymy,  że wskutek perswazji… jeśli nie są wobec siebie
szczególnie lojalni, że to zatwardziali przestępcy, niespokrewnieni ze sobą, nie wiąże ich żaden pakt…
Zobaczymy, że świadomie wybiorą… że mogą świadomie wybrać nieoptymalne rozwiązanie.
Żebyście to lepiej zrozumieli, narysuję tzw. macierz wypłat. Macierz wypłat.

Tutaj niech będzie Bill… Bill ma dwie możliwości: przyznać się… Może się przyznać do napadu z bronią w ręku, albo zaprzeczyć, że cokolwiek wie o tym przestępstwie. Al ma te same możliwości. Al. może się przyznać… może się przyznać… I może też się wyprzeć. Skoro to macierz wypłat, narysuję tu linie siatki.  Linie siatki. Rozważmy teraz korzyści z różnych sytuacji. Jeśli Al się przyzna i zrobi to też Bill, to mamy sytuację 4: po 3 lata więzienia dla każdego.
Obydwaj dostaną… 3 lata dla Ala i 3 dla Billa. A teraz: jeśli Al się przyzna, a Bill nie… Al się przyznaje, Bill nie, to, z punktu widzenia Ala, mamy sytuację 2.: Al dostanie tylko rok… Al dostanie tylko jeden rok… Za to Bill dostanie 10 lat! Bill dostanie 10 lat.

Jeśli natomiast Bill się przyzna, Al zaś nie, to będzie na odwrót. Al dostanie 10 lat za zatajenie, a Billowi złagodzą wyrok do jednego roku za współpracę. Jeśli zaś obaj się wyprą, jeśli obaj się wyprą…
to mamy sytuację 1. w której każdy dostaje karę tylko za handel narkotykami.
Al dostanie więc 2 lata i Bill dostanie 2 lata. 2 lata. Teraz coś, o czym już wspomniałem.

Jaki byłby dla nich scenariusz optymalny? Ten: obydwaj wypierają się udziału w napadzie z bronią w ręku. Wtedy dostają po 2 lata.

Ale zobaczymy… – o ile przyjmiemy rozsądne założenie, że nie są wobec siebie lojalni,
ani nie ufają sobie nawzajem – że nie zrobią tego, bo bardziej opłaca im się przyznać.

A przyznanie się to tzw. równowaga Nasha. Powiem o niej więcej. Równowaga Nasha jest wtedy, gdy każdy gracz dokonuje wyboru z uwzględnieniem decyzji tego drugiego.

Dylemat więźnia i równowaga Nasha

Każdy z graczy dokonuje optymalnego wyboru w zależności od wyboru… od tego, co zrobi drugi gracz. Zatem Al rozumuje: „Nie wiem, czy Bill przyzna się, czy wyprze. Powiedzmy, że się przyzna.
Co ja powinienem zrobić? Jeśli obaj się przyznamy, to dostanę 3 lata. Gdy on się przyzna, a ja nie,
dostanę 10 lat. Więc jeśli on się przyzna, mnie także się to opłaci. Czyli to rozwiązanie
jest korzystniejsze od tego niżej. Ale nie wiem, czy on się przyznał. Może nie. Zakładając, że się wyparł… Czy lepiej przyznać się i dostać rok,  czy wyprzeć się i dostać 2?

I znowu: lepiej będzie się przyznać”. Niezależnie od tego, czy Bill przyzna się czy nie,
optymalnym wyborem dla Ala, z uwzględnieniem decyzji Billa, jest przyznanie się. Bill się przyzna? Warto się przyznać. Bill się wyprze? Też warto się przyznać. Z punktu widzenia Billa sytuacja jest taka sama. Bill mówi: „Nie wiem, czy Al przyzna się czy nie. Jeśli Al się przyzna, mogę się przyznać i dostać 3 lata, lub wyprzeć się i dostać 10. Wolę odsiedzieć 3 lata niż 10, wybiorę więc 3, zakładając, że Al się przyzna.

Ale nie wiem, czy się przyzna. Może się wyprze. A wtedy mogę się przyznać i dostać rok lub wyprzeć się i dostać 2 lata. I znowu: lepiej się przyznać, żeby dostać rok”. Bill, uwzględniając
każdy możliwy wybór Ala, zawsze lepiej wyjdzie na przyznaniu się. To ciekawe: racjonalnie wnioskują, że warto wybrać tę sytuację, ten stan równowagi Nasha, a nie ten stan optymalny. Dostają po 3 lata, przyznając się, zamiast 2 lat, gdyby obaj się wyparli. Tylko że ten stan jest niestabilny. Niestabilny. Jeśli jeden założy, że ten drugi…

Nawet jeśli jeden założy ten stan, to tylko tymczasowo, bo pomyśli: „Wciąż mogę
poprawić moją sytuację, zmieniając decyzję”. Mając przekonanie, że Bill się wyprze, Al poprawiłby swoją sytuację porzucając ten stan, przyznając się i dostając tylko rok. Podobnie, gdyby Bill uważał, że Al prawdopodobnie się wyprze, mógłby poprawić swoją sytuację, robiąc coś takiego: zamiast przyznać się i dostać 2 lata, mógłby wybrać to.

Zatem sytuacja optymalna jest niestabilna, za to ten stan równowagi Nasha jest bardzo, bardzo stabilny. Jeśli obaj założą… że bardziej opłaca się przyznać, niezależnie od wyboru tego drugiego,
i jeśli wszyscy inni gracze obiorą taką strategię, to Bill nie ma powodu…

Przypuśćmy, że gracze zmieniają strategię. Tu jedyny możliwy ruch jest w tę stronę. Bill może porzucić równowagę Nasha, czyli przyznanie się, ale wypierając się, straci, więc tego nie zrobi.
Ewentualnie, decyzję może zmienić Al. I także mógłby źle na tym wyjść. Zamiast trzech lat dostałby 10. Dlatego to jest stan równowagi. Stan stabilny. Obaj wybierają rozwiązanie, które w zasadzie nie jest optymalne.

 

Zobacz na: Paradoks wyboru – Barry Schwartz
Prawo Briffaulta: Kobiety rządzą – Dale Hartley  [Psychology Today]
Zasada 80/20: Zasada Pareto w relacjach męsko damskich
Ona się obudzi, gdy tylko uświadomi sobie że ściana jest już blisko – Rollo Tomassi
Po latach bezmyślnego ruchania, ta nowoczesna kobieta chce teraz znaleźć sobie porządnego mężczyznę

 

John Forbes Nash o dynamice interakcji

https://rumble.com/v3zegdd-john-nash.html