囚徒困境 - Wisdom Atlas

分類: 模型
類型: 博弈論模型
起源: 梅里爾·弗lood 與梅爾文·德雷希爾，1950
別名: PD、囚徒悖論、合作困境

快速回答 — 囚徒困境是一個經典的博弈論場景，兩個參與者面臨合作與背叛的選擇。如果雙方合作，雙方都獲得中等獎賞；如果雙方背叛，雙方都受到嚴厲懲罰；如果一人合作而另一人背叛，背叛者獲得最佳結果而合作者遭受最壞結果。困境：個體理性策略導致集體更差的結果。這個悖論解釋了即使每個人都受益，合作仍然困難。

什麼是囚徒困境？

囚徒困境是博弈論中的一個基礎模型，闡釋了個人理性與集體利益之間的張力。它由梅里爾·弗lood和梅爾文·德雷希爾於1950年在蘭德公司提出，已成為理解經濟學、生物學、政治科學和倫理學中策略互動的標準框架。

「在囚徒困境中，對每個個體而言最好的策略選擇導致了更差的雙方結果。」—— 羅伯特·阿克塞爾羅德，《合作的演化》

該模型呈現兩名因犯罪被捕的嫌疑人，他們被分別審問。每個人都可以選擇與警察合作（背叛同伴）或保持沉默（與同伴合作）。結果形成一個矩陣：如果雙方都保持沉默，雙方都獲得輕判（合作的中等獎賞）；如果雙方都背叛，雙方都獲得重判（相互背叛的懲罰）；如果一人背叛而另一人保持沉默，背叛者無罪釋放，而保持沉默的同伴獲得最重判刑（背叛的誘惑，傻瓜的代價）。核心洞察是，這個遊戲不是零和的。如果雙方都合作，兩者都會更好，但佔優策略——無論其他玩家做什麼都是合理的選擇——是背叛。這創造了個體優化與集體福利之間的根本張力，出現在人類互動的各個領域。

囚徒困境的三個層次

入門：認識困境的結構。雙方都會從相互合作中受益，但每個玩家都害怕被對方的背叛所利用。理性選擇取決於你對對方行為的預期。例子：價格戰，公司不斷降價，即使每個人都在虧損。
實踐：識別現實世界中的囚徒困境。從軍備競賽到環境協議再到職場競爭，許多情況都有這種結構。關鍵在於認識到個人利益何時與集體利益衝突。
進階：設計擺脫困境的機制。重複互動、聲譽效應、可執行的協議和社會規範可以將遊戲從一次性轉變為迭代的，使合作得以出現。

起源

囚徒困境於1950年正式引入，透過蘭德公司數學家梅里爾·弗lood和梅爾文·德雷希爾的工作。名稱本身是由普林斯頓大學數學家阿爾伯特·塔克後來創造的，他增加了兩名嫌疑人被分別審問的戲劇性框架。該模型很快成為博弈論的核心，因為它捕捉到了一個基本難題：為什麼理性、自利的個體會不合作，即使這符合他們的共同利益？這個問題的含義遠超出犯罪學——弗lood和德雷希爾實際上是在模擬美國和蘇聯之間的軍備競賽動態。羅伯特·阿克塞爾羅德1984年的開創性著作《合作的演化》將囚徒困境擴展到進化框架。阿克塞爾羅德組織了電腦競賽，讓不同策略重複對抗。簡單的「以牙還牙」策略——第一步合作，然後複製對手的上一步行動——持續獲勝，表明即使在對抗性環境中，合作也能出現並穩定下來。

核心要點

佔優策略導致共同損失

背叛是佔優策略——無論對手做什麼，背叛都更好。這在相互背叛處創造了納什均衡，這比相互合作對雙方都更差。

困境是結構性的，不是心理性的

問題不在於人們非理性或目光短淺。即使完全理性的玩家完全理解遊戲，如果只玩一次，他們也會背叛。困境源於激勵結構本身。

重複博弈改變一切

當遊戲重複進行（迭代囚徒困境）時，合作變得可持續。未來的後果創造了剋制的動機，聲譽變得有意義。

困境揭示了根本張力

囚徒困境暴露了個人與集體理性、短期與長期利益、競爭與合作之間的深層衝突，這些出現在許多領域。

應用場景

商業競爭

透過囚徒困境的視角分析價格戰、專利競賽和市場進入戰鬥。理解為什麼競爭者經常相互削弱利潤。

環境政策

解釋為什麼各國儘管有集體利益卻在氣候變遷問題上難以合作。每個國家都面臨利用他人減排成果的激勵。

國際關係

模擬軍備競賽、聯盟形成和外交談判。困境有助於解釋國家間衝突與合作的反覆模式。

社會合作

理解日常合作問題：分享知識、貢獻公共產品、遵守法律。許多社會困境具有囚徒困境的結構。

經典案例

1990年代航空公司行業中「殘酷競爭」的現象說明了囚徒困境的實際運作。美國航空和聯合航空在關鍵航線上進行了激烈的價格戰，反覆相互壓價，被稱為「紐瓦克環」。每家航空公司都面臨明確的降價激勵：如果另一家提價，他們可以透過保持低價來奪取市場份額；如果另一家匹配他們的價格，他們可以透過略低價格吸引顧客。一起提價——合作的結果——無法維持，因為每家公司都可以透過短暫壓低價格然後再次提價來獲益。結果對雙方都是毀滅性的。行業利潤崩潰。1992年，儘管競爭激烈，美國航空業仍虧損20億美元。美國航空幾乎在1995年破產。相互破壞持續到大多數航空公司退出市場或合併——有效地消除了創造困境的競爭選擇。教訓：囚徒困境表明，競爭性市場可能產生任何理性參與者如果能協調都不會選擇的結果。看不見的手失敗了，因為策略激勵結構獎勵背叛而非合作。

邊界與失效場景

囚徒困境有局限性：

簡化的假設：現實策略情況很少呈現如此明確的選擇。玩家可能有不同的偏好、不完整的資訊，或多輪博弈，而基本模型無法捕捉這些。
過度強調競爭：模型突出了衝突，但低估了機構、信任和社會規範在促成合作方面的作用。現實世界的合作往往透過迭代遊戲之外的機制出現。
難以識別：許多看似囚徒困境的情況實際上是不同的博弈（協調博弈、膽小鬼博弈等）。錯誤識別博弈結構會導致錯誤的預測。
規範性困惑：模型描述了會發生什麼，而不是應該發生什麼。發現自己處於囚徒困境並不能告訴你應該合作還是背叛——這取決於模型之外的價值。

常見誤區

困境證明人類是非理性的

難題是完美理性的玩家在一次性博弈中會背叛。這不是非理性——這是激勵結構的邏輯後果。真正的問題是合作如何能夠出現。

溝通可以解決它

即使玩家可以溝通並做出有約束力的承諾，底層激勵仍然有利於背叛，除非有執行機制或未來的互動。

這只是關於兩個玩家

雖然經典形式有兩個玩家，但邏輯擴展到許多玩家（公共物品遊戲、集體行動問題）。玩家越多，合作就越困難。

納什均衡

沒有玩家可以透過單方面改變策略來改善的穩定結果。相互背叛是囚徒困境中的納什均衡。

以牙還牙

第一步合作然後複製對手上一步行動的策略。阿克塞爾羅德的競賽獲勝者展示了合作如何透過演化出現。

集體行動問題

個人激勵導致次優集體結果的更廣泛問題類別。囚徒困境是典型例子。

搭便車問題

個人在不貢獻的情況下從公共物品中獲益。囚徒困境結構的多人擴展。

軍備競賽

經典的現實世界囚徒困境，各國無論他人做什麼都建設武器，導致相互浪費。

合作的演化

阿克塞爾羅德的里程碑著作，展示了合作如何透過重複互動和簡單行為策略出現。

一句話總結

囚徒困境揭示了理性自利不會自動導致集體利益——合作需要結構性條件，如重複互動、聲譽或強制性協議。

​什麼是囚徒困境？

​囚徒困境的三個層次

​起源

​核心要點

​應用場景

商業競爭

環境政策

國際關係

社會合作

​經典案例

​邊界與失效場景

​常見誤區

​相關概念

納什均衡

以牙還牙

集體行動問題

搭便車問題

軍備競賽

合作的演化

​一句話總結

什麼是囚徒困境？

囚徒困境的三個層次

起源

核心要點

應用場景

經典案例

邊界與失效場景

常見誤區

相關概念

一句話總結