監躉困境

出自維基百科,自由嘅百科全書
跳去: 定向搵嘢
若果監犯唔合作,就離唔開兩輸嘅困局。

監躉困境(Prisoner's dilemma)係博弈論入面非零和博弈代表性嘅例子,反映個人各自最佳選擇唔一定會帶來團體最佳選擇。喺現實之中嘅價格競爭、環境保護等領域中都經常會出現類似嘅情況。

一次同多次重複嘅監躉困境嘅結果係有所唔同。喺重複嘅監躉困境入面,一個玩家唔合作,第二啲玩家喺下一回合都有機會罰佢。呢個時候合作可能會係個納殊平衡而出現。呃人嘅動機呢個時候可能被受到懲罰嘅威脅所克服,呢種諗法從而可能導向一個比較好同比較合作嘅結果。作為反覆接近無限嘅數量,納殊均衡點趨向於帕累托最優

監躉困境嘅主旨係監躉們雖然彼此合作,死都唔出聲,可以為全體帶來最佳利益(無罪開釋),但係喺資訊不明嘅情況之下,因為做二五仔可以為自己帶嚟利益(縮短刑期),也因為對方將自己供出來可以為佢自己帶嚟利益,所以互相出賣雖然違反最佳共同利益,但反而係自己最大利益所在。既然喺任何情形之下背叛都會比合作更加有利,咁樣所有理性嘅犯人都將會背叛對方。

兩個玩家通過合作或者背叛嘅方式由莊家(警方)度得到最大嘅回報。呢種搏弈如同搏弈論入面所有嘅案例一樣,每個玩家(“監躉”)關注嘅注努力將自已嘅利益最大化,而唔需要考慮另一個玩家嘅處境。所以結論就係喺監躉困境當中背叛一定會壓倒合作而成為優勢策略,呢種搏弈嘅唯一可能均衡點就係所有玩家最後都會背叛。

雖然講就係咁講,但實際上執法機構係冇可能佈個咁嘅局嚟引監犯招供,因為監犯必須考慮刑期以外嘅因素(做二五仔可能會俾人覆卓),而無辦法完全以執法者所畀嘅利益(刑期)嚟考慮。

經典嘅監躉困境[編輯]

1950年,喺蘭德公司做嘢嘅梅里爾·弗勒德(Merrill Flood)同梅爾文。德雷希爾(Melvin Dresher)擬定出相關困境嘅理論,後嚟由顧問艾伯特·塔克(Albert Tucker)以監躉方式闡述,並改名叫做「監躉困境」。經典嘅監躉困境如下:

警方拉咗甲、乙兩個嫌疑犯,但係冇足夠証據告佢哋。於是警方分開囚禁嫌疑犯,同佢哋見面並提供以下嘅選擇:

  • 若果其中一個認罪並且作証檢控對方(相關術語叫「背叛」對方),而對方唔出聲,咁呢個人就會即時獲釋,沉默者就要坐 10 年。
  • 若果兩個乜都唔講(相關術語稱叫互相「合作」),就兩個都坐半年。
  • 若果二個都互相檢舉(互相「背叛」),就二個都坐 2 年。

用表格概述如下:

甲沉默(合作) 甲認罪(背叛)
乙沉默(合作) 兩個同樣坐半年 甲即時獲釋;乙要坐 10 年
乙認罪(背叛) 甲坐 10 年;乙即時獲釋 兩個同樣坐 2 年

解說[編輯]

如同博弈論嘅第啲例證,監躉困境假設每個參與者(即「監躉」)都係利己嘅,即都尋求自身最大利益,而唔會關心另一個參與者嘅利益。參與者一個策略所得嘅利益,如果喺任何情況下都比第啲嘅策略低嘅話,呢一個策略就叫做「嚴格劣勢」,理性嘅參與者係絕對唔會選擇。另外,沒有任何外部力量干預個人決策,參與者可完全按照自己意志嚟選擇策略。

監躉到底應該選擇哪一項策略,才能將自己個人嘅刑期縮至最短?兩名監躉由於係隔絕監禁,並唔會知道對方嘅選擇;而即使佢哋可以傾計,都未必會信對方唔會反口。就個人嘅理性選擇而言,背叛對方所得嘅刑期,比沉默要嚟得低。試諗下喺困境下佢哋兩個會如何作出選擇:

  • 『若果佢沉默、背叛會令我獲釋』,所以會選擇背叛。
  • 『若果佢背叛指控我,我都要指控番對方先至可以坐少啲』,所以都係會選擇背叛。

二人面對嘅情況一樣,所以二人嘅理性思考都會得出相同嘅結論——選擇背叛。背叛是兩種策略之中嘅支配性策略。因此,這場博弈中唯一可能達到嘅納殊均衡,就是雙方參與者都背叛對方,結果二人同樣服刑2年。

呢場博弈嘅納殊均衡,顯然唔係顧及團體利益嘅帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩個都只係需要坐半年,總體利益更加高,結果也比兩個互相背叛對方、結果要坐 2 年嘅情況更加好。但係根據以上嘅假設,二個都係理性嘅'個人',而且只會追求個人利益。均衡狀況會係兩個都選擇背叛對方,結果二個嘅判罰都比一齊合作更加重,總體利益較合作為低。呢個就係“困境”所在。例子証明咗:非零和博弈入面,帕累托最優同納殊均衡係互相衝突嘅。

固定局數嘅監躉困境[編輯]

試諗下監躉困境嘅情況進行十次。

我哋可以合理咁假設,如果監躉第一次被對方指控,第二次呢個監躉就會指控番對方。相反,如果第一次人哋唔出聲,大家建立咗互信嘅關係,你都會保持沉默,達致帕累托最優。

當然兩個監躉都會有相似嘅諗法,喺第一局保持沉默,期望建立互信嘅關係,所以雙方都會保持沉默。喺第二局時,雙方亦應該會有相似嘅諗法,繼續保持沉默,以期繼續係互信嘅情況下進行第三局同之後幾局。

呢種諗法合唔合理?

喺第十局時,互信嘅關係明顯係冇意義嘅,因為十局已經完結,監躉冇必要為維持互信嘅關係而沉默(冇第十一局),所以第十局監躉一定會背叛對方,理由同只有一局監躉困境一樣。

既然大家都知道喺第十局,對方都一定會背叛自己,咁你喺第九局再唔出聲都係冇意思,需知道唔出聲(友好關係)嘅原因係因為希望下一局人哋都會同你一樣唔出聲。所以第九局兩個都一定會背叛對方。

兩個都有相同嘅諗法,明知第九局對方會背叛自己,所以第八局唔出聲都係冇意思,第七局亦都一樣……如此類推,納殊均衡結果係十局都會互相背叛,所以建立互信關係係冇可能嘅。

結論就係只有喺大家都唔肯定監躉困境有幾多局嘅情況下,上述嘅推論先唔會發生,先至會出現大家都唔出聲嘅現象

一般形式[編輯]

整理監躉困境嘅基本博弈結構,可以更加清楚咁分析監躉困境。實險經濟學成日用呢種博弈嘅一般形式嚟分析各種論題。以下係實現一般形式嘅其中一個例子:

有兩個參與者同一個莊家。參與者每人有一式兩張卡片,上面各印有“合作”同“背叛”。參與者各將一張卡片有字嗰一面向下,放係莊家面前。咁樣可以防止參與者知道對方嘅選擇。之後莊家掀開兩個參與者嘅卡片,根據以下規則支付利益:

  • 一人背叛、一人合作:背叛者得 5 分(背叛誘惑),合作者 0 分(受騙支付)。
  • 二個都合作:各得 3 分(合作報酬)。
  • 二個都背叛:各得 1 分(背叛懲罰)。

支付矩陣表格展示支付如下(以分別代表兩個參與者):

一般形式監躉困境嘅支付矩陣
合作 背叛
合作 3, 3 0, 5
背叛 5, 0 1, 1
以“T、R、P、S”符號表示
合作 背叛
合作 R, R S, T
背叛 T, S P, P
以“贏-輸”術語表示
合作 背叛
合作 - 大輸-大贏
背叛 大贏-大輸 -


簡單博弈得到嘅點數可以得出一啲一般化嘅結論。

T 、 R 、 P 、 S 符號表

符號 分數 英文 中文(非術語) 解釋
T 5 Temptation 背叛誘惑 單獨背叛成功所得。
R 3 Reward 合作報酬 共同合作所得
P 1 Punishment 背叛懲罰 共同背叛所得
S 0 Suckers 受騙支付 被單獨背叛所獲

若果以 T(Temptation)= 背叛誘惑,R(Reward)= 合作報酬,P(Punishment)= 背叛懲罰,S(Suckers)= 受騙支付,以個人選擇得分嚟講,可以得出以下嘅不等式

T > R > P > S

(解:從 5 > 3 > 1 > 0 得到上面嘅不等式)

若以整體獲分而言,將會得出以下嘅不等式

2R > T+S 或者 2R > 2P

(解:2×3 > 5+0 或 2×3> 2x1 ;合作 2 人一共得 6 分,比起互相背叛嘅共得2分同埋單獨背叛嘅共得5分,顯然合作獲分比背叛高。合作喺團體而言係支配性策略。)

而重復博弈或重復嘅監躉困境將會使參與者從注重 T > R > P > S 轉變成注重 2R > T+S 。即係話將使參與者脫離困境。

以上理論係由道格拉斯·理查·霍夫施塔特創立嘅。

現實嘅例子[編輯]

上面嘅例子可能顯得唔係好自然,但喺現實當中,無論係喺人類社會或者大自然都可以搵到類似監躉困境嘅例子,將結果劃成同樣嘅支付矩陣社會科學入面嘅經濟學政治學社會學,以及自然科學動物行為學進化生物學等學科,都可以用監躉困境嚟分析,模擬生物面對無止境嘅監躉困境博弈。監躉困境可以廣泛使用,說明咗呢種博弈嘅重要性。以下就係各界嘅例子:

政治學例子:軍備競賽[編輯]

喺政治學入面,兩國之間嘅軍備競賽可以用監躉困境嚟描述。兩國都可以聲稱有兩種選擇:增加軍備(背叛)、或者係達成削減武器協議(合作)。兩國都無辦法肯定對方會遵守協議,所以兩國最終都係會傾向增加軍備。似乎自相矛盾嘅係,雖然增加軍備會係兩國嘅「理性」行為,但結果卻顯得「非理性」(例如會對經濟造成損壞)。咁可以睇成遏制理論推論,就係以強大嘅軍事力量嚟遏制對方嘅進攻以達到和平。

經濟學例子:關稅戰[編輯]

兩個國家,喺關稅上可以有以兩個選擇:

  1. 提高關稅,以保護自己嘅商品。(背叛)
  2. 同對方達成關稅協定,降低關稅以利各自嘅商品流通。(合作)

當其中一國因為某啲因素而唔遵守關稅協定,而單方面提高關稅(背叛)嗰時,另一國亦都會作出同樣嘅反應(即背叛),咁就會引發咗關稅戰,兩國嘅商品同時冇咗對方嘅市場,對自己經濟亦都造成損害(共同背叛嘅結果)。然後兩國又重新達成關稅協定。(重覆博弈嘅結果係將發現共同合作嘅利益先係最大。)

商業例子:廣告戰[編輯]

商業活動入面亦都會出現各種監躉困境嘅例子。以廣告競爭為例:

兩間公司互相競爭,佢哋嘅廣告互相影響,即一間公司嘅廣告較被顧客接受就可以攞到對方部分嘅收入。但係若果兩者同時期發出相類似嘅廣告,收入增加很少但成本增加。但若果唔提高廣告質量,生意又會被對方搶走。

呢兩間公司可以有兩個選擇:

  1. 互相達成協議,減少廣告開支。(合作
  2. 增加廣告開支,設法提高廣告嘅質量,壓倒對方。(背叛

若果兩間公司都唔信任對方而無辦法合作,背叛成為支配性策略嗰陣時,兩間公司就會陷入廣告戰,而廣告成本一增加就會損害咗兩間公司嘅收益,呢個就係陷入監躉困境。事實上要兩間互相競爭嘅公司達成合作協議係比較困難嘅,多數情況都係會陷入監躉困境入面。

單車賽例子[編輯]

單車實事嘅比賽策略亦都係一種博弈,而其結果可用監躉困境嘅研究成果解釋。例如每年都舉辦嘅環法單車賽中就有以下嘅情況:選手係到達終點前嘅路程常以大隊伍(英文:Peloton)方式前進,佢哋採取這策略是為了令自己不至於太落後,又出力適中。而最前方嘅選手在迎風時是最費力嘅,所以選擇在前方是最差嘅策略。通常會發生咁樣嘅情況,大家起先都不願意向前(共同背叛),這使得全體速度很慢,而後通常會有二或多位選手騎到前面,然後一段時間內互相交換最前方位置,以分擔嘅阻力(共同合作),使到全體嘅速度有所提升,而呢個時候如果前面其中一個試圖一直保持領先嘅位置(背叛),第啲選手以及大隊伍就會全力趕上(共同背叛)。而通常嘅情況係,排頭位次數最多嘅選手(合作)通常會到最後被落後嘅選手趕上(背叛),因為後面嘅選手騎在前面選手嘅衝流之中,唔駛用咁多力。

同監躉困境相關嘅事件[編輯]

異想[編輯]

威廉。龐德斯通(William Poundstone)喺佢嘅著作入面用一個新西蘭嘅例子嚟說明監躉困境 : 喺新西蘭,報紙檔既無人睇檔亦都冇個櫃去鎖住啲貨,啲人放低錢之後就可以攞走份報紙。當然其中一定會有人偷報紙(背叛),但由於大家知道如果個個都係咁(共同背叛)就會造成以後唔方便嘅有害結果,所以實際上好少人會去偷報紙。呢個例子嘅特別之處就係新西蘭人並冇俾任何第啲因素影響而能夠脫離監躉困境。並冇任何人特別去注意報紙檔,啲人守規則係為咗避免出現共同背叛而帶嚟嘅惡果。呢種因避免監躉困境而出現嘅共同推理 / 諗法就叫做“異想(magical thinking)”。

認罪減刑行唔通[編輯]

監躉困境嘅結論係促使好多國家唔俾認罪減刑(Plea Bargain)實行嘅原因之一。

監躉困境帶來嘅結論係:如果有二個罪犯,其中一人犯罪而另外一個係無辜嘅,犯罪者會為了減刑坦白一切甚至冤枉清白者(單獨背叛)。最壞嘅情況係如果佢哋二人都被判入獄就會搞到坦白但真係有犯罪嗰個人嘅刑期比較少,冤枉嗰個嘅刑期反而更加多

公用品悲劇[編輯]

現實當中嘅博弈參與者唔只一方,會有多方參與嘅監躉困境。加勒特。詹姆斯。哈丁(Garrett James Hardin)嘅公用品悲劇就係一個例子:「公用品悲劇係指凡係屬於大家嘅公共財產往往就係最少人關注同埋照顧嘅財產」。舉個[漁業]]嘅例子 : 公海入面嘅魚係公有嘅,而喺就算自己唔濫捕其第啲人都會濫捕嘅思想下,漁民就會啋你都傻繼續大撈特撈,結果搞到海洋生態破壞,漁民嘅生計亦都受影響(共同背叛嘅結果)。但係多方監躉困境嘅提法有待商榷,因為其總是可以被分解為一組組經典嘅二方監躉困境。即係話只有二方嘅監躉困境,係冇多方嘅。所謂多方嘅監躉困境只係由多個二方監躉困境混雜在一起而形成嘅錯覺。

重被嘅監躉困境[編輯]

羅伯特。阿克塞爾羅德喺佢嘅著作《合作嘅進化》入面探索出經典監躉困境情景嘅一個擴展,並叫佢做“重覆嘅監躉困境”(IPD)。喺呢個博弈入面,參與者必須反覆咁選擇佢哋彼此相關嘅策略,並且記住佢哋以前嘅對抗。阿克塞爾羅德邀請全世界嘅行家嚟設計電腦策略,並喺一個重復監躉困境競賽入面互相競爭。參賽嘅程序嘅差異廣泛咁存在喺呢幾方面:計法嘅複雜性、最初嘅對抗、寬恕嘅能力等等。

阿克塞爾羅德發現,當呢啲對抗被每個選擇唔同策略嘅參與者一再重覆咗很長時間之後,從利己嘅角度來判斷,最終“貪婪”策略趨向於減少,而比較“利佢”策略更多地被採用。佢用呢個博弈嚟說明通過自然選擇,一種利佢行為嘅機制可能係由最初純粹嘅自私機制進化而嚟嘅。

最佳確定性策略被認為係“以牙還牙”,呢個係阿納托爾。拉波波特(Anatol Rapoport)開發並運用喺錦標賽入面嘅方法。佢係所有參賽程序之中最簡單嘅,只包含咗四行 BASIC 語言,最後重贏埋埸比賽。呢個策略只不過係喺度重覆博弈嘅開頭合作,然後採取你嘅對手上一回合嘅策略。更加好嘅策略係“寬恕咁以牙還牙”。當你嘅對手背叛,喺下一個回合你無論如何要以小概率(大約係 1%-5%)時而合作一下。咁係考慮到偶爾要從循環背叛嘅受騙中復原。當錯誤傳達被引入博弈時,“寬恕地以牙還牙”係最佳嘅。這意味著有時你嘅動作被錯誤地傳達給你嘅對手:你合作但係你嘅對手聽說你背叛了。

通過分析高分策略,阿克塞爾羅德指定了策略獲得成功嘅幾個必要條件。

友善
最重要嘅條件係策略必須“友善”,即係話不好喺對手背叛之前自己先背叛。幾乎所有嘅高分策略都係 "友善" 嘅。完全自私嘅策略僅僅出於自私嘅原因,咁係永遠都唔會首先打擊到對手。
報復
但係,阿克斯洛德主張,成功嘅策略必須唔係一個盲目樂觀者。要始終報復。一個非報復策略嘅例子係始終合作。咁係一個非常之差嘅選擇,因為“下流”策略將殘酷地剝削咁樣嘅傻瓜。
寬恕
成功策略嘅另一個品質係一定要學識寬恕。雖然佢地唔報復,但係如果對手唔繼續背叛,佢地會一再退卻到合作。這停止了報復和反報復嘅長期進行,最大化了得分點數。
不嫉妒
最後一個品質係唔嫉妒,即係唔爭取去攞高過對手嘅分數(對於“友善”嘅策略嚟講咁樣係冇可能嘅,亦都即係話“友善”嘅策略係永遠都唔會攞得到高過對手嘅分數)。

因此,阿克塞爾羅德得到一種給人以烏托邦印象嘅結論,認為自私嘅人為咗自己嘅利益會趨向友善、寬恕同不嫉妒。阿克塞爾羅德關於重復監躉困境嘅研究嘅重要結論之一就係友善嘅人最後先至可以完成到交易。

重新考慮經典嘅監躉困境一節中給定嘅軍備競賽模型:結論係,只係理性策略增進了軍事力量,似乎兩個國家都寧可花費其GDP在槍炮而不係黃油上。有趣嘅係,企圖說明對抗國家實際上以這種方式(在“重復監躉困境假定”下嘅不同時期,軍費支出在“高”和“低”之間反復)競賽嘅嘗試,卻經常表明假定嘅軍備競賽並沒有如預想嘅那樣出現。(例如希臘人土耳其人嘅軍費支出,看來並不像遵循“以牙還牙”嘅重復監躉困境式嘅軍備競賽,卻更可能係被其國內嘅政策所驅使。)這可能係一次性博弈和重復性博弈中嘅理性行為不同嘅例子。

對一次性監躉困境博弈來說,最佳(點數最大化嘅)策略係簡單地背叛;正如前面解釋嘅,無論對手嘅行動可能係乜,這都係真實嘅。但係,在重復嘅監躉困境博弈中,最佳策略依賴於可能嘅對手嘅策略,和佢哋怎樣對背叛和合作作出反應。例如,考慮咁樣一個人群,那裏每個人每次都背叛,除了一個人係遵循以牙還牙策略。這個人處於一種輕微嘅不利地位,因為第一回合嘅損失。在咁樣嘅人群中,對這個人來說最佳策略就係每次都背叛。在一個有一定嘅百分比嘅總背叛者而剩下嘅則係以牙還牙者嘅人群中,對個人來說嘅最佳策略依賴於這個百分比和博弈嘅長度。

一般嚟講有兩種方法去得到最佳策略:

  1. 貝葉斯納殊均衡:如果對抗策略嘅統計分布能被確定(例如,50% 以牙還牙,50% 一直合作),就能喺數學上得到最佳嘅相對策略Template:Mn
  2. 已經有了人群嘅蒙特卡羅模擬,在這裏低分個人消失了,高分個人一再被生產出來(一種獲得最佳策略嘅天才算法)。決賽人群中嘅算法合成通常依賴於初賽人群中嘅算法合成。

即使以牙還牙始終俾人認為係最可靠嘅基本策略,但係喺重復監躉困境嘅 20 週年紀念賽入面,嚟自英國南安普敦大學嘅一個小組(由尼古拉斯·詹寧斯(Nicholas Jennings)[1]領導,包括拉蒂普·達什(Rajdeep Dash)、薩瓦帕裏。拉姆瓊(Sarvapali Ramchurn)、亞歷克斯。羅傑斯(Alex Rogers)斯同皮魯克裏士南。維特林根(Perukrishnen Vytelingum))介紹咗一個新嘅策略,呢個策略證明咗瞭解佢比用以牙還牙更加成功。呢個策略依賴於程序之間嘅合作,為單一程序中獲得咗最高嘅點數。南安普敦大學提交咗 60 個程序嚟參與比賽,呢啲程序嘅開頭被設計成通過一組5到10個嘅動作去彼此識別。一旦呢啲識別被作出,一個程序將總係合作,第啲程序則總係背叛,保證背叛者得到最大嘅點數。如果程序識別出它在操作一個非南安普敦參與者,這程序將持續地背叛,企圖去最小化競爭程序嘅得分。結果Template:Mn,這個策略以獲得前3位結束了競賽,亦都得到咗大量接近底部嘅位置。雖然呢個策略顯著地證明瞭比以牙還牙有效,但係咁係由於用咗下述事實:喺呢個特殊嘅競賽當中,多重通道係被允許嘅。在一方只能控制單一參與者嘅競賽中,以牙還牙確實係更好嘅策略。

如果重復監躉困境將被精確地重覆 N 次,已知 N 係一個常數,咁樣就會產生另一個有趣嘅事實。納殊均衡就係每次都背叛。這很容易用歸納法證明。你也可以在最後嘅回合背叛,既然你嘅對手將沒有機會懲罰你。因此,你哋都將在最後嘅回合背叛。這時,你可以在倒數第二回合中背叛,既然最後一回無論你做乜,你嘅對手都將背叛。依此類推。為了合作以保持請求,這時未來必須對兩個參與者來說係不確定嘅。一個解決方案係讓博弈總次數N變成隨機嘅。對未來嘅預期必須係無法確定嘅長度。

另一個獨立嘅案例係“永不停止”嘅監躉困境。呢個博弈被重覆過好多次,而且你嘅分數係一個平均數(當然係用電腦計出嚟)。

監躉困境博弈係某啲人類合作同信任理論嘅基礎。假定監躉困境能夠模擬需要信任嘅兩個人之間嘅交流,群體嘅合作行為可以用有多個參與者嘅、重復博弈嘅變體來模擬。這從而引起咗好多學者經久不衰嘅興趣。1975年,格羅夫曼(Grofman)同普爾(Pool)估計致力於呢方面研究嘅學術文章數量超過 2000 篇。

學習心理學同博弈論[編輯]

當博弈參與者能學會估計第啲參與者背叛嘅可能性,佢哋自身嘅行為就為佢哋關於其第啲人嘅經驗所影響。簡單嘅統計顯示,總體上,缺乏經驗嘅參與者與第啲參與者嘅互動,或者係典型嘅好,或者係典型嘅壞。如果佢哋在這些經驗嘅基礎上行動,(通過更多嘅背叛或合作,否則)佢哋可能在未來嘅交易中受損。隨著經驗逐漸豐富,佢哋獲得了對背叛可能性嘅更真實嘅印象,變得更成功地參與博弈。不成熟嘅參與者經歷嘅早期交易對佢哋未來參與嘅影響,可能比這些交易對成熟嘅參與者嘅影響要大得多。這個原理部分地解釋了,點解後生仔嘅成長經驗咁有影響力,同埋點解佢哋特別容易俾人烚,有時佢哋自己最後都會成為欺凌弱小者。

群體中背叛嘅可能性,可以被合作嘅經驗所削弱,因為先前嘅博弈建立了信任。因此自我犧牲行為可以,例如,加強團體嘅道德品質。如果團體很小,積極行為更可能以互相肯定嘅方式——鼓勵這個團體中嘅個人繼續合作——得到反饋。這與相似嘅困境有關:鼓勵那些你將援助嘅人,從可能使佢哋處於危險嘅境地嘅行為中得到滿足。這類方法主要在互惠利佢主義群選擇血緣選擇道德哲學嘅研究中涉及。

密封袋交易[編輯]

道格拉斯。理查。霍夫施塔特2曾經提出好似監躉困境呢一嘅嘅問題,若果以簡單博弈嘅形式嚟說明,啲人會比較容易理解。例如佢月“密封袋交易”嘅簡單博弈嚟說明呢個論題:

兩個人面義面互相交換一個密封嘅袋,共同瞭解其中一方放,另一方放商品。雙方可以誠實嘅依照承諾,將啲嘢放入嗰袋之後交換;又或者可以交個吉袋畀對方,選擇背叛。

喺呢場博弈中,由於背叛可以得到巨大利益,一定會有好多人選擇背叛。咁意味住理性嘅商人不會進行呢一交易,因而“密封袋交易”將會因為逆向選擇失去市埸

係敵係友?[編輯]

“係敵係友?”係一個競賽表演節目,由2002年2005年美國競賽表演廣播網(Game Show Network)度放映。呢個係一個用真人進行嘅監躉困境博弈例子,不過情景係人造嘅。呢個競賽表演總共有三對人參與競爭。當每對人俾人淘汰時,佢哋就要做一個監躉困境博弈,決定點樣分佢哋啲獎品。如果佢哋都合作(“朋友”),佢哋嘅獎品就會平分。如果一個合作而另一個背叛(“敵人”),背叛嗰個就可以攞哂所有獎品,合作者就乜都冇。如果三個都背叛嘅話,咁樣兩人都一無所獲。注意,呢個支付矩陣同之前提過嘅標準嘅支付矩陣唔同,因為發生“都背叛”嘅情形同“我合作而對手背叛”嘅情形兩者嘅損失其實都係一樣。同標準監躉困境嘅穩定均衡相比,“都背叛”係唔穩固嘅均衡(weak equilibrium)。如果你知道你嘅對手將成為“敵人”,呢個時候你嘅選擇係無辦法影響到你會得到嘅獎品。喺某種意義上嚟講,“係敵係友”擁有一個介於“監躉困境”同“小雞”之間嘅支付模型。

呢個支付矩陣係:

  • 如果參與者都合作,每人得到 +1。
  • 如果都背叛,每人得到 0。
  • 如果甲合作而乙背叛,甲就得到 0 而乙得到 +2。

"係敵係友"對於想對監躉困境作現實分析嘅人將係有用嘅。要注意嘅係,參與者只能夠進行一次,所以所有涉及重覆進行博弈嘅觀點都唔適用,“以牙還牙”策略亦都無辦法發展出嚟。

喺係敵係友入面,每個參賽者都可以做一個聲明,使另一半友喺雙方秘密決定合作或者背叛之前,確信佢嘅友善。可能“打破制度”嘅方法將係一個參與者告訴佢嘅對手:“我會選擇做敵人。如果你相信我後來會同你對分奬品嘅話,就選擇做朋友。否則,如果你選擇做敵人,我哋都回空手而回。”一個更貪婪嘅版本將會係:“我將選擇做敵人。我會畀百分之 X 你,剩落嚟嘅百分之(100 - X)就歸我。要定唔要?要嘅就我哋每人都分到啲,唔係就一齊得個吉。”(喺最後通牒博弈入面嗰陣時。)依家奸計就係去盡量減少嗰百分之 X ,並保持另一個競爭者仍然選擇做朋友。基本上呢個參與者必須知道呢個界限,喺呢度佢嘅對手從看到佢一無所獲中得到嘅效用,要超過佢從肯定贏到嘅錢入面得到嘅效用 - 如果佢順利嘅話。

喺競賽入面呢個方法從來都冇試驗過;可能係因為裁判唔會批準,而且就算批準,不平等厭惡亦都會由於呢個規則嘅使用而導致較低嘅期望收益。(最後通牒博弈中嘗試咗呢個方法,結果導致對高而不平等嘅出價嘅拒絕——喺一啲案例入面,相當於兩個禮拜嘅人工優先於兩個參與者乜都冇被決絕。)

[編輯]

註解:

註 1: 獲知其第啲人策略不被考慮嘅理由係:即使有人能獲知第啲人策略,“背叛”仍然是最佳嘅策略,無論佢獲知對方選擇“合作”或“背叛”都是如此。如果人嘅自私不改變嘅話,監躉困境還是存在,永遠達不到團體最大利益。所以知不知第啲人策略對監躉困境嘅存在幾乎沒有影響。

參考:

除咗解釋沒有小偷小摸,異想還用於解釋志願投票之類嘅事情(在非投票者被認為是搭便車者嘅地方)。可能,這還可以用來解釋維基百科貢獻:文本在如下嘅假定下被添加——如果沒人貢獻,相似嘅人也將不會去貢獻(即從效果到緣由嘅爭論)。或者,解釋要依賴於可預料嘅未來行動(不需要神奇嘅聯繫)。為未來嘅交流作模型需要增加有限嘅維,就像在重復嘅監躉困境一節中給定嘅。

例如參看2003年嘅研究貝葉“斯納殊均衡;假說嘅統計檢驗”:關於概念嘅討論,和是否能運用於真實嘅經濟或統計情形(來自特拉維夫大學)。

2004年度監躉困境錦標賽結果顯示高波·拉姆瓊嘅南安普敦大學策略位於前3名,儘管與GRIM策略相比,有較少嘅贏利同更多嘅失敗。(注意,喺監躉困境錦標實入面,博弈嘅目標唔係“贏得”比實——通過經常背叛,咁係好容易就能夠達到。)同樣需要指出嘅係,即使喺軟件策略(由南安普敦大學嘅小組開發)之間冇隱含結論,以牙還牙亦都唔係任何既定競賽嘅絕對贏家。講得更準確啲,佢喺一系列競賽入面嘅最終結果贏過佢嘅對手。(喺任何項目當中,給定嘅策略能稍微比以牙還牙更適應競賽,但是以牙還牙更穩固)。這同樣適用於附加寬恕變量嘅以牙還牙和第啲最佳策略:在任何一天,佢哋可能無辦法“贏得”一個對抗策略嘅特別組合。

呢個爭論——關於出於信任嘅合作嘅發展——出自《群眾嘅智慧》,呢本書表明,長久嘅資本主義能夠圍繞教友派信徒嘅核心形成,呢啲教友派信徒們總係體面地同佢哋嘅生意合伙人交易(而唔係背叛同食言——一種已經阻礙咗早先嘅、非強制履行嘅長期境外合同嘅現象)。咁就表明同可靠嘅商人作交易使合作擬子(meme)傳播俾第啲交易者,呢啲交易者又將佢傳播到更遠嘅地方,直到高水平嘅合作喺一般商業活動之中成為有利可圖嘅策略。

參考[編輯]

  • 羅伯特。阿克塞爾羅德和威廉。漢密頓,《合作嘅進化》("The Evolution of Cooperation"),出自《科學》(Science),1981年,第211期:1390-1396 頁。
  • 羅伯特。阿克塞爾羅德,《合作嘅進化》(The Evolution of Cooperation),Basic Books 出版社,ISBN 0-465-02121-2
  • 羅伯特。阿克塞爾羅德,《合作嘅複雜性》(The Complexity of Cooperation),普林斯頓大學出版社,1997年,ISBN 0-691-01567-8
  • 理查德。道金斯,《自私嘅基因》(The Selfish Gene),第二版——有兩章關於合作嘅進化,1990年,ISBN 0-19-286092-5
  • 格羅夫曼和普爾,《重覆囚徒困境博弈嘅貝葉斯模型》("Bayesian Models for Iterated Prisoner's Dilemma Games"),1975年,出自《一般系統》(General Systems),第20期:185--194 頁。
  • 加勒特。哈丁, 《公共地悲劇》("The Tragedy of the Commons"),出自《科學》(Science),1968年,第162期:1243-1248 頁。
  • 科勒普斯、戴維、羅伯特·威爾遜、保羅。米爾格羅姆和約翰·羅伯茨,《有限重覆囚徒困境中嘅理性合作》("Rational Cooperation in the Finitely Repeated Prisoners' Dilemma"),出自《經濟理論雜誌》(Journal of Economic Theory),1982年,第27(2)期:245-252頁。
  • 保羅。米爾格羅姆,《阿克斯洛德嘅合作嘅進化》("Axelrod's The Evolution of Cooperation"),出自《蘭德經濟學雜誌》(Rand Journal of Economics),1984年,第15(2)期:30-59 頁。
  • 威廉。龐德斯通,《囚徒困境:約翰·馮諾依曼、博弈論和炸彈之謎》(Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb),Doubleday 出版社,1992年,ISBN 0-385-41567-2。如標題所指出嘅,這是一個廣泛流行嘅入門介紹。
  • 阿納托爾。拉波波特和阿爾伯特。查馬哈,《囚徒困境》(Prisoner's Dilemma),密歇根大學出版社,1965年。呢本書解釋咗好多實驗,當中進行咗囚徒困境心理博弈。
  • 湯姆。費爾霍夫,《交易者困境:囚徒困境嘅連續版本》("The Trader's Dilemma: A Continuous Version of the Prisoner's Dilemma"),《計算機科學講義》(Computing Science Notes)93/02,1998年,荷蘭愛因霍芬科技大學,數學和電腦科學系。
  • 新方法贏得囚徒困境比賽(嚟自Wired.com)。

睇埋[編輯]

出面網頁[編輯]

  • 博弈論入門介紹 (PDF文件),對監躉困境有一個簡單呃要而準確嘅闡述,並附有有定義術語表。
  • 監躉困境遊戲英文
  • 另一個重復監躉困境博弈
  • 訪問監躉困境研究中心[2]
  • 對經濟學家嘅批評,包括“契約”學校嗰啲人,佢哋使用某些博弈嘅理論成果(例如監躉困境),去証明“改善”自治個人嘅結果嘅國家干預係正當嘅。畢竟,如果個人唔能夠自行達成合作,佢哋可能需要一個外部代理人,去強行取得對大家嚟講嘅最佳結果。
  • 威廉。托馬斯爭論說:好多時候,“監躉困境”不是模擬現實生活中交流嘅恰當博弈,但是重複嘅監躉困境更加常見而且嚟得實際。
  • 斯坦福哲學百科全書
  • 埃爾默。G。韋恩斯嘅監躉困境 - 軍用防水短上衣劫匪。有監躉困境嗎?