Talk:監犯困境

頁面內容唔支援其他語言。
出自維基百科,自由嘅百科全書
Good article 監犯困境係根據好文標準貼咗堂嘅一篇好文。如果你覺得呢篇文可以寫得更好,請放膽修改。如果呢篇文唔再達標,請要求再評估
2021年12月18號 好文提名 成功升格

呢篇嘢係第個人寫落嘅。我而家有興趣幫手執。如果原作唔鍾意嘅話,可以還原。:) Dr. Greywolf (傾偈) 2021年2月27號 (六) 14:42 (UTC)[回覆]

@Z423x5c6 Game theory 你都有興趣?😆 Dr. Greywolf (傾偈) 2021年3月2號 (二) 06:38 (UTC)[回覆]

@Dr. GreywolfOk啦,嗰陣sit堂sit咗大半個sem,叫做識少少😅,同埋呢篇我覺得好有潛質上好文/正文。Z423x5c6 (傾偈) 2021年3月2號 (二) 06:49 (UTC)[回覆]
Btw我覺得監躉呢個title好似有啲貶義,使唔使搬一搬?Z423x5c6 (傾偈) 2021年3月2號 (二) 06:50 (UTC)[回覆]
@Z423x5c6 我覺得唔使,中維嘅「囚徒」同英文嘅「prisoner」都可以有貶義,佢哋咪照樣用。「監躉」唔係粗口就得。Dr. Greywolf (傾偈) 2021年3月2號 (二) 07:07 (UTC)[回覆]
@Dr. Greywolf好,咁等我睇吓有咩可以執先。Z423x5c6 (傾偈) 2021年3月2號 (二) 07:24 (UTC)[回覆]
👍👍Dr. Greywolf (傾偈) 2021年3月2號 (二) 07:42 (UTC)[回覆]
啱啱𥅈左一眼,《重複嘅監躉困境》嗰段讀落有啲拗口,其他大致都ok。Z423x5c6 (傾偈) 2021年3月2號 (二) 07:56 (UTC)[回覆]

@Z423x5c6 我而家打算執靚呢篇嘢佢,即係執格式 + 加插圖 + 加一啲我自己識嘅內容。執靚之後我會提上好文或者正文。Dr. Greywolf (傾偈) 2021年3月8號 (一) 08:54 (UTC)[回覆]

@Dr. Greywolf好啊,btw佢係英文嗰邊好似係delisted FA定係GA,可能可以參考下。Z423x5c6 (傾偈) 2021年3月8號 (一) 15:38 (UTC)[回覆]

@Z423x5c6 可以提上去喇。Dr. Greywolf (傾偈) 2021年3月13號 (六) 13:06 (UTC)[回覆]

@Dr. Greywolf提咗上去正文(最後我都冇乜點搞呢篇😅)Z423x5c6 (傾偈) 2021年3月13號 (六) 14:15 (UTC)[回覆]
@Z423x5c6 查實我覺得做好文啱啲... Dr. Greywolf (傾偈) 2021年3月14號 (日) 07:20 (UTC)[回覆]

原作寫嘅未執好內容;需要加返 citation 同埋改做完全粵文[編輯]

若以整體獲分而言,將會得出以下嘅不等式

2R > T+S 或者 2R > 2P

(解:2×3 > 5+0 或 2×3> 2x1 ;合作 2 人一共得 6 分,比起互相背叛嘅共得2分同埋單獨背叛嘅共得5分,顯然合作獲分比背叛高。合作喺團體而言係支配性策略。)

而重復博弈或重復嘅監躉困境將會使參與者從注重 T > R > P > S 轉變成注重 2R > T+S 。即係話將使參與者脫離困境。

以上理論係由道格拉斯·理查·霍夫施塔特創立嘅。

整理監躉困境嘅基本博弈結構,可以更加清楚咁分析監躉困境。實驗經濟學成日用呢種博弈嘅一般形式嚟分析各種論題。以下係實現一般形式嘅其中一個例子:

有兩個參與者同一個莊家。參與者每人有一式兩張卡片,上面各印有“合作”同“背叛”。參與者各將一張卡片有字嗰一面向下,放係莊家面前。咁樣可以防止參與者知道對方嘅選擇。之後莊家掀開兩個參與者嘅卡片,根據以下規則支付利益:

  • 一人背叛、一人合作:背叛者得 5 分(背叛誘惑),合作者 0 分(受騙支付)。
  • 二個都合作:各得 3 分(合作報酬)。
  • 二個都背叛:各得 1 分(背叛懲罰)。

支付矩陣表格展示支付如下(以分別代表兩個參與者):

一般形式監躉困境嘅支付矩陣
合作 背叛
合作 3, 3 0, 5
背叛 5, 0 1, 1

簡單博弈得到嘅點數可以得出一啲一般化嘅結論。

符號 分數 英文 粵語(非術語) 解釋
T 、 R 、 P 、 S 符號表
T 5 Temptation 背叛誘惑 單獨背叛成功所得。
R 3 Reward 合作報酬 共同合作所得
P 1 Punishment 背叛懲罰 共同背叛所得
S 0 Suckers 受騙支付 被單獨背叛所獲

同學習嘅啦掕[編輯]

睇埋:學習

當博弈參與者能學會估計第啲參與者背叛嘅可能性,佢哋自身嘅行為就為佢哋關於其第啲人嘅經驗所影響。簡單嘅統計顯示,總體上,缺乏經驗嘅參與者與第啲參與者嘅互動,或者係典型嘅好,或者係典型嘅壞。如果佢哋喺呢啲經驗嘅基礎上行動,(通過更多嘅背叛或合作,否則)佢哋可能喺未來嘅交易中受損。隨著經驗逐漸豐富,佢哋獲得對背叛可能性嘅更真實嘅印象,變得更成功地參與博弈。唔成熟嘅參與者經歷嘅早期交易對佢哋未來參與嘅影響,可能比呢啲交易對成熟嘅參與者嘅影響要大得多。呢個原理部分地解釋咗,點解後生仔嘅成長經驗咁有影響力,同埋點解佢哋特別容易俾人烚,有時佢哋自己最後都會成為欺凌弱小者。

群體中背叛嘅可能性,可以被合作嘅經驗所削弱,因為先前嘅博弈建立咗信任。因此自我犧牲行為可以,例如,加強團體嘅道德品質。如果團體好細,積極行為更可能以互相肯定嘅方式——鼓勵呢個團體中嘅個人繼續合作——得到反饋。噉同相似嘅困境有關:鼓勵嗰啲你將會援助嘅人,從而可能令佢哋處於危險嘅境地嘅行為中得到滿足。呢類方法主要喺互惠利他主義群選擇血緣選擇同埋道德哲學嘅研究中涉及。

////////////呢個我搵唔到 reference。英文名係乜?

密封袋交易[編輯]

道格拉斯·理查·霍夫施塔特2曾經提出好似監躉困境呢一嘅嘅問題,若果以簡單博弈嘅形式嚟說明,啲人會比較容易理解。例如佢月“密封袋交易”嘅簡單博弈嚟說明呢個論題:

兩個人面義面互相交換一個密封嘅袋,共同瞭解其中一方放,另一方放商品。雙方可以誠實嘅依照承諾,將啲嘢放入嗰袋之後交換;又或者可以交個吉袋畀對方,選擇背叛。

喺呢場博弈中,由於背叛可以得到巨大利益,一定會有好多人選擇背叛。咁意味住理性嘅商人不會進行呢一交易,因而“密封袋交易”將會因為逆向選擇失去市埸

係敵係友?[編輯]

“係敵係友?”係一個競賽表演節目,由2002年到2005年喺美國競賽表演廣播網(Game Show Network)度放映。呢個係一個用真人進行嘅監躉困境博弈例子,不過情景係人造嘅。呢個競賽表演總共有三對人參與競爭。當每對人俾人淘汰時,佢哋就要做一個監躉困境博弈,決定點樣分佢哋啲獎品。如果佢哋都合作(“朋友”),佢哋嘅獎品就會平分。如果一個合作而另一個背叛(“敵人”),背叛嗰個就可以攞嗮所有獎品,合作者就乜都冇。如果三個都背叛嘅話,咁樣兩人都一無所獲。注意,呢個支付矩陣同之前提過嘅標準嘅支付矩陣唔同,因為發生“都背叛”嘅情形同“我合作而對手背叛”嘅情形兩者嘅損失其實都係一樣。同標準監躉困境嘅穩定均衡相比,“都背叛”係唔穩固嘅均衡(weak equilibrium)。如果你知道你嘅對手將成為“敵人”,呢個時候你嘅選擇係無辦法影響到你會得到嘅獎品。喺某種意義上嚟講,“係敵係友”擁有一個介於“監躉困境”同“小雞”之間嘅支付模型。

呢個支付矩陣係:

  • 如果參與者都合作,每人得到 +1。
  • 如果都背叛,每人得到 0。
  • 如果甲合作而乙背叛,甲就得到 0 而乙得到 +2。

"係敵係友"對於想對監躉困境作現實分析嘅人將係有用嘅。要注意嘅係,參與者只能夠進行一次,所以所有涉及重覆進行博弈嘅觀點都唔適用,“以牙還牙”策略亦都無辦法發展出嚟。

喺係敵係友入面,每個參賽者都可以做一個聲明,使另一半友喺雙方秘密決定合作或者背叛之前,確信佢嘅友善。可能“打破制度”嘅方法將係一個參與者告訴佢嘅對手:“我會選擇做敵人。如果你相信我後來會同你對分奬品嘅話,就選擇做朋友。否則,如果你選擇做敵人,我哋都回空手而回。”一個更貪婪嘅版本將會係:“我將選擇做敵人。我會畀百分之 X 你,剩落嚟嘅百分之(100 - X)就歸我。要定唔要?要嘅就我哋每人都分到啲,唔係就一齊得個吉。”(喺最後通牒博弈入面嗰陣時。)依家奸計就係去盡量減少嗰百分之 X ,並保持另一個競爭者仍然選擇做朋友。基本上呢個參與者必須知道呢個界限,喺呢度佢嘅對手從看到佢一無所獲中得到嘅效用,要超過佢從肯定贏到嘅錢入面得到嘅效用 - 如果佢順利嘅話。

喺競賽入面呢個方法從來都冇試驗過;可能係因為裁判唔會批準,而且就算批準,不平等厭惡亦都會由於呢個規則嘅使用而導致較低嘅期望收益。(最後通牒博弈中嘗試咗呢個方法,結果導致對高而不平等嘅出價嘅拒絕——喺一啲案例入面,相當於兩個禮拜嘅人工優先於兩個參與者乜都冇被決絕。)

重複監躉困境應用[編輯]

重新考慮經典嘅監躉困境一節中給定嘅軍備競賽模型:結論係,只係理性策略增進了軍事力量,似乎兩個國家都寧可花費其GDP喺槍炮而不係黃油上。有趣嘅係,企圖說明對抗國家實際上以這種方式(在“重復監躉困境假定”下嘅不同時期,軍費支出在“高”和“低”之間反復)競賽嘅嘗試,卻經常表明假定嘅軍備競賽並沒有如預想嘅那樣出現。(例如希臘人土耳其人嘅軍費支出,看來並不像遵循“以牙還牙”嘅重復監躉困境式嘅軍備競賽,卻更可能係被其國內嘅政策所驅使。)這可能係一次性博弈和重復性博弈中嘅理性行為不同嘅例子。

對一次性監躉困境博弈來說,最佳(點數最大化嘅)策略係簡單地背叛;正如前面解釋嘅,無論對手嘅行動可能係乜,這都係真實嘅。但係,在重復嘅監躉困境博弈中,最佳策略依賴於可能嘅對手嘅策略,和佢哋怎樣對背叛和合作作出反應。例如,考慮咁樣一個人群,那裏每個人每次都背叛,除了一個人係遵循以牙還牙策略。這個人處於一種輕微嘅不利地位,因為第一回合嘅損失。在咁樣嘅人群中,對這個人來說最佳策略就係每次都背叛。在一個有一定嘅百分比嘅總背叛者而剩下嘅則係以牙還牙者嘅人群中,對個人來說嘅最佳策略依賴於這個百分比和博弈嘅長度。

一般嚟講有兩種方法去得到最佳策略:

  1. 貝葉斯納殊均衡:如果對抗策略嘅統計分布能被確定(例如,50% 以牙還牙,50% 一直合作),就能喺數學上得到最佳嘅相對策略Template:Mn
  2. 已經有了人群嘅蒙特卡羅模擬,在這裏低分個人消失了,高分個人一再被生產出來(一種獲得最佳策略嘅天才算法)。決賽人群中嘅算法合成通常依賴於初賽人群中嘅算法合成。

即使以牙還牙始終俾人認為係最可靠嘅基本策略,但係喺重復監躉困境嘅 20 週年紀念賽入面,嚟自英國南安普敦大學嘅一個小組(由尼古拉斯·詹寧斯(Nicholas Jennings)[1]領導,包括拉蒂普·達什(Rajdeep Dash)、薩瓦帕裏。拉姆瓊(Sarvapali Ramchurn)、亞歷克斯。羅傑斯(Alex Rogers)斯同皮魯克裏士南。維特林根(Perukrishnen Vytelingum))介紹咗一個新嘅策略,呢個策略證明咗瞭解佢比用以牙還牙更加成功。呢個策略依賴於程序之間嘅合作,為單一程序中獲得咗最高嘅點數。南安普敦大學提交咗 60 個程序嚟參與比賽,呢啲程序嘅開頭被設計成通過一組5到10個嘅動作去彼此識別。一旦呢啲識別被作出,一個程序將總係合作,第啲程序則總係背叛,保證背叛者得到最大嘅點數。如果程序識別出它在操作一個非南安普敦參與者,這程序將持續地背叛,企圖去最小化競爭程序嘅得分。結果Template:Mn,這個策略以獲得前3位結束了競賽,亦都得到咗大量接近底部嘅位置。雖然呢個策略顯著地證明瞭比以牙還牙有效,但係咁係由於用咗下述事實:喺呢個特殊嘅競賽當中,多重通道係被允許嘅。在一方只能控制單一參與者嘅競賽中,以牙還牙確實係更好嘅策略。

如果重復監躉困境將被精確地重覆 N 次,已知 N 係一個常數,咁樣就會產生另一個有趣嘅事實。納殊均衡就係每次都背叛。這很容易用歸納法證明。你也可以在最後嘅回合背叛,既然你嘅對手將沒有機會懲罰你。因此,你哋都將在最後嘅回合背叛。這時,你可以在倒數第二回合中背叛,既然最後一回無論你做乜,你嘅對手都將背叛。依此類推。為了合作以保持請求,這時未來必須對兩個參與者來說係不確定嘅。一個解決方案係讓博弈總次數N變成隨機嘅。對未來嘅預期必須係無法確定嘅長度。

另一個獨立嘅案例係“永不停止”嘅監躉困境。呢個博弈被重覆過好多次,而且你嘅分數係一個平均數(當然係用電腦計出嚟)。

監躉困境博弈係某啲人類合作同信任理論嘅基礎。假定監躉困境能夠模擬需要信任嘅兩個人之間嘅交流,群體嘅合作行為可以用有多個參與者嘅、重復博弈嘅變體來模擬。這從而引起咗好多學者經久不衰嘅興趣。1975年,格羅夫曼(Grofman)同普爾(Pool)估計致力於呢方面研究嘅學術文章數量超過 2000 篇。

[編輯]

註解:

註 1: 獲知其第啲人策略不被考慮嘅理由係:即使有人能獲知第啲人策略,“背叛”仍然是最佳嘅策略,無論佢獲知對方選擇“合作”或“背叛”都是如此。如果人嘅自私不改變嘅話,監躉困境還是存在,永遠達不到團體最大利益。所以知不知第啲人策略對監躉困境嘅存在幾乎沒有影響。

參考:

除咗解釋沒有小偷小摸,異想還用於解釋志願投票之類嘅事情(在非投票者被認為是搭便車者嘅地方)。可能,這還可以用來解釋維基百科貢獻:文本在如下嘅假定下被添加——如果沒人貢獻,相似嘅人也將不會去貢獻(即從效果到緣由嘅爭論)。或者,解釋要依賴於可預料嘅未來行動(不需要神奇嘅聯繫)。為未來嘅交流作模型需要增加有限嘅維,就像在重復嘅監躉困境一節中給定嘅。

例如參看2003年嘅研究貝葉“斯納殊均衡;假說嘅統計檢驗”:關於概念嘅討論,和是否能運用於真實嘅經濟或統計情形(來自特拉維夫大學)。

2004年度監躉困境錦標賽結果顯示高波·拉姆瓊嘅南安普敦大學策略位於前3名,儘管與GRIM策略相比,有較少嘅贏利同更多嘅失敗。(注意,喺監躉困境錦標實入面,博弈嘅目標唔係“贏得”比實——通過經常背叛,咁係好容易就能夠達到。)同樣需要指出嘅係,即使喺軟件策略(由南安普敦大學嘅小組開發)之間冇隱含結論,以牙還牙亦都唔係任何既定競賽嘅絕對贏家。講得更準確啲,佢喺一系列競賽入面嘅最終結果贏過佢嘅對手。(喺任何項目當中,給定嘅策略能稍微比以牙還牙更適應競賽,但是以牙還牙更穩固)。這同樣適用於附加寬恕變量嘅以牙還牙和第啲最佳策略:在任何一天,佢哋可能無辦法“贏得”一個對抗策略嘅特別組合。

呢個爭論——關於出於信任嘅合作嘅發展——出自《群眾嘅智慧》,呢本書表明,長久嘅資本主義能夠圍繞教友派信徒嘅核心形成,呢啲教友派信徒們總係體面地同佢哋嘅生意合伙人交易(而唔係背叛同食言——一種已經阻礙咗早先嘅、非強制履行嘅長期境外合同嘅現象)。咁就表明同可靠嘅商人作交易使合作擬子(meme)傳播俾第啲交易者,呢啲交易者又將佢傳播到更遠嘅地方,直到高水平嘅合作喺一般商業活動之中成為有利可圖嘅策略。

JCZ[編輯]

  • 英文:dilemma;粵拼daai6 lem1 maa4粵切字:大介 ̏·力壬'·文乍"(組裝字體:󰣝󰺶󰕗
  • 純粹漢字 intro:監犯困境係博弈論入面非零和博弈嘅一個代表性例子。簡單講,監犯困境係指明明大家合作就可以得益,但每個人各自揀對自己最有利嘅選擇,搞到最後一齊輸。
  • 混合 intro:監犯困境 亾兮 ̏ 博弈論入面非零和博弈 丩旡` 一個代表性例子。簡單 丩王´,監犯困境 亾兮 ̏ 指明明大家合作就 亾个´ 央子˝ 得益,但每個人各自揀對 止子 ̏ 丩丌´ 最有利 丩旡` 選擇,丩丂´ 到最後一齊輸。Dr. Greywolf (傾偈) 2021年4月20號 (二) 06:57 (UTC)[回覆]
  • 混合 intro(組裝字體):監犯困境󱪝博弈論入面非零和博弈󱝚一個代表性例子。簡單󱠁,監犯困境󱪝指明明大家合作就󱭡󱗤得益,但每個人各自揀對󱂥󱝡最有利󱝚選擇,󱛡到最後一齊輸。Greeninvisibledreams (傾偈) 2021年4月27號 (二) 14:18 (UTC)[回覆]

btw唔係好明你揀粵切字嘅規則😅,有冇得解釋下 Greeninvisibledreams (傾偈) 2021年4月27號 (二) 14:18 (UTC)[回覆]

隨興。😂 Dr. Greywolf (傾偈) 2021年4月27號 (二) 14:24 (UTC)[回覆]

文章連結留底時出錯 (2021年4月)[編輯]

你好。留底期間,檔案庫話有啲網站搞唔到。 以下係有問題嘅對外連結同埋錯誤訊息。

呢個係唯一一次通知,因為我唔會再嘗試幫呢啲對外連結留底。

唔該晒。—InternetArchiveBot (報告軟件缺陷) 2021年4月3號 (六) 17:25 (UTC)[回覆]

對外連結有變 (2021年11月)[編輯]

各位編輯仝人:

我啱啱救返監犯困境上面嘅 1 個對外連結。麻煩檢查下我改嘅嘢。有咩查詢,或者想隻機械人唔理啲外連,或者想隻機械人成版唔好掂,請睇呢版簡明嘅問答頁。我改咗呢啲外連:

如果隻機械人有錯,請睇問答頁嘅指示。

唔該晒!—InternetArchiveBot (報告軟件缺陷) 2021年11月7號 (日) 10:59 (UTC)[回覆]

對外連結有變 (2021年11月)[編輯]

各位編輯仝人:

我啱啱救返監犯困境上面嘅 1 個對外連結。麻煩檢查下我改嘅嘢。有咩查詢,或者想隻機械人唔理啲外連,或者想隻機械人成版唔好掂,請睇呢版簡明嘅問答頁。我改咗呢啲外連:

如果隻機械人有錯,請睇問答頁嘅指示。

唔該晒!—InternetArchiveBot (報告軟件缺陷) 2021年11月14號 (日) 08:10 (UTC)[回覆]

好文評審,2021年12月[編輯]

好文標準

  1. 內容穩定,唔係打緊編輯戰。 Y 合格
    • 評語:
  2. 涵蓋文章主題嘅主要範疇Y 合格
    • 評語:
  3. 用嘅多媒體適當,排版、標題清晰。 Y 合格
  4. 觀點持平、編輯角度中立。 Y 合格
    • 評語:
  5. 所有可能有爭議嘅內容都有引用可靠來源Y 合格
    • 評語:
  6. 行文暢順,讀出嚟順口,文章結構清晰。 Y 合格
    • 評語:

對外連結有變 (2022年3月)[編輯]

各位編輯仝人:

我啱啱救返監犯困境上面嘅 1 個對外連結。麻煩檢查下我改嘅嘢。有咩查詢,或者想隻機械人唔理啲外連,或者想隻機械人成版唔好掂,請睇呢版簡明嘅問答頁。我改咗呢啲外連:

如果隻機械人有錯,請睇問答頁嘅指示。

唔該晒!—InternetArchiveBot (報告軟件缺陷) 2022年3月31號 (四) 15:29 (UTC)[回覆]