博弈論

出自維基百科,自由嘅百科全書
(由對策論跳轉過來)
Jump to navigation Jump to search
一班阿伯喺度捉象棋。每個棋手要考慮自己同對手嘅可能選擇,諗吓自己可以揀嘅選擇當中邊個能夠令自己赢嘅機率最大化。
一班人喺度玩星際爭霸。喺打機嗰陣,每個玩家都係要考慮自己同對手嘅可能選擇,諗吓自己應該揀邊個選擇嚟令自己赢嘅機率最大化。
普京當勞侵會面;世界各國喺經濟同貿易等方面會互相競爭,要考慮自己同對手可能會做啲乜,再諗吓自己要點做先可以將自己利益(包括資源同影響力等)最大化。

博弈論粵拼bok3 jik6 leon6英文game theory),粵文又有叫對策論或者賽局理論,係應用數學嘅一個分支領域,專門研究理性嘅決策者喺策略上嘅互動[1]:博弈論會將一場博弈(a game)想像成一個數學上嘅物體,一場博弈由某啲規則同若干個參與者組成,每個參與者手上都有一柞可能選擇同埋特定嘅資訊,而對於一個參與者嚟講,佢每一個選擇都會引致某啲得失,呢啲得失由場博弈嘅規則話事;每一個參與者會想令自己嘅利益最大化,並且按照呢條原則做決策-捉棋、打機、以至國際關係等嘅現象都涉及博弈[2]。因為噉,博弈論能夠應用落去所有嘅社會科學(尤其係經濟學政治學等)嗰度,就連邏輯學電腦科學都會用到博弈論[2]

喺博弈論上,博弈可以分做兩大類-合作性(cooperative)同非合作性(non-cooperative),前者指一啲參與者能夠彼此溝通同組成同盟嘅博弈,後者涉及一啲參與者之間因為某啲因素而唔能夠溝通或者組成同盟嘅情況。兩種分析都各有其用途,例如對合作性博弈嘅研究就幫到科學家手了解人類點樣喺佢哋社會當中組成各有其目的嘅群體,並且群體與群體之間進行鬥爭[3][4];而對非合作性博弈嘅研究就有俾人用嚟解釋兩間生產同一樣產品嘅大企業之間嘅鬥爭[5][6]

除咗俾人攞嚟做解釋性(explanatory)嘅研究,博弈論仲有俾人用嚟做一啲規範性(normative)嘅研究:有學者運用博弈論嚟分析喺某啲情況(例如係某啲使錢上嘅決擇)之下,一個參與者有邊啲選擇同埋應該要點樣做決策先至可以令到自身利益最大化[7][8]-有好多經濟分析師都興用博弈論分析企業彼此之間喺市場上嘅鬥爭,並且用呢啲分析嚟向企業提供營運方面嘅建議[9][10]

博弈論係喺廿世紀上半橛由馮紐曼(John von Neumann)等嘅大數學家諗出嚟嘅,打後呢個理論喺廿世紀中期俾經濟學家生物學家用嚟分析佢哋各自嘅領域當中嘅現象,而且仲有多個經濟學家靠住佢哋用博弈論對經濟現象進行嘅分析攞到諾貝爾經濟學獎(Nobel Memorial Prize in Economic Sciences)嘅榮譽。到咗廿一世紀,博弈論上嘅發展令到佢出咗大量嘅專有概念同子理論,成為咗一門獨立於第啲應用數學領域嘅領域[11]

基本概念[編輯]

博弈論研究嘅重點係博弈(game),一場博弈係一件數學物體,包含咗以下嘅組成部份[1][9]

  1. 至少兩個博弈者;
  2. 每個博弈者手上有若干個選擇;
  3. 每個選擇都會為嗰個博弈者帶嚟某啲報償。

報償[編輯]

圖 1;一場假想嘅博弈嘅報償矩陣;呢場博弈涉及兩個博弈者,佢哋分別各有兩個選擇,每個格仔入面嗰兩個數字代表「如果結果兩個博弈者揀咗噉做,佢哋報償分別係幾多」。

喺一場博弈當中,一個博弈者有多個行動可以揀,例如係喺商業上,一間企業喺諗點樣賣佢哋嘅產品嗰時至少有兩個可能嘅行動-加價或者減價;佢每一個選擇都會引致某啲後果,而一個選擇會引致乜嘢後果往往受到對手採取嘅行動影響-如果對手加價而我方減價,好可能會有大批客人改買我方嘅商品,令我方市場佔有率大增,而如果對手減價而我方一樣減價,噉雙方嘅市場佔有率會大致上不變;對於一個博弈者嚟講,佢每一個可能嘅結果都有一個相應嘅報償(payoff),報償可以係嘢食、或者名譽等-可以係任何人類會想爭嘅嘢。喺一般應用上,研究者會用正數字代表得益,負數字代表損失。對報償嘅量化令到博弈論嘅分析變得精確[1][9]

舉個簡單嘅例子說明,想像家吓有兩間公司,叫公司 1(firm 1)同公司 2(firm 2),喺度鬥爭一個市場嘅買家,每間公司都有兩個選擇,一係揀「進入市場」(entry,簡稱「E」),一係揀「遲啲先進入市場」(delay entry,簡稱「DE」)。喺呢個個案之下,如果兩間同時進入市場嘅話,佢哋都會各自損失 4,000,000 文嘅盈利(-4, -4);而如果公司 1 而家進入市場,而公司 2 揀遲啲先入,噉公司 1 會得到 6,000,000 文嘅盈利,而公司 2 乜嘢都得唔到(6, 0);淨低嘅情況可以睇圖 1。喺呢個形勢之下,對於公司 1 嚟講,揀 DE 嘅話實蝕,相比之下,佢揀 E 嘅話至少會蝕少啲,甚至有機會賺(如果公司 2 揀 DE 嘅話),同一時間,就算公司 2 知道呢一點,佢都好可能都會因為唔想蝕 4,000,000 而焗住去揀 DE。如果係噉,最後結果會係公司 1 賺 6,000,000,而公司 2 冇得益冇損失。

上述呢場博弈用報償矩陣(payoff matrix)嘅形式表述出嚟嘅結果係圖 1 [12]

理性[編輯]

睇埋:理性

博弈論假設咗,博弈者冚唪唥都係理性(rational)嘅,即係話假設咗[13][14]

  1. 喺場博弈途中,博弈者都係一心一意想令自身嘅報償最大化;
  2. 每一個博弈者都清楚知道自己想達到乜嘢目的同埋場博弈嘅規則;
  3. 每一個博弈者都能夠做必需嘅運算,能夠達到佢想要達到嘅結果。

睇返頭先兩個公司博弈嘅例子:如果公司 1 唔係一心一意想令自身報償最大化,噉佢未必會揀即刻進入市場;又或者如果公司 1 唔知道個報償矩陣嘅內容嘅話,噉佢都未必識要揀即刻進入市場;而且喺實行起上嚟,公司 1 要有能力執行「即刻進入市場」所需要採取嘅行動。

均衡[編輯]

睇埋:經濟均衡

均衡(equilibrium)係一場博弈當中嘅一種可能情況。喺一個均衡情況之下,每個博弈者都揀咗能夠最佳噉應對其他博弈者嘅策略嘅選擇,但唔一定係對佢嚟講最有利嘅選擇[15]。好似係頭先兩間公司博弈嘅例子噉樣,對於公司 2 嚟講,最理想嘅情況係佢揀即刻進入市場,同時公司 1 揀遲啲先進入市場,但佢要考慮佢對手會做嘅決策-假設佢知公司 1 知成場博弈嘅報償矩陣嘅內容,佢就會知公司 1 冇乜可能會揀遲啲先進入市場,所以公司 2 諗過佢對手嘅策略之後,決定都係揀遲啲先進入市場,最後成場博弈成一個「公司 1 揀咗即刻進入市場、而公司 2 揀咗遲啲先進入市場」嘅狀態-成一個均衡嘅狀態。

拿殊均衡點[編輯]

一場有拿殊均衡點嘅博弈
阿松揀 A 阿松揀 B
阿明揀 A +1, +1 +1, −1
阿明揀 B -1, +1 0, 0
內文: 拿殊均衡點

拿殊均衡點(Nash equilibrium;個名取自大博弈論家莊·拿殊)係均衡嘅一種。喺拿殊均衡點之下,每個博弈者都揀咗一個選擇,而且佢哋當中冇任何一個有誘因去單方面噉改變自己嘅選擇。舉個例說明,想像右手邊嗰場拿殊博弈嘅報償矩陣[16][17],成場博弈涉及咗兩個博弈者-阿明同阿松-而佢哋各有兩個選擇(A 同 B)可以揀;根據呢一場博弈嘅規則,如果阿明揀 A 而阿松揀 B,結果會係阿明得益 1 文阿松損失 1 文(+1, -1),如此類推;假想佢哋兩個而家都為咗將自己報償最大化而揀咗 A 嘅選項,對於阿明嚟講,如果佢改變選擇而同時阿松嘅選擇不變,噉佢自己會變成損失 1 文,阿松都係同一道理;噉喺呢個情況下,佢哋兩個喺進入咗「雙方都揀咗 A」嘅狀態之後,就再冇誘因改變自己嘅選擇-呢個狀態就係呢場博弈嘅拿殊均衡點[16][18]

唔係所有博弈都有一個拿殊均衡點-有啲博弈有多過一個拿殊均衡點,又有啲博弈係冇拿殊均衡點嘅[16][19]

博弈分類[編輯]

博弈可以按照幾種屬性嚟分類:

對稱定非對稱[編輯]

一場懦夫博弈
阿松揀 C 阿松揀 S
阿明揀 C 0, 0 -5, +5
阿明揀 S +5, -5 -100, -100
內文: 對稱博弈

喺一場對稱博弈(symmetric game)當中,一個選擇嘅報償衹係會受到第個(或者第啲)博弈者嘅選擇影響,但唔受選擇者嘅身份影響-同一個選擇無論由邊個博弈者揀,報償都會一樣嘅。好多成日俾人攞嚟研究嘅 2 x 2 博弈都屬於對稱博弈,包括咗好出名嘅懦夫博弈(chicken)、獵鹿博弈(stag hunt)、同監躉困境(prisoner's dilemma)呀噉[20][21]。以懦夫博弈為例,想像而家有兩個人,佢哋揸住電單車向住對方迎頭衝刺,每個都有兩個選擇揀(直去,S;做懦夫,C),如果佢哋兩個都直去唔轉軚嘅話,佢哋會相撞(報償:-100, -100),而如果其中一方轉軚另一方直去,雙方都冇事,但轉軚嗰個人會俾人笑係冇膽鬼(-5)而直去嗰個人會俾人讚佢大膽(+5)[20]。喺呢場博弈當中,每個選擇造成嘅報償衹會受第個博弈者嘅選擇影響,但唔受博弈者嘅身份影響,所以係一場對稱博弈[20]

喺一場非對稱博弈(asymmetric game)當中,唔同嘅博弈者手上嘅選擇唔一樣,又或者佢哋有同一樣嘅選擇集,但唔同博弈者做同一個選擇報償唔一樣。非對稱博弈例子有最後通牒博弈(ultimatum game)同獨裁者博弈(dictator game)等等[22]。喺最後通牒博弈當中,有兩個博弈者,其中一個(提議者,proposer)會收到一筆錢,並且要負責做一個提案提議點樣分筆錢,而另一個博弈者(回應者,responder)就負責決定接唔接受個提議,如果個回應者接受提案,筆錢就會按照提案噉分,而如果回應者拒絕,兩個博弈者都冇錢。喺呢場博弈當中,雙方手上嘅可能選擇好唔同,所以係一場非對稱博弈[23]

零和定非零和[編輯]

一場零和博弈
阿松揀 A 阿松揀 B
阿明揀 A 0, 0 -1, +1
阿明揀 B +3, -3 -2, +2
內文: 零和博弈

喺一場零和博弈(zero-sum game)當中,每一個結果入面所有博弈者嘅得失加埋實係零(所以就叫「零和」),例如係右手邊嗰個報償矩陣所描述嘅博弈噉,喺呢場博弈當中,兩個博弈者嘅報償加埋永遠係零-係一場零和博弈。如果一場博弈係零和嘅,噉就意味住「一個博弈者要得益嘅話,另一個博弈者就實要有等量嘅損失」[24]。好多日常生活會玩嘅遊戲當中嘅博弈都屬於零和博弈,喺好似係啤牌象棋等嘅遊戲當中,因為規則所限,其中一方要贏,另外嗰一方就一定要輸。而頭先提到嘅懦夫博弈就係一場非零和博弈(non-zero-sum game),因為喺呢種博弈當中,博弈雙方嘅報償加埋未必實係零[25]

現實環境裏面嘅博弈多數都係非零和嘅博弈,例子有國際貿易:喺國際貿易當中有所謂嘅貿易利得(gains from trade)現象;經濟學研究證明咗,當有兩個國家進行貿易嗰陣,往往有啲選擇係能夠令到雙方都得益嘅-即係話個結果當中雙方嘅報償都係正數[26][27]

同步定序貫[編輯]

捉象棋係一種序貫博弈,而且具有完全資訊嘅特徵。
內文: 同步博弈序貫博弈

同步博弈(simultaneous game)同序貫博弈(sequential game)嘅主要分別係在於有冇涉及時間上嘅差異:喺一場同步博弈當中,博弈者冚唪唥都要同時間做決策,又或者係先後做決策,但後做決策嘅博弈者冇能力知道喺佢哋之前做決策嘅博弈者做咗乜嘢決定(所以實際應用上可以當成同時做決策);而喺一場序貫博弈當中,博弈者要先後做決策,而且後做決策嘅博弈者有能力一定程度上知之前嘅博弈者做咗乜嘢決定(但未必有完全資訊),例如可能一個後做決策嘅博弈者知道之前嗰個博弈者冇揀某個選擇,但唔知佢揀咗邊個。序貫博弈通常會以決策樹(decision tree)嘅型式表述多過用報償矩陣[28][29]

序貫博弈嘅概念對於用博弈論解釋信任(trust)嚟講不可或缺。想像家陣有一場序貫博弈,規則如下:阿松首先做決策,佢可以揀「合作」或者「唔合作」,而佢做咗決策之後,阿明就要喺知道阿松揀咗乜嘅情況之下,同樣揀「合作」或者「唔合作」;如果阿松揀咗「合作」而阿明揀「合作」,報償係(2, 2),當中第一個數字表示阿松所得嘅報償;如果阿松揀咗「合作」而阿明揀「唔合作」,報償會係(0, 4);而如果阿松揀咗「唔合作」,噉無論阿明揀乜,報償都會係(1, 0)。阿松佢可以揀「合作」,噉樣做會令佢嘅最大可能報償由 1 變成 2,但噉做同時要求佢信任阿明-如果阿松揀咗「合作」,阿明將會有能力透過揀自私嘅「唔合作」選項嚟令阿松乜都得唔到,自己霸嗮所有嘅得益。上述嘅博弈喺社會科學當中有俾人攞嚟研究人與人之間嘅信任[28][30]

資訊完全性[編輯]

內文: 完全資訊

完全資訊博弈(perfect information game)係序貫博弈嘅一種。喺具有完全資訊嘅博弈當中,所有博弈者都完美噉知道之前嘅博弈者所做過嘅決策。圖板遊戲當中有好多都屬於完全資訊博弈,例如係象棋-喺象棋當中,一個玩家有能力知道嗮對手同自己之前做過嘅決策,所以具有完全資訊,而對完全資訊嘅分析喺對圖板遊戲嘅研究好有用[31][32][33]。不完全資訊博弈就包括啤牌同埋橋牌等等,喺德州話事啤(Texas hold'em)入面,每個牌手喺一局開始嗰時會獲派兩張啤牌,而呢兩張牌係乜唔到最後都唔會揭曉,牌手頂櫳都衹係有得憑對手嘅行為估對手有乜牌[34][35]

想像下面嗰幅決策樹所描述嘅一場序貫博弈(以擴展形式表達),規則如下:兩個博弈者先後做決策,而每個結果會有若干報償;博弈者 1 先做決策,而且博弈者 2 冇方法直接得知佢揀咗乜;博弈者 1 手上有三個選項,C、D、同 O,如果佢揀咗 O,會令到博弈者 2 冇得做決策,並且直接造成(2, 2)嘅報償,其他可能結果嘅報償如圖所示。假如家吓博弈者 2 俾人叫佢做決策,假設博弈者 2 清楚博弈規則,就算冇人話佢知博弈者 1 揀咗乜,佢都會有能力推斷博弈者 1 實冇揀 O,但佢冇得知到底博弈者 1 揀咗 C 定 D-所以呢場博弈具有不完全資訊[36]

一場不完全資訊博弈嘅決策樹;1 代表博弈者 1 做決策嘅點,而 2 就代表博弈者 2 做決策嘅點。

重複性[編輯]

內文: 重複博弈

如果要令博弈論能夠更加準確噉描述現實,博弈論家就有需要考慮重複博弈(repeated game)嘅問題:喺現實世界,多數嘅人博弈起上嚟都會同同一班對手玩多次博弈-一個棋手會識得佢班棋友,而且重複噉同佢班棋友捉棋;而兩個國家之間往往會喺多個時間點喺某啲方面交鋒(例如係爭完石油爭土地呀噉)。所以如果想博弈論嘅分析更加符合現實,就實要考慮「同一班博弈者彼此之間玩同一個博弈,玩若干次」嘅可能性,而且重複博弈亦都意味住一樣嘢:博弈者能夠憑住過去嘅經驗估計對手將來嘅行動[37]

重複博弈嘅概念仲帶出咗信譽(reputation)呢個諗頭[36]:現實世界博弈起上嚟多數都係重複性嘅,所以博弈者好多時都有能力靠過往嘅博弈經驗估對手會用嘅策略;喺最簡單嗰種情況下,佢可以隨機斷估;但喺實際應用上,佢可以靠手上嘅有限資訊估計對手揀每個選擇嘅概率;如果佢對手喺過去嘅博弈當中大多數揀咗「唔合作」,而且假設佢具有貝氏理性(Bayesian rationality,曉按概率做決策[38]),佢就好有可能會傾向相信佢對手喺將來都會作出噉嘅選擇-佢就比較傾向會揀一啲喺「對手揀咗唔合作」嘅情況下對自己有利嘅選擇。好似係頭先信任嘅例子噉,喺貝氏理性嘅情況下,如果阿松同阿明兩個係互不相識嘅陌生人,阿松比較有理由隨機噉做決策,但如果佢識阿明,而阿明出咗名信譽唔好嘅話,噉佢比較有理由認為阿明信唔過,因而揀「唔合作」[36][37]

合作定非合作[編輯]

唐朝時期吐魯番嘅一張合同;呢張嘢紀錄咗一個奴隸嘅買賣,禁止咗買賣雙方做某啲行為。
內文: 合作博弈非合作博弈

博弈可以分做合作博弈(cooperative game)同非合作博弈(non-cooperative game)兩大種[39][40]。喺合作博弈當中,博弈者彼此之間能夠組成一啲有制約性嘅承諾,並且講明乜嘢選擇可以揀乜嘢唔可以,例如公司同打工仔之間嘅合同指明咗,法律禁止雙方嘅某啲嘅可能行為(例如喺多數情況下,老細如果唔出糧係犯法嘅),所以公司同打工仔之間嘅博弈算得上係合作博弈[41];而非合作博弈就係指喺場博弈當中,博弈者彼此之間唔能夠組成一啲噉嘅制約,或者啲制約要靠自己嚟執行(例如係用暴力恐嚇嚟迫對方做自己想佢做嘅嘢)。對合作博弈嘅分析令到博弈論能夠進一步噉接近呢個理論想要描述嘅現實世界現象[40]

另一方面,合作博弈仲帶出咗通訊(communication)嘅概念:諗返頭先懦夫博弈嗰個例子噉,假想博弈雙方喺博弈開始之前能夠互相通訊,甚至事先講好數,應承對方會大家一齊揀轉軚(假設佢哋有理由認為對方信得過),又或者其中一方俾啲好處另一方,等後者願意特登俾對方赢呢場博弈(喺知道好處提供者會揀直去嘅情況下,特登揀轉軚),噉佢哋就有得合作令大家嘅報償最大化[42]

隨機性[編輯]

內文: 隨機博弈

懦夫博弈、獵鹿博弈、同監躉困境等嘅經典博弈好多時都唔能夠充分噉模擬現實世界當中嘅博弈,其中一個原因係因為呢啲模型冇考慮到隨機性嘅問題:喺現實世界嘅博弈裏面,一個博弈者好多時都唔能夠完全噉知道一個策略嘅報償係幾多(呢個又同不完全資訊有關),又或者知道咗一個策略嘅報償係有隨機性喺入面嘅,例如「呢個結果有 80% 機會造成(2, 2)嘅報償,而有 20% 機會造成(3, 0)嘅報償」。喺博弈論史上,其中一個最至關重要嘅發展就係對隨機博弈(stochastic game)嘅分析。隨機博弈喺定義上有以下嘅特徵[43][44][45]

  • 博弈者會重複噉玩呢場博弈;
  • 喺是但一個時間點,場博弈會處於某一個狀態 ,而 係包括嗮所有狀態嘅
  • 每個狀態都有一系列嘅可能策略 同埋相應嘅一系列報償
  • 一個集,包含咗由每一個狀態去另外一個狀態嘅概率,,呢個概率可以受博弈者喺嗰個狀態當中揀咗乜嘢策略影響;
  • 場博弈嘅每個步驟都會維持一段時間

要模擬隨機博弈,可以用馬可夫決策過程(Markov decision process),例如係以下呢幅圖當中嘅馬可夫決策過程,模擬咗一場一人博弈,場博弈有三個狀態(、同 ),喺每一個狀態當中,個博弈者有兩個可能嘅選擇()同埋相應嘅報償,而每個選擇有若干概率令到場博弈變成另外一個狀態(由啲箭咀同箭咀側邊嘅數字表示)。呢一個模型可以好容易噉用電腦程式表達出嚟,喺人工智能(artificial intelligence)呢個領域上可以攞嚟(例如)教電腦喺玩遊戲嗰陣做決策[46]

Markov Decision Process.svg

策略分類[編輯]

內文: 策略 (博弈論)

喺博弈論當中,策略又可以按幾種屬性分類[47]

純粹定混合[編輯]

一個使用緊純粹策略(pure strategy)嘅博弈者會一路用死一個能夠令佢報償最大化嘅選項,係對嗰個博弈者嚟講最理想嘅狀態。相比之下,現實嘅博弈者多數會用混合策略(mixed strategy),即係話個博弈者會每一個選擇俾個概率佢,而個概率代表咗佢會揀嗰個選項嘅機會率[47][48]。以美式足球為例:美式足球比賽分攻守,進攻嗰隊目的係要帶住個波衝過對手防線,並且去到得分區達陣(達陣會得分);而要衝過對手防線,主要有兩個方法-跑陣同傳球;跑陣指由負責開波嘅四分衛交個波俾(通常)跑衛,再要個跑衛向對手防線衝刺,嘗試以個跑衛嘅速度同敏捷身手嚟突破防線;傳球就係指由啲線鋒一路護住四分衛、一路俾班外接員同跑衛跑向對手防線,再要個四分衛掟個波俾其中一個外接員或者跑衛。多數嘅美式足球隊都會採取混合策略-一時跑陣一時傳球,等對手無所適從[49]。除咗美式足球之外,好多運動都會講「要用多變嘅策略」呢樣嘢[50][51]

一場美式足球比賽嘅一次進攻;而家係白色衫嗰隊進攻,佢哋個跑衛(企最後面嗰個)準備好衝刺,同時佢哋兩個外接員(企攻防線左面嗰兩個)都準備向前跑-就噉睇,呢次進攻有可能係跑陣,又有可能係傳球。

佔優[編輯]

一場防守方角衛好渣之下嘅美式足球博弈
B 隊集中防範跑陣 B 隊集中防範傳球
A 隊用跑陣 +3, -3 +6, -6
A 隊用傳球 +15, -15 +10, -10

佔優策略(dominant strategy)係指一個喺是但一個對手選擇之下,都能夠令到個選擇者報償最大化嘅選項[47]。又諗返美式足球嘅例子說明,想像家陣有兩隊美式足球隊打比賽,而家 A 隊進攻,B 隊防守。A 隊可以揀跑陣或者傳球,但佢哋仲知另一個資訊-B 隊啲角衛(專門負責防範傳球嘅防守位置)極之渣,完全冇能力阻礙佢哋啲外接員:如果對手揀集中防範跑陣,A 隊傳球會比較大機會成功推進;而就算對手揀集中防範傳球,因為佢哋角衛渣,傳球嘅報償依然高啲(睇報償矩陣,報償以「預計成功推進幾多」計[52])。喺呢個情況下,無論對手揀乜,揀傳球都係一個比較有利嘅選項,所以「傳球」係一個佔優策略[53]

最小最大化[編輯]

睇埋:極小化極大演算法

最小最大化策略(minimax strategy)係指將自己嘅「最小」最大化嘅策略,即係選擇能夠令到自己嘅最低報償值最大化嘅策略。用返頭先懦夫博弈嘅例子做說明,一個採取最小最大化嘅策略嘅博弈者會永遠選擇轉軚,噉係因為揀直去嘅最低可能報償係 -100,而揀轉軚嘅最低可能報償衹係 -5,所以原則上,「係唔係都永遠揀轉軚」係一個比較安全嘅策略;又想像美式足球博弈嘅例子,由 B 隊嘅角度嚟睇,集中防範跑陣嘅最大損失係 15,而集中防範傳球嘅最大損失衹係 10,後者嘅最大可能損失比較細,所以如果 B 隊選用最小最大化策略,佢哋會集中防範傳球。會採用最小最大化策略嘅通常都表示,個博弈者想盡可能噉令到自己所承受嘅風險有噉低得噉低[47][54]

應用[編輯]

經濟學[編輯]

一場會造成公地悲劇嘅博弈
B 君揀合作 B 君揀背叛
A 君揀合作 3, 3 0, 5
A 君揀背叛 5, 0 1, 1
一場唔會造成公地悲劇嘅博弈
B 君揀合作 B 君揀背叛
A 君揀合作 5, 5 0, 3
A 君揀背叛 3, 0 0, 0

經濟學(economics)係一個専門研究資源分配嘅社會科學領域,經濟學家會憑住佢哋對資源等嘅事物嘅知識嚟了解經濟體嘅運作,而管理者同政府等嘅人就往往要靠呢啲知識設計經濟體系。喺經濟學上,一個經濟體入面嘅人、企業、同埋各種嘅社會團體可以分別噉當做博弈者,而佢哋爭緊嘅資源(例如係錢等)就代表報償,經濟學家會假設呢啲博弈者多數都係想要令到佢哋自己利益最大化嘅,並且按照博弈模型嚟了解唔同嘅人或者組織點解會喺資源分配上做某啲決策,跟住佢哋仲會運用呢啲知識幫手制定政策,並且形塑一個經濟體嘅設計[2]-呢個過程就係所謂嘅經濟設計學(design economics)領域[55][56][57]

例:公地悲劇

喺經濟學上,公地悲劇(tragedy of the commons)係一個成日俾人用博弈論嚟分析嘅現象:家吓想像一個由多個博弈者共同使用嘅資源(例如係石油或者第啲天然資源),如果佢哋都有節制噉開採個資源嘅話,個資源可以好襟用,但現實發生嘅係,每個博弈者往往會以自身利益行先,過度噉開採個資源,最後搞到個資源枯竭,大家都冇得用,呢個現象就係所謂嘅公地悲劇[58][59]

公地悲劇喺經濟學上係一個相當受關注嘅議題,有唔少専家都嘗試用博弈論分析呢個現象同埋研究點樣解決呢個問題。有科學家就試過噉做:佢哋用一個簡單嘅對稱博弈模型嚟模擬個世界,假想喺使用資源嗰陣,一個博弈者有合作(cooperate;乖乖地跟規矩噉用個資源)同背叛(defect;過度開採)呢兩個選擇,如果雙方都揀「合作」,報償會係(3, 3),而如果一方揀「合作」另一方揀「背叛」,合作方嘅報償係 0 而背叛方嘅報償係 5,而如果大家一齊揀「背叛」,報償會係(1, 1);喺呢個情況下,長遠嚟講,雙方都有誘因趁對手揀「合作」嗰陣揀「背叛」嚟到令自己利益最大化(而且喺呢個情況下,「大家齊齊揀背叛」係場博弈嘅唯一拿殊均衡點);佢哋做電腦模型,模擬一個有兩種博弈者-合作者同背叛者-嘅世界,顧名思義,合作者傾向合作,而背叛者傾向背叛;佢哋嘅模擬發現,喺呢個情況下,隨住時間過去,合作者嘅所得會明顯少過背叛者嘅,於是合作者就會慢慢消失-一係變成背叛者,一係因為所得太少而被淘汰-形成一個以背叛者為主嘅世界,大家齊齊過度開採資源,造成公地悲劇;跟住落嚟,班科學家唔假想人類會唔自私,而係郁手改變場博弈嘅報償規則,令到雙方合作嘅報償變成(5, 5),一齊背叛嘅報償變成(0, 0),而如果一方「合作」另一方「背叛」,合作方報償係 0 而背叛方報償係得 3 噉多(留意拿殊均衡點變成「大家一齊揀合作」);佢哋跟住再進行模擬,發現喺呢個情況下,就算一開始場博弈當中多數博弈者都係背叛者,合作者會慢慢因為佢哋嘅報償高而變成主流類型-背叛者所得唔夠,焗住一係改變策略、一係被淘汰[60]

基於呢個研究,一班美國佐治亞州嘅科學家向當地政府提議咗一啲系統嚟令到佐治亞州嘅水資源使用生態變成唔會造成公地悲劇嘅樣,例如係運用一個信譽系統嚟獎勵合作者(用政府干預令揀合作嘅報償上升)同懲罰背叛者(用政府干預令揀背叛嘅報償下降),令到啲人有誘因合作,最後仲成功噉解決佐治亞州水資源嘅公地悲劇問題[61]

生物學[編輯]

令到利他行為進化到出嚟嘅重複博弈
B 君揀合作 B 君揀背叛
A 君揀合作 2, 2 -1, 3
A 君揀背叛 3, -1 0, 0
睇埋:進化博弈論

生物學(biology)係研究生命嘅一門自然科學領域。喺生物學對博弈論嘅應用當中,最出名嘅就係進化博弈論(evolutionary game theory)[62]:同冇生命嘅嘢比起上嚟,生物其中一個最大嘅特徵係曉進化-一群同種生物嘅基因庫會因為物競天擇等嘅過程而慢慢變化,經過幾百萬年嘅時間就會演變成截然不同嘅新物種;喺進化博弈論當中,生物學家會將同一個物種入面嘅唔同個體當成博弈者,而報償反映隻生物揀嘅策略有幾能夠幫佢提升佢嘅進化適應性(evolutionary fitness;指隻生物生存落去同繁殖嘅能力);幫到隻生物提升自身進化適應性嘅策略比較有機會通過遺傳流傳到去下一代嗰度,所以更加有機會會喺下一代嗰度出現。憑住呢啲分析,進化博弈論幫到生物學家手了解點解某啲行為零舍常見[63][64][65]

例:利他嘅進化

古典進化論入面其中一個大問題係解釋利他主義(altruism)嘅進化:利他行為係指一啲對自己冇明顯利益、而係有利他人嘅行為,例如假想有個人參與一場懦夫博弈,唔係揀對自己最有利嘅策略,而係無條件噉揀俾佢對手羸;由古典進化論嘅角度嚟講,呢種行為驟眼睇好似唔合理,因為噉做唔能夠直接噉令到個個體提升自己嘅進化適應性,正路嚟講理應唔會零舍通過到物競天擇嘅考驗流傳到落嚟。廿世紀中至後期嘅生物學家用進化博弈論嚟思考人類當中嘅利他行為,佢哋假想一個簡單嘅博弈模型,規則如下:喺呢場博弈當中有兩個博弈者,兩者各有兩個選項-合作(cooperate)同背叛(defect),如果雙方合作,報償會係(2, 2),而如果其中一方合作另一方背叛,合作方損失 1 而背叛方得益 3,最後如果雙方都選擇背叛,報償會係(0, 0)。呢個模型能夠模擬好多人類現實面對嘅問題-人類日常做嘅工作有好多都要求佢哋合作先做得成[66][67][68]

跟住呢班科學家又假想一個人類群體入面有三種人:

  • 無條件嘅合作者(係唔係都揀合作嘅);
  • 無條件嘅背叛者(係唔係都揀背叛嘅);
  • 有條件嘅合作者-呢種合作者一般會揀合作,除非佢認得個對手,而個對手之前揀過背叛。

然後班科學家用進化論嘅思路嚟諗嘢:行為係可以遺傳嘅[69],所以佢哋用一個簡單嘅模型,假想仔女所屬嘅類型同父母一樣,而一個個體「成功噉生到後代嘅機會率」同佢「最後手上嘅資源量」成正比;佢哋用呢個模型模擬,結果發現,無條件嘅合作者好容易俾無條件嘅背叛者利用,話噉快就因為損失太多資源、生唔到後代而走向滅絕;而跟住落嚟失敗嘅係無條件嘅背叛者-有條件嘅合作者喺撞到無條件嘅背叛者嗰陣識得唔好合作,但撞到其他有條件嘅合作者嗰時識得要合作令自身利益最大化,結果打低咗無條件嘅背叛者,成為咗個群體入面嘅大多數。雖然以上呢個模型做咗好多簡化嘅假設,但佢的確能夠相當準噉描述到現實:事實係,心理學等領域嘅研究表明咗,人類多數都係傾向做有條件嘅合作者-佢哋會做利他嘅行為,但前題係佢哋嘅利他對象唔會利用佢哋嘅好意。呢個進化博弈論分析幫助解釋點解利他行為喺人類裏面進化到出嚟,對進化論嘅發展作出咗貢獻[68][70]

遊戲設計[編輯]

一場容易令玩家嗌交嘅遊戲
B 君揀做支援 B 君揀做進攻
A 君揀做支援 3, 3 1, 2
A 君揀做進攻 2, 1 2, 2

遊戲設計(game design)係廿一世紀初開始受重視嘅一門領域,研究點樣設計各式各樣嘅遊戲,尤其係電子遊戲[71]。喺一場遊戲當中,唔同嘅玩家係博弈者,而佢哋玩遊戲嘅目的(要贏、要攞高分、要賺多啲遊戲內部嘅貨幣等)就會反映喺佢哋嘅報償之上[72]。喺遊戲設計上,博弈論嘅一個用途係俾個遊戲設計者(尤其係喺設計線上遊戲嗰陣)模擬佢個遊戲嘅規則會引致乜嘢行為,並且睇吓佢設計嘅遊戲會形成一個點嘅遊戲環境,跟住等佢可以評估個遊戲環境係咪理想[73]

例:隊制射擊遊戲問題

喺線上遊戲嘅設計方面,玩家之間嘅互動係一個重大課題,噉係因為事實表明咗,玩家之間嘅溝通好多時都會演變成互相漫駡-呢種情況會搞到玩家唔開心,所以遊戲設計者會想減少呢種情況[74]。假想而家有一隻噉嘅射擊遊戲:呢隻遊戲每場比賽都有 12 個玩家參與,而佢哋會被分做兩組,每組 6 個人,而兩組要喺一個地圖上面戰鬥,爭取分數或者第啲嘢,目的係要贏;每個玩家都可以揀一個角色喺呢場比賽當中使用,每個角色有某啲特定嘅異能,而且可以分做兩大類-進攻型角色同支援型角色;進攻型角色主要負責殺敵,而支援型角色主要負責做幫隊友擋子彈或者回復生命值等支援性嘅作業,現實例子有絕地要塞(Team Fortress)同鬥陣特攻(Overwatch)等。事實表明咗,啲人多數都比較鍾意用進攻型角色,覺得殺敵好玩啲。家陣想像有兩個人,佢哋嗰四個隊友都經已揀咗做進攻型,而根據佢哋對隻遊戲嘅認識,一隊一般要起碼有一至兩個支援型角色先至會掂,所以如果佢哋想令贏嘅機會最大化,佢哋就要一齊揀做支援型角色[72]

呢場博弈嘅可能結果同報償如下:

  1. 如果佢哋兩個一齊揀做支援,佢哋好大機會能夠合作打贏場比賽(3, 3);
  2. 如果佢哋一個揀做支援一個揀做進攻,做支援嗰個要一個人做嗮支援工作,會覺得非常之唔好玩(1),而揀做進攻嗰個可以享受做進攻嘅樂趣,但係都仲要冒「輸嘅機會提高咗」嘅風險(2);
  3. 如果佢哋兩個一齊揀做進攻,佢哋多數會輸,但會覺得好玩(2, 2)。

雖然「一齊揀做支援」係呢場博弈嘅拿殊均衡點,但係隊友之間嘅信任可以係一個問題:假如一個玩家唔信任佢嘅隊友,認為佢嘅隊友唔會真係合作,噉佢就有理由揀「做進攻」-因為呢個係「假設隊友唔會乖乖地做支援」嘅情況下對自己最有利嘅選擇(坐底得到 2 個單位嘅報償)。而事實係,線上遊戲嘅玩家通常都係互不相識嘅陌生人,好難要佢哋吓吓都信任自己隊友,所以上述嘅呢個遊戲設計容易令到玩家嗌交-好多時其中一個玩家揀做支援但另一個玩家拒絕合作,於是兩個人開始喺聯機對話入面指住對方互鬧。呢個分析令到一啲遊戲設計者開始重新思考線上遊戲嘅設計[72][74]

人工智能[編輯]

睇埋:電子遊戲嘅人工智能

人工智能(artificial intelligence;簡稱「AI」)係一個專門研究點樣教機器展示有智能行為嘅領域,屬電腦科學嘅一個子領域。人工智能其中一個受關注嘅課題係點樣教機器進行博弈-因為「曉得喺博弈當中做正確嘅決定」一般都俾人認為係智能嘅一個重要指標,而且呢方面嘅研究相當有實用價值,例如係改善電子遊戲入面嘅人工智能,創造出更加能令到玩家投入個遊戲嘅人工智能呀噉[75][76][77]。喺廿一世紀初嘅科學界,教人工智能做博弈其中一種最常見嘅做法係運用頭提到嘅馬可夫決策過程(以下簡稱「MDP」)[78]

例:用 MDP 教 AI 博弈

一個 MDP 模擬一個博弈環境,有以下組成部份[79][80]

  • 一柞狀態 (state),包括咗個環境嘅所有可能狀態;
  • 一柞可能嘅行動 (action),包括個博弈者能夠採取嘅行動;
  • 一柞過渡模型(transition model),包括咗由某一個狀態變成另一個特定狀態嘅概率;
  • 獎勵(reward),包括咗喺每個狀態下,每個行動會引致嘅報償;同
  • 對策(policy),一個對策係一個函數,以「現時嘅狀態」做輸入,「應該採取嘅行動」做輸出;喺現實應用當中,對策好多時會係一個人工神經網絡(artificial neural network)。
Tic-tac-toe-game-1.png

想像一個簡單嘅例子,家陣個人工智能設計者想設計一個人工智能程式,教部電腦玩井字過三關,個程式內部要有一個數學模型用 MDP 表示個遊戲嘅環境, 包括咗「對手霸咗左上角,其他格仔全部都空」等嘅狀態, 包括咗「霸右下角個格仔」等嘅行動, 包括咗「我填咗右下角,跟住落嚟中間格仔會被霸佔嘅機會率」等嘅一柞機會率, 包括咗一柞數值代表(例如)變成呢個狀態會令自己贏嘅機會率提升幾多。喺一場井字過三關嘅遊戲入面,玩家嘅目的係要令到場遊戲嘅狀態變成對佢有利嘅樣,而最佳對策 就係能夠令到最終自身報償最大化嘅對策[78][79]

家吓想像一個人工智能程式,佢有一個演算法能夠改變佢內部嗰個人工神經網絡對策函數,學習範式係強化學習(reinforcement learning),即係話佢有能力按照採取過嘅行動嘅結果嚟自我修改(詳情可以睇人工神經網絡),跟住個設計者開個程式同佢玩過三關,玩到噉上下,個程式會自我修改過多次,令到個對策函數變成一個更加能夠喺過三關當中贏嘅對策-出咗一個識學玩過三關嘅程式[80]

軍事學[編輯]

軍事學(military science)係研究軍隊軍事組織嘅行為嘅一個社會科學領域,會幫手思考國防打仗上用嘅策略[81]。喺軍事學上,一場戰事可以當成一場博弈,當中涉及交戰嘅各方係博弈者,而報償涉及嘅就係交戰各方打仗嘅目的-打仗可以係為咗資源同埋對某片土地嘅控制權等嘅策略目的。自從二戰開始,軍事學方面嘅學者就正式噉開始採用博弈論嚟分析打仗當中嘅戰略博弈,並且出咗唔少有成績嘅研究[82][83][84]

例:俾斯麥海海戰

俾斯麥海海戰(Battle of Bismarck Sea)係二戰當中嘅一場戰事,發生喺 1943 年 3 月,涉及盟軍俾斯麥海(Bismarck Sea;位於巴布亞新畿內亞以北嘅一個海)嗰度對大日本帝國海軍嘅運輸船隊進行轟炸,最後殲滅咗日軍船隊。喺呢場戰事當中,美國空軍嘅佐治·肯尼將軍(General George Kenney)同日本海軍嘅今村海軍上將分別係兩方嘅指揮官。今村海軍上將下咗命令,要日軍運輸船隊向喺巴布亞新畿內亞戰鬥嘅日軍運送支援物資。當時,喺巴布亞新畿內亞進行嘅戰鬥正係打到白熱化階段,日軍要揀俾佢哋嘅運輸船隊經邊條路線去巴布亞新畿內亞,有兩條路線可以揀:北面經俾斯麥海嘅路線同埋南面經所羅門海(Solomon Sea)嗰條[85]

俾斯麥海海戰嘅地圖圖解;紅線反映咗日軍運輸船隊嘅北路。
肯尼將軍面對嘅博弈
日軍揀行北路 日軍揀行南路
美軍揀飛去北路 2, -2 2, -2
美軍揀飛去南路 1, -1 3, -3

肯尼將軍嘅任務係要盡可能噉破壞日軍嘅支援計劃,等盟軍可以喺巴布亞新畿內亞打緊嘅戰鬥當中佔上風。透過軍事情報,肯尼將軍知道敵軍嘅運輸船隊有呢兩條路線可以行,而根據佢啲參謀人員嘅預測,北面路線將會有惡劣天氣,令到佢指揮嘅空軍喺嗰度得兩日時間可以進行轟炸,而南面路線嘅好天氣令佢嘅空軍喺嗰度可以一連三日都進行轟炸;對於日軍嚟講,無論揀邊條路,佢哋嘅運輸船隊都需要三日時間先去到目的地。喺呢場戰事裏面,雙方指揮官都有兩個選項,所以呢場戰事可以睇做一場 2 x 2 嘅(零和)博弈,有四個可能結果(報償係「美軍總共有幾多日可以進行轟炸」):

  1. 如果日軍揀行北路而肯尼將軍集中派空軍去北路,噉佢會有 2 日嘅時間進行轟炸,對日軍船隊造成 2 個單位嘅破壞(2);
  2. 如果日軍揀行南路而肯尼將軍集中派空軍去北路,佢會因為呢個失誤而要嘥 1 日嘅時間重新調動空軍,令到日軍喺頭 1 日完全唔受轟炸,最後總共有 2 日時間進行轟炸,造成 2 個單位嘅破壞(2);
  3. 如果日軍揀行北路而肯尼將軍集中派空軍去南路,噉(耽誤 1 日)佢會得嗰 1 日嘅時間進行轟炸,對日軍造成 1 個單位嘅破壞(1);
  4. 最後,如果日軍揀行南路而肯尼將軍集中派空軍去南路,噉美軍將會能夠進行成 3 日嘅轟炸,對日軍造成 3 個單位嘅破壞(3)[84]

肯尼將軍知道,如果佢揀派空軍去北路,佢係唔係都有兩日時間可以進行轟炸,而如果佢揀派空軍去南路嘅話,佢要冒一個大風險-可能會得一日時間進行轟炸。另一方面,今村海軍上將當然想「美軍總共有幾多日可以進行轟炸」呢個數字盡可能有噉細得噉細,而佢都知道,如果揀行北路,美軍頂嗮櫳都係得兩日時間進行轟炸,而揀行南路就係坐底要受兩日轟炸,甚至要冒「連續三日受轟炸」嘅風險,所以對日軍嚟講當然係行北路比較著數。肯尼將軍亦都估到,日軍老虎蟹都會行北路,然後俾斯麥海海戰發生嘅嘢係正如博弈論所預料嘅-日軍運輸船隊揀咗行北路,而美軍亦都揀咗集中派空軍炸北路。最後結果係,肯尼將軍同佢旗下嘅部隊成功噉重創日軍嘅支援計劃,喺盟軍嘅巴布亞新畿內亞作戰當中成為咗功臣[84][86]

批評[編輯]

馮紐曼嘅相
莊·拿殊嘅相;2006 年影嘅。

博弈論係一個科學理論,而科學理論存在嘅目的係要解釋、預測、同模擬各種嘅現象[87],有唔少學者都質疑博弈論係咪能夠有效噉幫科學家達到呢啲目的[88][89][90]

假設真實度[編輯]

睇埋:行為博弈論

有唔少學者都批評博弈論嘅假設,話呢啲假設好多時都係過度簡化嘅[91][92]。喺任何嘅理論分析(包括博弈論)當中,研究者梗要做一啲簡化,集中思考對研究現象嚟講最緊要嗰啲變數,但亦都因為噉有陣時要焗住做某啲假設,令到個理論模型嘅真實性受質疑。學者需要爭論到底一個理論模型有幾能夠代表到現實,同個模型「代表到現實」嘅程度係咪夠高,可唔可以攞嚟預測現實世界發生嘅嘢。

舉個例說明:喺做博弈論嘅分析嗰時,個研究者會假設所有博弈參與者都想將自己贏嘅機會率最大化,佢跟手會用個理論模型分析現實世界嘅現象;問題事實係,喺現實當中,的確會有一部份嘅人會因為某啲原因而唔想喺場博弈當中贏,所以佢個理論模型衹不過係對現實嘅大致(approximate)描述,唔完全代表到現實;衹要大部份人都係想贏嘅,噉用佢呢個理論做分析會大致上正確,但問題係,到底想贏嘅人佔咗幾多百分比?原則上,呢個百分比愈高,個理論模型就愈會做到準確嘅預測。仲有,到底呢個百分比要有幾高,個模型先至算得上係「啱用」?

好多批評博弈論研究方法嘅學者都係講緊呢樣嘢:佢哋質疑到底博弈論做嗰啲假設係咪有足夠嘅真實度,確保到啲理論嘅實用性。除咗頭先提到嘅博弈論例子之外,「人類大致上係理性嘅」同埋「人類具有足夠嘅資訊做正確決策」等都係博弈論模型常用嘅假設,佢哋嘅可用性同樣受到廣泛爭議[91][93]

理論史[編輯]

內文: 博弈論史

廿世紀打前[編輯]

雖然話博弈論要去到廿世紀初先正式開始出現,但人類早喺廿世紀打前經已有做一啲類似博弈論嘅討論。目前已知最早嘅類博弈論討論源自 1715 年由英國外交官 James Waldegrave 嘅阿叔寫嘅一封信[94]。喺呢封信入面,Waldegrave 為 le Her(當時興嘅一個卡牌遊戲)用數學分析咗一個合理嘅策略出嚟。而打後喺 1838 年嘅一份研究當中,法國數學家 Antoine Augustin Cournot 分析咗經濟學上嘅雙佔現象,並且提出咗一個解答,呢個解答查實係佢所分析嘅博弈嘅拿殊均衡點(但當然佢哋未有拿殊均衡點嘅諗頭)[95]

1930:萌芽[編輯]

博弈論要到 1930 年代先正式成為一個應用數學子領域。1928 年,匈牙利裔美國數學家馮紐曼(John von Neumann)出版咗一份論文《On the Theory of Games of Strategy》(粵文:論策略博弈嘅理論)[96]。喺呢篇論文入面,馮紐曼佢對博弈嘅概念做咗一啲基本嘅分析,證明咗多條相關嘅定理[97]。及後佢喺 1944 年出版咗《Theory of Games and Economic Behavior》(粵文:博弈同經濟行為嘅理論)一書,呢本書詳細噉討論咗好似係兩人零和博弈等嘅概念。而喺跟住落嚟嘅時間,好似係合作性博弈等嘅概念都出咗嚟,令到博弈論基本成形[98]

喺 1938 年,法國數學家 Émile Borel 出咗佢嗰一本名作《Applications aux Jeux de Hasard》(粵文:隨機遊戲嘅應用),喺呢本書入面,Borel 佢分析咗兩個人玩嘅零和對稱博弈嘅矩陣,並且證明咗一啲相關嘅定理,而且佢嘅分析仲有實用價值。Borel 仲進一步猜想,喺某啲情況下,有限嘅兩人零和博弈可能有陣時會冇混合策略均衡點(呢個諗法遲吓會由馮紐曼證明係錯嘅)[99]

1950:全盛[編輯]

喺 1950 年,學界開始咗對監躉困境嘅數學討論,而且仲有數學家用實驗方法展視監躉困境嘅博弈現象,同埋有人嘗試將呢個分析應用落去核戰略上-即係開始有人將博弈論用落去政治學嗰度[100]。大概喺同一時間,美國數學家莊·拿殊(John Nash)提出咗拿殊均衡點嘅諗頭,並且將呢個概念應用嚟去分析多個當時已知嘅博弈。拿殊佢跟手仲證明咗,喺混合策略嘅情況下,是但俾一個有 n 個博弈者、非零和、非合作性嘅有限博弈,場博弈實會有個拿殊均衡點。由嗰陣時開始,博弈論就俾經濟學家同生物學家等多個領域嘅學者採用嚟解釋佢哋所研究嘅現象,成為咗一個舉足輕重嘅數學理論[11]

睇埋[編輯]

參考[編輯]

教科書[編輯]

  • Aumann, Robert J (1987), "game theory", The New Palgrave: A Dictionary of Economics, 2, pp. 460–82.
  • Camerer, Colin (2003), "Introduction", Behavioral Game Theory: Experiments in Strategic Interaction. Russell Sage Foundation, pp. 1–25, ISBN 978-0-691-09039-9, Description.
  • Dutta, Prajit K. (1999), Strategies and games: theory and practice. MIT Press, ISBN 978-0-262-04169-0. Suitable for undergraduate and business students.
  • Fernandez, L F.; Bierman, H S. (1998), Game theory with economic applications. Addison-Wesley, ISBN 978-0-201-84758-1. Suitable for upper-level undergraduates.
  • Gibbons, Robert D. (1992), Game theory for applied economists. Princeton University Press, ISBN 978-0-691-00395-5. Suitable for advanced undergraduates.
  • Published in Europe as Gibbons, Robert (2001), A Primer in Game Theory. London: Harvester Wheatsheaf, ISBN 978-0-7450-1159-2.
  • Gintis, Herbert (2000), Game theory evolving: a problem-centered introduction to modeling strategic behavior. Princeton University Press, ISBN 978-0-691-00943-8
  • Green, Jerry R.; Mas-Colell, Andreu; Whinston, Michael D. (1995), Microeconomic theory. Oxford University Press, ISBN 978-0-19-507340-9. Presents game theory in formal way suitable for graduate level.
  • Joseph E. Harrington (2008), Games, strategies, and decision making. Worth, ISBN 0-7167-6630-2. Textbook suitable for undergraduates in applied fields; numerous examples, fewer formalisms in concept presentation.
  • Howard, Nigel (1971), Paradoxes of Rationality: Games, Metagames, and Political Behavior. Cambridge, MA: The MIT Press, ISBN 978-0-262-58237-7
  • Isaacs, Rufus (1999), Differential Games: A Mathematical Theory With Applications to Warfare and Pursuit, Control and Optimization. New York: Dover Publications, ISBN 978-0-486-40682-4
  • Miller, James H. (2003), Game theory at work: how to use game theory to outthink and outmaneuver your competition, New York: McGraw-Hill, ISBN 978-0-07-140020-6. Suitable for a general audience.
  • Osborne, Martin J. (2004), An introduction to game theory, Oxford University Press, ISBN 978-0-19-512895-6. Undergraduate textbook.
  • Osborne, Martin J.; Rubinstein, Ariel (1994), A course in game theory, MIT Press, ISBN 978-0-262-65040-3. A modern introduction at the graduate level.
  • Shoham, Yoav; Leyton-Brown, Kevin (2009), Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations, New York: Cambridge University Press, ISBN 978-0-521-89943-7, retrieved 8 March 2016
  • Webb, James N. (2007), Game theory: decisions, interaction and evolution. Undergraduate mathematics, Springer, ISBN 978-1-84628-423-6

經典[編輯]

  • Aumann, R.J. and Shapley, L.S. (1974), Values of Non-Atomic Games, Princeton University Press
  • Cournot, A. Augustin (1838), "Recherches sur les principles mathematiques de la théorie des richesses", Libraire des Sciences Politiques et Sociales.
  • Edgeworth, Francis Y. (1881), Mathematical Psychics, London: Kegan Paul
  • Luce, R. Duncan; Raiffa, Howard (1957), Games and decisions: introduction and critical survey, New York: Wiley
  • reprinted edition: R. Duncan Luce ; Howard Raiffa (1989), Games and decisions: introduction and critical survey, New York: Dover Publications, ISBN 978-0-486-65943-5
  • Maynard Smith, John (1982), Evolution and the theory of games, Cambridge University Press, ISBN 978-0-521-28884-2
  • Maynard Smith, John; Price, George R. (1973), "The logic of animal conflict", Nature, 246 (5427): 15–18, Bibcode:1973Natur.246...15S, doi:10.1038/246015a0
  • Nash, John (1950), "Equilibrium points in n-person games", Proceedings of the National Academy of Sciences of the United States of America, 36 (1): 48–49, Bibcode:1950PNAS...36...48N, doi:10.1073/pnas.36.1.48, PMC 1063129, PMID 16588946
  • Shapley, L.S. (1953), A Value for n-person Games, In: Contributions to the Theory of Games volume II, H. W. Kuhn and A. W. Tucker (eds.)
  • Shapley, L.S. (1953), Stochastic Games, Proceedings of National Academy of Science Vol. 39, pp. 1095–1100.
  • von Neumann, John (1928), "Zur Theorie der Gesellschaftsspiele", Mathematische Annalen, 100 (1): 295–320, doi:10.1007/bf01448847 English translation: "On the Theory of Games of Strategy," in A. W. Tucker and R. D. Luce, ed. (1959), Contributions to the Theory of Games, v. 4, p. 42. Princeton University Press.
  • von Neumann, John; Morgenstern, Oskar (1944), Theory of games and economic behavior, Princeton University Press.
  • Zermelo, Ernst (1913), "Über eine Anwendung der Mengenlehre auf die Theorie des Schachspiels", Proceedings of the Fifth International Congress of Mathematicians, 2: 501–4.

其他[編輯]

  • Ben David, S.; Borodin, Allan; Karp, Richard; Tardos, G.; Wigderson, A. (1994), "On the Power of Randomization in On-line Algorithms", Algorithmica, 11 (1): 2–14, doi:10.1007/BF01294260
  • Gauthier, David (1986), Morals by agreement, Oxford University Press, ISBN 978-0-19-824992-4
  • Grim, Patrick; Kokalis, Trina; Alai-Tafti, Ali; Kilb, Nicholas; St Denis, Paul (2004), "Making meaning happen", Journal of Experimental & Theoretical Artificial Intelligence, 16 (4): 209–243, doi:10.1080/09528130412331294715
  • Harper, David; Maynard Smith, John (2003), Animal signals, Oxford University Press, ISBN 978-0-19-852685-8
  • Lewis, David (1969), Convention: A Philosophical Study, ISBN 978-0-631-23257-5 (2002 edition)
  • McDonald, John (1950–1996), Strategy in Poker, Business & War, W. W. Norton, ISBN 978-0-393-31457-1. A layman's introduction.
  • Papayoanou, Paul (2010), Game Theory for Business: A Primer in Strategic Gaming, Probabilistic, ISBN 978-0964793873.
  • Quine, W.v.O (1967), "Truth by Convention", Philosophica Essays for A.N. Whitehead, Russel and Russel Publishers, ISBN 978-0-8462-0970-6
  • Quine, W.v.O (1960), "Carnap and Logical Truth", Synthese, 12 (4): 350–374, doi:10.1007/BF00485423
  • Siegfried, Tom (2006), A Beautiful Math, Joseph Henry Press, ISBN 978-0-309-10192-9
  • Skyrms, Brian (1990), The Dynamics of Rational Deliberation, Harvard University Press, ISBN 978-0-674-21885-7
  • Skyrms, Brian (1996), Evolution of the social contract, Cambridge University Press, ISBN 978-0-521-55583-8
  • Skyrms, Brian (2004), The stag hunt and the evolution of social structure, Cambridge University Press, ISBN 978-0-521-53392-8
  • Sober, Elliott; Wilson, David Sloan (1998), Unto others: the evolution and psychology of unselfish behavior, Harvard University Press, ISBN 978-0-674-93047-6
  • Thrall, Robert M.; Lucas, William F. (1963), "n-person games in partition function form", Naval Research Logistics Quarterly, 10 (4): 281–298, doi:10.1002/nav.3800100126
  • Dolev, Shlomi; Panagopoulou, Panagiota; Rabie, Mikael; Schiller, Elad Michael; Spirakis, Paul (2011), "Rationality authority for provable rational behavior", Proceedings of the 30th annual ACM SIGACT-SIGOPS symposium on Principles of distributed computing, pp. 289–290, doi:10.1145/1993806.1993858, ISBN 9781450307192
  • Chastain, E. (2014), "Algorithms, games, and evolution", Proceedings of the National Academy of Sciences, 111 (29): 10620–10623, Bibcode:2014PNAS..11110620C, doi:10.1073/pnas.1406556111, PMC 4115542, PMID 24979793

[編輯]

  1. 1.0 1.1 1.2 Myerson, Roger B. (1991). Game Theory: Analysis of Conflict. Harvard University Press, p. 1.
  2. 2.0 2.1 2.2 What is Game Theory?.
  3. Nash, J. (1953). Two-person cooperative games. Econometrica: Journal of the Econometric Society, 128-140.
  4. Boyle, R., & Bonacich, P. (1970). The development of trust and mistrust in mixed-motive games. Sociometry, 123-139.
  5. Nash, J. (1951). Non-cooperative games. Annals of mathematics, 286-295.
  6. d'Aspremont, C., & Jacquemin, A. (1988). Cooperative and noncooperative R & D in duopoly with spillovers. The American Economic Review, 78(5), 1133-1137.
  7. Ross, Don. "Game Theory". The Stanford Encyclopedia of Philosophy (Spring 2008 Edition). Edward N. Zalta (ed.).
  8. Velegol, Darrell; Suhey, Paul; Connolly, John; Morrissey, Natalie; Cook, Laura (14 September 2018). "Chemical Game Theory". Industrial & Engineering Chemistry Research. 57 (41): 13593–13607.
  9. 9.0 9.1 9.2 An Introduction To Game Theory: The Basics And Key Concepts. B2U.
  10. Colin F. Camerer (2003). Behavioral Game Theory: Experiments in Strategic Interaction, pp. 5–7 "What Is Game Theory Good For?".
  11. 11.0 11.1 Weintraub, E. R. (Ed.). (1992). Toward a history of game theory (Vol. 24). Duke University Press.
  12. D. Fudenberg and J. Tirole, Game Theory, MIT Press, 1991.
  13. Basu, K. (1994). The traveler's dilemma: Paradoxes of rationality in game theory. The American Economic Review, 84(2), 391-395.
  14. Skyrms, B. (2000). Game theory, rationality and evolution of the social contract. Journal of Consciousness Studies, 7(1-2), 269-284.
  15. Harsanyi, J. C., & Selten, R. (1988). A general theory of equilibrium selection in games. MIT Press Books, p. 1.
  16. 16.0 16.1 16.2 Nash Equilibrium. Investopedia.
  17. Myerson, R. B. (1978). Refinements of the Nash equilibrium concept. International journal of game theory, 7(2), 73-80.
  18. Mailath, G. J. (1998). Do people play Nash equilibrium? Lessons from evolutionary game theory. Journal of Economic Literature, 36(3), 1347-1374.
  19. Rubinstein, A. (1982). Perfect equilibrium in a bargaining model. Econometrica: Journal of the Econometric Society, 97-109.
  20. 20.0 20.1 20.2 Rapoport, A., & Chammah, A. M. (1966). The game of chicken. American Behavioral Scientist, 10(3), 10-28.
  21. Cheng, S. F., Reeves, D. M., Vorobeychik, Y., & Wellman, M. P. (2004). Notes on equilibria in symmetric games.
  22. Diekmann, A. (1984). Cooperation in an asymmetric volunteer’s dilemma game theory and experimental evidence. In Social Dilemmas and Cooperation (pp. 413-428). Springer, Berlin, Heidelberg.
  23. Güth, W., Schmittberger, R., & Schwarze, B. (1982). An Experimental Analysis of Ultimatum Bargaining. Journal of Economic Behavior & Organization, 3, 367-388.
  24. Owen, Guillermo (1995). Game Theory: Third Edition. Bingley: Emerald Group Publishing. p. 11.
  25. Vincent, P. (1974). Learning the optimal strategy in a zero-sum game. Econometrica, 42(5), 885-891.
  26. Giovanni Facchini and Gerald Willmann, 2001. "Pareto Gains from Trade," Economia Politica, pp. 207-216.
  27. Krugman, P. R. (1981). Intraindustry specialization and the gains from trade. Journal of political Economy, 89(5), 959-973.
  28. 28.0 28.1 Chaudhuri, A., Ali Khan, S., Lakshmiratan, A., Py, A. L., & Shah, L. (2003). Trust and trustworthiness in a sequential bargaining game. Journal of Behavioral Decision Making, 16(5), 331-340.
  29. The Path to Equilibrium in Sequential and Simultaneous Games (Brocas, Carrillo, Sachdeva; 2016).
  30. Eckel, C. C., & Wilson, R. K. (2003). The human face of game theory: Trust and reciprocity in sequential games. Trust and reciprocity: Interdisciplinary lessons from experimental research, 245-274.
  31. Gale, D., & Stewart, F. M. (1953). Infinite games with perfect information. Contributions to the Theory of Games, 2, 245-266.
  32. Mycielski, J. (1992). Games with perfect information. Handbook of game theory with economic applications, 1, 41-70.
  33. Reny, P. J. (1988, January). Common knowledge and games with perfect information. In PSA: Proceedings of the Biennial Meeting of the Philosophy of Science Association (Vol. 1988, No. 2, pp. 363-369). Philosophy of Science Association.
  34. Owen, Guillermo (1995). Game Theory: Third Edition. Bingley: Emerald Group Publishing. p. 4.
  35. Brown, N., & Sandholm, T. (2017). Safe and nested subgame solving for imperfect-information games. In Advances in Neural Information Processing Systems (pp. 689-699).
  36. 36.0 36.1 36.2 Kreps, D. M., & Wilson, R. (1982). Reputation and imperfect information. Journal of economic theory, 27(2), 253-279.
  37. 37.0 37.1 Mailath, G. & Samuelson, L. (2006). Repeated games and reputations: long-run relationships. New York: Oxford University Press.
  38. Oaksford, M., & Chater, N. (2007). Bayesian rationality: The probabilistic approach to human reasoning. Oxford University Press.
  39. Nash, J. (1953). Two-person cooperative games. Econometrica: Journal of the Econometric Society, 128-140.
  40. 40.0 40.1 Nash, J. (1951). Non-cooperative games. Annals of mathematics, 286-295.
  41. Wiegand, R. P., Liles, W. C., & De Jong, K. A. (2002). Analyzing cooperative coevolution with evolutionary game theory. In Proceedings of the 2002 Congress on Evolutionary Computation. CEC'02 (Cat. No. 02TH8600) (Vol. 2, pp. 1600-1605). IEEE.
  42. 5 Types of Games in Game Theory (With Diagram).
  43. Chapter 14 - Stochastic games.
  44. Shapley, L. S. (1953). Stochastic games. Proceedings of the national academy of sciences, 39(10), 1095-1100.
  45. Hugh Brendan McMahan (2006), Robust Planning in Domains with Stochastic Outcomes, Adversaries, and Partial Observability, CMU-CS-06-166, pp. 3–4
  46. Filar, J. & Vrieze, K. (1997). Competitive Markov Decision Processes. Springer-Verlag.
  47. 47.0 47.1 47.2 47.3 4 Strategies of the Game Theory – Explained!.
  48. Rosenthal, R. W. (1973). A class of games possessing pure-strategy Nash equilibria. International Journal of Game Theory, 2(1), 65-67.
  49. Run/Pass Balance and a Little Game Theory. Smart Football.
  50. Football: Strategy.
  51. Boronico, J. S., & Newbert, S. L. (1999). Play calling strategy in American football: a game-theoretic stochastic dynamic programming approach. Journal of Sport Management, 13(2), 103-113.
  52. Expected Points and Expected Points Added Explained.
  53. Yee, A., Rodríguez, R., & Alvarado, M. (2014, September). Analysis of strategies in american football using nash equilibrium. In International Conference on Artificial Intelligence: Methodology, Systems, and Applications (pp. 286-294). Springer, Cham.
  54. Bierwag, G. O., & Khang, C. (1979). An immunization strategy is a minimax strategy. The Journal of Finance, 34(2), 389-399.
  55. Roth, A. E. (2002). The economist as engineer: Game theory, experimentation, and computation as tools for design economics. Econometrica, 70(4), 1341-1378.
  56. MacKenzie, D. A., Muniesa, F., & Siu, L. (Eds.). (2007). Do economists make markets?: on the performativity of economics. Princeton University Press.
  57. Rabin, M. (1993). Incorporating fairness into game theory and economics. The American economic review, 1281-1302.
  58. Hardin, G. (1968). The tragedy of the commons. Science, 162(3859), 1243-1248.
  59. Milinski, M., Semmann, D., & Krambeck, H. J. (2002). Reputation helps solve the ‘tragedy of the commons’. Nature, 415(6870), 424.
  60. Weitz, J. S., Eksin, C., Paarporn, K., Brown, S. P., & Ratcliff, W. C. (2016). An oscillating tragedy of the commons in replicator dynamics with game-environment feedback. Proceedings of the National Academy of Sciences, 113(47), E7518-E7525.
  61. Game theory shows how tragedies of the commons might be averted.
  62. Maynard-Smith, J.; Price, G. R. (1973). "The Logic of Animal Conflict". Nature. 246 (5427): 15–18.
  63. Altenberg, Lee (1995). "Genome growth and the evolution of the genotype-phenotype map". In Banzhaf, Wolfgang; Eeckman, Frank H. (eds.). Evolution and Biocomputation: Computational Models of Evolution. Lecture Notes in Computer Science. 899. Berlin; New York: Springer-Verlag Berlin Heidelberg. pp. 205–259.
  64. Birdsell, John A.; Wills, Christopher (2003). "The Evolutionary Origin and Maintenance of Sexual Recombination: A Review of Contemporary Models". In MacIntyre, Ross J.; Clegg, Michael T. (eds.). Evolutionary Biology. 33. New York: Springer Science+Business Media.
  65. Game Theory, Evolutionary Stable Strategies and the Evolution of Biological Interactions.
  66. Hamilton, W. D. (1963). The evolution of altruistic behavior. The American Naturalist, 97(896), 354-356.
  67. Bowles, S. (2006). Group competition, reproductive leveling, and the evolution of human altruism. Science, 314(5805), 1569-1572.
  68. 68.0 68.1 The Evolution of Trust.
  69. Grove, W. M., Eckert, E. D., Heston, L., Bouchard Jr, T. J., Segal, N., & Lykken, D. T. (1990). Heritability of substance abuse and antisocial behavior: a study of monozygotic twins reared apart. Biological psychiatry, 27(12), 1293-1304.
  70. Trivers, R. L. (1971). The evolution of reciprocal altruism. The Quarterly review of biology, 46(1), 35-57.
  71. Salen, K., Tekinbaş, K. S., & Zimmerman, E. (2004). Rules of play: Game design fundamentals. MIT press.
  72. 72.0 72.1 72.2 Game Theory in Video Games: How You’re in a Prisoner’s Dilemma. Networks - Course blog for INFO 2040/CS 2850/Econ 2040/SOC 2090.
  73. Rollings, A., & Morris, D. (1999). Game Architecture and Design with Cdrom. Coriolis Group Books.
  74. 74.0 74.1 Dealing with Toxicity in Video Games 互聯網檔案館歸檔,歸檔日期2019年6月1號,.. Nextrift.
  75. Perez-Liebana, D., Samothrakis, S., Togelius, J., Schaul, T., & Lucas, S. M. (2016, March). General video game ai: Competition, challenges and opportunities. In Thirtieth AAAI Conference on Artificial Intelligence.
  76. Lu, F., Yamamoto, K., Nomura, L. H., Mizuno, S., Lee, Y., & Thawonmas, R. (2013, October). Fighting game artificial intelligence competition platform. In 2013 IEEE 2nd Global Conference on Consumer Electronics (GCCE) (pp. 320-323). IEEE.
  77. Stanley, K. O., Bryant, B. D., & Miikkulainen, R. (2005). Evolving neural network agents in the NERO video game. Proceedings of the IEEE, 182-189.
  78. 78.0 78.1 Self Learning AI-Agents Part I: Markov Decision Processes. Towards Data Science.
  79. 79.0 79.1 Implement Reinforcement learning using Markov Decision Process. Towards Data Science.
  80. 80.0 80.1 Dutta, S. (2018). Reinforcement Learning with TensorFlow: A Beginner's Guide to Designing Self-Learning Systems with TensorFlow and OpenAI Gym. Packt Publishing.
  81. Howard, M., & Wilson, A. J. (1974). Military science in an age of peace. The RUSI Journal, 119(1), 3-11.
  82. Haywood Jr, O. G. (1954). Military decision and game theory. Journal of the Operations Research Society of America, 2(4), 365-385.
  83. Cruz, J. B., Simaan, M. A., Gacic, A., Jiang, H., Letelliier, B., Li, M., & Liu, Y. (2001). Game-theoretic modeling and control of a military air operation. IEEE Transactions on aerospace and electronic systems, 37(4), 1393-1405.
  84. 84.0 84.1 84.2 Liu, N. (2015). Historical Uses of Game Theory in Battles during the World War II 互聯網檔案館歸檔,歸檔日期2018年7月13號,.. SYE: Games.
  85. McAulay, L. (2008). The Battle of the Bismarck Sea: 3 March 1943. Banner Books.
  86. Kenney, George C. General Kenney Reports; a Personal History of the Pacific War. New York: Duell, Sloan and Pearce, 1949.
  87. Peter, Godfrey-Smith (2003), Theory and Reality: An Introduction the Philosophy of Science, University of Chicago Press.
  88. Criticisms of Game Theory. HowStuffWorks.
  89. The Triumph (and Failure) of John Nash’s Game Theory.
  90. Lucas, G. M., McCubbins, M. D., & Turner, M. Against Game Theory. USC Institute for Creative Technologies.
  91. 91.0 91.1 Rappaport, Steven (28 July 1996). "Abstraction and Unrealistic Assumptions in Economics". Journal of Economic Methodology. 3 (2): 215–236.
  92. Rappaport, Steven (1998). "Chapter 6: Economic Models". Models and Reality in Economics. Edward Elgar.
  93. Boland, Lawrence A. (2008). "Assumptions controversy". In Durlauf, Steven N.; Blume, Lawrence E. (eds.). The New Palgrave Dictionary of Economics (second ed.). pp. 267–270.
  94. Bellhouse, David (2007), "The Problem of Waldegrave", Journal Électronique d'Histoire des Probabilités et de la Statistique, 3(2).
  95. Screpanti; Ernesto; Zamagni; Stefano (2005). An Outline of the History of Economic Thought (2nd ed.). Oxford University Press.
  96. Neumann, J. v. (1928), "Zur Theorie der Gesellschaftsspiele", Mathematische Annalen, 100 (1): 295–320, doi:10.1007/BF01448847 English translation: Tucker, A. W.; Luce, R. D., eds. (1959), "On the Theory of Games of Strategy", Contributions to the Theory of Games, 4, pp. 13–42.
  97. Mirowski, Philip (1992). "What Were von Neumann and Morgenstern Trying to Accomplish?". In Weintraub, E. Roy (ed.). Toward a History of Game Theory. Durham: Duke University Press. pp. 113–147.
  98. Leonard, Robert (2010), Von Neumann, Morgenstern, and the Creation of Game Theory, New York: Cambridge University Press.
  99. Kim, Sungwook, ed. (2014). Game theory applications in network design. IGI Global. p. 3.
  100. Prisoner's Dilemma. Plato.stanford.edu

[編輯]