AlphaGo

出自維基百科,自由嘅百科全書
Jump to navigation Jump to search
AlphaGo 個嘜頭。

AlphaGo 係由 Google 旗下嘅人工智能公司 Deepmind 開發嘅捉圍棋人工智能程式。喺廿一世紀嘅 AI 領域當中,捉圍棋一般俾人視為一樣好困難嘅工作,難過捉西洋象棋好多-西洋象棋喺每一個決策點有 35 個可能嘅棋步,而圍棋每一個決策點就有 250 個可能嘅棋步,所以後者要考慮嘅可能性多好多[1][2]。AlphaGo 採取咗一套當時嶄新嘅做法-AlphaGo 個程式包含兩組深度神經網絡(deep neural network):

  • 一組係政策網絡(policy network),計算 [註 1],用嚟決定行乜嘢棋步,而
  • 另一組係價值網絡(value network),計算 [註 2],用嚟評估棋盤嘅形勢,

然後工作組用監督式學習(supervised learning)訓練政策網絡,俾 AlphaGo 睇大量專業棋手捉棋嘅數據,學識計算 ;然後用強化學習(reinforcement learning)訓練政策網絡,俾 AlphaGo 係噉同佢自己捉棋同學計邊啲 能夠帶嚟勝利;再用強化學習訓練價值網絡計 [3]

喺真係捉棋嗰陣,個程式會靠蒙地卡羅樹搜索(Monte Carlo Tree Search)嘅方法:喺價值網絡同政策網絡嘅引導下揀要行邊步,即係 foreach 步,按價值網絡同政策網絡嘅 output 決定睇邊一個可能性,做若干次嘅模擬,然後再按模擬嘅結果揀要行邊一步。喺 2015 年 10 月,AlphaGo 初試牛刀,同職業棋手對奕,喺標準棋盤嘅情況下五戰全勝。喺 2016 年 3 月,佢再同九段(即係最高等級)棋手李世石對奕,五戰四勝,為人工智能玩遊戲開創咗歷史上嘅一次空前成功[4]

註釋[編輯]

  1. 簡單講係「已知棋盤處於呢個狀態,大師級棋手會行呢步嘅機會率」;有關呢啲數學符號嘅意思,詳情可以睇概率論詞彙
  2. 簡單講係「已知棋盤處於呢個狀態同行咗呢步,我方會贏嘅機會率」。

睇埋[編輯]

參考文獻[編輯]

[編輯]

  1. Allis, L. V. Searching for Solutions in Games and Artificial Intelligence. PhD thesis, Univ. Limburg, Maastricht, The Netherlands (1994).
  2. van den Herik, H., Uiterwijk, J. W. & van Rijswijck, J. Games solved: now and in the future. Artif. Intell. 134, 277–311 (2002).
  3. AlphaGo: How it works technically?. Medium.
  4. Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Dieleman, S. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484.

[編輯]