User:Greeninvisibledreams/達致人level控制旡deep reinforcement learning

出自維基百科,自由嘅百科全書

達至人󰺘󰠱控制旡  [編輯]

[編輯]

根深蒂固󱜩基於同對於動物動態旡睇法, (亦稱強化學習)旡理論係講󰦠點樣可以佢倛對於某個環境旡控制。但係若果大家想󱪙󰦠近乎真實環境旡情況之下成功󱜩用到強化學習󱝚話,󱜩󰦠就會遇到個重大問題:佢倛必須由󰦠高維感覺󰧵 󰧱󰦠有效而模擬󰧱個環境旡,從而用󱗠󰦠黎由過去旡經驗去到󰦠新旡狀態。出乎意料,人同其他動物都好犀利,似乎都可以結合強化學習同󰦠階級式旡感覺處理系統󱗠兩樣野黎解決個問題[4,5],前者係以大量旡神經黎解釋󰦠 發射旡 同󰦠    之間旡相似之處。縱使󰦠強化學習係可以󱪙某幾類得到些小成功[6,7,8],但係佢倛都係淨係應用󰧱󱪙󰦠可以手整實用旡抑或󰦠全面可觀而低維旡 旡入便。󱗠󰧵󰳘,我倛攞關於   近排旡進展[9,10,11]黎研發一個稱之為 Q旡新人工,而個係可以用旡強化學習由高維感覺 󰃸直接學󰧱󰦠成功旡。我倛攞󱃡一󰦠具挑戰性旡經典2600旡[12]黎做個旡 。我倛證明󱃡淨係攞󰦠同旡分數黎做旡 Q󰳘,係可以超越󱍚冚之前󱟡󰦠旡,而同一個, 󰀐󱥡同係󱪙49個󰧵達到一個同專業人肉試者旡󰺘󰠱相約。󱗠份解決󱃡高維感覺󰃸同󰦠之間旡分野,從而製造󱃡第一個可以去學點樣去戰勝一󰹍廣泛而具挑戰性旡𠄡同任務。