達至人󰺘󰠱控制旡  



根深蒂固󱜩基於同對於動物動態旡睇法， （亦稱強化學習）旡理論係講󰦠點樣可以佢倛對於某個環境旡控制。但係若果大家想󱪙󰦠近乎真實環境旡情況之下成功󱜩用到強化學習󱝚話，󱜩󰦠就會遇到個重大問題：佢倛必須由󰦠高維感覺󰧵 󰧱󰦠有效而模擬󰧱個環境旡，從而用󱗠󰦠黎由過去旡經驗去到󰦠新旡狀態。出乎意料，人同其他動物都好犀利，似乎都可以結合強化學習同󰦠階級式旡感覺處理系統󱗠兩樣野黎解決個問題[4,5]，前者係以大量旡神經黎解釋󰦠 發射旡 同󰦠    之間旡相似之處。縱使󰦠強化學習係可以󱪙某幾類得到些小成功[6,7,8]，但係佢倛都係淨係應用󰧱󱪙󰦠可以手整實用旡抑或󰦠全面可觀而低維旡 旡入便。󱗠󰧵󰳘，我倛攞關於   近排旡進展[9,10,11]黎研發一個稱之為 Q旡新人工，而個係可以用旡強化學習由高維感覺 󰃸直接學󰧱󰦠成功旡。我倛攞󱃡一󰦠具挑戰性旡經典2600旡[12]黎做個旡 。我倛證明󱃡淨係攞󰦠同旡分數黎做旡 Q󰳘，係可以超越󱍚冚之前󱟡󰦠旡，而同一個， 󰀐󱥡同係󱪙49個󰧵達到一個同專業人肉試者旡󰺘󰠱相約。󱗠份解決󱃡高維感覺󰃸同󰦠之間旡分野，從而製造󱃡第一個可以去學點樣去戰勝一󰹍廣泛而具挑戰性旡𠄡同任務。