強化學習

強化學習(參見英文:RL)係機器學習上嘅一種學習範式。喺強化學習嘅過程當中,研究者唔會有數據俾個機器學習程式睇同跟住學-唔似得監督式或者非監督式學習,而係俾個程式自主同周圍環境互動,當中個環境可以係現場,又可以係模擬環境。
喺每一個時間點,個程式會產生一個數嚟表示行動,而跟住佢周圍個環境會俾返一啲反饋-簡單講就係話返俾個程式聽,佢個行動啱唔啱。跟住程式就會根據呢個反饋計,睇吓要點樣改變佢內部嗰啲參數,下次佢行動嗰陣得到正面回應嘅機率先會高啲[1][2]。
背景概念
[編輯]用老鼠做例子:想像依家做實驗,擺隻老鼠喺個盒入便,有幾個掣俾佢撳;如果老鼠撳正確嘅掣,就會得到食物做獎勵;相反如果撳錯掣就冇嘢食,甚至可能有輕微懲罰,譬如係俾研究人員電佢呀噉。事實表明,老鼠會傾向做帶嚟獎勵嘅行為,同時減少做冇好處或者帶嚟壞結果嘅行為。呢啲研究顯示咗,食物等嘅獎勵可以「強化」帶嚟獎勵嘅行為。有關呢方面嘅研究,可以睇睇操作制約。
基本流程
[編輯]強化學習嘅用途好廣泛,例如可以用嚟教 AI 程式打機:只要研究者用某啲方法令個程式能夠感知遊戲嘅狀態同有方法向隻遊戲俾輸入,順利嘅話,強化學習可以令個程式學識玩隻遊戲[4][5]。
結合好奇
[編輯]強化學習可以結合人工好奇嚟用:喺廿一世紀初,AI 最大嘅弱點係專化得滯,教 AI 幫手睇病,佢唔會識得(例如)做法律相關嘅判斷,但由現實經驗可知,人有能力學完一樣嘢走去學第樣;噉嘅其中一個重要原因係,人具有好奇心-喺手上資訊唔夠嗰陣,人往往會主動噉去搵新嘅資訊吸收;於是有 AI 研究者就提出咗「人工好奇」嘅概念,主張要用電腦模擬人類嘅好奇心,從而教到 AI 唔使吓吓都要由人類畀資訊佢,而係會曉自己搵資訊吸收[6][7]。
對於人工好奇嘅概念,有人就舉咗個噉嘅例子[8]:
- 想像家陣有個人喺一間超市裏面兜圈噉行,想搵菠菜;
- 每一步,個人都行經幾排貨架,呢啲貨架上面並冇菠菜;
- 如果個人係跟簡單 RL 行事嘅,佢會一路「周圍貨架冇菠菜,冇任何一個選項得到強化」,進入「永世都唔會離開個圈」嘅狀態;
- 但假如個人具有好奇心嘅能力,曉(例如)有動機想探索未行過嘅路線,隨機噉揀條圈以外嘅路線行-就有可能最後搵到菠菜,或者最少脫離「係噉兜圈」嘅狀態。
有研究者指,呢點就係缺乏好奇心嘅 AI 嘅問題所在-冇好奇心嘅智能體,一定要有人畀有用嘅資訊或者環境佢,先會有能力成長,但喺現實,人成日都會面對「周圍環境冇咩有用資訊」噉嘅情況,要自己去搵資訊[9];而好奇心正正就係能夠「令人自發噉去搵有用資訊」嘅嘢。要達致人工好奇,一段 RL 演算法起碼要有以下嘅嘢[8]:
- 段演算法要有記憶能力,能夠記住過往嘅經驗;
- 段演算法要識得將「而家呢刻觀察到嘅嘢」攞去同記憶入面嘅片段對比;
- 唔淨只取決於一個行動能唔能夠達到目的,仲要或多或少噉取決於「件行為帶嚟嘅觀察有幾新穎」(詳情可以睇吓好奇感啲起因)。
呀噉。
睇埋
[編輯]參考
[編輯]- François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561/2200000071.
- Sutton, Richard S.; Barto, Andrew G. (1998). Reinforcement Learning: An Introduction. MIT Press. ISBN 978-0-262-19398-6.
- Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. pp. 1031–1038. Archived from the original (PDF) on 2010-07-14.
引述
[編輯]- ↑ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285.
- ↑ Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (July 1991). "Genetic reinforcement learning for neural networks". IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, USA: IEEE.
- ↑ François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354.
- ↑ Dubey, R., Agrawal, P., Pathak, D., Griffiths, T. L., & Efros, A. A. (2018). Investigating human priors for playing video games. arXiv preprint arXiv:1802.10217.
- ↑ Algorta, S., & Şimşek, Ö. (2019). The Game of Tetris in Machine Learning. arXiv preprint arXiv:1905.01652.
- ↑ Schmidhuber, J. (2006). Developmental robotics, optimal artificial curiosity, creativity, music, and the fine arts (PDF). Connection Science, 18(2), 173-187.
- ↑ Schmidhuber, J. (2020). Generative adversarial networks are special cases of artificial curiosity (1990) and also closely related to predictability minimization (1991). Neural Networks, 127, 58-66.
- 1 2 curiosity artificial intelligence (curiosity AI). Techtarget.
- ↑ How can Artificial Intelligence become curious? 互聯網檔案館嘅歸檔,歸檔日期2022年12月20號,.. Towards Data Science.