最大似然估計
外表
(由最大可能估計跳轉過嚟)
喺廿一世紀初統計學上,最大似然估計(參見英文:MLE )係常用嚟估計統計模型參數數值嘅做法。最大似然法嘅重點諗頭係,選擇參數嘅數值嗰陣要揀一啲數值,係做到令觀察到手上數據嘅機率有咁大得咁大。
- 首先,搵出一個機會率函數[3],呢個函數會反映觀察到手上數據嘅值 X 同埋模型參數 θ 之間嘅關係;
- 最大似然估計嘅目標,係要搵出 θ 嘅值應該要係幾多,先可以令 Pr(X|θ) 嘅值最大化,當中 Pr(X|θ) 係指已知模型參數係 θ,觀察到手上嗰拃數據嘅機率嘅值。
諸如迴歸分析同生還分析等嘅做法,都會用到最大似然估計。
基本概論
[編輯]首先,做以下呢啲假設:
Pr(X|θ) 可以表達成 L [4]:
當中 Pr(x1) 係指:第一個個案喺變數 X 嘅值係 x1 咁多,嘅機會率,而 n 則係樣本大細。數學化啲講,最大似然估計做嘅嘢,就係要搵出一組 θ 值,達致
呢段數學符號用日常用語講,即係:要令到 L 有咁大得咁大。
梯度下降法
[編輯]内文:梯度下降法
假想而家有個演算法,初始化嗰陣個演算法將 設做隨機嘅數值,然後部電腦可以計「如果 係噉嘅樣,得到 呢柞數值」嘅機會率,跟住個演算用梯度下降法(gradient descent,SGD),即係考慮 同 之間嘅導數,嚟睇吓 向邊個方向變最有可能會提升 ,跟住就郁手改變 值,再計個新嘅 值出嚟,重複,如是者慢慢噉達到最大嘅 值[5]。
簡單講,梯度下降法呢個過程就好似爬山噉:想像下圖嘅 X 軸同 Y 軸(打橫平面)係個模型嘅兩個參數(),而 Z 軸(打戙)就代表 ,梯度下降法會隨機噉將初始數值擺喺是但一點,然後[5]
- 睇吓自己身處嗰點周圍每個方向有幾斜,
- 揀最能夠令自己向上爬嗰一個方向,移去嗰個方向,
- 重複,直至某啲條件達到(例如 超過咗某個特定數值)為止。

睇埋
[編輯]註釋
[編輯]引咗
[編輯]- ↑ The Basics of Structural Equation Modeling (PDF).
- ↑ Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227.
- ↑ (probability function)
- ↑ A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning.
- ↑ 5.0 5.1 Hill Climbing Algorithms (and gradient descent variants) IRL 互聯網檔案館嘅歸檔,歸檔日期2020年3月27號,..