最大似然估計

出自維基百科,自由嘅百科全書
跳去導覽 跳去搵嘢

最大似然估計maximum likelihood estimationMLE)係廿一世紀初統計學上最常用估計模型參數數值嘅做法。最大似然估計會

  1. 先搵出一個機會率函數(probability function),呢個函數會反映「觀察到手上數據嘅數值」()同「模型參數」()之間嘅關係,
  2. 而最大似然估計演算法嘅目標係要搵出 嘅數值應該要係幾多先可以令 (已知模型參數係 噉嘅樣,觀察到手上呢柞數據嘅機會率)嘅數值有咁大得咁大[1][2]

可以表達成[3]

[註 1]

當中 係指「第 1 個個案喺變數 上嘅值係 咁多」嘅機會率,而 就係樣本大細

梯度下降法[編輯]

內文:梯度下降法

假想而家有個演算法,初始化嗰陣個演算法將 設做隨機嘅數值,然後部電腦可以計「如果 係噉嘅樣,得到 呢柞數值」嘅機會率,跟住個演算用梯度下降法(gradient descent,SGD),即係考慮 之間嘅導數,嚟睇吓 向邊個方向變最有可能會提升 ,跟住就郁手改變 值,再計個新嘅 值出嚟,重複,如是者慢慢噉達到最大嘅 [4]

簡單講,梯度下降法呢個過程就好似爬山噉:想像下圖嘅 X 軸Y 軸(打橫平面)係個模型嘅兩個參數),而 Z 軸(打戙)就代表 ,梯度下降法會隨機噉將初始數值擺喺是但一點,然後[4]

  1. 睇吓自己身處嗰點周圍每個方向有幾斜,
  2. 揀最能夠令自己向上爬嗰一個方向,移去嗰個方向,
  3. 重複,直至某啲條件達到(例如 超過咗某個特定數值)為止。
Hill climb.png

註釋[編輯]

  1. 喺實際應用上,考慮咁多極細嘅數值可能會出現算術下溢嘅情況(指要處理嘅數值細過部電腦能夠表示嘅最細值),所以喺實際應用上要點樣計 有一定嘅學問。

[編輯]

  1. The Basics of Structural Equation Modeling (PDF).
  2. Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227.
  3. A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning.
  4. 4.0 4.1 Hill Climbing Algorithms (and gradient descent variants) IRL.