跳去內容

先驗概率

出自維基百科,自由嘅百科全書
呢個離散均勻分佈,打橫軸係可能出現嘅值,打戙軸表示每個可能值出現嘅機率。假想 a 同 b 之間有五個數值係有可能出現嘅,每個值出現嘅機率都係 1/5 咁多。如果研究者認為自己一無所知,就會用好似噉嘅均勻分佈(無資訊先驗)做自己嘅先驗分佈。

貝葉斯概率,某隨機事件先驗概率(參見英文prior,嚟自拉丁文之前噉解)係指未得到證據(或者新資訊)前,件事發生嘅概率。先驗概率相對於後驗概率,即係得到證據後件事嘅概率。舉例說明,想像有位分析師要做市場研究,評估某位消費者傾向會買乜,分析師可能會睇一列數據(證據)而呢啲數據描述位消費者過往嘅購物行為,睇完佢就對位消費者有咗更深入嘅了解,對「呢位消費者傾向買乜」有咗新嘅評估(後驗概率)-分析師睇數據,佢腦中嗰個「描述位消費者傾向買乜」嘅概率分佈就係佢嘅先驗概率分佈。換句話說,先驗概率可以當係反映緊得到新資訊前嘅知識

先驗概率係貝葉斯統計學上嘅重要概念[1]。用貝葉斯呢套方法做分析嘅人郁手分析前,實要揀返個先驗分佈。至於先驗分佈點樣揀,方法非常多,有陣時可以根據前人嘅研究或者舊數據嚟決定,有陣時就係搵有經驗嘅專家[2],問吓佢哋覺得先驗分佈應該係點,亦有時候係咩知識都冇,以等概率原理為由採用所謂嘅無資訊先驗[3][4]

基礎諗頭

[編輯]
睇埋:資訊理論

先驗概率分佈係概率分佈一種。

先驗概率係貝葉斯統計嘅重要一環。貝葉斯統計係統計學其中一個主要學派,呢個學派將概率(又叫機會率)理解為「有幾相信件事會發生」,而統計分析嘅重點係用先驗概率分佈做起始,睇數據,並且用數據更新自己對未知變項嘅信念[註 1],最後得出後驗概率分佈。因此,先驗概率可以理解為指緊未觀察到任何新數據前,根據現有知識或者背景資訊,對某件事嘅發生機率嘅主觀估計[5]

舉例說明,假設有個醫療測試,用嚟診斷某隻罕見嘅遺傳病,隻病只影響萬分之一(0.01%)嘅人。阿明未做測試前,假設佢冇任何症狀或者家族病史,佢患上隻病嘅先驗概率係 0.01% 咁高;但假如阿明已經有明顯症狀或者已知佢多位屋企人患有呢種病,佢有呢種病嘅先驗概率就會高過 0.01%。

貝葉斯呢種諗法同廿世紀常見嘅頻率派唔同,頻率派只關注資料本身[6],先驗概率呢個概念允許研究者喺分析中加入過往嘅知識。例如如果之前做過大量實驗已經對某個現象有咗一定了解,就可以將呢啲知識整合成先驗概率,再配合新數據更新信念,得出後驗概率。

無資訊

[編輯]
睇埋:均勻分佈

無資訊先驗唔帶有任何資訊,反映研究者對某參數冇咩事前知識,或者唔想加入太多主觀判斷。使用無資訊先驗,即係研究者假設所有可能嘅參數值都係差唔多咁合理,唔偏向相信某啲值特別有可能。喺數學上,無資訊先驗通常會係一個平坦嘅分佈,例如用一個均勻分佈(每個可能數值出現嘅概率都一樣)或者一個方差好大嘅常態分佈去表示對參數「持開放態度」。一般認為,噉做可以令分析結果由數據主導,而唔受由先驗假設影響。有唔少人認為噉樣係比較客觀或者「俾數據自己講嘢」[7]



無資訊先驗嘅使用,好多時都係基於等概率原理:等概率原理係一條用嚟分配信念程度嘅規則,根據呢條原理,如果冇任何相關證據,理性嘅思考者應該將所有可能性視為一樣咁有可能發生;如果研究者跟呢條原則行事,噉佢設定先驗概率分佈嗰陣,就會採用無資訊先驗-認為個變數或參數所有嘅可能數值都一樣咁大機率發生。不過無資訊先驗依然可以表達一啲好「基礎」或者「簡單」嘅資訊,譬如話目標變數或參數一定係正數或者一定細過某個上限呀噉。呢啲簡單設定可以防止電腦計數嗰陣浪費時間去考慮一啲「冇用」嘅數值。

有資訊

[編輯]

所謂嘅有資訊先驗[8]意思係研究者對某個變量已經有一啲具體、實在嘅認知或者假設。例如如果研究者想預測聽日中午嘅氣溫,噉佢可以攞今日中午嘅氣溫做預測嘅基礎,再根據平時每日之間氣溫變化嘅幅度,設計一個常態分佈做先驗,又或者索性用歷年嚟嗰日通常幾多度嘅分佈嚟代替。

呢類例子有個特性:一個問題嘅後驗,可以變成下一個問題嘅先驗。研究者計完今日氣溫,個後驗結果可以直接攞嚟做聽日嘅先驗。隨住資料愈嚟愈多,研究者最初頭嗰個假設(先驗)對後果影響就愈嚟愈細,到咗最後後驗分佈基本上淨係取決於證據。



強先驗[9]就係指研究者對某個理論概念假設原本有好強烈嘅信念,甚至強到就算加入新資料,個後驗分佈都唔會變太多。喺統計上,強先驗會「壓住」新資料帶嚟嘅資訊,令分析結果大致上反映返原本嘅睇法。喺貝葉斯式人工智能入便,強先驗成日會用嚟加入基本常識,幫手確保人工智能喺學習過程中保持合理。舉個例,教人工智能點樣行路嘅時候,一個典型嘅強先驗係人有兩隻腳(主觀機率遠高於人有三隻腳等嘅選項)——呢個先驗係一個不容違反嘅前提,噉樣人工智能就唔會學埋晒啲無厘頭方法,嘗試用頭行路或者當自己有四隻腳。強先驗可以限制學習空間,令人工智能專注喺合理嘅解法之上,亦可以加快學習速度[10]:p 1

弱資訊先驗[11]代表研究者對個變量有少少知識,唔係完全無知,但又唔想太過限制分析結果。弱資訊先驗令分析趨向某啲合理嘅解釋,但又唔會完全壓制數據本身嘅影響,避免出現太極端嘅估計。 例如研究者想為「潮州聽日中午嘅氣溫」設定先驗分佈,佢哋可以用一個平均華氏 50 度、標準差係華氏 40 度嘅常態分佈做先驗。呢個設定大致代表氣溫會喺華氏 10 度至 90 度之間變化,雖然數學上仍然有微小機會低過 10 度或者高過 90 度,但呢啲情況都係非常罕見。噉嘅先驗分佈就屬於「弱資訊」-表達咗一啲合理預期,但又唔會過份狹窄噉拉住數據。

選擇方法

[編輯]
Beta 分佈呢種概率分佈有兩個參數:;呢幅 gif 顯示參數數值唔同情況下 beta 分佈會出咩樣嘅線。

喺實際應用之中,預設嘅先驗分佈好多時係無資訊先驗,參數冇明確事前假設,目的係等數據本身主導推論。不過喺實際應用上,更實際嘅做法係根據對問題嘅認識,為先驗分佈設定一個「合理範圍」。例如如果研究者知道某個效果大小應該唔會大過 10,亦唔會細過 −10 就可以設定先驗分佈令參數大致集中喺呢個範圍。另一個實用方法係問以下嘅問題:

「有邊個數 q,參數 Z 大過佢嘅機會差唔多等同細過佢嘅機會?」

噉 q 就可以做先驗分佈嘅中位數。呢種「收窄先驗」嘅做法唔可以無止境噉繼續落去。研究者做到某個位,始終要承認自己對參數真正嘅分佈唔係太清楚。無論幾時停手,佢仍然會面對住大量先驗分佈可以選擇。喺呢個階段,研究者通常會揀一個較為方便處理、或者計算上比較簡單嘅分佈,繼續進行貝葉斯推論[12]:p 1-2

亦有唔少統計師行貝葉斯式嘅分析嗰陣會做敏感度分析:因為貝葉斯式分析會根據先驗分佈同數據計後驗分佈,所以先驗分佈嘅選擇對結果可以有好大影響;統計師有時會試用幾個唔同嘅先驗,例如一個比較寬鬆、一個比較集中、一個完全無資訊,再比較吓各自推斷出嚟嘅結果(例如參數估計值等)係咪差好遠。如果唔同先驗都得出相似嘅結果,就代表個結論係「穩陣」嘅;相反如果結果差好遠,就可能要重新諗吓先驗係咪合理,或者數據量夠唔夠[13]

如果數據量大,「揀邊個先驗」對最後嘅估計結果就唔會有太大影響。有唔少電腦模擬研究探討過呢個現象:例如有研究行電腦模擬,模擬唔同樣本量下用貝葉斯式分析法出嘅參數估計,並且比較用咗唔同先驗分佈(一個比較寬鬆、一個比較集中、一個完全無資訊... 等)對參數估計嘅影響;結果發現當樣本量愈嚟愈大,先驗分佈對後驗估計嘅影響會愈嚟愈細-喺樣本細嘅情況下,唔同先驗可以出到好唔同嘅後驗估計;但當樣本量逐步增加,唔同先驗之間嘅結果差異會收窄,最後變到一樣咁滯。即係話數據一旦夠多,數據本身所帶出嘅資訊就會主導分析[13][14]

睇埋

[編輯]

文獻

[編輯]

註釋

[編輯]
  1. 信念:例如係有關「呢個變數數值,有幾大機率出現」嘅諗法。
  2. 原則上「強度」係相對嘅。假如某個變量全域得嗰 5 個可能值,攞住有 4 個可能值嘅均勻分佈做先驗就提供唔到咩資訊,但假如手上個變量有 1,000 個可能值,有 4 個可能值嘅均勻分佈就會係一個幾「強」嘅先驗分佈。有關資訊呢樣嘢要點量化,可以睇睇資訊理論

引咗

[編輯]
  1. Robert, Christian (1994). "From Prior Information to Prior Distributions". The Bayesian Choice. New York: Springer. pp. 89–136.
  2. Chaloner, Kathryn (1996). "Elicitation of Prior Distributions". In Berry, Donald A.; Stangl, Dalene (eds.). Bayesian Biostatistics. New York: Marcel Dekker. pp. 141–156.
  3. 英文叫 uninformative prior。
  4. Zellner, Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. pp. 41–53.
  5. Christopher M. Bishop (2006). Pattern Recognition and Machine Learning. Springer. pp. 21-24.
  6. Kaplan, D. (2014). Bayesian Statistics for the Social Sciences. Methodology in the Social Sciences. Guilford Publications. p. 4.
  7. Zellner, Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. pp. 41-53.
  8. 有資訊先驗(informative prior)
  9. 強先驗(strong prior)
  10. Zhou, Z., Prugel-Bennett, A., & Damper, R. I. (2006). A Bayesian framework for extracting human gait using strong prior knowledge. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(11), 1738-1752.
  11. 弱資訊先驗(weakly informative prior)
  12. Choosing a Prior Distribution (PDF). Duke University.
  13. 13.0 13.1 Downey, A. (2021). Think Bayes (PDF). " O'Reilly Media, Inc.",3 Estimation
  14. Downey, A. (2021). Think Bayes (PDF). " O'Reilly Media, Inc.",4.3 Swamping the prior,當中 swamping the prior 指緊嘅就係「數據量夠,先驗嘅選擇就唔會點影響最終結果」嘅現象。亦可以睇睇 5.3 提到,就算數據同某個假說相符合,都唔等如啲數據支撐個假說。

[編輯]