先驗概率

喺貝葉斯概率,某隨機事件嘅先驗概率(參見英文:prior,嚟自拉丁文之前噉解)係指未得到證據(或者新資訊)前,件事發生嘅概率。先驗概率相對於後驗概率,即係得到證據後件事嘅概率。舉例說明,想像有位分析師要做市場研究,評估某位消費者傾向會買乜,分析師可能會睇一列數據(證據)而呢啲數據描述位消費者過往嘅購物行為,睇完佢就對位消費者有咗更深入嘅了解,對「呢位消費者傾向買乜」有咗新嘅評估(後驗概率)-分析師睇數據前,佢腦中嗰個「描述位消費者傾向買乜」嘅概率分佈就係佢嘅先驗概率分佈。換句話說,先驗概率可以當係反映緊得到新資訊前嘅知識。
先驗概率係貝葉斯統計學上嘅重要概念[1]。用貝葉斯呢套方法做分析嘅人郁手分析前,實要揀返個先驗分佈。至於先驗分佈點樣揀,方法非常多,有陣時可以根據前人嘅研究或者舊數據嚟決定,有陣時就係搵有經驗嘅專家[2],問吓佢哋覺得先驗分佈應該係點,亦有時候係咩知識都冇,以等概率原理為由採用所謂嘅無資訊先驗[3][4]。
基礎諗頭
[編輯]先驗概率分佈係概率分佈一種。
先驗概率係貝葉斯統計嘅重要一環。貝葉斯統計係統計學其中一個主要學派,呢個學派將概率(又叫機會率)理解為「有幾相信件事會發生」,而統計分析嘅重點係用先驗概率分佈做起始,睇數據,並且用數據更新自己對未知變項嘅信念[註 1],最後得出後驗概率分佈。因此,先驗概率可以理解為指緊未觀察到任何新數據前,根據現有知識或者背景資訊,對某件事嘅發生機率嘅主觀估計[5]。
舉例說明,假設有個醫療測試,用嚟診斷某隻罕見嘅遺傳病,隻病只影響萬分之一(0.01%)嘅人。阿明未做測試前,假設佢冇任何症狀或者家族病史,佢患上隻病嘅先驗概率係 0.01% 咁高;但假如阿明已經有明顯症狀或者已知佢多位屋企人患有呢種病,佢有呢種病嘅先驗概率就會高過 0.01%。
貝葉斯呢種諗法同廿世紀常見嘅頻率派唔同,頻率派只關注資料本身[6],先驗概率呢個概念允許研究者喺分析中加入過往嘅知識。例如如果之前做過大量實驗已經對某個現象有咗一定了解,就可以將呢啲知識整合成先驗概率,再配合新數據更新信念,得出後驗概率。
無資訊
[編輯]
無資訊先驗唔帶有任何資訊,反映研究者對某參數冇咩事前知識,或者唔想加入太多主觀判斷。使用無資訊先驗,即係研究者假設所有可能嘅參數值都係差唔多咁合理,唔偏向相信某啲值特別有可能。喺數學上,無資訊先驗通常會係一個平坦嘅分佈,例如用一個均勻分佈(每個可能數值出現嘅概率都一樣)或者一個方差好大嘅常態分佈去表示對參數「持開放態度」。一般認為,噉做可以令分析結果由數據主導,而唔受由先驗假設影響。有唔少人認為噉樣係比較客觀或者「俾數據自己講嘢」[7]。
|
無資訊先驗嘅使用,好多時都係基於等概率原理:等概率原理係一條用嚟分配信念程度嘅規則,根據呢條原理,如果冇任何相關證據,理性嘅思考者應該將所有可能性視為一樣咁有可能發生;如果研究者跟呢條原則行事,噉佢設定先驗概率分佈嗰陣,就會採用無資訊先驗-認為個變數或參數所有嘅可能數值都一樣咁大機率發生。不過無資訊先驗依然可以表達一啲好「基礎」或者「簡單」嘅資訊,譬如話目標變數或參數一定係正數或者一定細過某個上限呀噉。呢啲簡單設定可以防止電腦計數嗰陣浪費時間去考慮一啲「冇用」嘅數值。
有資訊
[編輯]
所謂嘅有資訊先驗[8]意思係研究者對某個變量已經有一啲具體、實在嘅認知或者假設。例如如果研究者想預測聽日中午嘅氣溫,噉佢可以攞今日中午嘅氣溫做預測嘅基礎,再根據平時每日之間氣溫變化嘅幅度,設計一個常態分佈做先驗,又或者索性用歷年嚟嗰日通常幾多度嘅分佈嚟代替。
呢類例子有個特性:一個問題嘅後驗,可以變成下一個問題嘅先驗。研究者計完今日氣溫,個後驗結果可以直接攞嚟做聽日嘅先驗。隨住資料愈嚟愈多,研究者最初頭嗰個假設(先驗)對後果影響就愈嚟愈細,到咗最後後驗分佈基本上淨係取決於證據。
|
強先驗[9]就係指研究者對某個理論、概念、假設原本有好強烈嘅信念,甚至強到就算加入新資料,個後驗分佈都唔會變太多。喺統計上,強先驗會「壓住」新資料帶嚟嘅資訊,令分析結果大致上反映返原本嘅睇法。喺貝葉斯式嘅人工智能入便,強先驗成日會用嚟加入基本常識,幫手確保人工智能喺學習過程中保持合理。舉個例,教人工智能點樣行路嘅時候,一個典型嘅強先驗係人有兩隻腳(主觀機率遠高於人有三隻腳等嘅選項)——呢個先驗係一個不容違反嘅前提,噉樣人工智能就唔會學埋晒啲無厘頭方法,嘗試用頭行路或者當自己有四隻腳。強先驗可以限制學習空間,令人工智能專注喺合理嘅解法之上,亦可以加快學習速度[10]:p 1。
弱資訊先驗[11]代表研究者對個變量有少少知識,唔係完全無知,但又唔想太過限制分析結果。弱資訊先驗令分析趨向某啲合理嘅解釋,但又唔會完全壓制數據本身嘅影響,避免出現太極端嘅估計。 例如研究者想為「潮州聽日中午嘅氣溫」設定先驗分佈,佢哋可以用一個平均係華氏 50 度、標準差係華氏 40 度嘅常態分佈做先驗。呢個設定大致代表氣溫會喺華氏 10 度至 90 度之間變化,雖然數學上仍然有微小機會低過 10 度或者高過 90 度,但呢啲情況都係非常罕見。噉嘅先驗分佈就屬於「弱資訊」-表達咗一啲合理預期,但又唔會過份狹窄噉拉住數據。
選擇方法
[編輯]
喺實際應用之中,預設嘅先驗分佈好多時係無資訊先驗,參數冇明確事前假設,目的係等數據本身主導推論。不過喺實際應用上,更實際嘅做法係根據對問題嘅認識,為先驗分佈設定一個「合理範圍」。例如如果研究者知道某個效果大小應該唔會大過 10,亦唔會細過 −10 就可以設定先驗分佈令參數大致集中喺呢個範圍。另一個實用方法係問以下嘅問題:
- 「有邊個數 q,參數 Z 大過佢嘅機會差唔多等同細過佢嘅機會?」
噉 q 就可以做先驗分佈嘅中位數。呢種「收窄先驗」嘅做法唔可以無止境噉繼續落去。研究者做到某個位,始終要承認自己對參數真正嘅分佈唔係太清楚。無論幾時停手,佢仍然會面對住大量先驗分佈可以選擇。喺呢個階段,研究者通常會揀一個較為方便處理、或者計算上比較簡單嘅分佈,繼續進行貝葉斯推論[12]:p 1-2。
亦有唔少統計師行貝葉斯式嘅分析嗰陣會做敏感度分析:因為貝葉斯式分析會根據先驗分佈同數據計後驗分佈,所以先驗分佈嘅選擇對結果可以有好大影響;統計師有時會試用幾個唔同嘅先驗,例如一個比較寬鬆、一個比較集中、一個完全無資訊,再比較吓各自推斷出嚟嘅結果(例如參數估計值等)係咪差好遠。如果唔同先驗都得出相似嘅結果,就代表個結論係「穩陣」嘅;相反如果結果差好遠,就可能要重新諗吓先驗係咪合理,或者數據量夠唔夠[13]。
如果數據量大,「揀邊個先驗」對最後嘅估計結果就唔會有太大影響。有唔少電腦模擬研究探討過呢個現象:例如有研究行電腦模擬,模擬唔同樣本量下用貝葉斯式分析法出嘅參數估計,並且比較用咗唔同先驗分佈(一個比較寬鬆、一個比較集中、一個完全無資訊... 等)對參數估計嘅影響;結果發現當樣本量愈嚟愈大,先驗分佈對後驗估計嘅影響會愈嚟愈細-喺樣本細嘅情況下,唔同先驗可以出到好唔同嘅後驗估計;但當樣本量逐步增加,唔同先驗之間嘅結果差異會收窄,最後變到一樣咁滯。即係話數據一旦夠多,數據本身所帶出嘅資訊就會主導分析[13][14]。
睇埋
[編輯]- 共
軛 先驗分佈:假設攞住某個概似函數,先驗同後驗兩個分佈屬於同一個概率分佈族,噉個先驗就算係共軛;例如 beta 分佈就係共軛,假如個先驗係 beta 分佈,噉個後驗都會係 beta 分佈。 - 後驗概率分佈
- 貝葉斯統計學
- 知識論上嘅先驗同後驗
文獻
[編輯]- (英文) Gelman, A., Simpson, D., & Betancourt, M. (2017). The prior can often only be understood in the context of the likelihood. Entropy, 19(10), 555.
- (英文) Lemoine, N. P. (2019). Moving beyond noninformative priors: why and how to choose weakly informative priors in Bayesian analyses. Oikos, 128(7), 912-928,呢篇文講當代嘅生態學研究中貝葉斯統計嘅使用,篇文嘅作者提倡生態學家應用多啲採用弱資訊先驗。
- (英文) Wagenmakers, E. J., Marsman, M., Jamil, T., Ly, A., Verhagen, J., Love, J., ... & Morey, R. D. (2018). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications. Psychonomic bulletin & review, 25, 35-57.
註釋
[編輯]引咗
[編輯]- ↑ Robert, Christian (1994). "From Prior Information to Prior Distributions". The Bayesian Choice. New York: Springer. pp. 89–136.
- ↑ Chaloner, Kathryn (1996). "Elicitation of Prior Distributions". In Berry, Donald A.; Stangl, Dalene (eds.). Bayesian Biostatistics. New York: Marcel Dekker. pp. 141–156.
- ↑ 英文叫 uninformative prior。
- ↑ Zellner, Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. pp. 41–53.
- ↑ Christopher M. Bishop (2006). Pattern Recognition and Machine Learning. Springer. pp. 21-24.
- ↑ Kaplan, D. (2014). Bayesian Statistics for the Social Sciences. Methodology in the Social Sciences. Guilford Publications. p. 4.
- ↑ Zellner, Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. pp. 41-53.
- ↑ 有資訊先驗(informative prior)
- ↑ 強先驗(strong prior)
- ↑ Zhou, Z., Prugel-Bennett, A., & Damper, R. I. (2006). A Bayesian framework for extracting human gait using strong prior knowledge. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(11), 1738-1752.
- ↑ 弱資訊先驗(weakly informative prior)
- ↑ Choosing a Prior Distribution (PDF). Duke University.
- ↑ 13.0 13.1 Downey, A. (2021). Think Bayes (PDF). " O'Reilly Media, Inc.",3 Estimation
- ↑ Downey, A. (2021). Think Bayes (PDF). " O'Reilly Media, Inc.",4.3 Swamping the prior,當中 swamping the prior 指緊嘅就係「數據量夠,先驗嘅選擇就唔會點影響最終結果」嘅現象。亦可以睇睇 5.3 提到,就算數據同某個假說相符合,都唔等如啲數據支撐個假說。
拎
[編輯]- (英文) PriorDB