貝葉斯統計學

貝葉斯統計學(參見英文:Bayesian statistics)係統計學其中一個學派,特徵係建基於貝葉斯概率。簡單講,呢套諗法將概率(又作機會率)理解為「相信件事件會發生」嘅程度。信某件事件會發生,可以係建基於先前嘅知識,譬如係之前做過嘅實驗,甚至可以係基於個人信念。
貝葉斯統計學嘅一個重點,在於更新自己嘅信念:用日常用語講,貝葉斯統計學嘅重心係思考點樣按觀察到嘅數據,係噉更新自己對「邊啲事發生嘅機率大」嘅信念,並且深入探討呢種更新過程之中要計嘅數。技術化啲講,貝葉斯統計學會將未知嘅參數當成隨機變數,俾返個先驗分佈反映對參數嘅初步假設。收集到新數據後,就會運用貝葉斯定理,更新先驗分佈計出後驗分佈,從而改變對參數嘅判斷[1]。
响廿一世紀初,貝葉斯統計學有一定影響力,可以用嚟預測體育競賽(足球等)嘅賽果同埋協助決策,或者做醫療診斷同評估風險。呢套統計學喺數據科學、人工智能、經濟學同心理學等咁多唔同領域度都有應用價值。
背景概念
[編輯]頻率學派
[編輯]
喺廿一世紀初,統計學家討論親貝葉斯統計學,通常都會攞佢嚟同頻率學派推論[2]對比[3]。頻率學派推論嘅基礎係頻率學派概率。根據呢套諗法,某件事件發生嘅概率係指緊件事嘅「長期相對頻率」,精確啲定義即係講緊假如將次實驗重複無限咁多次,件事嘅概率就係指佢發生嘅次數嘅比例嘅極限[4],用式表達就係[5]
當中:
- 表示事件 嘅概率;
- 表示喺頭 次實驗中,事件 發生咗幾多次(頻率);
- 係話隨住實驗次數 趨近無限大,睇個相對頻率會唔會迫近某個值。
譬如依家掟銀仔,假設個銀仔冇出千,出公出字機率一樣咁大都係 50%,而噉講意思係話假想攞個銀仔掟無限次( 趨近無限大)出公()嘅次數會佔咗一半咁多。頻率學派受到唔少學者批評,例如詬病佢處理唔到極罕有事件[註 1],而且由頻率派思維衍生出嚟嘅假說檢定法,亦引起咗 p-hack 等嘅問題[6]。
貝葉斯派
[編輯]相比之下,貝葉斯概率嘅睇法就好唔同。貝葉斯概率以貝葉斯定理[7]為基礎,貝葉斯定理本身好簡單,公式係:
呢條式意思係,(條件概率:已知 發生咗, 發生嘅概率)呢個後驗概率,等如 乘以 ,再將乘出嘅數除以 。貝葉斯定理喺概率論上受到廣泛嘅使用,但係貝葉斯概率學派就對呢條定理有特定嘅詮釋:根據貝葉斯概率嘅睇法[8][9],
- 代表嘅係命題(譬如係研究者想檢驗嘅假說), 代表手上嘅證據,或者啱啱攞到、可以用嚟驗證句命題嘅數據;
- 係先驗概率,反映觀察者得到新證據()之前有幾相信 係真;
- 係概似函數[10],即係假如 係真,見到 嘅概率有幾高;呢個概念第啲統計模型都會用到,反映手上嘅統計模型有幾能夠解釋觀察到嘅數據-「假如個模型正確,有幾大機會見到噉嘅數據?」
用日常用語講,貝葉斯概率就係教人點樣係噉「更新自己嘅信念」-做研究嘅人會持有某啲背景知識(先驗概率)然後不斷去搵新證據嚟去更改自己對「唔同事件發生嘅概率有幾高」(後驗概率)嘅認知同信念,跟住一路重複[註 2]。舉具體例子:假想而家出咗隻新藥,醫學研究者原本估計隻藥五成機會有效,即係話先驗概率 係[註 3]
為咗測試佢哋個諗法,佢哋就郁手做一輪臨床試驗,發現病人食咗藥之後康復嘅比率高過預期(新證據 ),於是佢哋就用貝葉斯定理嚟思考呢啲數值:
- (概似函數)
- ,從而計出
即係話佢哋可以做到睇住搵到嘅證據,得知自己想檢驗嗰個假說係真嘅機率有幾高[11]。
用嘅方法
[編輯]統計推論
[編輯]
用貝葉斯嗰套做法嚟做統計推論,起始點係先驗概率。研究緊嘅現象可以想像成數學模型,而一個噉嘅數學模型會有若干個參數,表達變數與變數之間嘅關係。參數嘅具體數值不確定,不過研究者事先會對「參數數值大致係幾多」有某啲假設或者知識(先驗概率)。喺古典(頻率派)嗰套推論之中,研究者認為模型嘅「真實」參數係固定不變嘅,問題只在於統計師能夠以幾高準確度去估計呢啲參數嘅值[註 4]。
統計模型係一啲用嚟描述數據點樣產生出嚟嘅數學模型。呢啲模型通常會包含若干個參數,而呢啲參數可以根據實際情況作調整。舉個例子,想像依家研究擲銀仔,擲銀仔有兩個可能情況,公或者字,而呢個過程可以用伯努利分佈嚟表示,其概率質量函數 係[12]:
呢個模型模擬緊手上嘅現象,將現象用數學方式表達出嚟。呢個模型中只有一個參數 ,代表公(或者字)出現嘅概率。喺現實世界,絕大部分嘅模型,都只能夠做到近似產生數據嘅過程,亦未必可以包含晒所有會影響結果嘅因素。貝葉斯推論嘅一個特點,就係可以為模型嘅參數賦予概率,將呢啲參數當成隨機變數,遇到新數據就用返貝葉斯定理嚟更新對「啲參數嘅值係乜」嘅信念。
統計模型
[編輯]有研究者噉講[8]:p 18:
貝葉斯模型唔鼓勵人盲目噉依賴預設嘅分析結果[註 5],反而強調喺分析之前,研究者應該為每一個模型參數預先設定自己嘅信念(先驗分佈)並且預先思考效應大細要幾大或者幾細先算係合理同有意義。
用貝葉斯式嘅方法建立統計模型,流程可以分為以下幾個主要步驟:
- 定義模型:首先,統計師要決定用邊一種統計模型去描述數據。要設定模型有邊啲變數同參數。
- 設定先驗:要為每個模型參數指定一個先驗分佈,反映睇到數據之前對參數嘅信念。例如,如果統計師覺得某個效應應該接近 0 [註 6]就可以用一個以 0 為中心嘅常態分佈。
- 嘗試將模型 fit1 落數據:呢個步驟通常要用到電腦演算法。可以睇睇蒙地卡羅方法。
- 睇吓個模型係咪收斂[註 7]到,結果穩定冇再亂跳。
- 檢查個模型嘅適合度,係咪能夠充分解釋數據嘅規律。
用貝葉斯派嘅方式建立統計模型,分析師要事先指定佢哋心目中嘅先驗概率,而呢點係貝葉斯派建模同頻率派建模最重要嘅分別[13]。先驗分佈可以按「資訊性」嘅強弱嚟分類:統計師可以將先驗分佈設做均勻分佈,代表每個可能性都一樣咁有可能,呢種先驗做到「等數據自己講嘢」;同時統計師又可能對個參數本身有知識或者預期,例如根據過往實驗或者理論推斷,用一個較集中嘅先驗分佈去表達,例如過去嘅研究已知某藥物嘅成功率係 70% 左右,就可以用集中喺 0.7 附近嘅分佈,提升分析嘅穩定性[註 8][14]。
|
假說檢定
[編輯]
頻率派嘅統計學會用假說檢定方法,評估手上嘅假說係咪應該接受。貝葉斯統計學都有相似嘅做法,會講到貝葉斯因素(英文簡稱 BF),用呢個數值代替 p 值嚟決定手上個假說係唔係應該接受。貝葉斯因素比較兩個假說(叫 H0, H1 -可以睇睇虛無假說同備擇假說)睇吓數據支持邊一個多啲。貝葉斯因素定義如下[15]:
即係比較邊個假說比較大機會出到手上嘅數據。如果 ,代表數據比較支持 而假如 ,數據就比較支持 。亦有啲統計學家主張,可以根據貝葉斯因素嘅大細嚟衡量證據強度,譬如以下嘅方案:
BF 值 證據強度 BF = 1 無證據(兩個假說一樣咁可信) 1 < BF ≤ 3 有弱證據支持 3 < BF ≤ 10 有強證據支持 10 < BF 非常強嘅證據支持
呢種方法被指係比較靈活,能夠反映數據支持假說嘅程度。不過,唔係個個統計學家都接受所謂嘅「貝葉斯假說檢定」,例如有部份統計學家就覺得呢種分法夾硬嚟,係勉強將強弱嘅標籤加諸於數值之上[註 9]。
應用例子
[編輯]體育競賽
[編輯]貝葉斯統計學可以用嚟預測體育競賽嘅賽果。想像預咗嚟緊某兩隊將會打比賽:分析者用先前嘅數據,揀一個先驗分佈,估計 λ(每隊入波數嘅平均)嘅數值;分析者用最近嗰幾場比賽嘅得分數據,估計每隊嘅 λ 嘅後驗分佈[註 10];用呢個後驗分佈,估計每隊會入到幾多次波,並且計估計嘅分數差距,從而計出每隊贏嘅機會率。諸如足球同籃球等球類運動嘅比賽結果,都可以用呢種方法預測[16]。
網上遊戲
[編輯]貝葉斯統計學仲可以用嚟幫手製作網上遊戲。例如微軟開發嘅 TrueSkill 演算法就用咗貝葉斯統計學概念。廿一世紀初嘅網上遊戲,往往有必要評估玩家嘅技術有幾高,例如搵對局配對嗰陣搵實力相近嘅對手、建立排行榜、甚至用嚟訓練電腦對手嘅人工智能,而 TrueSkill 演算法正正係用嚟做呢樣工作嘅,喺呢個系統之下,每位玩家嘅技術水平或者實力會想像成一個常態分佈,包括平均值 μ 同埋標準差 σ 兩個參數,當中後者反映電腦心目中對手上嗰位玩家嘅實力水平有幾多嘅不確定性[註 11],每場對局可以有若干位玩家,會明確噉分輸贏,每打完一場,TrueSkill 都會
- 攞住原先嘅實力分佈做先驗;
- 輸贏會模擬成係取決於(例如)每一隊嘅成員嘅個別實力嘅總和;
- 觀察到嘅賽果就係證據;
- 用貝葉斯推論,同每位玩家估計佢嘅後驗實力分佈;
如是者,個系統就會係噉更新佢心目中每位玩家嘅實力水平,最後計出每位「真正」嘅實力[17]。
認知科學
[編輯]認知科學上有所謂嘅貝葉斯腦學說,將人腦嘅學習能力想像成貝葉斯統計學噉嘅思考方式。假想有兩件事件, 同 , 係 發生嘅機會率, 係 發生嘅機會率,根據貝葉斯定理 (已知 發生咗, 發生嘅條件概率)可以用以下條式計[18]:
例如想像一個實驗:隻動物經歷 10 次受痛楚嘅事件(),而喺某幾次事件當中佢有嘗試避開個痛楚(),喺某幾次入面佢冇()但次次都一樣遭受痛楚;佢個腦計咗之後會發現,自己行動咗跟住受痛楚嘅機率( given )同自己唔行動而受痛楚嘅機率( given )相約,
-即係「我作唔作出行動結果都係會受痛楚」嘅知識,令佢進入失助嘅狀態[19]。
睇埋
[編輯]- 算術下溢:貝葉斯統計相關嘅運算,成日要計概率密度,而呢種運算好多時會涉及極細數值,電腦可能會出現下溢[20]。
- 逼近理論:喺實際應用上,計後驗概率運算上好複雜,所以行貝葉斯統計嘅演算法只可以用「逼近」方法計結果[21][22]。
- 受限理性:人無法事先睇晒所有資訊,可能要靠貝葉斯式嘅做法,逐步更新自己嘅先驗。
- 知識論:尤其係知識論提到嘅先驗同後驗。
- 電腦模擬
- 知識
- 信念
文獻
[編輯]- (英文) Downey, A. (2021). Think Bayes (PDF). " O'Reilly Media, Inc.",網上嘅開源教科書講貝葉斯概率,講解嗰陣用咗好多 Python 程式碼。
- (英文) Fornacon-Wood, I., Mistry, H., Johnson-Hart, C., Faivre-Finn, C., O'Connor, J. P., & Price, G. J. (2022). Understanding the differences between Bayesian and frequentist statistics. International journal of radiation oncology, biology, physics, 112(5), 1076-1082.
- (英文) Ribeiro, G. G., Da Costa, L. C., Ferreira, P. H., & do Nascimento, D. C. (2025). A Bayesian approach to predict performance in football: a case study. Frontiers in Sports and Active Living, 7, 1486928
註釋
[編輯]- ↑ 極罕有事件:例如係百年一遇嘅大災難。
- ↑ 亦可以睇睇科學方法講嘅嘢。
- ↑ 理論上,佢哋可以對隻藥極有信心,將隻藥有效嘅機率設為 1。事實係,先驗概率嘅設定喺貝葉斯統計學上係一條大問題。
- ↑ 而且响頻率派嘅思考中,用概率嚟描述只發生一次嘅事係冇意義嘅。
- ↑ 依賴預設嘅分析結果:可以睇返頻率派嗰套。
- ↑ 可能佢係睇勻前人做嘅研究,而前人搵到嘅結果係噉。
- ↑ 英文叫 converge;用嚟做統計嘅軟件成日會出現呢隻詞語。
- ↑ 稍微有資訊性嘅 prior 被指能夠減低「高估效應值嘅大細」嘅風險。
- ↑ 亦可以參考統計學家對 p 值假說檢定嘅批評,例如呢啲檢定法成日出現一種情況,p 值係 .049 就接受,p 值係 .051 就唔接受-好多統計學家都覺得噉係夾硬嚟。
- ↑ 好似呢種情況,要估計某段時間內某事件會發生幾多次,可以用泊淞分佈。
- ↑ 唔似得 Elo 系統噉,將實力想像成一個點估計。
引述
[編輯]- ↑ de Finetti, Bruno (2017). Theory of Probability: A critical introductory treatment. Chichester: John Wiley & Sons Ltd.
- ↑ 英文:frequentist
- ↑ Cox, R.T. (1946). "Probability, Frequency, and Reasonable Expectation". American Journal of Physics. 14 (1): 1-10.
- ↑ 英文:limit
- ↑ Kaplan, D. (2014). Bayesian Statistics for the Social Sciences. Methodology in the Social Sciences. Guilford Publications. p. 4.
- ↑ Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (2015) The Extent and Consequences of P-Hacking in Science. PLoS Biol 13(3): e1002106. https://doi.org/10.1371/journal.pbio.1002106 ,呢篇文嘅作者睇啲期刊文章 p 值嘅分佈,靠呢種做法嚟檢驗 p-hack 嘅情況有幾普遍——簡化講,如果啲研究者 p-hack,理應會令到接近 0.05 嘅 p 值出現得異常咁密。
- ↑ 英文:Bayes' theorem
- ↑ 8.0 8.1 Dora, J., McCabe, C. J., van Lissa, C. J., Witkiewitz, K., & King, K. M. (2024). A tutorial on analyzing ecological momentary assessment data in psychological research with Bayesian (generalized) mixed-effects models. Advances in methods and practices in psychological science, 7(1), 25152459241235875,呢篇文講貝葉斯式嘅混合模型,講到:"The primary distinction between frequentist and Bayesian statistics is a different definition of probability... The Bayesian definition of probability, by contrast, reflects the degree of belief or confidence in a particular event."
- ↑ Downey, A. (2021). Think Bayes (PDF). " O'Reilly Media, Inc.",1.5 diachronic interpretation
- ↑ 英文:likelihood function
- ↑ Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Bayesian Data Analysis (Third ed.). Chapman and Hall/CRC.
- ↑ Bertsekas, Dimitri P. (2002). Introduction to Probability. Tsitsiklis, John N., Τσιτσικλής, Γιάννης Ν. Belmont, Mass.: Athena Scientific.
- ↑ Dora, J., McCabe, C. J., van Lissa, C. J., Witkiewitz, K., & King, K. M. (2024). A tutorial on analyzing ecological momentary assessment data in psychological research with Bayesian (generalized) mixed-effects models. Advances in methods and practices in psychological science, 7(1), 25152459241235875. "Defining priors is the biggest practical difference between a frequentist and a Bayesian analysis."
- ↑ Gelman, A., Jakulin, A., Pittau, M. G., & Su, Y.-S. (2008). A weakly informative default prior distribution for logistic and other regression models. The Annals of Applied Statistics, 2(4), 1360–1383.
- ↑ Downey, A. (2021). Think Bayes (PDF). " O'Reilly Media, Inc.",11.0 hypothesis testing
- ↑ Downey, A. (2021). Think Bayes (PDF). " O'Reilly Media, Inc.",Ch. 7 prediction
- ↑ Herbrich, Ralf; Minka, Tom; Graepel, Thore (2007), Schölkopf, B.; Platt, J. C.; Hoffman, T. (eds.), "TrueSkill™ : A Bayesian Skill Rating System" (PDF), Advances in Neural Information Processing Systems 19, MIT Press, pp. 569-576.
- ↑ The Bayesian Brain Hypothesis 互聯網檔案館嘅歸檔,歸檔日期2020年3月28號,.. Towards Data Science.
- ↑ Lieder, F., Goodman, N. D., & Huys, Q. J. (2013). Learned helplessness and generalization. In Proceedings of the annual meeting of the cognitive science society (Vol. 35, No. 35).
- ↑ Downey, A. (2021). Think Bayes (PDF). " O'Reilly Media, Inc.",10.5 underflow,亦有提到對數概念可以用嚟應付呢種問題。
- ↑ Lee, S. Y. (2022). Gibbs sampler and coordinate ascent variational inference: A set-theoretical review. Communications in Statistics-Theory and Methods, 51(6), 1549-1568.
- ↑ Downey, A. (2021). Think Bayes (PDF). " O'Reilly Media, Inc.",10.8 嗰度噉講:"We don't really care about the likelihood of seeing the exact dataset we saw. Especially for continuous variables, we care about the likelihood of seeing any dataset like the one we saw. For example, ... we don't care about which particular trains were seen, only the number of trains and the maximum of the serial numbers."
外拎
[編輯]- (英文) 貝葉斯推論,香港大學統計系有班學者專門研究貝葉斯推論。
- (英文) 貝葉斯統計學同概率嘅力量,GeeksForGeeks
- (英文) 用貝葉斯定理解決蒙地賀問題,康奈爾大學出咗篇短文,講解點樣用貝葉斯定理嚟分析蒙地賀問題。