泊淞迴歸
外表
(由泊淞迴歸模型跳轉過嚟)
泊淞迴歸(當中泊淞嘅粵語讀音為粵拼:paak3 sung1)係迴歸分析一種,特徵係假設咗要預測嘅變數跟從泊淞分佈,因而能夠處理
泊淞迴歸個泊淞嚟自英文:Poisson(近似粵拼:poi6 son1)。
泊淞分佈
[編輯]
内文:泊淞分佈
睇埋:負二項分佈
泊淞迴歸基於泊淞分佈。泊淞分佈屬於概率分佈一種,用嚟描述喺某段固定時間或某笪空間區間入便,互相獨立嘅事件會發生幾多次。數學化啲講,其概率質量函數為[1]: 60 :
當中 e 係自然底數,k 係發生次數,k! 係 k 嘅階乘,而 Pr(X = k) 意思係指發生次數係 k 咁多嘅機率。λ 呢個參數係所謂嘅事件平均發生率,喺實際應用上,啲人成日會用過往數據搵到嘅平均值嚟估計 λ 嘅值。呢種分佈有幾個重要嘅數學特徵:
- 輸入 k 一定要係自然數,泊淞分佈先至有意義,而且負數嘅階乘係無定義,所以 k 唔可以係負數。亦即係話 k 就好似次數數據噉,只可以係自然數,冇得話某件事發生咗(例如)-3 次或者 2.5 次。
- 期望值同變異數都等於 λ: [註 1][2]
- 偏度遠高於常態分佈。
- 醫療:瑪麗醫院急症室每個鐘頭處理幾多位心臟病發嘅病人;
- 生態學:某自然保護區嘅觀鳥站每十五分鐘聽到幾多次某水鳥物種嘅叫聲;
- 交通:紅磡海底隧道喺高峰時間每小時發生幾多單交通意外。
- 神經科學:神經元射嘅訊號,會以一個個 spike 噉嘅形式發送,射 spike 嘅次數屬於次數數據[註 2],時會用泊淞迴歸嘅方法嚟模擬[3],而常見嘅自變數可以係外界刺激嘅各種物理特性,仲有係該神經元打前嘅活動[註 3][4]。
呢啲變數嘅概率分佈,都可以用唔同 λ 值嘅泊淞分佈嚟模擬。
迴歸模型
[編輯]睇埋:廣義線性模型
泊淞迴歸係基於泊淞分佈嘅廣義線性模型(GLM),可以用嚟由數據嗰度建立統計模型,即係透過已有數據中嘅規律,搵出一個數學模型嚟描述呢啲規律,而個模型第時可以攞嚟做預測。其基本模型寫成:
- ,其中
- :第 i 個觀測嘅事件次數,例如某時段內意外宗數。
- 啲 :即係一眾自變數,可以包括一啲虛擬變數。
- :該觀測嘅期望次數或者事件率。
- 連結函數,用對數 ,確保 ,因為 係預計會發生幾多次,而呢個數值最細只可以係 0。
- offset,又有叫暴露量,係一個重要參數,用嚟控制觀察長度嘅影響: 係預計嘅發生次數,但係研究者可能比較有興趣想知每月或者每日嘅發生次數,淨係提供預計發生幾多次嘅資訊未必咁有用;假如每個觀測嘅人口基數或者觀測長度唔同,通常就要放返個已知量 ,控制返觀測長度嘅影響,但假如啲觀察個案個個都一樣咁長,例如全部數值都係喺為期一個月咁耐嘅時間內
數 到嘅值,就唔洗落暴露量。
研究者攞住數據就可以建立泊淞迴歸,電腦會計數[註 4],然後俾出參數(啲 β)估計係咩值,噉嘅話:每個迴歸係數 對應嘅率比為 ,即係話佢反映緊佢掕住嗰個自變數嘅值每上升一個單位,個應變數()嘅對數預計會升幾多[5]。
睇埋
[編輯]文獻
[編輯]
- (英文)Cameron, A. C.; Trivedi, P. K. (1998). Regression analysis of count data. Cambridge University Press.
- (英文)Green, J.A., 2021. Too many zeros and/or highly skewed? A tutorial on modelling health behaviour as count data with Poisson and negative binomial regression. Health Psychology and Behavioral Medicine, 9(1), pp.436-455,呢篇文提到 YouTube 數據分析同埋對健康行為嘅分析,主張呢啲分析上遇到嘅數據啱晒用泊淞迴歸以及類似嘅方法嚟處理。
引述
[編輯]- ↑ Yates, Roy D.; Goodman, David J. (2014). Probability and Stochastic Processes: A Friendly Introduction for Electrical and Computer Engineers (2nd ed.). Hoboken, NJ: Wiley.
- ↑ Haight, Frank A. (1967). Handbook of the Poisson Distribution. New York, NY, US: John Wiley & Sons.
- ↑ Roxin, A., Brunel, N., Hansel, D., Mongillo, G. and Van Vreeswijk, C., 2011. On the distribution of firing rates in networks of cortical neurons. Journal of Neuroscience, 31(45), pp.16217-16226,佢哋呢度噉講:"Single-cell spike trains are far from being regular... they resemble those that would be generated by a Poisson-like process."
- ↑ Vaccari, F.E., Diomedi, S., Filippini, M., Galletti, C. and Fattori, P., 2021. A Poisson generalized linear model application to disentangle the effects of various parameters on neurophysiological discharges. STAR protocols, 2(2), p.100413. STEP-BY-STEP METHOD DETAILS
- ↑ Frome, Edward L. (1983). "The Analysis of Rates Using Poisson Regression Models". Biometrics. 39 (3): pp. 665-674.