殘差同誤差


深色點:唔同個案實際睇到嘅值
打戙嘅黑色線:殘差
喺統計學同機械學習等領域,殘差同誤差係兩個相近嘅概念。喺嚴格用詞上,殘差係指一個數學模型做預測嗰陣個預測數值同實際數值爭幾遠,而誤差就係指一個實際數值同「真實」數值差幾遠,或者觀察到嘅值同預期值差幾遠。譬如依家統計師睇住手上嘅數據,數據入便有一拃事前量度到嘅數值,原則上任何量度方法都會有失誤,度到嘅值同「真實」嘅值梗有些少出入,呢個差異就係誤差。而跟住統計師用數據做迴歸分析得到模型,呢個迴歸模型能夠對現象作出預測,但模型一樣冇完美,模型嘅預測同最後出嘅值都會有些微出入,呢個差異就係殘差。
殘差同誤差嘅概念,迴歸模型成日用到,相關嘅統計模型技術(例如係結構方程模型)亦會講到。而呢啲統計模型對於心理學、經濟學同其他社會科學都好有用[1][2][3]。
基本概念
[編輯]
喺統計學,誤差同殘差都係用嚟衡量觀察到嘅數值同某啲值之間嘅差異。不過兩者概念上有分別,抽象化啲講[註 1]:
- 誤差(英文:error)係指觀察值同「真實」數值之間爭幾遠。真實數值一般假設係存在喺總體入面嘅,但由於總體通常都無法完全觀察[註 2]所以理論上觀察值梗會存在誤差,而誤差係理論數值,嚴格嚟講無法直接知道或觀察。
- 殘差(英文:residual)係指觀察值同「模型估計出嚟嘅值」之間爭幾遠。由於模型估計值係根據樣本數據計出嚟嘅,所以殘差可以直接計算同觀察。
簡單啲講:
- 誤差 = 觀察值 − 真實值(不可觀察)
- 殘差 = 觀察值 − 估計值(可觀察)
假設依家有個統計師想估計全港男性嘅身高平均值,全港男性身高是為單變量分佈(得一個變數嘅概率分佈)而由於睇晒每個香港男人嘅身高會消耗好多人力物力,統計師只可以搵個樣本返嚟,例如 5,000 個香港男人,量度樣本嘅平均身高。喺呢個情境下:
- 對於每一個樣本個體,如果知道佢身高同總體(全港男性)平均身高之間嘅差距(譬如係 5 厘米),呢個差距就係一個誤差。但係由於統計師唔知全港男性嘅真實平均身高,所以呢啲誤差無法直接知道。
- 統計師按數據估計身高嘅分佈,對於每一個樣本個體計「根據個模型,估計佢生得幾高」,估計值同個人身高之間嘅差距,就係一個殘差,係可觀察嘅。
基於樣本平均值嘅定義,樣本所有個體嘅殘差嘅總和一定係零,所以殘差之間唔係獨立嘅。相比之下統計誤差係彼此獨立嘅[註 3]而樣本個體嘅誤差加埋一齊一般唔會係零。
喺呢個定義下,標準誤差並唔算係誤差值嘅一種,只係概念上有啲似「大致估計誤差會有幾大」[4]。
數學形式
[編輯]假設個總體跟從常態分佈 ,個分佈嘅平均值係 標準差係 ,呢兩個數值冇得直接觀察,而啲觀察值 係彼此獨立噉抽出嚟嘅,可以寫成:
而呢組數據嘅樣本平均數()為:
呢個樣本平均數本身都係隨機變數,而且佢都跟從常態分佈:
喺呢個框架底下,誤差定義係:
殘差係:
- ,即係觀察值同樣本平均數之間嘅差距。
但係因為 (總體嘅平均值)不可知,所以呢個誤差平方和實際上係冇辦法觀察到嘅。相反,殘差平方和係可以計到嘅。而將佢除以 之後,跟隨自由度為 (n - 1) 嘅卡方分佈:
呢個由 n 同 (n - 1) 自由度之間嘅差距,就係貝塞爾修正[6]嘅來源。統計師估計變異數而唔知道總體嘅平均數同變異數嗰時,必須作出呢個修正。如果總體平均數已知,噉就唔需要修正。
模型檢驗
[編輯]
喺統計上,殘差同誤差帶有唔少有用嘅資訊。統計師評估統計模型嗰陣,好多時都會留意個模型嘅殘差特性。假設依家行線性迴歸分析,正常嚟講會假設[7][8]:
- 殘差嘅總和係 0()。
- 殘差應該係隨機分佈(冇明顯規律)嘅。
- 假如假設係正確,殘差圖應該呈現隨機散佈嘅狀態。
假如建立咗模型之後,實際嘅殘差違反以上嘅假設,通常表示個模型有異常。以下係幾種常見嘅殘差異常情況:
- 殘差隨預測值增加:若果喺殘差圖中,殘差隨住預測值上升或下降,代表模型出現異分散性,誤差項嘅變異數唔一致。
- 曲線形殘差:若果殘差呈現非線性圖案,代表模型冇捕捉到實際數據內有嘅非線性關係,應考慮同個模型落非線性嘅項。
- 過適(英文:overfitting)相關問題[9]:喺過適嘅模型入面,模型盡量貼近訓練數據,連啲冇意義嘅雜音都學埋,導致殘差非常細。不過呢啲「靚」殘差只係針對訓練數據,統計師一叫個模型對新數據做預測殘差就變到好大。如果將殘差圖攞出嚟睇,可能會發現殘差冇乜隨機性、出現唔自然嘅圖案(例如過度平滑、週期性起伏),表示模型捕捉咗數據入面一啲冇意義嘅細節。
等等。
再睇
[編輯]註釋
[編輯]來源
[編輯]- ↑ Kennedy, P. (2008). A Guide to Econometrics. Wiley. p. 576. ISBN 978-1-4051-8257-7. 喺2022-05-13搵到.
- ↑ Wooldridge, J.M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning. p. 57. ISBN 978-1-337-67133-0. 喺2022-05-13搵到.
- ↑ Das, P. (2019). Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. p. 7. ISBN 978-981-329-019-8. 喺2022-05-13搵到.
- ↑ Altman, D. G. (1990). Practical statistics for medical research. Chapman and Hall/CRC.
- ↑ Wetherill, G. Barrie. (1981). Intermediate statistical methods. London: Chapman and Hall. ISBN 0-412-16440-X. OCLC 7779780.
- ↑ 英文:Bessel's correction
- ↑ 4.4 - Identifying Specific Problems Using Residual Plots, Penn State U.
- ↑ Interpreting Residual Plots to Improve Your Regression. Qualtrics. "Ideally your plot of the residuals looks like one of these:"
- ↑ (英文) 迴歸分析中嘅過適,The Analysis Factor
文獻
[編輯]畀有志攻讀統計學嘅學生睇嘅文獻:
- (英文) Elnazali, M. M., Salem, A. A., & Elghazali, T. A. (2024). Detecting overfitting by examining residuals in autoregressive models (PDF),篇文講點樣運用殘差嚟判斷手上嘅統計模型有冇過適嘅問題。亦可以睇睇自迴歸模型嘅概念。