統計自由度

自由度(其符號為 [註 1])係統計概念,籠統啲講可以想像成手上啲數據嘅值有幾自由 ,而稍為精確啲講,自由度係指手上有得完全隨機變化嘅資訊量,超越為咗建立統計模型而必要嘅資訊量,超越幾多。
自由度呢個值幾重要,噉係因為一場分析有幾能夠真正噉搵出實質存在嘅效應,其中一個重要影響因素就係自由度。因此統計使用者做親進階統計分析,往往首先要留意該場分析嘅自由度有幾高。
基本概念
[編輯]概念上,自由度可以用以下呢條式想像[1]:p 60:
用例子說明,想像而家手上有個樣本,樣本入邊有 3 隻貓,已知[註 3]佢哋嘅平均體重係 5 公斤咁多,噉
- 如果貓 A 嘅體重係 4.0 公斤,而貓 B 嘅體重係 6.0 公斤,噉貓 C 嘅體重一定會係 5.0 公斤—可以自由變化嘅數值得 2 個;
- 如果貓 A 嘅體重係 4.5 公斤,而貓 B 嘅體重係 7.0 公斤,噉貓 C 嘅體重一定會係 3.5 公斤—可以自由變化嘅數值得 2 個;
... 如此類推。噉想像而家樣本有 50 隻貓,研究者想計呢 50 隻貓嘅平均體重,假設呢 50 隻貓嘅體重係彼此之間獨立[註 4]嘅,要估計嘅統計量有 1 個(平均值),自由度就係
亦即係話[註 5]統計自由度可以大致想像成有幾多個數值可以自由噉變化[1]。舉一啲簡單嘅統計計算做例子:計平均值嗰陣,唔洗事先知道任何資訊,手上嗰拃數值係 n 個自由取值嘅值,當中 n 為樣本大細;而計算標準差嗰陣,自由度等如 n-1 ,噉係因為計算標準差要用樣本嘅平均值[註 6],引入咗一個約束。[2]
喺統計工作上,計平均值係最簡單嘅做法之一。而即使係進階嘅統計測試,其自由度依然可以用同樣嘅方法嚟諗。例如想像依家要做線性迴歸分析,個迴歸模型有 k 咁多個自變數,而樣本大細則係 n,統計自由度就係
當中 n 要減 (k + 1) 而非減 k,噉係因為個迴歸模型嘅截距都係一個要估計嘅參數。
點解重要
[編輯]喺廿一世紀初嘅應用中,自由度係一個重要數值。喺社科同醫學上,研究者成日會做統計分析,要解答好多問題,例如—
等等。呢啲分析基本上實要睇是次分析嘅自由度有幾高。如果某場分析嘅自由度過低,就表示相對於想要估計嘅參數嘅數量,手上嘅資訊量較少,而呢點就表示對於是次測試係咪真係能夠探測到實質存在嘅效果,分析者會存有疑慮,而且自由度亦會影響假說檢定中使用嘅 p 值。簡化講嘅話,如果某次統計分析自由度高,就表示分析者手上有好多多餘嘅資訊,噉例如估計迴歸模型嘅參數嗰陣,就有多啲唔同個案嘅值可以攞嚟代入條式度,有得代多幾次嚟驗證個模型係咪真係做到準確預測。
統計自由度嘅計法就噉睇好似好簡單。喺諸如計平均值或者線性迴歸分析等嘅簡單分析中,自由度單憑一兩個數值就計到出嚟,但喺較進階嘅統計模型入邊,例如結構方程式模型,統計模型可能閒閒哋有成幾十個參數[註 7],可能會要求樣本坐底有 200 個個體至算係有充足自由度[3]。
睇睇
[編輯]註釋
[編輯]引述
[編輯]- ↑ 1.0 1.1 Urdan, T. C. (2016). Statistics in plain English. Routledge.
- ↑ 對於計算標準差應該用 n 抑或係 n-1 做分母,統計學界有一定爭議,例如:
Estimating variance: should I use n or n - 1? The answer is not what you think,佢哋噉講:"The idea is that a little bias can reduce the error of estimation if it also decreases substantially the variance of the estimator." - ↑ Julious, S. A. (2005). Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics: The Journal of Applied Statistics in the Pharmaceutical Industry, 4(4), 287-291.
拎
[編輯]- (英文) 統計自由度解釋咗:方程式同例子,投資百科
- (英文) 統計學講嘅自由度,Statistics by Jims.