偏度

偏度(參見英文:skewness)係一個統計量,用嚟描述概率分佈有幾偏離對稱,即係用嚟量度某組數據,或者某個隨機變數嘅分佈情況係點,衡量佢嘅左右兩邊尾係咪其中一邊拉長咗噉嘅樣。理論上,常態分佈(鐘形曲線)係完全對稱嘅,偏度係 0。
有好多統計分析方法,都假設咗手上嘅變數呈常態分佈,而假如某個概率分佈嘅偏度高得滯,就表示分析者唔可以假設佢係常態分佈。因此統計師做分析前,好多時都會
背景概念
[編輯]常態分佈係一種常用嘅概率分佈,以平均數為中心、左右對稱、單峰,形狀取決於平均數同標準差。用日常用語講,若果統計師話某變數係呈常態分佈嘅,意思即係話睇勻唔同個案喺呢個變數上嘅值,多數個案喺呢個變數上數值都接近平均,離平均愈遠就愈少見,而且左右對稱。譬如智商噉,多數人嘅智商都喺 100 分附近,離 100 分愈遠嘅值,出現嘅機率就愈低,無論講緊極高值定係極低值都係噉[1]。
常態分佈畫做圖就會出所謂嘅鐘形曲線:X 軸係研究緊嗰個數嘅唔同數值而 Y 軸就係反映個數每個數值出現嘅機率。除咗智商之外,諸如身高同體重等嘅好多特徵,佢哋嘅分佈都可以用常態分佈嚟模擬。

偏度計算
[編輯]偏度就係有關常態分佈嘅一種指標,可以用嚟量度手上數據嘅分佈有幾接近常態。最簡單嗰種計法如下[3]:
當中 係一個預期值,反映 X(啲數據個案)平均嚟講離平均值幾遠。條式個分子用咗三次方而標準差 σ 只可以係正數,所以出嗰個偏度值可正可負-可以有正偏同負偏之分。若果偏度係正數,就表示有好多個案嘅值大過平均 μ,而若果偏度係負數,就表示有好多個案嘅值細過平均。μ 同 σ 都係三次方,所以條式消除咗單位,令到偏度成為無單位嘅指標。
偏度喺樣本層面可以用樣本偏度去估:

有明顯偏度嘅分佈可以分兩大種[4]:
- 正偏:偏度 > 0,有好多數值高過平均值;右尾較長,極端大值較多或者影響較大,數據較集中喺左邊。
- 負偏:偏度 < 0,有好多數值低過平均值;左尾較長,極端細值較多或者影響較大,數據較集中喺右邊。
零偏度唔等於一定係常態:偏度為 0 代表整體唔會偏向左或者右,但有啲非正態分佈仍然可以達到零偏度,因此,研究者仲有必要睇埋其他指標先可以做判斷,最起碼就要睇個分佈嘅峰度先。
影響平均
[編輯]偏度會對分佈嘅平均數(mean)、中位數(median)同埋眾數(mode)造成具體影響[5]。
- 如果某個分佈係正偏,即係話右尾較長,大數值嘅極端值較多,個分佈會向右「拖長」咗。喺呢種情況下:眾數通常會喺最左邊個峰位,中位數喺中間,而平均數就會俾右邊啲極端大值拉高,喺最右邊,形成眾數 < 中位數 < 平均數。
- 假若某個分佈係負偏,即係話左尾較長,細數值嘅極端值較多,分佈向左「拖長」咗。呢種情況下:眾數通常會喺右邊,中位數喺中間,平均數會俾左邊啲極端細值拉低,喺最左邊,形成一種情況,就係平均數 < 中位數 < 眾數。
- 最後,如果個分佈係好似常態分佈噉對稱嘅,三個平均指標就會相等:平均數 = 中位數 = 眾數。
以下嘅英文圖解,表達咗偏度點樣影響個分佈嘅各平均指標:

睇埋
[編輯]引咗
[編輯]- ↑ Cronbach, L. J. (1949). Essentials of psychological testing, 2nd ed. Harper.
- ↑ Bryc, Wlodzimierz (1995). The Normal Distribution: Characterizations with Applications. Springer-Verlag.
- ↑ Pearson's moment coefficient of skewness 互聯網檔案館嘅歸檔,歸檔日期2023年6月4號,., FXSolver.com
- ↑ Illowsky, Barbara; Dean, Susan (2020-03-27). "2.6 Skewness and the Mean, Median, and Mode – Statistics". OpenStax (英文). 喺2022-12-21搵到.
- ↑ von Hippel, Paul T. (2005). "Mean, Median, and Skew: Correcting a Textbook Rule". Journal of Statistics Education. 13 (2). 原著喺2016-02-20歸檔.