跳去內容

異常值

出自維基百科,自由嘅百科全書
邁克生-莫雷實驗所得數據畫出嚟嘅箱形圖,中間嗰欄有四個異常值,而第一欄(最左)有一個異常值。

異常值英文outlier),中文又叫離群值,係統計學上嘅概念,指某個數據點同第啲數據比起嚟「唔尋常」,通常係講緊佢嘅數值距離平均水平或者常見分佈好遠。異常值出現嘅成因有好多,可能源自量度錯誤、入數據嗰陣入錯、樣本特性,亦有可能代表真實但稀有嘅現象[1][2]

基本概論

[編輯]
睇埋:數據

異常值嘅幾個例子:

  • 想像而家測量成年人身高,大部分數據集中喺 160 至 190 厘米之間,但搵到有個數值係 250 厘米。
  • 城市氣溫通常介乎喺攝氏 10 至 35 度之間,但某日紀錄到攝氏零下 15 度嘅氣溫。
  • 某次考試,啲學生嘅成績分佈大多喺 50 - 70 分之間,但有個學生考到 100 分。

統計工作上,某啲情況下可能需要對異常值做特別處理。

應對方法

[編輯]

統計學中有幾種方法嚟識別異常值。統計師齋靠留意敘述統計指標,已經可以留意到異常值嘅存在。最簡單嘅可以係留意吓數據數值嘅全距同埋四分位距,睇吓呢啲值會唔會離咗群。而且離群值亦往往會令到標準差數值異常咁大[3];離群值仲會令到平均值扭曲,假如研究者憑經驗知道該變數嘅平均值合理水平喺邊,亦有可能透過平均值嚟判斷係咪有離群值。

喺實際應用上,研究者好多時都想排除異常值先至做分析。噉係因為諸如結構方程模型聚類分析等嘅統計分析方法,都容易受到異常值影響而結果出現扭曲。假如研究緊嗰個變數常態分佈,研究者可以用所謂嘅三 σ 法則[註 1],意思即係話數值同平均值相差超過三個標準差[4],就一律當係異常值,研究者會將佢哋排除,或者做數值轉換將佢哋變做等同離平均三個標準差咁遠嘅值,排除或轉換過後先郁手做分析[5]

不過,排除異常值嘅做法都有一定爭議性,例如喺某啲情況下異常值可能反映緊真實但少有嘅現象,攞走呢啲數值會對分析結果嘅有效度造成負面影響。因此,假若某個數值唔係明顯填錯或者入錯數,研究者都有誘因 kip1 住。明顯填錯嘅例子:問卷調查問受訪者嘅年齡,大部份答 20 至 70 歲之間,但有一份紀錄係 250 歲,呢個好大機會係入錯或填錯。可能係極端但真實嘅例子:假想長跑比賽嘅完賽時間,大部分參加者用咗 3 至 6 個鐘跑完,但有某位運動員只需要 2 小時 10 分,呢個數值係極端,但有可能係真實值,未必可以隨便刪除[6]

參見

[編輯]

引咗

[編輯]
  1. Grubbs, F. E. (February 1969). "Procedures for detecting outlying observations in samples". Technometrics. 11 (1): 1–21. doi:10.1080/00401706.1969.10490657. An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.
  2. Maddala, G. S. (1992). "Outliers". Introduction to Econometrics (第2版). New York: MacMillan. pp. 89. ISBN 978-0-02-374545-4. An outlier is an observation that is far removed from the rest of the observations.
  3. Tukey, John W (1977). Exploratory Data Analysis. Addison-Wesley. ISBN 978-0-201-07616-5. OCLC 3058187.
  4. Brydges, C.R., Ozolnieks, K.L. and Roberts, G., 2017. Working memory–not processing speed–mediates fluid intelligence deficits associated with attention deficit/hyperactivity disorder symptoms. Journal of neuropsychology, 11(3), pp.362-377,佢哋 p. 367 嗰度有講:"Specifically, a test score was considered a univariate outlier if it was >3 SDs from the between-subjects variable mean, and was replaced with a value that was 3 SDs from the mean."
  5. Removing Outliers. Understanding How and What behind the Magic. Medium.
  6. Outliers: To Drop or Not to Drop

註釋

[編輯]
  1. 當中 σ 讀音近似粵拼sik1 maa4,係標準差數學符號

外拎

[編輯]