統計學嘅誤用

統計學上嘅數據同分析方法對科研有巨大幫助,但又時不時會俾人誤用。舉附圖嚟說明,同一樣嘅統計數據可以用唔同嘅方法呈現,而唔同嘅呈現方法可以攞嚟誤導人,好似係附圖嗰兩幅棒形圖噉,兩幅圖表達嘅數據一樣,都係表達緊一間公司喺二〇一〇同二〇一一年嘅銷售量(Y 軸係銷售量,X 軸係年份)但係兩幅圖嘅原點唔同-左圖嘅 Y 軸係以 36 做起點,右圖嘅以 0 做起點,令到前者望落好似賺多咗好多錢噉。
有人就曾經噉講[1]:
(粵文翻譯)世上有三種大話:大話、抵死嘅大話、同埋統計數字。
做科研嘅人,好多時都要應付呢啲統計學嘅誤用。
使用
[編輯]
想像有人寫報告噉樣講:
「我哋訪問咗一班曾經玩過俄羅斯輪盤嘅人,發現佢哋當中 100% 嘅人玩完之後仲有命。結論:俄羅斯輪盤好安全,係一種有益身心嘅遊戲。」
——玩過俄羅斯輪盤嘅人好多都死咗,死咗嗰啲唔會訪問到[註 1]。
好多人呈現同解讀統計數據嗰陣,都會特登用對自己有利嘅方法嚟誤導人,而美國作家達利哈夫嘅書《點樣用統計學講大話》[2]就揭露咗好多生意人同政治家點樣用類似詭計嚟呃人[3]。
做研究嘅人又有可能 p-hack:例如係漁翁撒網噉將數據庫入便嘅自變數逐個逐個睇晒佢,睇吓有邊個得到統計顯著嘅結果,然後寫報告嗰陣淨係報導顯著嗰啲結果;研究者又可以係將同一場分析做幾次,每次都加入或者剔除其中一啲變數,然後淨係報告「有價值」(例如樣眼、可以炒作)嗰啲結果。由統計學角度睇,呢啲做法會令結果有誤導性,佢實際上冇效果研究者都可以拗話佢有[4]。
防範
[編輯]要預防統計學嘅誤用有好多方法,包括要用啱嘅圖表等等[5]。而且喺將用統計得出嘅結論普遍化嗰陣,要留意佢會唔會超出咗個樣本代表到嘅範圍,只有個當樣本可以代表到個總體嗰陣,統計方法得出嘅結果先至算係可信、精確嘅,例如係一份用白人做樣本嘅醫學研究得出嘅結論未必啱唐人用[6]。
要避免 p-hack 相關嘅問題,研究人員可以事前講明要用咩分析方法,而且跟足計劃做,唔好諗住想搵顯著結果就走去試其他分析[7],而且佢哋要將做過咩分析同埋啲結果全部如實報晒出嚟[8]。
睇埋
[編輯]註釋
[編輯]引咗
[編輯]- ↑ 原版英文:"There are three kinds of lies: lies, damned lies, and statistics."
- ↑ How to lie with statistic
- ↑ Huff, D. (1954). How to Lie With Statistics, WW Norton & Company, Inc. New York, NY. ISBN 978-0-393-31072-6
- ↑ Laurance WF, Useche DC, Laurance SG, Bradshaw CJA (2013) Predicting publication success for biologists. Bioscience 63: 817-823.
- ↑ Drennan, R. D. Statistics in archaeology. (Edit) Pearsall, Deborah M. Encyclopedia of Archaeology. Elsevier Inc. 2008: 2093–2100.
- ↑ Cohen, J. B. Misuse of Statistics. Journal of the American Statistical Association (JSTOR). 1938年12月, 33 (204): 657-674.
- ↑ John LK, Loewenstein G, Prelec D (2012) Measuring the prevalence of questionable research practices with incentives for truth telling. Psychol Sci 23: 524-532. pmid:22508865
- ↑ Hutton JL, Williamson PR (2000) Bias in meta-analysis due to outcome variable selection within studies. J R Stat Soc Ser C Appl Stat 49: 359-370.