混淆變數

喺統計分析上,混淆變數,又叫干擾變數,英文叫 confounding ,係指某個同時對自變數同應變數產生影響嘅第三變數,研究者即使搵到自變數同應變數之間真係有關係,都唔能夠肯定兩者之間真係有預想中嗰種關係,抑或係受到混淆變數影響。
喺社會科學當中,混淆變數幾受關注,噉係因為若果研究者唔理混淆變數嘅影響,有可能令到分析出嘅結果,有別於真實嘅變數間關係,甚至連正負方向都唔同。比如係對辛普森悖論嘅分析就表明,如果研究者唔考慮埋混淆變數嘅效應,可能會誤以為實際上成正相關嘅關係係成負相關。若果制定政策嘅人按照錯誤嘅研究結果嚟行事,就有嘥資源之虞。
基本概論
[編輯]抽象化啲講,設依家有一個自變數同一個應變數,研究者想知佢哋之間有乜嘢關係,例如佢哋之間成正相關定負相關。混淆變數就係講緊有某個「第三者」變數,佢嘅存在會影響自變數同應變數,但係研究者喺其模型裡便冇考慮埋呢個第三變數,於是就搞到得出嘅結果做唔到正確反映變數間嘅真實關係[1][2]。
流行病學例子:
- 觀察性質嘅研究發現,飲咖啡飲得多嘅人,患肺癌嘅比率較高。結果就噉睇,似乎係顯示咖啡會增加患肺癌嘅風險。但實際上,食煙嘅習慣會同時影響咖啡嘅消費同埋肺癌風險,會食煙嘅人傾向會飲較多咖啡。如果分析嗰時冇控制食煙嘅因素就會造成混淆。變數 1 係飲咖啡,變數 2 係患肺癌嘅機率,而第三者變數就係食煙[1]。
教育學例子:
- 研究顯示,參加課後補習嘅學生,平均成績比較好。齋睇呢個關聯,可能會推斷話補習能夠直接提升成績。不過,學生喺屋企得到嘅支援可能會同時影響佢哋參加補習嘅機會,又會影響其成績。變數 1 係補習,變數 2 係成績,而第三者變數則係家庭環境。
社會學例子:
- 有研究發現,社區內鄰里互相信任程度較高嘅地方,犯罪率普遍低啲。一睇呢個關聯,啲人好可能會即刻諗住信任可以減低犯罪率。之不過,社區喺經濟上嘅穩定程度可能同時影響居民之間嘅信任,又會影響犯罪率。變數 1 係信任程度,變數 2 係犯罪率,而第三者變數則係經濟穩定程度。
圖像表述
[編輯]用圖像化嘅方法解釋,好似係下面呢幅圖噉,就展示咗

即使係性別以外嘅干擾變數,都可以用同樣道理嚟諗,下圖嘅 gif 顯示對 X 同 Y 之間嘅關係嘅分析,當中 Korrelation 係統計相關噉解,如果將所有數據點擺埋一齊睇,所有點畫做黑色,會得出兩個變數之間成 -0.74 嘅負相關,但若果將啲數據點分做五組,五組唔同色,再分別噉做分析,會發覺 X 同 Y 之間成幾強嘅正相關。

應對方法
[編輯]喺統計學上,有好多方法可以應付 confounding 嘅問題[4]
即使數據已經收咗返嚟,統計師依然大把方法可以處理 confounding :
- 分層分析 (暫譯) [註 1]:將啲受試者按年齡同性別等嘅因子分組,再同每組個別做分析。可以睇睇 CMH 統計量嘅概念。
- 多變量嘅模型:可以用嚟處理干擾變數可能數值多[註 2]嘅情況。
- 控制變數:喺迴歸模型等嘅統計模型中,將可能嘅干擾變數加落個模型度做控制變數[5]。
- ANCOVA
分層分析嘅例子:譬如依家研究某隻藥對血壓有乜嘢影響,若果男人同女人對隻藥有唔同反應,性別就有可能成為混淆變數;噉研究者做分析嗰時,可以先行將受試者分男子組同女子組,然後分別喺每一組入便做統計分析睇下服藥對男人嘅血壓有咩影響,然後再睇下服藥對女人嘅血壓有咩影響;若果兩組分開分析得出嘅結果無異,噉就較有信心話,呢隻藥嘅效果唔會受性別影響。
睇埋
[編輯]註釋
[編輯]引咗
[編輯]- ↑ 1.0 1.1 Pourhoseingholi, M.A., Baghestani, A.R. and Vahedi, M., 2012. How to control confounding effects by statistical analysis. Gastroenterology and hepatology from bed to bench, 5(2), p.79,呢篇文由流行病學嘅角度,入門式噉講解咩謂之 confounding 。
- ↑ Pearl, J., (2009). Simpson's Paradox, Confounding, and Collapsibility. In Causality: Models, Reasoning and Inference (2nd ed.). New York : Cambridge University Press.
- ↑ Clifford H. Wagner (February 1982). "Simpson's Paradox in Real Life". The American Statistician. 36 (1): 46–48. doi:10.2307/2684093. JSTOR 2684093.
- ↑ Mayrent SL, editor. Epidemiology in Medicine. New York: Lippincott Williams & Wilkins; 1987.
- ↑ Maldonado G, Greenland S. Simulation study of cofounder-selection strategies. Compares a number of data based strategies for selecting variables to include in regression models when the aim is to control confounding. Am J Epidemiol. 1993;138:923–36.