虛擬變數
外表
虛擬變數(參照英文:dummy variable)係統計學常用嘅一種變數,通常係用嚟表示分類變數[1]中嘅唔同類別。虛擬變數一般得嗰兩個可能值,通常以 0 同 1 代表冇呢個特徵或者有呢個特徵。[2]
建立迴歸模型嘅時候,如果自變數入面有某啲質性資料,例如性別、居住地區、教育程度等等,就可以用虛擬變數將呢啲質性資料數量化,方便分析。每一個類別會對應一個虛擬變數,而透過控制啲虛擬變數,可以研究唔同類別對應變數有咩影響。
概論
[編輯]即係話研究者想知道兩個自變數能唔能夠預測個應變數嘅值,佢哋用迴歸模型:
解讀:
- :入息每加一千,平均使多咗幾多錢買衫(其他變數不變)。
- :反映係咪學生(得兩個可能數值:係同唔係)有幾能夠影響個人平均使幾多錢買衫。
簡單嚟講,若果某個變數本身係「類別」,但研究者要喺迴歸模型入面用佢,就要將佢轉成數值形式,而虛擬變數就係將類別編碼成 0 或 1 噉嘅做法。
一般嚟講,設定虛擬變數嗰陣,研究者會將最常見嗰個類別設做 0。
參見
[編輯]引咗
[編輯]- ↑ 分類變數(categorical variable)
- ↑ Draper, N.R.; Smith, H. (1998) Applied Regression Analysis, Wiley. ISBN 0-471-17082-8 (Chapter 14)
- ↑ Suits, Daniel B. (1957). "Use of Dummy Variables in Regression Equations". Journal of the American Statistical Association. 52 (280): 548–551. JSTOR 2281705.
拎
[編輯]- Maathuis, Marloes (2007). "Chapter 7: Dummy variable regression" (PDF). Stat 423: Applied Regression and Analysis of Variance. 原著 (PDF)喺December 16, 2011歸檔.