跳去內容

虛擬變數

出自維基百科,自由嘅百科全書

虛擬變數(參照英文dummy variable)係統計學常用嘅一種變數,通常係用嚟表示分類變數[1]中嘅唔同類別。虛擬變數一般得嗰兩個可能值,通常以 0 同 1 代表冇呢個特徵或者有呢個特徵[2]

建立迴歸模型嘅時候,如果自變數入面有某啲質性資料,例如性別、居住地區教育程度等等,就可以用虛擬變數將呢啲質性資料數量化,方便分析。每一個類別會對應一個虛擬變數,而透過控制啲虛擬變數,可以研究唔同類別對應變數有咩影響。

概論

[編輯]

設依家要做經濟學或者市場學方面嘅研究,[3]

  • 應變數 :受訪者 每月買衫開支(以港幣計)
  • 連續自變數 = 每月嘅入息(以千港幣計)
  • 虛擬自變數:(係學生)/ (唔係學生)

即係話研究者想知道兩個自變數能唔能夠預測個應變數嘅值,佢哋用迴歸模型

解讀:

  • :入息每加一千,平均使多咗幾多錢買衫(其他變數不變)。
  • :反映係咪學生(得兩個可能數值:唔係)有幾能夠影響個人平均使幾多錢買衫。

簡單嚟講,若果某個變數本身係「類別」,但研究者要喺迴歸模型入面用佢,就要將佢轉成數值形式,而虛擬變數就係將類別編碼成 0 或 1 噉嘅做法。

一般嚟講,設定虛擬變數嗰陣,研究者會將最常見嗰個類別設做 0。

參見

[編輯]

引咗

[編輯]
  1. 分類變數(categorical variable)
  2. Draper, N.R.; Smith, H. (1998) Applied Regression Analysis, Wiley. ISBN 0-471-17082-8 (Chapter 14)
  3. Suits, Daniel B. (1957). "Use of Dummy Variables in Regression Equations". Journal of the American Statistical Association. 52 (280): 548–551. JSTOR 2281705.

[編輯]