降維
降維(英文:dimension reduction)喺統計學同機械學習上係指減少手上考慮嘅隨機變數嘅數量嘅過程。常見嘅方法有主成份分析。
基本諗頭[編輯]
睇埋:Dataset
降維係指減低手上拃 data(dei1 taa4)入面隨機變數嘅數量,簡單例子可以想像而家要分析 1,000 隻蝴蝶,手上嘅 data 描述
- 蝴蝶 0001 翼係咩形狀、色水係點、有乜花紋...
- 蝴蝶 0002 翼係咩形狀、色水係點、有乜花紋...
- 蝴蝶 0003 翼係咩形狀、色水係點、有乜花紋...
要做降維嘅話,就可能係按呢啲 data 將啲蝴蝶分做唔同嘅物種,噉就變成
- 蝴蝶 0001 屬於物種 A / 蝴蝶 0002 屬於物種 B / 蝴蝶 0003 屬於物種 C...
—令到啲 data 嘅維度下降咗,用日常用語講即係令啲 data 易睇咗。做研究嗰陣,降維好多時都能夠令到啲 data 更易處理。
主成份分析[編輯]
内文:主成份分析
主成份分析(principal component analysis,PCA)係一種常用嚟判斷「邊個變數重要啲」嘅統計分析方法。想像而家又有一柞個案,每個個案喺兩個變數上都有其數值(睇附圖),跟住可以畫兩條線(附圖嗰兩個箭咀),兩條線分別都可以用一條包含 同 嘅算式表達,當中由圖當中可以清楚睇到,長箭咀嗰條線成功噉捕捉更多嘅變異數-亦即係話長箭咀嗰條線所代表嗰個「成份」(component)比較能夠用嚟分辨啲個案,所以比較「重要」[1]。
舉個例說明,假想有柞新數據,啲個案係一隻隻動物,而每個個案一係就係隻老鼠,一係就係隻大笨象, 係隻動物嘅大細,而 係隻動物嘅色水;假設柞數據做咗標準化,用同一樣嘅單位表達 同 ,喺呢柞數據入面,沿「色水」嘅變異數好細(個箭咀會好短),因為老鼠同大笨象都係灰灰啡啡噉色嘅動物,但沿「大細」嘅變異數就會大得好交關(個箭咀會好長),因為老鼠同大笨象喺體型上差好遠-用 PCA 嘅話,會得出「用 作為重心線做分辨有用啲」嘅結果[2]。
喺最簡單嗰種情況下,一個做主成份分析嘅演算法大致上係噉[1]:
- 攞數據;
- 畫條線出嚟,條線有條式,而條式包含數據當中有嘅變數;
- 計出沿呢條線嘅變異數有幾多;
- 改變吓條線嘅參數(parameter);
- 再計出沿條新線嘅變異數有幾多;
- 一路做步驟 4 同 5,做嗮所有指定咗嘅可能性,最後俾具有最大變異數嗰條線做個演算法嘅輸出(最能夠用嚟分辨啲個案嗰條線)。
聚類分析[編輯]
内文:聚類分析
線性判別[編輯]
内文:線性判別分析