降維

出自維基百科,自由嘅百科全書
主成分分析嘅圖解;幅圖每一點代表一個個案,兩個箭咀代表兩個成份,長啲嗰個箭咀係比較重要嗰個成份。

降維英文dimension reduction)喺統計學機械學習上係指減少手上考慮嘅隨機變數嘅數量嘅過程。常見嘅方法有主成份分析

基本諗頭[編輯]

睇埋:Dataset

降維係指減低手上拃 datadei1 taa4)入面隨機變數嘅數量,簡單例子可以想像而家要分析 1,000 隻蝴蝶,手上嘅 data 描述

蝴蝶 0001 翼係咩形狀、色水係點、有乜花紋...
蝴蝶 0002 翼係咩形狀、色水係點、有乜花紋...
蝴蝶 0003 翼係咩形狀、色水係點、有乜花紋...

要做降維嘅話,就可能係按呢啲 data 將啲蝴蝶分做唔同嘅物種,噉就變成

蝴蝶 0001 屬於物種 A / 蝴蝶 0002 屬於物種 B / 蝴蝶 0003 屬於物種 C...

—令到啲 data 嘅維度下降咗,用日常用語講即係令啲 data 易睇咗。做研究嗰陣,降維好多時都能夠令到啲 data 更易處理。

主成份分析[編輯]

內文:主成份分析

主成份分析(principal component analysis,PCA)係一種常用嚟判斷「邊個變數重要啲」嘅統計分析方法。想像而家又有一柞個案,每個個案喺兩個變數上都有其數值(睇附圖),跟住可以畫兩條線(附圖嗰兩個箭咀),兩條線分別都可以用一條包含 嘅算式表達,當中由圖當中可以清楚睇到,長箭咀嗰條線成功噉捕捉更多嘅變異數-亦即係話長箭咀嗰條線所代表嗰個「成份」(component)比較能夠用嚟分辨啲個案,所以比較「重要」[1]

舉個例說明,假想有柞新數據,啲個案係一隻隻動物,而每個個案一係就係隻老鼠,一係就係隻大笨象 係隻動物嘅大細,而 係隻動物嘅色水;假設柞數據做咗標準化,用同一樣嘅單位表達 ,喺呢柞數據入面,沿「色水」嘅變異數好細(個箭咀會好短),因為老鼠同大笨象都係灰灰啡啡噉色嘅動物,但沿「大細」嘅變異數就會大得好交關(個箭咀會好長),因為老鼠同大笨象喺體型上差好遠-用 PCA 嘅話,會得出「用 作為重心線做分辨有用啲」嘅結果[2]

喺最簡單嗰種情況下,一個做主成份分析嘅演算法大致上係噉[1]

  1. 攞數據;
  2. 畫條線出嚟,條線有條式,而條式包含數據當中有嘅變數
  3. 計出沿呢條線嘅變異數有幾多;
  4. 改變吓條線嘅參數(parameter);
  5. 再計出沿條新線嘅變異數有幾多;
  6. 一路做步驟 4 同 5,做嗮所有指定咗嘅可能性,最後俾具有最大變異數嗰條線做個演算法嘅輸出(最能夠用嚟分辨啲個案嗰條線)。

聚類分析[編輯]

內文:聚類分析

線性判別[編輯]

內文:線性判別分析

睇埋[編輯]

[編輯]

  1. 1.0 1.1 Jolliffe, I. T. (1986). Principal Component Analysis. Springer Series in Statistics. Springer-Verlag.
  2. Knowledge Representation in Neural Networks 互聯網檔案館歸檔,歸檔日期2019年3月2號,. (PDF).