跳去內容

獨立成份分析

出自維基百科,自由嘅百科全書
用 ICA 嚟處理影片:最頂嗰行係四段原先影片,中間嗰行係四段混合影片用嚟做演算法嘅輸入,最底嗰行係四段重構嘅影片。

獨立成份分析(參見英文ICA)係統計學訊號處理上嘅一種技術,用嚟將一個由多個變數影響嘅訊號分解做互相加埋一齊嘅子成份。例如經典嘅雞尾酒會問題,就係講緊想要由多支咪高峰收到嘅混合聲音訊號之中,分離出每一個講話者本來把聲。

形式化噉講,ICA 假設觀察到嘅數據係由幾個互相無統計依賴性嘅來源訊號線性混合而成。分析嘅目標係估計出一個解混矩陣 W,計出

當中 s 同 x 係向量,前者為來源訊號而後者就係實際探測到嘅訊號。

呢種分析喺多個領域上都有用,例如神經科學上做神經造影噉,諸如腦電圖功能磁振造影等嘅分析方法,都會運用呢種分析,篩走手上數據入便嘅雜訊

背景概念

[編輯]
内文:雜訊

用各種架生探測訊號嗰陣,時會遇到一個問題:好多時,接收到嘅訊號係由多個子成份疊加埋一齊而成嘅,除咗想要嘅訊號之外仲包含咗好多唔想要嘅雜訊

呢個效應可以用雞尾酒會效應嘅概念嚟諗:想像阿明身處喺一個嘈雜嘅環境,例如佢要出席酒會,阿明周圍嘅出席者喺度各自傾偈,同時佢要聽另一位出席者阿偉講嘢,喺任一時間點,佢對耳仔接收到嘅都係由好多個唔同子成份疊加組成嘅—有阿偉把聲、出席者 A 把聲、出席者 B 把聲、出席者 C 把聲... 等,阿明聽阿偉講嘢,想要嘅訊號係阿偉把聲,而其餘嘅聲就係雜訊。但係單憑日常觀察已經可知,人腦有能力由咁多子成份之中抽一個出嚟集中處理,即係阿明能夠由咁混亂嘅眾多訊號之中抽一個出嚟[1][2]

喺概念上,獨立成份分析做嘅就係攞住一啲混雜嘅訊號,從中搵返來源訊號出嚟。


ICA 做嘅嘢,可以用類似噉嘅干涉圖嚟想像:最頂嘅線,係佢底下嗰兩條波動加埋一齊而成嘅。ICA 牽涉到攞住最頂嘅線,將佢拆開變返做加埋一齊形成佢嘅線。


形式表達

[編輯]

形式化啲講,獨立成份分析個諗頭如下。

想像擺兩個人喺一間房裡便,間房同外界隔絕,冇外界嘅聲可以進入。然後擺兩個咪高峰喺房內兩個唔同位置,叫兩個人分別開始講嘢,兩個咪高峰會分別量度到兩個會隨時間變化嘅訊號,叫佢哋做 x1 同 x2 而 t 代表時間,每一個量度到嘅訊號,都係兩個來源疊加埋而成嘅結果,可以噉樣表達[3]

當中兩個 s 為兩個訊號來源(講嘢者嘅聲)而啲 a 係權重[註 1]。權重值可以受好多因素影響,譬如係咪高峰同講嘢者之間嘅距離有幾遠。研究者好可能希望能夠做到以下嘅嘢:

齋靠接收到嘅訊號 x1 同 x2,搵返兩個原先嘅訊號(s1 同 s2)出嚟。

獨立成份分析包含一系列嘅統計做法同埋演算法,能夠由實際度到、充滿雜訊嘅訊號嗰度,搵返原來嘅訊號出嚟。電腦好多時會對來源訊號作出一啲假設,例如假設佢哋會以線性嘅方式砌埋一齊形成最終訊號... 等等。假若呢啲假設係有返咁上下合理,獨立成份分析就能夠達致搵出原先嘅訊號。

縱使來源訊號嘅數量有三個或以上,都可以用同樣嘅道理嚟諗。以矩陣向量方式表達嘅話,可以得出噉嘅獨立成份模型

當中 為表示眾訊號同眾來源嘅向量,而 為表示權重嘅矩陣。同樣嘅資訊,可以用加總嚟表達[3]

由於 為已知,假如研究者能夠搵出 係乜,佢就可以得知其逆轉矩陣 ,掉一掉條式:

能夠由數據嗰度計返 嘅值出嚟[註 2]

事前準備

[編輯]

建立獨立成份模型嘅時候,分析者時會作以下呢啲假設。實際郁手做獨立成份分析前,要 checkcek1 吓呢啲假設係咪成立[4]

  • 獨立:唔同來源之間無統計依賴性[註 3],好似想像中雜訊同真實訊號間嘅關係噉。呢點係 ICA 嘅根本假設[5]:2.1,至於統計依賴性呢樣嘢要點衡量,可以睇吓相互資訊最小化嘅諗法。
  • 分佈:ICA 假設啲來源訊號唔跟常態分佈[6],不過唔會假設佢哋跟咩特定嘅分佈[註 4][註 5]。有關要點樣評估某啲變數係咪呈常態,可以睇睇峰度等嘅概念;資訊理論上嘅概念亦可以用嚟評估分佈有幾呈常態,噉係由於假設方差平均值恆定,資訊熵喺常態分佈下會最大化,詳情可以睇睇資訊負熵嘅概念[7]
  • 線性:唔同來源嘅訊號結合嗰陣,以線性組合方式結合。
  • 實際訊號嘅數量:實際訊號嘅數量最少要有 N 個,當中 N 為來源嘅數量。

由呢度可見,獨立成份分析同因素分析有明顯差異:兩種分析法都係講緊潛在變數,不過因素分析唔會假設潛在變數彼此無統計依賴性,而且容許啲潛在變數跟常態分佈[8]

此外,郁手做分析前,亦有必要對數據做一啲事前處理,確保數據適合用獨立成份分析嚟行[9]:包括要做中心化,即係同每個變數,計其減咗平均值之後嘅值,令到所有變數嘅期望值變成零,噉樣做嘅目的是為咗簡化計算[註 6];亦要做白化,即係攞住度到嘅數值做主成分分析(PCA)或者類似嘅分析,經過線性變換,確保呢啲成份之間冇統計相關等。呢兩個步驟加埋,有助確保獨立成份分析或其他統計演算法穩定運行。

模型估計

[編輯]

要估計模型,研究者必定要選定個模型入便有幾多個獨立成份[10]。要決定呢個數值係幾多,研究者可以做吓文獻綜述,跟先前研究用嘅值,或者按理論推測獨立成份有幾多個。佢哋亦可以做試驗,試幾個可能嘅值,再睇吓結果係點。

做分析嘅人要估計模型,成日都會用最大似然估計等嘅方法。

應用研究

[編輯]
睇埋:訊號處理

有好多訊號處理相關嘅應用都會使用獨立成份分析嚟清除雜訊。雜訊泛指一啲唔想要嘅訊號。

譬如係腦電圖(EEG)同功能磁振造影(fMRI)等嘅神經造影技術噉。神經造影技術係一系列技術,能夠製作影像嚟描述腦部嘅活動,係腦神經學神經內科等學科嘅重要工具。現實表明,神經造影錄到嘅訊號通常都唔係單純嚟自真正嘅腦活動,而係會摻雜咗好多雜訊,諸如係斬眼同埋個頭郁嚟郁去等,都會擾亂神經造影量度到嘅訊號,有干擾分析結果之虞。因此,研究人員有必要對數據做一啲處理,當中一種常見嘅做法就係用獨立成份分析,分解出數據中邊啲係雜訊,邊啲係真正想量度嘅訊號,用獨立成份分析做咗分解之後,研究人員就可以用眼睇,判斷邊啲成份係雜訊,然後將之剔除,再重組其餘部份,得出「乾淨」嘅訊號,跟住佢哋就可以做進一步嘅分析。[11]


上圖係一幅腦電數據,幅圖右手邊嗰忽到有好強嘅異常電活動,好可能係雜訊。雜訊嘅常見成因可以係量度用嘅電極黐得唔夠實呀噉。


另見

[編輯]

引咗

[編輯]
  1. Bronkhorst, Adelbert W. (2000). "The Cocktail Party Phenomenon: A Review on Speech Intelligibility in Multiple-Talker Conditions". Acta Acustica United with Acustica. 86: 117–128. 喺2020-11-16搵到.
  2. Shinn-Cunningham BG (May 2008). "Object-based auditory and visual attention" (PDF). Trends in Cognitive Sciences. 12 (5): 182–6. doi:10.1016/j.tics.2008.02.003. PMC 2699558. PMID 18396091. 原著 (PDF)喺2015-09-23歸檔. 喺2014-06-20搵到.
  3. 1 2 Independent Component Analysis A Tutorial
  4. A Short Introduction to Independent Component Analysis,佢哋呢度第 5 頁講到:"Must assume - The si are mutually statistically independent... are non-normal."
  5. Independent Component Analysis: Algorithms and Applications
  6. Independent Component Analysis: Algorithms and Applications,佢哋 3.3 嗰度噉講:"... assume that the mixing matrix is orthogonal... Then x1 and x2 are gaussian, uncorrelated, and of unit variance. Their joint density... is completely symmetric. Therefore, it does not contain any information on the directions of the columns of the mixing matrix A."
  7. Comon, P. (1994). Independent component analysis - a new concept? Signal Processing, 36:287-314
  8. Nordhausen, K. and Oja, H., 2018. Independent component analysis: A statistical perspective. Wiley Interdisciplinary Reviews: Computational Statistics, 10(5), p.e1440,佢哋摘要嗰度就噉講:"The ICA problem is formulated as a latent variable model where the observed variables are linear combinations of unobserved mutually independent non-Gaussian variables."
  9. Independent Component Analysis: Algorithms and Applications, 5.1 - 5.2
  10. Kairov, U., Cantini, L., Greco, A., Molkenov, A., Czerwinska, U., Barillot, E. and Zinovyev, A., 2017. Determining the optimal number of independent components for reproducible transcriptomic data analysis. BMC genomics, 18(1), p.712,呢篇文探討點樣揀選獨立成份嘅數量。
  11. Yosrita, E., Aziza, R.N., Ningrum, R.F. and Muhammad, G., 2021. Denoising of eeg signal based on word imagination using ica for artifact and noise removal on unspoken speech. Indones. J. Electr. Eng. Comput. Sci, 22(1), pp.83-88.

註釋

[編輯]
  1. 英文weight
  2. 由於 原則上都係未知,研究者無法由獨立成份分析嗰度,判斷來源訊號嘅方差係幾多。
  3. 就算兩個變數間冇相關,都表示佢哋之間無統計依賴性。但係兩個變數無統計依賴性,就一定冇相關。
  4. 解釋:喺中央極限定理之下,兩個唔跟常態分佈嘅變數加埋得出嘅數,傾向會比來源更接近常態。而獨立成份分析建模嗰陣,根本原則就係要將呢個過程「逆轉」,令砌返出嚟嘅來源數值盡可能唔常態。
  5. 唔似得因素分析處理嗰啲心理建構噉傾向常態分佈。
  6. 噉係因為喺實用上,獨立成份模型中嗰啲變數好多時係某啲物理量,有必要令其計量單位劃一。

[編輯]

  • (英文)獨位成份分析,GeeksForGeeks
  • (英文)Calhoun, V.D., Adali, T., Pearlson, G.D. and Pekar, J.J., 2001. Spatial and temporal independent component analysis of functional MRI data containing a pair of task-related waveforms. Human brain mapping, 13(1), pp.43-53.