跳去內容

獨立同分佈

出自維基百科,自由嘅百科全書
均一嘅分佈

獨立同分佈英文簡稱:IID)係概率論統計學上嘅重要概念,主要用來描述隨機變量間嘅關係。IID 包括兩個基本條件:獨立以及同分佈。呢個概念通常用嚟簡化問題,令複雜嘅分析變得可行[1]

基本條件

[編輯]
内文:統計獨立
睇埋:概率分佈

首先,統計獨立指嘅係兩個或多個隨機變量之間冇任何關聯,其中一個變量嘅結果唔會影響其他變量嘅結果。舉個例子,如果依家擲兩粒(冇出千嘅)骰仔,第一粒骰嘅結果(例如擲出 6)唔會影響第二粒骰嘅結果(例如擲出 3)。喺呢個情況下,兩個擲骰嘅結果係獨立嘅。

下圖係「擲一粒冇出千嘅六面骰出嘅結果」嘅概率分佈,概率分佈會列出每個可能數值,以及每個可能數值出現嘅機率,一到六每個點數有 嘅機會出現:

同分佈,即係所有隨機變量都來自同一個概率分佈。呢啲隨機變量擁有相同嘅概率結構同參數。舉個例,假設每次擲(冇出千嘅)骰仔結果都係來自同一粒標準六面骰,無論擲幾多次,每次嘅結果都係從同一個機率分佈中隨機選出,呢幾次擲骰結果就係同分佈嘅。

當隨機變量係獨立同同分佈嘅時候,即係每個變量都冇受到其他變量影響,並且所有變量嘅分佈都一樣。舉個例,如果依家喺唔同時間點擲同一粒(冇出千嘅)骰十次,每一次嘅結果唔會受其他次擲骰嘅影響,而且每次擲骰嘅概率分佈都一樣,噉呢十次擲骰結果就算係彼此 IID 嘅

應用假設

[編輯]
睇埋:統計分析

好多統計分析方法都假設咗啲變量係 IID 嘅,譬如多種嘅 t-測試迴歸分析呀噉[2]

假想一位心理學研究人員想研究睡眠時間點樣影響記憶力,佢招募咗 100 位受試者,測試佢哋每日瞓覺時間(自變數)同記憶測試分數(應變數)之間嘅關係。分析數據嗰時,研究人員通常會假設呢 100 位受試者嘅數據係獨立同分佈相同,但呢個假設其實有特定條件先成立:

  • 獨立:每位受試者嘅數據應該要唔受其他受試者影響。不過(例如)如果受試者冚唪唥都來自同一間學校,佢哋好可能會有相似嘅作息習慣,令數據之間存在統計相關,噉就違反咗 IID 假設嘅第一個條件。有關點樣應對呢種問題,可以睇睇隨機抽樣等嘅概念。
  • 同分佈:所有受試者嘅數據應該來自同一個分佈,即係睡眠時間對記憶力嘅影響模式應該係適用於所有人嘅。不過(例如)一半受試者係年輕人,另一半係長者,而記憶力分數嘅分佈會受年齡影響,噉呢啲數據就算係來自兩個唔同分佈,所以啲數據又係唔符合 iid 假設。研究人員可能需要進一步控制年齡變數,詳情可以睇睇控制變數嘅概念。

如果數據違反 IID 假設,而研究人員又冇做適當嘅調整,統計分析結果就可能會出現偏誤。

嚴格嚟講,獨立同分佈屬於簡化嘅假設,統計模型模擬緊嘅現象,頂多只係大致合乎獨立同分佈嘅假設。可以睇睇理想化球狀乳牛等嘅概念。

睇埋

[編輯]

引述

[編輯]
  1. Clauset, Aaron (2011). "A brief primer on probability distributions". Santa Fe Institute.
  2. Assumptions of Linear Regression.