莫蘭指數

莫蘭指數係空間分析上用嚟量度空間自相關嘅指標,可以話到俾分析者知手上嗰個變量,係咪傾向喺空間上聚集定係呈現隨機嘅分佈。全局莫蘭指數嘅數值會喺 -1 同 1 之間,數值愈接近 1 就愈表示相鄰嘅單位傾向相似,數值愈接近 -1 就愈表示相鄰嘅單位傾向相反,而數值接近 0 就表示呢啲空間單位冇咩空間自相關可言,個變量傾向隨機分佈。
莫蘭指數喺好多學科嘅研究上都有實用價值,最常見嘅係地理學相關分析用嚟判斷某啲現象,係咪傾向喺空間上聚埋一齊、傾向分散定係冇咩特別規律可言。此外,語言學上要研究方言特徵嘅地理分佈嗰陣,都有機會使用莫蘭指數。
莫蘭指數呢個名,譯自英文:Moran's I 。
全局計法
[編輯]
首先,設空間入便有 n 咁多個單位(可以想像成係有 n 咁多個格仔),而 x 係研究緊嗰個變數。設 xi 為第 i()個空間單位嘅 x 值。以下係全局莫蘭指數[註 1]嘅計法:
條式用咗加總嘅符號(Σ)。當中 I 為全局莫蘭指數嘅值,W 表示啲權重加埋晒一齊嘅總和。
W 呢個值會出自一個空間權重矩陣,反映研究者用緊邊種定義嚟界定相鄰:W 會係一個 n × n 嘅矩陣,而每個元素 wij 表示第 i 同第 j 個地區之間嘅空間關係強度。以下係一個簡化嘅例子,表示有 4 個地區(n = 4)之間嘅鄰接關係(相鄰為 1 唔相鄰為 0):
呢個矩陣話俾部電腦知:區域 1(第 1 行橫行)同區域 2、3 相鄰;區域 2(第 2 行橫行)同區域 1、3、4 相鄰... 如此類推[1]。喺實用上,空間權重矩陣通常會按橫行做標準化[註 2]- i 啲鄰居嘅權重加埋會等如 1 [註 3][2][3]。
計莫蘭指數嗰陣,分析師可以用幾種唔同定義嚟界定點樣謂之相鄰,好似係下圖噉[4][5]。Rook:國際象棋中嘅城堡;Bishop:國際象棋中嘅主教;Queen:國際象棋中嘅王后。更進階嘅計法,仲可以考慮埋距離因素,譬如係所有彼此間距離短過 δ 嘅配對都算係相鄰。[6]

用日常用語講,莫蘭指數計嘅係:考慮呢啲空間單位(格仔)之間嘅配對,將所有可能配對逐對逐對攞嚟睇,假如越多配對係兩格數值相反(一格高一格低)嘅,莫蘭指數就越會趨向 -1;而越多配對係兩格數值相同(相鄰嗰兩格傾向一齊高或者一齊低)嘅,莫蘭指數就越趨向 +1;假若數據中冇咩空間自相關,啲配對得出嘅值就會拉勻,最後出接近 0 嘅值。因此,莫蘭指數可以用嚟反映相鄰嘅單位幾傾向會相似。
局部計法
[編輯]計莫蘭指數,亦有所謂嘅局部莫蘭指數[註 4]:全局莫蘭指數,只會產生一個統計量,用一個值概括晒成個研究範圍。換句話講,全局分析係假設咗成個範圍係均勻一致嘅。若果呢個假設唔成立,只靠一個統計量嚟講晒成幅地圖就未必咁有意義,甚至可能會有遮蔽咗重要資訊之虞。就算全局層面上冇空間自相關或者冇聚集現象,分析師依然可以透過區局性質嘅空間自相關分析,喺微層面搵到聚集規律[7][8]。
局部莫蘭指數會同每一個空間單位計返個 Ii 值,最基本個版本係用以下呢條式:
當中
即係話
同每個空間單位計咗佢嘅局部莫蘭指數之後,分析師可以畫一幅地圖,顯示唔同地區嘅局部莫蘭指數分佈情況。譬如係下圖噉,下圖顯示美國唔同地區嘅貧窮情形,精細度去到縣嘅等級,目標變數簡單講係貧窮程度:淺紅係高高-高值區,周圍傾向係高值;深紅係高低-高值區,周圍傾向係低值;深藍係低高-低值區,周圍傾向係高值;而淺藍係低低-低值區,周圍傾向係低值;灰白色就係統計上唔顯著嘅區域[註 5]。

應用研究
[編輯]
例如方言學研究就有用莫蘭指數。攞某一種語言特徵嚟睇,譬如係某音素嘅存在或者某隻詞語嘅出現頻率,然後呢個特徵設做 x,佢可能會零舍聚集喺某啲地區,而呢種情況反映嗰隻話嘅內部差異[10]。用粵語做例子,廿一世紀初嘅粵語有 n/l 分化嘅爭論:有唔少粵語使用者都當 [n] 同 [l] 係同一種音素;研究者可以設係咪會分 n/l 為二元編碼嘅 x,再去香港、澳門、廣州、梧州、南寧等兩廣多地收集數據,睇吓各地嘅粵語使用者係咪會分 n/l ,甚至可以搵埋國外多粵藉華人聚居嘅地方;局部莫蘭指數計咗出嚟,就可以得知 n/l 不分嘅情形係咪零舍集中喺某啲地區,於是研究者搵到描述粵語嘅資訊[註 6],就可以攞去期刊度發佈,增進學界對粵語嘅認識。
腦神經學方面嘅研究亦有機會使用莫蘭指數。腦神經學研究成日要分析腦活動,而腦活動本質上實有空間自相關:神經元係向周圍嘅神經元射訊號嘅,所以個腦某一忽嘅活動,實有機會受佢周邊腦區域嘅活動影響[11]。
假說檢定
[編輯]喺專業嘅統計分析上,計莫蘭指數亦好可能要考慮埋統計顯著性:做假說檢定嗰陣會測試計出嚟嘅莫蘭指數(下稱實際 I )係咪達到統計上顯著;有別於一般假說檢定嘅係,呢啲計算靠嘅並非理論中嘅概率分佈[註 7]而係用置換檢驗噉嘅做法;噉講即係話部電腦會將研究對象嘅數值隨機打亂,再計過莫蘭指數,重複好多次(例如可能萬零次)之後,就會得出一個「隨機分佈」,跟住部機就可以睇吓喺呢個隨機分佈下,個實際 I 或者更極端嘅數值有幾大機率出現;假如呢個機率有返咁上下低,研究者就有理由拒絕虛無假說-即係佢哋有理由話個實際 I 嘅出現,唔係因為純粹巧合[12]。
睇埋
[編輯]註釋
[編輯]引咗
[編輯]- ↑ Spatial weights. esri.
- ↑ Spatial Neighborhoods,佢哋噉講:"Also by convention the individual weights are row standardized, so that weight matrix rows sum to 1."
- ↑ Chapter Three - Global and local indicators of spatial associations, 3.1.3. Standardization of the spatial weight matrix
- ↑ Types of Contiguity[失咗效嘅鏈]. aelon@sph.umich.edu
- ↑ Lloyd, C. (2010). Spatial data analysis: an introduction for GIS users. Oxford university press. Fig 4.9
- ↑ "Distance-Band Spatial Weights".
- ↑ Anselin, Luc (2005). "Exploring Spatial Data with GeoDa: A Workbook" (PDF). Spatial Analysis Laboratory. p. 138.
- ↑ "Cluster and Outlier Analysis (Anselin Local Moran's I) (Spatial Statistics)". ESRI. 喺28 May 2024搵到.
- ↑ Thompson, E.S., Saveyn, P., Declercq, M., Meert, J., Guida, V., Eads, C.D., Robles, E.S. and Britton, M.M., 2018. Characterisation of heterogeneity and spatial autocorrelation in phase separating mixtures using Moran's I. Journal of colloid and interface science, 513, pp.180-187.
- ↑ Jones, J.A. and Renwick, M.E., 2021. Spatial analysis of sub-regional variation in Southern US English. Journal of Linguistic Geography, 9(2), pp.86-105.
- ↑ Schmal, C., Myung, J., Herzel, H. and Bordyugov, G., 2017. Moran’s I quantifies spatio-temporal pattern formation in neural imaging data. Bioinformatics, 33(19), pp.3072-3079.
- 1 2 8 Spatial autocorrelation,佢哋呢度有講:"The p-value is the probability of obtaining a test statistic as extreme as or more extreme than the one observed test statistic in the direction of the alternative hypothesis, assuming the null hypothesis is true."
- ↑ Moran's I and Getis-Ord G* Analysis,佢哋依度噉講:"Moran's I is large and positive when the value for a given target (or for all locations in the global case) is similar to adjacent values and negative when the value at a target is dissimilar to adjacent values..."