跳去內容

莫蘭指數

出自維基百科,自由嘅百科全書
好似西洋棋棋盤噉黑白相關嘅空間,莫蘭指數去到 -1。講緊用 rook 型定義嚟界定咩謂之相鄰,即係對角線嘅(東北、東南、西南、西北)唔算相鄰。

莫蘭指數空間分析上用嚟量度空間自相關嘅指標,可以話到俾分析者知手上嗰個變量,係咪傾向喺空間上聚集定係呈現隨機嘅分佈。全局莫蘭指數嘅數值會喺 -1 同 1 之間,數值愈接近 1 就愈表示相鄰嘅單位傾向相似,數值愈接近 -1 就愈表示相鄰嘅單位傾向相反,而數值接近 0 就表示呢啲空間單位冇咩空間自相關可言,個變量傾向隨機分佈。

莫蘭指數喺好多學科嘅研究上都有實用價值,最常見嘅係地理學相關分析用嚟判斷某啲現象,係咪傾向喺空間上聚埋一齊、傾向分散定係冇咩特別規律可言。此外,語言學上要研究方言特徵嘅地理分佈嗰陣,都有機會使用莫蘭指數。

莫蘭指數呢個名,譯自英文Moran's I

全局計法

[編輯]
呢四幅係唔同嘅全局莫蘭指數值嘅圖樣:設依家每個細格謂之一個個案,個細格嘅顏色深淺度反映其數值,並且採用 rook 型定義嚟界定咩謂之相鄰。

首先,設空間入便有 n 咁多個單位(可以想像成係有 n 咁多個格仔),而 x 係研究緊嗰個變數。設 xi 為第 i)個空間單位嘅 x 值。以下係全局莫蘭指數[註 1]嘅計法:

條式用咗加總符號(Σ)。當中 I 為全局莫蘭指數嘅值,W 表示啲權重加埋晒一齊嘅總和。

W 呢個值會出自一個空間權重矩陣,反映研究者用緊邊種定義嚟界定相鄰:W 會係一個 n × n矩陣,而每個元素 wij 表示第 i 同第 j 個地區之間嘅空間關係強度。以下係一個簡化嘅例子,表示有 4 個地區(n = 4)之間嘅鄰接關係(相鄰為 1 唔相鄰為 0):

呢個矩陣話俾部電腦知:區域 1(第 1 行橫行)同區域 2、3 相鄰;區域 2(第 2 行橫行)同區域 1、3、4 相鄰... 如此類推[1]。喺實用上,空間權重矩陣通常會按橫行做標準化[註 2]i 啲鄰居嘅權重加埋會等如 1 [註 3][2][3]

計莫蘭指數嗰陣,分析師可以用幾種唔同定義嚟界定點樣謂之相鄰,好似係下圖噉[4][5]Rook國際象棋中嘅城堡Bishop:國際象棋中嘅主教Queen:國際象棋中嘅王后。更進階嘅計法,仲可以考慮埋距離因素,譬如係所有彼此間距離短過 δ 嘅配對都算係相鄰。[6]

用日常用語講,莫蘭指數計嘅係:考慮呢啲空間單位(格仔)之間嘅配對,將所有可能配對逐對逐對攞嚟睇,假如越多配對係兩格數值相反(一格高一格低)嘅,莫蘭指數就越會趨向 -1;而越多配對係兩格數值相同(相鄰嗰兩格傾向一齊高或者一齊低)嘅,莫蘭指數就越趨向 +1;假若數據中冇咩空間自相關,啲配對得出嘅值就會拉勻,最後出接近 0 嘅值。因此,莫蘭指數可以用嚟反映相鄰嘅單位幾傾向會相似。

局部計法

[編輯]
睇埋:熱圖

計莫蘭指數,亦有所謂嘅局部莫蘭指數[註 4]:全局莫蘭指數,只會產生一個統計量,用一個值概括晒成個研究範圍。換句話講,全局分析係假設咗成個範圍係均勻一致嘅。若果呢個假設唔成立,只靠一個統計量嚟講晒成幅地圖就未必咁有意義,甚至可能會有遮蔽咗重要資訊之虞。就算全局層面上冇空間自相關或者冇聚集現象,分析師依然可以透過區局性質嘅空間自相關分析,喺微層面搵到聚集規律[7][8]

局部莫蘭指數會同每一個空間單位計返個 Ii 值,最基本個版本係用以下呢條式:

當中

即係話

同每個空間單位計咗佢嘅局部莫蘭指數之後,分析師可以畫一幅地圖,顯示唔同地區嘅局部莫蘭指數分佈情況。譬如係下圖噉,下圖顯示美國唔同地區嘅貧窮情形,精細度去到嘅等級,目標變數簡單講係貧窮程度:淺紅係高高-高值區,周圍傾向係高值;深紅係高低-高值區,周圍傾向係低值;深藍係低高-低值區,周圍傾向係高值;而淺藍係低低-低值區,周圍傾向係低值;灰白色就係統計上唔顯著嘅區域[註 5]

應用研究

[編輯]
《中國語言地圖集》一書標示,粵語區唔同地區嘅粵語方言分片
内文:空間分析

但凡係會用到空間分析研究,都有可能會使用莫蘭指數[9]

例如方言學研究就有用莫蘭指數。攞某一種語言特徵嚟睇,譬如係某音素嘅存在或者某隻詞語嘅出現頻率,然後呢個特徵設做 x,佢可能會零舍聚集喺某啲地區,而呢種情況反映嗰隻話嘅內部差異[10]。用粵語做例子,廿一世紀初嘅粵語有 n/l 分化嘅爭論:有唔少粵語使用者都當 [n][l] 係同一種音素;研究者可以設係咪會分 n/l 為二元編碼嘅 x,再去香港澳門廣州梧州南寧兩廣多地收集數據,睇吓各地嘅粵語使用者係咪會分 n/l ,甚至可以搵埋國外多粵藉華人聚居嘅地方;局部莫蘭指數計咗出嚟,就可以得知 n/l 不分嘅情形係咪零舍集中喺某啲地區,於是研究者搵到描述粵語嘅資訊[註 6],就可以攞去期刊度發佈,增進學界對粵語嘅認識。

腦神經學方面嘅研究亦有機會使用莫蘭指數。腦神經學研究成日要分析腦活動,而腦活動本質上實有空間自相關:神經元係向周圍嘅神經元射訊號嘅,所以個腦某一忽嘅活動,實有機會受佢周邊腦區域嘅活動影響[11]

假說檢定

[編輯]
睇埋:假說檢定

喺專業嘅統計分析上,計莫蘭指數亦好可能要考慮埋統計顯著性:做假說檢定嗰陣會測試計出嚟嘅莫蘭指數(下稱實際 I )係咪達到統計上顯著;有別於一般假說檢定嘅係,呢啲計算靠嘅並非理論中嘅概率分佈[註 7]而係用置換檢驗噉嘅做法;噉講即係話部電腦會將研究對象嘅數值隨機打亂,再計過莫蘭指數,重複好多次(例如可能萬零次)之後,就會得出一個「隨機分佈」,跟住部機就可以睇吓喺呢個隨機分佈下,個實際 I 或者更極端嘅數值有幾大機率出現;假如呢個機率有返咁上下低,研究者就有理由拒絕虛無假說-即係佢哋有理由話個實際 I 嘅出現,唔係因為純粹巧合[12]

R 程式語言等嘅工具,仲有埋功能可以自動做呢樣嘢[12]

睇埋

[編輯]

註釋

[編輯]
  1. global Moran's I
  2. 按橫行做標準化譯自英文row-standardized
  3. 如果按橫行做咗標準化,而且啲空間單位冇任何「孤島」,nW 數值會相等。
  4. local Moran's I
  5. 考慮統計上顯著,呢點係局部莫蘭指數同一般熱圖嘅主要分別之一。
  6. 呢度假設班研究者做嘅係描述語言學,而非規範語言學
  7. 即係唔洗假設背後嗰個分佈係咪常態分佈

引咗

[編輯]
  1. Spatial weights. esri.
  2. Spatial Neighborhoods,佢哋噉講:"Also by convention the individual weights are row standardized, so that weight matrix rows sum to 1."
  3. Chapter Three - Global and local indicators of spatial associations, 3.1.3. Standardization of the spatial weight matrix
  4. Types of Contiguity[失咗效嘅鏈]. aelon@sph.umich.edu
  5. Lloyd, C. (2010). Spatial data analysis: an introduction for GIS users. Oxford university press. Fig 4.9
  6. "Distance-Band Spatial Weights".
  7. Anselin, Luc (2005). "Exploring Spatial Data with GeoDa: A Workbook" (PDF). Spatial Analysis Laboratory. p. 138.
  8. "Cluster and Outlier Analysis (Anselin Local Moran's I) (Spatial Statistics)". ESRI. 喺28 May 2024搵到.
  9. Thompson, E.S., Saveyn, P., Declercq, M., Meert, J., Guida, V., Eads, C.D., Robles, E.S. and Britton, M.M., 2018. Characterisation of heterogeneity and spatial autocorrelation in phase separating mixtures using Moran's I. Journal of colloid and interface science, 513, pp.180-187.
  10. Jones, J.A. and Renwick, M.E., 2021. Spatial analysis of sub-regional variation in Southern US English. Journal of Linguistic Geography, 9(2), pp.86-105.
  11. Schmal, C., Myung, J., Herzel, H. and Bordyugov, G., 2017. Moran’s I quantifies spatio-temporal pattern formation in neural imaging data. Bioinformatics, 33(19), pp.3072-3079.
  12. 1 2 8 Spatial autocorrelation,佢哋呢度有講:"The p-value is the probability of obtaining a test statistic as extreme as or more extreme than the one observed test statistic in the direction of the alternative hypothesis, assuming the null hypothesis is true."
  13. Moran's I and Getis-Ord G* Analysis,佢哋依度噉講:"Moran's I is large and positive when the value for a given target (or for all locations in the global case) is similar to adjacent values and negative when the value at a target is dissimilar to adjacent values..."