隨機塊模型
隨機塊模型(英文:stochastic block model,SBM),或者隨機壆模型,係隨機圖嘅一種生成模型。個模型傾向於生成啲圖包含有啲所謂「社群」,即係啲子集、互相褦埋程度係有特定嘅檠密度嘅。譬如,啲檠喺啲社群內部可能多過喺互相之間嘅。個模型嘅數學公式由 Holland 等[1]首次提出喺 1983 年、喺社交網絡領域。隨機塊模型喺統計學、機械學習同網絡科學當中幾重要,可以作為一項有用嘅基準畀圖數據入便社群結構嘅恢復任務。
定義
[編輯]隨機塊模型採用有以下啲參數:
- 數字頂點數;
- 對頂點集嘅劃分,分成嘸相交嘅啲子集,即「社群」;
- 對稱嘅矩陣畀啲檠概率。
然之後個檠集有得隨機採樣如下:任意兩粒頂點同由一條檠以概率褦埋。作爲例子,一個可能問題等求解嘅係:畀定一幅圖有埋粒頂點嘅,其中按照描述採樣啲檠,嚟恢復啲群 .
特別案例
[編輯]若果概率矩陣係常數,某種意義上講對所有都有,噉個結果就係Erdős-Rényi模型。呢個係個退化案例:社群劃分變得嘸係咁緊要,但講明到同Erdős-Rényi模型嘅密切關係。
植入性分割模型(英文:planted partition model,PPM)係一種特殊情況,概率矩陣啲值係常數喺對角線、其他位係常數。係噉,同一社群裏便每兩粒頂點係以概率共享一條檠,而嘸同社群嘅兩粒頂點以概率共享一條檠。有時隨機塊模型係指呢種受限嘅模型。情況下喊做同配模型(assortative model),而下喊做異配(disassortative)模型。
對於一般嘅隨機塊模型,強同配模型係指有親即有 :所有啲對角線欄支配澌所有啲非對角線欄。弱同配模型係指有親即有:每個對角線欄只需要支配佢自己行同列啲其餘部分。[2]掉轉啲嘸等式,可以有啲異配形式。算法式恢復對於有呢種形式嘅啲同配或者異配條件嘅塊模型,通常會容易啲。[2]
典型嘅統計任務
[編輯]好多啲關於算法式社群檢測嘅文獻都涉及三個統計任務:檢測、部分恢復同埋精確恢復。
檢測
[編輯]檢測演算法嘅目標係簡單噉確定,畀定一幅採樣圖,呢幅圖係有潛在嘅社群結構定係冇。準確啲講,可以由一啲已知嘅先驗概率生成一幅圖,憑已知嘅隨機塊模型或者類似嘅Erdos-Renyi模型。算法式嘅任務係正確噉識別嗰兩個底層模型當中係邊一個生成到幅圖。[3]
部分恢復
[編輯]部分恢復嘅目標係大概確定到啲潛在嘅劃分、分出啲社群嘅,即搵到一種劃分係同真實劃分相關得多過隨機斷估嘅。[4]
準確恢復
[編輯]精確恢復嘅目標係準確噉恢復個潛在分區成社群。社群啲規模同埋概率矩陣可能已知[5]亦都可能未知[6]。
統計下限同閾值行為
[編輯]隨機塊模型表現出明顯嘅閾值效應,令人惗到湆流閾值(percolation threshold)。[7][3][8]假設允許大細係嘅圖增長,又保持啲社群規模比例固定。若果個概率矩陣保持固定,對於所有啲非退化參數設置都做得到啲類似部分恢復同精確恢復嘅任務。但係,若果增加同時憑比較啱嘅比率縮細個概率矩陣,劇烈嘅相變(phase transition)就着觀察到:對於某啲參數設置,可以憑趨向 1嘅概率嚟實現個恢復;而喺參數閾值嘅另一便,無論使乜演算法,恢復嘅概率都趨向 0。
對於部分恢復,啱嘅縮放值係對於固定取,產生啲圖係有恆常嘅平均度數(帶權連接數)嘅。喺兩個社群大細相等嘅情況下,喺個同配PPM入便、個有以下概率矩陣嘅:部分恢復對佢嚟講係可行嘅[4],概率係,逢親,而部分恢復對任何估計器都失敗[3]嘅概率係,逢親。
對於準確恢復,啱嘅縮放值係取,產生啲圖係有對數平均度數嘅。噉樣都有一個類似嘅閾值:對於個同配PPM、有個同等規模嘅社群嘅,閾值係喺。實質上,個準確恢復閾值係已知嘅,對於完全普適嘅隨機塊模型嚟講。[5]
演算法
[編輯]原則上,精確恢復喺個可行範圍內可以使最大似然估計解決,但噉樣相當於解決一個帶約束或者正則化唨嘅切分問題,譬如最細二分法(好多時係NP完備)。係噉,冇啲有效演算法已知嘅可以喺最壞情況下計啱個最大似然估計。
之不過,喺平均情況下有好多種演算法表現都幾好,並且有好多高概率嘅性能保證喺部分恢復同精確恢復入便經已得到證明。成功嘅演算法包括頂點譜聚類[9][4][5][10]、半正定規劃[2][8]、信念傳播[7][11]、 社群檢測[12]等。
變體
[編輯]呢個模型存在有多種變體。一個細嘅調整係根據類別分佈(categorical distribution)隨機分配啲頂點畀社群,而嘸係劃到固定嘅分割。[5]更加重要啲嘅變體包括度數校正隨機塊模型[13](degree-corrected stochastic block model)、 分層隨機塊模型[14](hierarchical stochastic block model)、 幾何塊模型[15](geometric block model)、 刪審塊模型(censored block model)同埋混合成員塊模型[16](mixed-membership block model)。
主題模型
[編輯]隨機塊模型得公認係一個主題模型喺啲二分網絡上。[17]喺關於文檔同單詞嘅一個網絡入便,隨機塊模型可以識別到啲主題:即一組單詞係有相似含義嘅。
睇埋
[編輯]- Girvan–Newman演算法:社群檢測算法
- Lancichinetti–Fortunato–Radicchi基準:演算法,攞嚟生成啲基準網絡帶社群嘅
考
[編輯]- ↑ Holland, Paul W; Laskey, Kathryn Blackmond; Leinhardt, Samuel (1983). "Stochastic blockmodels: First steps". Social Networks. 5 (2): 109–137. doi:10.1016/0378-8733(83)90021-7. ISSN 0378-8733. 喺2021-06-16搵到.
- ↑ 2.0 2.1 2.2 Amini, Arash A.; Levina, Elizaveta (June 2014). "On semidefinite relaxations for the block model". arXiv:1406.5647 [cs.LG].
- ↑ 3.0 3.1 3.2 Mossel, Elchanan; Neeman, Joe; Sly, Allan (February 2012). "Stochastic Block Models and Reconstruction". arXiv:1202.1499 [math.PR].
- ↑ 4.0 4.1 4.2 Massoulie, Laurent (November 2013). "Community detection thresholds and the weak Ramanujan property". arXiv:1311.3085 [cs.SI].
- ↑ 5.0 5.1 5.2 5.3 Abbe, Emmanuel; Sandon, Colin (March 2015). "Community detection in general stochastic block models: fundamental limits and efficient recovery algorithms". arXiv:1503.00609 [math.PR].
- ↑ Abbe, Emmanuel; Sandon, Colin (June 2015). "Recovering communities in the general stochastic block model without knowing the parameters". arXiv:1506.03729 [math.PR].
- ↑ 7.0 7.1 Decelle, Aurelien; Krzakala, Florent; Moore, Cristopher; Zdeborová, Lenka (September 2011). "Asymptotic analysis of the stochastic block model for modular networks and its algorithmic applications". Physical Review E. 84 (6): 066106. arXiv:1109.3041. Bibcode:2011PhRvE..84f6106D. doi:10.1103/PhysRevE.84.066106. PMID 22304154.
- ↑ 8.0 8.1 Abbe, Emmanuel; Bandeira, Afonso S.; Hall, Georgina (May 2014). "Exact Recovery in the Stochastic Block Model". arXiv:1405.3267 [cs.SI].
- ↑ Krzakala, Florent; Moore, Cristopher; Mossel, Elchanan; Neeman, Joe; Sly, Allan; Lenka, Lenka; Zhang, Pan (October 2013). "Spectral redemption in clustering sparse networks". Proceedings of the National Academy of Sciences. 110 (52): 20935–20940. arXiv:1306.5550. Bibcode:2013PNAS..11020935K. doi:10.1073/pnas.1312486110. PMC 3876200. PMID 24277835.
- ↑ Lei, Jing; Rinaldo, Alessandro (February 2015). "Consistency of spectral clustering in stochastic block models". The Annals of Statistics. 43 (1): 215–237. arXiv:1312.2050. doi:10.1214/14-AOS1274. ISSN 0090-5364.
- ↑ Mossel, Elchanan; Neeman, Joe; Sly, Allan (September 2013). "Belief Propagation, Robust Reconstruction, and Optimal Recovery of Block Models". The Annals of Applied Probability. 26 (4): 2211–2256. arXiv:1309.1380. Bibcode:2013arXiv1309.1380M. doi:10.1214/15-AAP1145.
- ↑ Fathi, Reza (April 2019). "Efficient Distributed Community Detection in the Stochastic Block Model". arXiv:1904.07494 [cs.DC].
- ↑ Karrer, Brian; Newman, Mark E J (2011). "Stochastic blockmodels and community structure in networks". Physical Review E. 83 (1): 016107. arXiv:1008.3926. doi:10.1103/PhysRevE.83.016107. 喺2021-06-16搵到.
- ↑ Peixoto, Tiago (2014). "Hierarchical block structures and high-resolution model selection in large networks". Physical Review X. 4 (1): 011047. arXiv:1310.4377. doi:10.1103/PhysRevX.4.011047. 喺2021-06-16搵到.
- ↑ Galhotra, Sainyam; Mazumdar, Arya; Pal, Soumyabrata; Saha, Barna (February 2018). "The Geometric Block Model". AAAI. arXiv:1709.05510.
- ↑ Airoldi, Edoardo; Blei, David; Feinberg, Stephen; Xing, Eric (May 2007). "Mixed membership stochastic blockmodels". Journal of Machine Learning Research. 9: 1981–2014. arXiv:0705.4485. Bibcode:2007arXiv0705.4485A. PMC 3119541. PMID 21701698.
- ↑ Martin Gerlach; Tiago Peixoto; Eduardo Altmann (2018). "A network approach to topic models". Science Advances. 4 (7): eaaq1360. arXiv:1708.01677. Bibcode:2018SciA....4.1360G. doi:10.1126/sciadv.aaq1360. PMC 6051742. PMID 30035215.