條件概率
條件概率(粵拼:tiu4 gin2 koi3 leot2;英文:conditional probability)係概率論上一個概念,反映咗「已知呢個條件達到咗,呢件呢件事發生嘅機會率有幾高」噉嘅資訊。精確啲講,想像依家有兩件事件 同 ,當中 唔知發生咗未, 發生嘅機會率係 咁多,而假如 「係咪發生咗」會影響 ,研究者就好可能會想知 同 之間嘅條件概率。「已知 發生咗, 會發生」呢一個條件概率,喺數學上係噉嚟表達嘅:
條件概率嘅概念,喺統計學等嘅領域上有相當嘅價值。响廿一世紀初,統計分析實會用到建基於條件概率嘅諗頭,例子可以睇吓統計功效(進階統計實會用到)等嘅基礎統計概念。除此之外,教 AI 處理語言嘅工作都會用到條件概率,例子可以睇吓 N-gram 相關嘅嘢。
基礎概念
[編輯]條件概率係概率論[e 1]上嘅一個重要概念。條件概率係指「如果已知[e 2]某某事件發生咗,另外一件事件會發生嘅機會率」,例如「已知 發生咗, 會發生」呢個條件概率,用數學符號寫如下:
根據廿一世紀初最常用嗰個定義,上述嘅數值可以用以下呢條式計[1]:
- ;
呢條抽象嘅式可以用圖像化嘅方法嚟諗。想像以下呢一幅溫氏圖,每一笪空間都掕咗個數,個數表示嗰一件事件發生嘅機會率,例如 、、 同 呢幾個泡沫外嗰笪空間係 0.34,表示呢四件事件冚唪唥都冇發生嘅機會率係 0.34 咁高。
噉想像而家要計 (已知 發生咗, 發生嘅機會率):
- ( 同 都發生嘅機率)
- ( 發生嘅機率)
噉 就會係
- 。
如果 同 係互斥事件[e 3]嘅話,定義上表示佢哋一定唔會一齊發生,條數嘅計法就會係:
- 。
—「已知 發生咗而兩件事係互斥嘅, 唔會發生[註 1]。」
統計獨立
[編輯]數值 | 如果兩者獨立... | 如果兩者互斥... |
---|---|---|
統計獨立[e 4]係概率論上嘅另一個重要概念,可以用條件概率嚟諗。如果話某兩件或者某幾件事件係「彼此之間獨立嘅」,意思係指嗰幾件事件之間唔會影響對方發生嘅概率。用數學化啲嘅方式表達嘅話,如果話 同 呢兩件事件係獨立嘅,即係指[2]:
諗返起條件概率嘅計法():
設咗 同 呢兩件事件係獨立嘅,掉一掉啲式:
——由此可見,假如兩件事件統計獨立,就表示「知道 發生咗」並唔影響「預計 有幾大機會發生」。除此之外,仲可以思考吓條件獨立[e 5]:設 做條件,如果話 同 喺呢個條件下有條件獨立,意思即係話[3]
或者
上述兩條式係同等嘅。
→ 根據條件概率嘅定義...
iff → 兩邊齊齊乘 ...
iff → 兩邊齊齊除 ...
iff → 根據條件概率嘅定義...
iff
喺呢個情況下,如果已知 發生咗, 係咪發生咗唔會影響 發生嘅機會率,同時 係咪發生咗唔會影響 發生嘅機會率。即係可以想像成「呢兩件事件喺某啲條件達到咗嘅情況下,會係彼此獨立嘅」[3]。
常見誤解
[編輯]响廿一世紀初,條件概率謬論[e 6]係對條件概率嘅一個常見誤解,講到啲人成日有種信念,諗住以下嘅嘢實會成立:
意思即係話佢哋諗住 同 數值實係差唔多嘅——「將條件概率入便嗰兩件事掉轉,得出嘅數值應該唔會爭好遠」。呢個諗法其實係錯誤嘅[4],用圖像化嘅方式思考,可以睇睇以下幅圖:
設深色嗰笪做 (粵拼:sam1), 佔咗 嘅一小橛,即係話 係一個細嘅數值。但相對嚟講,如果一點屬於 ,佢一定會係屬於 ——
由此可見, 同 兩個條件概率爭好遠。數學化啲講,可以思考吓貝葉斯定理[e 7]講嘅嘢[5]:
由上述嘅分析可知,要達致 , 呢句嘢先會成立。
應用例子
[編輯]N-gram
[編輯]自然語言處理[e 8]係人工智能嘅一個學科,專門研究點樣教電腦處理粵語或者英文等嘅自然語言。自然語言本質上就係前後連貫嘅,已經聽咗或者睇咗嘅符號(語音或者文字都可以算符號)會影響跟住落嚟嗰啲符號要點樣理解[註 2],所以好多自然語言處理技術都會用到條件概率。
舉個簡單例子說明,N-gram 係一種相對簡單嘅自然語言處理技術,但係經已可以攞嚟教電腦分辨一段文字係咩語言[6]。想像依家有一串 100 隻字符咁長嘅符號,一個 3-gram 嘅演算法會睇每串連續三個符號係乜嘢樣,再用前兩個符號嘅樣估跟住嗰個符號最有可能會係乜;例如想像家陣手上有串噉嘅粵語字[7][8]:
依家只睇呢段字:如果打前兩個字符係鍾意
,跟住嗰個符號係嗌
嘅機率係 100% 咁高:响呢一串字入面,鍾意
出現咗一次咁多,而喺嗰次當中串嘢跟住嘅字符係嗌
;所以上面段嘢嘅 3-gram 當中,「鍾意後面掕嗌」嘅機率係 100%。實際應用當中嘅 n-gram 會用極大量嘅語言資源嚟做類似嘅估計,計出一隻語言啲字符以至字詞之間嘅統計關係。數學化噉講,一個 n-gram 模型定義上係用[9]
嘅數值嚟預測 ,從而計出
——即係要計「已知前面嗰串符號係 噉嘅樣, 會係噉噉噉樣」噉嘅條件概率。淨係靠住用呢種方法做嘅 n-gram,已經可以做到某一啲比較基礎嘅自然語言處理工作,好似係語言辨認噉——例如同中文書面語(原則上係建基於標準官話嘅)比起嚟,粵語白話文啲名詞後面應該比較大機會出現嘅呢隻字,所以一個人工智能可以靠呢啲條件概率,分辨唔同嘅語言。
關聯規則
[編輯]關聯規則[e 9]相關嘅分析,會用到條件概率呢個概念。關聯規則可以理解為一啲「如果... 就...」噉嘅法則,描繪數據裡便啲變數之間有咩關係。依家想像有班做營銷[e 10]工作嘅分析師,想探知消費者買嘢嗰陣嘅習慣係點,佢哋由一間超市嗰度攞咗數據,得知某年某月某日,到訪嗰間超市嘅客每個人買咗啲乜,即係話手上嘅數據望落好似噉[10][11]:
顧客 A: 荔枝、啤酒、白米、豬肉 |
顧客 B: 荔枝、啤酒、白米 |
顧客 C: 芝士、啤酒、白米、豬肉 |
下略大約 6,000 個個案... |
喺最基本上,班分析師可以計吓每種貨品有人買嘅機率係幾多(支持度[e 11]),例如設 做一個客「買荔枝嘅機會率」, 可以好簡單噉計到出嚟:
班分析師可以做更進階嘅分析。除咗計一件貨品支持度有幾高,佢哋仲可以[11]:
- 決定攞走所有支持度(例如)低過 1% 嘅貨品,唔再對佢哋進行分析;
- 計信心度[e 12]:設 C 同 D 做間超市嘅其中兩件貨品,關聯規則分析上講嘅信心度所指嘅,就係「如果某個客買咗 C,佢會買 D 嘅機會率」,設 (取自粵語十扑)做支持度,即係[12]
- 計提升度[e 13]:齋靠信心度係唔夠嘅,噉係因為信心度呢個指標並冇考慮到貨品 D 幾多人買()。提升度可以詮釋做「設商品 D 嘅支持度做恆常[註 3],C 至 D 嘅信心度」,即係話
做咗呢啲分析之後,營銷分析師就可以預測客人行為[13],可以用各種手法圖利(或者做啲嘢方便顧客)。例如如果知道咗客人買親 C 傾向會買埋 D,賣方就可以做減價嗰陣特登淨係同 C 或者 D 其中一樣做減價,又或者暗中將啲賣 D 嘅廣告 show 畀買咗 C 嘅客睇... 等等[14]。
睇埋
[編輯]註釋
[編輯]引述
[編輯]呢篇文用咗嗰啲行話詞彙嘅英文版:
- ↑ Kolmogorov, Andrey (1956), Foundations of the Theory of Probability, Chelsea.
- ↑ Russell, Stuart; Norvig, Peter (2002). Artificial Intelligence: A Modern Approach. Prentice Hall. p. 478.
- ↑ 3.0 3.1 Horimoto, K. (2013). Conditional Independence. In: Dubitzky, W., Wolkenhauer, O., Cho, KH., Yokota, H. (eds) Encyclopedia of Systems Biology. Springer, New York, NY.
- ↑ Paulos, J.A. (1988) Innumeracy: Mathematical Illiteracy and its Consequences, Hill and Wang. (p. 63 et seq.)
- ↑ Stuart, A.; Ord, K. (1994), Kendall's Advanced Theory of Statistics: Volume I - Distribution Theory, Edward Arnold, §8.7
- ↑ Russell, S., & Norvig, P. (2002). Artificial intelligence: a Modern Approach. Pearson. Ch. 2.
- ↑ Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D., & Lai, J. C. (1992). Class-based n-gram models of natural language. Computational linguistics, 18(4), 467-479.
- ↑ Jurafsky, D., & Martin, J. H. (2021). Speech and Language Processing. Stanford University. Ch. 3.
- ↑ Millington, I. (2019). AI for Games. CRC Press. p. 582-584.
- ↑ Kumbhare, T. A., & Chobe, S. V. (2014). An overview of association rule mining algorithms. International Journal of Computer Science and Information Technologies, 5(1), 927-930. "The performance of FP-growth is better than all other algorithms."
- ↑ 11.0 11.1 (英文) 簡介點樣用 R 程式語言嚟做關聯規則探勘,講到關聯規則探勘當中嘅 support-confidence-lift 三大指標。
- ↑ Hornik, K., Grün, B., & Hahsler, M. (2005). arules - A computational environment for mining association rules and frequent item sets. Journal of Statistical Software, 14(15), 1-25.
- ↑ Kumbhare, T. A., & Chobe, S. V. (2014). An overview of association rule mining algorithms. International Journal of Computer Science and Information Technologies, 5(1), 927-930. "The performance of FP-growth is better than all other algorithms."
- ↑ Ng, A., & Soo, K. (2017). Numsense! Data Science for the Layman. Annalyn Ng and Kenneth Soo.
拎
[編輯]- (香港繁體) 條件概率 | Conditional Probability,呢段 YouTube 影片嘅製作者講粵語寫英文,講解條件概率。
- (英文) 條件概率,Wolfram 數學世界