條件概率

條件概率（粵拼：tiu4 gin2 koi3 leot2；英文：conditional probability）係概率論上一個概念，反映咗「已知呢個條件達到咗，呢件呢件事發生嘅機會率有幾高」噉嘅資訊。精確啲講，想像依家有兩件事件 $X$ 同 $Y$ ，當中 $Y$ 唔知發生咗未， $X$ 發生嘅機會率係 $P(X)$ 咁多，而假如 $Y$ 「係咪發生咗」會影響 $P(X)$ ，研究者就好可能會想知 $X$ 同 $Y$ 之間嘅條件概率。「已知 $Y$ 發生咗， $X$ 會發生」呢一個條件概率，喺數學上係噉嚟表達嘅：

P(X\mid Y)

條件概率嘅概念，喺統計學等嘅領域上有相當嘅價值。响廿一世紀初，統計分析實會用到建基於條件概率嘅諗頭，例子可以睇吓統計功效（進階統計實會用到）等嘅基礎統計概念。除此之外，教 AI 處理語言嘅工作都會用到條件概率，例子可以睇吓 N-gram 相關嘅嘢。

基礎概念

條件概率係概率論^{[e 1]}上嘅一個重要概念。條件概率係指「如果已知^{[e 2]}某某事件發生咗，另外一件事件會發生嘅機會率」，例如「已知 $B$ 發生咗， $A$ 會發生」呢個條件概率，用數學符號寫如下：

P(A\mid B)

根據廿一世紀初最常用嗰個定義，上述嘅數值可以用以下呢條式計^[1]：

P(A\mid B)={\frac {P(A\cap B)}{P(B)}}

；

[1]

呢條抽象嘅式可以用圖像化嘅方法嚟諗。想像以下呢一幅溫氏圖，每一笪空間都掕咗個數，個數表示嗰一件事件發生嘅機會率，例如 $A$ 、 $B_{1}$ 、 $B_{2}$ 同 $B_{3}$ 呢幾個泡沫外嗰笪空間係 0.34，表示呢四件事件冚唪唥都冇發生嘅機會率係 0.34 咁高。

噉想像而家要計 $P(A\mid B_{2})$ （已知 $B_{2}$ 發生咗， $A$ 發生嘅機會率）：

P(A\cap B)=0.12

（

A

同

B

都發生嘅機率）

P(B)=0.12+0.04

（

B

發生嘅機率）

噉 $P(A\mid B_{2})$ 就會係

{\frac {0.12}{0.12+0.04}}=0.75

。

如果 $X$ 同 $Y$ 係互斥事件^{[e 3]}嘅話，定義上表示佢哋一定唔會一齊發生，條數嘅計法就會係：

P(X\mid Y)={\frac {P(X\cap Y)}{P(Y)}}={\frac {0}{P(Y)}}=0

。

—「已知 $Y$ 發生咗而兩件事係互斥嘅， $X$ 唔會發生^{[註 1]}。」

統計獨立

對比統計獨立同互斥事件
數值	如果兩者獨立...	如果兩者互斥...
$P(A\mid B)$	$P(A)$	$0$
$P(B\mid A)$	$P(B)$	$0$
$P(A\cap B)$	$P(A)P(B)$	$0$

統計獨立^{[e 4]}係概率論上嘅另一個重要概念，可以用條件概率嚟諗。如果話某兩件或者某幾件事件係「彼此之間獨立嘅」，意思係指嗰幾件事件之間唔會影響對方發生嘅概率。用數學化啲嘅方式表達嘅話，如果話 $A$ 同 $B$ 呢兩件事件係獨立嘅，即係指^[2]：

P(A\cap B)=P(A)P(B)

諗返起條件概率嘅計法（ $[1]$ ）：

P(A\mid B)={\frac {P(A\cap B)}{P(B)}}

設咗 $A$ 同 $B$ 呢兩件事件係獨立嘅，掉一掉啲式：

P(A\mid B)={\frac {P(A)P(B)}{P(B)}}

P(A\mid B)=P(A)

——由此可見，假如兩件事件統計獨立，就表示「知道 $B$ 發生咗」並唔影響「預計 $A$ 有幾大機會發生」。除此之外，仲可以思考吓條件獨立^{[e 5]}：設 $C$ 做條件，如果話 $A$ 同 $B$ 喺呢個條件下有條件獨立，意思即係話^[3]

P(A\cap B\mid C)=P(A\mid C)P(B\mid C)

或者

P(A\mid B\cap C)=P(A\mid C)

上述兩條式係同等嘅。

條件獨立：推導方法

$P(A\cap B\mid C)=P(A\mid C)P(B\mid C)$ → 根據條件概率嘅定義...

iff ${\frac {P(A\cap B\cap C)}{P(C)}}=\left({\frac {P(A\cap C)}{P(C)}}\right)\left({\frac {P(B\cap C)}{P(C)}}\right)$ → 兩邊齊齊乘 $P(C)$ ...

iff $P(A\cap B\cap C)={\frac {P(A\cap C)P(B\cap C)}{P(C)}}$ → 兩邊齊齊除 $P(B\cap C)$ ...

iff ${\frac {P(A\cap B\cap C)}{P(B\cap C)}}={\frac {P(A\cap C)}{P(C)}}$ → 根據條件概率嘅定義...

iff $P(A\mid B\cap C)=P(A\mid C)$

喺呢個情況下，如果已知 $C$ 發生咗， $A$ 係咪發生咗唔會影響 $B$ 發生嘅機會率，同時 $B$ 係咪發生咗唔會影響 $A$ 發生嘅機會率。即係可以想像成「呢兩件事件喺某啲條件達到咗嘅情況下，會係彼此獨立嘅」^[3]。

常見誤解

响廿一世紀初，條件概率謬論^{[e 6]}係對條件概率嘅一個常見誤解，講到啲人成日有種信念，諗住以下嘅嘢實會成立：

P(A\mid B)\approx P(B\mid A)

意思即係話佢哋諗住 $P(A\mid B)$ 同 $P(B\mid A)$ 數值實係差唔多嘅——「將條件概率入便嗰兩件事掉轉，得出嘅數值應該唔會爭好遠」。呢個諗法其實係錯誤嘅^[4]，用圖像化嘅方式思考，可以睇睇以下幅圖：

設深色嗰笪做 ${\text{sam}}$ （粵拼：sam1）， ${\text{sam}}$ 佔咗 ${\text{B}}$ 嘅一小橛，即係話 $P({\text{sam}}\mid {\text{B}})$ 係一個細嘅數值。但相對嚟講，如果一點屬於 ${\text{sam}}$ ，佢一定會係屬於 ${\text{B}}$ ——

P({\text{B}}\mid {\text{sam}})=100\%

由此可見， $P({\text{sam}}\mid {\text{B}})$ 同 $P({\text{B}}\mid {\text{sam}})$ 兩個條件概率爭好遠。數學化啲講，可以思考吓貝葉斯定理^{[e 7]}講嘅嘢^[5]：

{\begin{aligned}P(B\mid A)&={\frac {P(A\mid B)P(B)}{P(A)}}\\\Leftrightarrow {\frac {P(B\mid A)}{P(A\mid B)}}&={\frac {P(B)}{P(A)}}\end{aligned}}

由上述嘅分析可知，要達致 $P(B)/P(A)\approx 1$ ， $P(A\mid B)\approx P(B\mid A)$ 呢句嘢先會成立。

應用例子

N-gram

自然語言處理^{[e 8]}係人工智能嘅一個學科，專門研究點樣教電腦處理粵語或者英文等嘅自然語言。自然語言本質上就係前後連貫嘅，已經聽咗或者睇咗嘅符號（語音或者文字都可以算符號）會影響跟住落嚟嗰啲符號要點樣理解^{[註 2]}，所以好多自然語言處理技術都會用到條件概率。

舉個簡單例子說明，N-gram 係一種相對簡單嘅自然語言處理技術，但係經已可以攞嚟教電腦分辨一段文字係咩語言^[6]。想像依家有一串 100 隻字符咁長嘅符號，一個 3-gram 嘅演算法會睇每串連續三個符號係乜嘢樣，再用前兩個符號嘅樣估跟住嗰個符號最有可能會係乜；例如想像家陣手上有串噉嘅粵語字^[7]^[8]：

我星期日會同阿爺阿嫲去飲茶，最鍾意嗌燒賣嚟食。

依家只睇呢段字：如果打前兩個字符係鍾意，跟住嗰個符號係嗌嘅機率係 100% 咁高：响呢一串字入面，鍾意出現咗一次咁多，而喺嗰次當中串嘢跟住嘅字符係嗌；所以上面段嘢嘅 3-gram 當中，「鍾意後面掕嗌」嘅機率係 100%。實際應用當中嘅 n-gram 會用極大量嘅語言資源嚟做類似嘅估計，計出一隻語言啲字符以至字詞之間嘅統計關係。數學化噉講，一個 n-gram 模型定義上係用^[9]

x_{i-(n-1)},\dots ,x_{i-1}

嘅數值嚟預測 $x_{i}$ ，從而計出

P(x_{i}\mid x_{i-(n-1)},\dots ,x_{i-1})

——即係要計「已知前面嗰串符號係 $x_{i-(n-1)},\dots ,x_{i-1}$ 噉嘅樣， $x_{i}$ 會係噉噉噉樣」噉嘅條件概率。淨係靠住用呢種方法做嘅 n-gram，已經可以做到某一啲比較基礎嘅自然語言處理工作，好似係語言辨認噉——例如同中文書面語（原則上係建基於標準官話嘅）比起嚟，粵語白話文啲名詞後面應該比較大機會出現嘅呢隻字，所以一個人工智能可以靠呢啲條件概率，分辨唔同嘅語言。

關聯規則

關聯規則^{[e 9]}相關嘅分析，會用到條件概率呢個概念。關聯規則可以理解為一啲「如果... 就...」噉嘅法則，描繪數據裡便啲變數之間有咩關係。依家想像有班做營銷^{[e 10]}工作嘅分析師，想探知消費者買嘢嗰陣嘅習慣係點，佢哋由一間超市嗰度攞咗數據，得知某年某月某日，到訪嗰間超市嘅客每個人買咗啲乜，即係話手上嘅數據望落好似噉^[10]^[11]：

顧客 A：荔枝、啤酒、白米、豬肉	顧客 B：荔枝、啤酒、白米	顧客 C：芝士、啤酒、白米、豬肉	下略大約 6,000 個個案...

喺最基本上，班分析師可以計吓每種貨品有人買嘅機率係幾多（支持度^{[e 11]}），例如設 $P({\text{lai zi}})$ 做一個客「買荔枝嘅機會率」， $P({\text{lai zi}})$ 可以好簡單噉計到出嚟：

P({\text{lai zi}})={\frac {\text{買  咗  荔  枝  嘅  顧  客  數  量  }}{\text{顧  客  總  數  量  }}}

班分析師可以做更進階嘅分析。除咗計一件貨品支持度有幾高，佢哋仲可以^[11]：

決定攞走所有支持度（例如）低過 1% 嘅貨品，唔再對佢哋進行分析；
計信心度^{[e 12]}：設 C 同 D 做間超市嘅其中兩件貨品，關聯規則分析上講嘅信心度所指嘅，就係「如果某個客買咗 C，佢會買 D 嘅機會率」，設 ${\text{sap bok}}$ （取自粵語十扑）做支持度，即係^[12]
${\text{seon sam}}(C\rightarrow D)={\frac {{\text{sap bok}}(C\cup D)}{{\text{sap bok}}(C)}}={\frac {P(C\cap D)}{P(C)}}=P(D\mid C)$
計提升度^{[e 13]}：齋靠信心度係唔夠嘅，噉係因為信心度呢個指標並冇考慮到貨品 D 幾多人買（ $P(D)$ ）。提升度可以詮釋做「設商品 D 嘅支持度做恆常^{[註 3]}，C 至 D 嘅信心度」，即係話
${\text{tai sing}}(C\rightarrow D)={\frac {P(C\cap D)}{P(C)\times P(D)}}={\frac {P(D\mid C)}{P(D)}}$ ^{[註 4]}

做咗呢啲分析之後，營銷分析師就可以預測客人行為^[13]，可以用各種手法圖利（或者做啲嘢方便顧客）。例如如果知道咗客人買親 C 傾向會買埋 D，賣方就可以做減價嗰陣特登淨係同 C 或者 D 其中一樣做減價，又或者暗中將啲賣 D 嘅廣告 show 畀買咗 C 嘅客睇... 等等^[14]。

睇埋

註釋

↑ 或者精確啲講，係近乎完全冇可能會發生。
↑ 可以睇睇語境同句法等嘅概念。
↑ 亦可以睇吓控制變數嘅概念。
↑ 如果呢個數值係 1，表示買唔買 C 同買唔買 D 之間根本冇啦掕。如果個數值大過 1，就表示買 C 會提升買 D 嘅機率。如果個數值細過 1，就表示買 C 會降低買 D 嘅機率。

引述

呢篇文用咗嗰啲行話詞彙嘅英文版：

↑ probability theory，專門研究機會率嘅一套數學理論。
↑ given
↑ mutually exclusive
↑ statistical independence
↑ conditional independence
↑ conditional probability fallacy / confusion of the inverse
↑ Bayes' theorem
↑ natural language processing，NLP
↑ association rule
↑ marketing
↑ support
↑ confidence
↑ lift

呢篇文引用咗嘅文獻同網頁：

↑ Kolmogorov, Andrey (1956), Foundations of the Theory of Probability, Chelsea.
↑ Russell, Stuart; Norvig, Peter (2002). Artificial Intelligence: A Modern Approach. Prentice Hall. p. 478.
↑ ^3.0 ^3.1 Horimoto, K. (2013). Conditional Independence. In: Dubitzky, W., Wolkenhauer, O., Cho, KH., Yokota, H. (eds) Encyclopedia of Systems Biology. Springer, New York, NY.
↑ Paulos, J.A. (1988) Innumeracy: Mathematical Illiteracy and its Consequences, Hill and Wang. (p. 63 et seq.)
↑ Stuart, A.; Ord, K. (1994), Kendall's Advanced Theory of Statistics: Volume I - Distribution Theory, Edward Arnold, §8.7
↑ Russell, S., & Norvig, P. (2002). Artificial intelligence: a Modern Approach. Pearson. Ch. 2.
↑ Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D., & Lai, J. C. (1992). Class-based n-gram models of natural language. Computational linguistics, 18(4), 467-479.
↑ Jurafsky, D., & Martin, J. H. (2021). Speech and Language Processing. Stanford University. Ch. 3.
↑ Millington, I. (2019). AI for Games. CRC Press. p. 582-584.
↑ Kumbhare, T. A., & Chobe, S. V. (2014). An overview of association rule mining algorithms. International Journal of Computer Science and Information Technologies, 5(1), 927-930. "The performance of FP-growth is better than all other algorithms."
↑ ^11.0 ^11.1 （英文）簡介點樣用 R 程式語言嚟做關聯規則探勘，講到關聯規則探勘當中嘅 support-confidence-lift 三大指標。
↑ Hornik, K., Grün, B., & Hahsler, M. (2005). arules - A computational environment for mining association rules and frequent item sets. Journal of Statistical Software, 14(15), 1-25.
↑ Kumbhare, T. A., & Chobe, S. V. (2014). An overview of association rule mining algorithms. International Journal of Computer Science and Information Technologies, 5(1), 927-930. "The performance of FP-growth is better than all other algorithms."
↑ Ng, A., & Soo, K. (2017). Numsense! Data Science for the Layman. Annalyn Ng and Kenneth Soo.

拎

（香港繁體）條件概率 | Conditional Probability，呢段 YouTube 影片嘅製作者講粵語寫英文，講解條件概率。
（英文）條件概率，Wolfram 數學世界

[5] 或者精確啲講，係近乎完全冇可能會發生。

[15] 可以睇睇語境同句法等嘅概念。

[28] 亦可以睇吓控制變數嘅概念。

[29] 如果呢個數值係 1，表示買唔買 C 同買唔買 D 之間根本冇啦掕。如果個數值大過 1，就表示買 C 會提升買 D 嘅機率。如果個數值細過 1，就表示買 C 會降低買 D 嘅機率。

[1] robability theory，專門研究機會率嘅一套數學理論。

[2] ven

[4] utually exclusive

[6] statistical independence

[8] tional independence

[10] tional probability fallacy / confusion of the inverse

[12] Bayes' theorem

[14] tural language processing，NLP

[20] ssociation rule

[21] rketing

[24] support

[25] ↑ confidence

[27] t

[3] Kolmogorov, Andrey (1956), Foundations of the Theory of Probability, Chelsea.

[7] Russell, Stuart; Norvig, Peter (2002). Artificial Intelligence: A Modern Approach. Prentice Hall. p. 478.

[hori13-9] 3.0 ^3.1 Horimoto, K. (2013). Conditional Independence. In: Dubitzky, W., Wolkenhauer, O., Cho, KH., Yokota, H. (eds) Encyclopedia of Systems Biology. Springer, New York, NY.

[11] Paulos, J.A. (1988) Innumeracy: Mathematical Illiteracy and its Consequences, Hill and Wang. (p. 63 et seq.)

[13] Stuart, A.; Ord, K. (1994), Kendall's Advanced Theory of Statistics: Volume I - Distribution Theory, Edward Arnold, §8.7

[russell2002-16] Russell, S., & Norvig, P. (2002). Artificial intelligence: a Modern Approach. Pearson. Ch. 2.

[17] Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D., & Lai, J. C. (1992). Class-based n-gram models of natural language. Computational linguistics, 18(4), 467-479.

[18] Jurafsky, D., & Martin, J. H. (2021). Speech and Language Processing. Stanford University. Ch. 3.

[millington2019582584-19] Millington, I. (2019). AI for Games. CRC Press. p. 582-584.

[22] Kumbhare, T. A., & Chobe, S. V. (2014). An overview of association rule mining algorithms. International Journal of Computer Science and Information Technologies, 5(1), 927-930. "The performance of FP-growth is better than all other algorithms."

[ARLtutorR-23] 11.0 ^11.1 （英文）簡介點樣用 R 程式語言嚟做關聯規則探勘，講到關聯規則探勘當中嘅 support-confidence-lift 三大指標。

[26] Hornik, K., Grün, B., & Hahsler, M. (2005). arules - A computational environment for mining association rules and frequent item sets. Journal of Statistical Software, 14(15), 1-25.

[30] Kumbhare, T. A., & Chobe, S. V. (2014). An overview of association rule mining algorithms. International Journal of Computer Science and Information Technologies, 5(1), 927-930. "The performance of FP-growth is better than all other algorithms."

[31] Ng, A., & Soo, K. (2017). Numsense! Data Science for the Layman. Annalyn Ng and Kenneth Soo.

[e 1]

[e 2]

[1]

[e 3]

[註 1]

[e 4]

[2]

[e 5]

[3]

[e 6]

[4]

[e 7]

[5]

[e 8]

[註 2]

[6]

[7]

[8]

[9]

[e 9]

[e 10]

[10]

[11]

[e 11]

[e 12]

[12]

[e 13]

[註 3]

[註 4]

[13]

[14]