Word2vec

Word2vec 係廿一世紀初嗰陣出嘅一套 NLP 演算法。首先想像字嵌入嘅概念－家陣攞一段字俾個 AI 分析，段嘢入面每隻字都有件字嵌入，每件字嵌入係個以實數表示嘅 $n$ 維向量，啲實數會表示隻字嘅意思，所以啲數值相近嘅字嵌入會係表示緊意思上相近嘅字^[1]，例如想像每隻字嘅字嵌入有 30 個實數（ $n=30$ ），當中第一個實數表示嗰隻字同「貓科」有幾強嘅語義關聯，第二個實數表示嗰隻字同「人類」有幾強嘅語義關聯，所以

貓呢隻字嘅字嵌入係 [0.9, 0.1, ...]；
老虎呢隻字嘅字嵌入係 [0.7, -0.6, ...]... 呀噉^{[註 1]}。

Word2vec 呢套演算法做到嘅嘢，就係攞一拃字喺樣本文件入面「點出現法」，同啲字計出佢哋嘅字嵌入。

Word2vec 嘅做法涉及訓練一個簡單嘅前饋神經網絡由語境嘅字度估隻字係乜，即係例如「句句子入面有 thank、very 同 much，估淨低隻字係乜？」噉^[2]；

睇埋

語義網絡

註釋

↑ 喺實際應用上， $n$ 嘅數值閒閒哋會係幾百。

參考資料

↑ Jurafsky, Daniel; H. James, Martin (2000). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J.: Prentice Hall.
↑ Word2Vec Explained. Medium.

呢篇同語言學有關嘅文係楔位文。歡迎幫維基百科擴寫佢。

[2] 喺實際應用上， $n$ 嘅數值閒閒哋會係幾百。

[1] Jurafsky, Daniel; H. James, Martin (2000). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J.: Prentice Hall.

[3] Word2Vec Explained. Medium.

[1]

[註 1]

[2]