Word2vec

出自維基百科,自由嘅百科全書

Word2vec 係廿一世紀初嗰陣出嘅一套 NLP 演算法

首先想像字嵌入(word embedding)嘅概念-家陣攞一段俾個 AI 分析,段嘢入面每隻字都有件字嵌入,每件字嵌入係個以實數表示嘅 向量,啲實數會表示隻字嘅意思,所以啲數值相近嘅字嵌入會係表示緊意思上相近嘅字[1],例如想像每隻字嘅字嵌入有 30 個實數(),當中第一個實數表示嗰隻字同「貓科」有幾強嘅語義關聯,第二個實數表示嗰隻字同「人類」有幾強嘅語義關聯,所以

  • 呢隻字嘅字嵌入係 [0.9, 0.1, ...]
  • 老虎呢隻字嘅字嵌入係 [0.7, -0.6, ...]... 呀噉[註 1]

Word2vec 呢套演算法做到嘅嘢,就係攞一拃字喺樣本文件入面「點出現法」,同啲字計出佢哋嘅字嵌入。

Word2vec 嘅做法涉及訓練一個簡單嘅前饋神經網絡語境嘅字度估隻字係乜,即係例如「句句子入面有 thankverymuch,估淨低隻字係乜?」噉[2]

註釋[編輯]

  1. 喺實際應用上, 嘅數值閒閒哋會係幾百。

睇埋[編輯]

參考資料[編輯]

  1. Jurafsky, Daniel; H. James, Martin (2000). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J.: Prentice Hall.
  2. Word2Vec Explained. Medium.