字嵌入

出自維基百科,自由嘅百科全書

字嵌入粵拼zi6 ham3 jap6英文word embedding)係自然語言處理上嘅一個重要概念,指用多維實數向量表示一隻意思

齋靠日常觀察經已可知,人能夠由字嗰度理解啲字嘅意思,但電腦冇呢樣能力,淨係能夠處理一大拃嘅數字;於是自然語言處理上就出咗一個諗頭-攞一段字做 input,同段字入面每隻字都俾若干個數佢(而呢若干個數結合成一個向量),用呢啲數嚟表示隻字嘅意思[1]

概論[編輯]

想像而家 係兩隻字嘅字嵌入,可以畫做空間入面嘅兩,跟住分析者就可以計兩點之間嘅距離。
睇埋:語義向量

家陣攞段俾個 AI 分析,段嘢入面每隻字都有件字嵌入,每件字嵌入係個以實數表示嘅 向量,啲實數會表示隻字嘅意思,所以啲數值相近嘅字嵌入會係表示緊意思上相近嘅字[2]

想像每隻字嘅字嵌入有 30 個實數( [註 1]),當中第一個實數表示嗰隻字同「貓科」有幾強嘅語義關聯,第二個實數表示嗰隻字同「人類」有幾強嘅語義關聯,第三個實數表示嗰隻字同「昆蟲」有幾強嘅語義關聯... 等等,數值愈正就表示語義關聯愈勁,即係

  • Cat)呢隻字嘅字嵌入係 [0.9, 0.1, -0.8...]
  • Tiger老虎)呢隻字嘅字嵌入係 [0.7, -0.6, -0.75...]
  • Nebula星雲)呢隻字嘅字嵌入係 [-0.9, -0.95, -0.95...]

姑且唔好諗「點樣知一隻字嘅字嵌入數值係乜」嘅問題住。假想而家每隻字都有咗件字嵌入,一件字嵌入係個向量,所以可以當做空間入面嘅一噉嚟睇-好似附圖噉;當咗兩隻字係空間入面嘅兩點,分析者就有得計兩點之間嘅歐幾里得距離(Euclidean distance),得出個數值嚟反映「嗰兩隻字喺意思上爭幾遠」[註 2]

註釋[編輯]

  1. 喺實際應用上, 嘅數值閒閒哋會係幾百。
  2. 技術性啲講,實際應用上通常會同呢個距離值做標準化

睇埋[編輯]

參考資料[編輯]

  1. Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings through Hellinger PCA". Conference of the European Chapter of the Association for Computational Linguistics (EACL). Vol. 2014.
  2. Jurafsky, Daniel; H. James, Martin (2000). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J.: Prentice Hall.