字嵌入
字嵌入(粵拼:zi6 ham3 jap6;英文:word embedding)係自然語言處理上嘅一個重要概念,指用多維實數向量表示一隻字嘅意思。
齋靠日常觀察經已可知,人能夠由字嗰度理解啲字嘅意思,但電腦冇呢樣能力,淨係能夠處理一大拃嘅數字;於是自然語言處理上就出咗一個諗頭-攞一段字做 input,同段字入面每隻字都俾若干隻數佢(而呢若干隻數結合成一個向量),用呢啲數嚟表示隻字嘅意思[1]。
概論[編輯]

家陣攞段字俾個 AI 分析,段嘢入面每隻字都有件字嵌入,每件字嵌入係個以實數表示嘅 維向量,啲實數會表示隻字嘅意思,所以啲數值相近嘅字嵌入會係表示緊意思上相近嘅字[2]。
想像每隻字嘅字嵌入有 30 個實數( [註 1]),當中第一個實數表示嗰隻字同「貓科」有幾強嘅語義關聯,第二個實數表示嗰隻字同「人類」有幾強嘅語義關聯,第三個實數表示嗰隻字同「昆蟲」有幾強嘅語義關聯... 等等,數值愈正就表示語義關聯愈勁,即係
Cat
(貓)呢隻字嘅字嵌入係[0.9, 0.1, -0.8...]
;Tiger
(老虎)呢隻字嘅字嵌入係[0.7, -0.6, -0.75...]
;Nebula
(星雲)呢隻字嘅字嵌入係[-0.9, -0.95, -0.95...]
;
姑且唔好諗「點樣知一隻字嘅字嵌入數值係乜」嘅問題住。假想而家每隻字都有咗件字嵌入,一件字嵌入係個向量,所以可以當做空間入面嘅一點噉嚟睇-好似附圖噉;當咗兩隻字係空間入面嘅兩點,分析者就有得計兩點之間嘅歐幾里得距離(Euclidean distance),得出個數值嚟反映「嗰兩隻字喺意思上爭幾遠」[註 2]。
註釋[編輯]
睇埋[編輯]
參攷[編輯]
- ↑ Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings through Hellinger PCA". Conference of the European Chapter of the Association for Computational Linguistics (EACL). Vol. 2014.
- ↑ Jurafsky, Daniel; H. James, Martin (2000). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J.: Prentice Hall.