跳去內容

分佈語義學

出自維基百科,自由嘅百科全書

分佈語義學粵拼fan1 bou3 jyu5 ji6 hok6)係一種研究語義嘅大方向。分佈語義學研究者會睇大量嘅語言數據,留意隻語言啲嘢(例如字詞)嘅分佈性質,從而量化噉研究語言嘅語義。呢套研究基於語言學上嘅分佈假說

分佈假說

[編輯]

睇埋:同義詞

語義分佈假說[e 1]個諗頭係講語言點樣表達意思嘅。呢套學說講,要決定一隻字詞嘅語義,可以睇吓佢傾向同邊啲字詞「可互換」[1],用粵語語句做例子:

「個差人拉咗個賊。」
「個警察拉咗個賊。」

差人警察喺(例如)99% 嘅情況下都可互換,就算將差人換做警察,句嘢嘅合理度都唔會變。相比之下,差人女警嘅可互換度會低啲,可能得 50%,而差人蘋果嘅可互換度就仲低。

根據語義分佈假說,研究者可以畀電腦讀取極之大量——講緊幾億字咁多——嘅合理語句,就達到教電腦學識理解語言背後嘅意思。呢點就係大語言模型[e 2]背後嘅原理。

睇埋

[編輯]

詞彙

[編輯]
  1. distributional hypothesis
  2. LLM

引述

[編輯]
  1. Harris, Z. (1954). "Distributional structure". Word. 10 (23): 146-162.