跳去內容

語言資源

出自維基百科,自由嘅百科全書
18 世紀嘅《zin1》文本;好似《花箋記》噉嘅木魚書包含咗好多用時期粵語寫嘅文字,可以畀語言學家攞嚟研究嗰個時期嘅粵語[1]

語言資源粵拼jyu5 jin4 zi1 jyun4)係指一啲用嚟幫手整語言處理技術—例如自然語言處理—嘅資源。一隻語言嘅資源,通常會係一啲將隻語言寫低嘅文字,呢啲文字要配合口語,例如用粵語白話文寫成嘅文字可以用嚟做粵語嘅語言資源,但係中文書面語文法用詞上基於標準官話,唔可以攞嚟做粵語嘅資源。語言資源可以嚟自語料庫維基百科社交媒體等嘅地方。

語言資源對於教人工智能處理語言嚟講係不可或缺嘅。噉係因為教電腦處理一隻語言,通常都係要畀電腦讀取一大堆用嗰隻語言寫出嚟嘅文字。例如要整 ChatGPT,設計者就用咗閒閒哋幾億字咁多嘅英文文字。除此之外,語言資源亦可以攞嚟做語言學研究嘅材料。

資源有咩用

[編輯]

語言資源對於自然語言處理[e 1]—即係教人工智能處理自然語言嘅技術—嚟講係好重要嘅。噉係因為喺廿一世紀初,要教 AI 處理一隻語言,梗要畀部電腦讀取大量由嗰隻語言寫出嚟嘅字句。

NLP 入門例子:N-gram

舉個簡單嘅例子說明,N-gram 算係一種比較簡單嘅 NLP 技術,但已經可以用嚟教電腦分辨一段文字係咩語言(語言辨認[2]。N-gram 建基於一個簡單嘅事實:語言文字本質上就係一串串符號。想像而家有一串 100 隻字符咁長嘅符號-LLLRLRRRLL...,一個 3-gram 嘅演算法會睇每串連續三個符號係咩樣,再用前兩個符號估計下一個符號最有可能會係乜嘢樣;例如想像家陣手上有串噉嘅粵語字[3][4]

我鍾意寫粵語維基,可以為粵語提供多啲語言資源。

假想而家淨係齋睇呢段字:如果打前兩個字符係鍾意,跟住嗰個符號係嘅機率係 100% -喺串字入面,鍾意出現咗一次咁多,而喺嗰次當中串嘢跟住嘅字符係;所以上面段嘢嘅 3-gram 當中,「鍾意後面掕」嘅機率係 100%。實際應用上嘅 n-gram 會用大量語言資源嚟做類似噉嘅估計,計出一隻文字啲字符以至字詞之間嘅統計關係。數學化啲講,一個 n-gram 模型定義上係用[5]

嘅數值嚟預測 ,從而計出

[註 1]

淨係靠住 n-gram 已經可以做到一啲比較基本嘅 NLP 工作。

好似 n-gram 呢啲噉嘅技術,必定需要有一大批語言資源:是但搵隻語言,要教電腦學識隻語言嘅 n-gram 就有必要搵一大拃用嗰隻語言嘅口語寫成嘅文字。呢啲噉嘅文字,可以源自語料庫維基百科同埋社交媒體等嘅來源。

低資源語言

[編輯]

有啲語言係所謂嘅低資源語言[e 2]定義上,如果話一隻語言係低資源語言,意思即係話隻語言嘅資源唔夠用,尤其係缺乏人手整理好—精確啲講即係用標記語言標籤好—嘅語言資源。例如廿一世紀初嘅粵語就被指係一隻低資源語言[6]

粵語之所以會低資源,一個主因係佢有雙層語言[e 3]嘅現象:雙層語言簡單講,係指一個語言群體入邊存有兩隻語言,其中一隻畀人覺得係「高檔啲、可以攞嚟寫嘢」而另一隻畀人覺得係「低級啲、唔啱攞嚟寫嘢,或者淨係可以攞嚟寫粗口同鹹濕笑話」—喺廿一世紀初嘅粵港澳,以粵語做母語嘅人好多都慣咗寫嘢嗰陣要用建基於標準官話中文書面語,唔肯寫粵語白話文,或者想寫粵語白話文都唔覺意夾雜咗中文書面語先有嘅用法[7]。而如果攞用咗中文書面語寫嘅文字當做粵語語言資源嚟訓練 AI 學粵語,就會出好似以下噉「唔鹹唔淡」嘅 output [8]

Output 有一日,一只雞跟一隻兔兩兄弟把車開去朋友屋企。突然間車就壞咗。
純中文書面語 有一天,一只雞跟一只兔兩兄弟把車開去朋友家。突然間車就壞了。
純粵語白話文 有一日,一隻雞同一隻兔兩兄弟揸車去朋友屋企。突然間架車就壞咗。

除此之外,一隻語言「地位低」亦會引致第啲問題,例如係錯別字俗字異體字呀噉:地位低嘅語言有一種特徵,就係往往缺乏標準化;有唔少語言都經過咗標準化嘅過程,會有政府提供資源制定同教授「標準讀音」同「標準寫法」,但係包括粵語在內嘅好多語言都缺少咗呢樣嘢;噉就會引致一類問題,就係啲使用者對於「呢隻呢隻口語會講嘅字詞,要點樣寫呢?」呢一條問題冇共識,例如响廿一世紀初嘅粵語書寫當中,有陣時會畀人寫做 d 噉,又有好多口語字詞係啲人識講唔識寫嘅,好似係

粵拼 漢字寫法 例句
Ham6 baang6 laang6 冚唪唥 落堂鐘一響,啲學生冚唪唥跑晒出班房外面。
Ung2 斯薛佛斯佢重複又重複噉㧬嚿石頭上山。
Ap1 阿蟲佢份人,一向都係隨口噏當秘笈嘅。

用呢隻語言寫出嚟嘅文字多「唔標準嘅寫法」,就容易擾亂 NLP 演算法,又係會搞到電腦嘗試畀 output 嗰陣出埋晒一啲「唔鹹唔淡」嘅字句。

因為呢啲噉嘅問題,低資源語言就難以搵到文字材料用嚟教 AI 寫。例如截至 2023 年尾,Google 翻譯支援中文書面語標準官話)、日本話印地話等嘅主流大語言,但係依然仲未支援粵語。

睇埋

[編輯]

Info:語言資源要多樣化

原則上最理想嘅情況係,一隻語言有多種唔同來源嘅資源可以用。舉例說明,淨係一味靠維基百科會有問題,噉係因為啲人用口語講日常生活嘢同埋用口語講知識性質嘅嘢嗰時,啲用字都可能會唔同;粵維嘅文可以有以下呢啲用法,因為呢啲用法有粵語特色得嚟又合乎百科嘅客觀原則:

用法 例句 呢句例句會喺邊度見到?
啱啱好 「地球嘅溫度啱啱好,能夠容納生命。」 生命或者地球等課題嘅文
成日 「蜜蜂成日都會用佢哋嘅針攻擊敵人。」 蜜蜂或者昆蟲等課題嘅文
XX 吓 「白雪公主行行吓,見到小矮人間屋。」 白雪公主以至其他童話故事嘅文
諗頭 「科幻作品好多時都會講到當代科學上嘅重要諗頭。」 科幻相關課題嘅文
硬淨 「鋼非常硬淨,一般認為用鋼起建築物係好穩陣嘅。」 建築相關課題嘅文

但無論邊隻語言嘅維基都好,百科式嘅文係要客觀嘅,唔可以表達作者嘅主觀情感,所以例如「呢個科學發現令我哋覺得好驚嘆」噉嘅句子,一般都係唔可以接受嘅。粵維會缺少呢啲噉嘅句子。不過要全面噉理解一隻語言—無論係粵語、標準官話定英文都好,都需要睇勻晒日常生活對話、知識性質對話、以及表達主觀情感嘅句子... 等嘅唔同材料先至得。因此,要搜集粵語嘅語言資源,亦需要有粵維以外嘅第啲來源。

註解

[編輯]
  1. 想知呢啲數學符號係咩意思,可以睇睇概率論

參考

[編輯]

篇文用咗嘅行話或者專有名詞英文名如下:

  1. natural language processing,NLP
  2. low-resource languages
  3. diglossia

篇文引用咗以下呢啲文獻網頁

  1. (香港繁體) LAM, S. T. (2017). 淺析明末清初的給予句標記及 畀 字的語法功能和語法化過程: 以木魚書《花箋記》 和《二荷花史》 作例 (PDF),呢篇文睇木魚書,探討明朝粵語同廿一世紀初粵語喺嘅運用上有乜分別,發現原來當時嘅粵語白話文會喺雙及物動詞當中用呢隻字,用我送禮物與秀才噉嘅句子表達我送禮物畀秀才嘅意思。
  2. Russell, S., & Norvig, P. (2002). Artificial intelligence: a Modern Approach. Pearson. Ch. 2.
  3. Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D., & Lai, J. C. (1992). Class-based n-gram models of natural language. Computational linguistics, 18(4), 467-479.
  4. Jurafsky, D., & Martin, J. H. (2021). Speech and Language Processing. Stanford University. Ch. 3.
  5. Millington, I. (2019). AI for Games. CRC Press. p. 582-584.
  6. Liu, E. K. Y. (2022, October). Low-Resource Neural Machine Translation: A Case Study of Cantonese (PDF). In Proceedings of the Ninth Workshop on NLP for Similar Languages, Varieties and Dialects (pp. 28-40).
  7. Snow, D. (2013). Revisiting Ferguson's defining cases of diglossia. Journal of Multilingual and Multicultural Development, 34(1), 61-76,有提到 Classical Chinese(文言文)。
  8. 大語言模型點樣令廣東話走出低資源語言嘅惡咒

文章

[編輯]