詞庫
詞庫(粵音:ci4 fu3,英文:lexicon),係指一隻語言或者一套知識裏面啲詞彙嘅總和。例如粵語嘅詞庫包晒所有喺粵語口語會用嘅詞彙——語言(jyu5 jin4)呢隻詞粵語口語會用,算係粵語詞庫嘅一部份[1][2];除此之外,一門知識都可以有佢哋嘅詞庫,例如係 AI 噉,做 AI 相關嘅工作會用到好多概念同埋行話,呢啲嘢入面包含嘅詞彙,可以算係 AI 呢個領域嘅詞庫,形成所謂嘅 AI 詞彙。
喺語言學上,詞庫係一個重要嘅概念:一隻語言可以大致睇做詞庫同文法結合埋一齊而成嘅總體[3] ——詞庫包括咗大拃嗰隻語言裏面嘅詞彙,用語言嘅人要攞住啲詞彙,跟文法將啲詞彙砌埋做句子,達致表達佢哋想表達嘅意思;例如攞住粵語嘅詞彙[4]
再跟粵語嘅文法規則砌成「畀本書我。」噉嘅句子[註 1]。因為詞庫咁基本,對佢哋嘅研究喺語言學同自然語言處理等語言相關嘅工作上相當受到重視。
詞彙學(lexicology)就係語言學嘅一門子領域,顧名思義專研究詞庫。
概念基礎
[編輯]粵語詞庫其中一個 item | ||||
---|---|---|---|---|
語音:Maau1(粵拼) 漢字:貓 意思:名詞,指一種動物,人成日養嚟做寵物或者幫手捉老鼠。 例句:呢隻貓真係人見人愛,等我影佢嘅相再 share 畀朋友先!
|
對於詞庫嘅具體定義,學界有幾套唔同嘅睇法[5]:2.6。根據某啲觀點,詞庫嘅最基本組成部份係字詞,而某啲觀點就認為詞庫嘅基本組成部份係形態素至啱。首先,而家淨係考慮口語,唔諗文字點寫住,一隻字詞由音素同埋形態素組成,當中
- 音素:指令用隻語言嘅人能夠分辨兩隻字嘅最細嘅聲單位;攞粵語做例子,粵語有元音同輔音,噉想像以下嘅音[註 2]
- 形態素:指可以有意思嘅最細可能單位,唔一定能夠自成一隻字詞;攞英文做例子,想像以下呢啲字[7]:"Prefix"
一隻字詞會由若干嚿音素同若干嚿形態素組成。是但搵一個會用語言嘅群體,佢哋用嘅語言裏面有嘅字詞擺埋晒一齊嘅整體,就係嗰個群體嘅詞庫,當中「群體」可以係[9]:講同一隻話嘅人,例:粵語嘅詞庫、閩南話嘅詞庫、英文嘅詞庫... 呀噉;做同一行嘅人——是但搵一門工作,嗰門工作都會有外人(講同一隻語言但唔係做嗰範嘅人)聽唔明嘅行話,所以一個行業可以有佢哋嘅詞庫,例:電腦科學嘅詞庫、工程學嘅詞庫、芭蕾舞嘅詞庫... 呀噉;用同一隻語言而且年齡差唔多嘅人——年齡唔同嘅人講嘢方式可以幾唔同,有陣時可能齋係聽一個人講嘢啲用詞就可以知佢年齡,例:粵語老人家嘅詞庫、粵語後生仔女嘅詞庫... 呀噉。
詞庫化
[編輯]詞庫化係語言演變嘅重要一環,指「將新嘅字詞(或者慣用語等用字詞嘅方法)加入去一隻語言嘅詞庫度」噉嘅過程[10]。詞庫化嘅過程可以係透過好多唔同嘅機制嚟做:
- 合成詞(compound):技術化噉講,合成詞係指一個 lexeme 可能由多個字幹組成,簡化講即係兩隻各有意思嘅字砌埋一齊做一隻自成個新意思嘅字;例如粵人史上第一次見到雪糕嗰陣,就攞住雪同糕呢兩隻本身喺粵文入面可以獨自存在嘅形態素,砌埋一齊變成雪糕呢隻新字詞,隻字詞嗰兩橛對隻字詞整體嘅意思嚟講都係必要嘅[11][12]。
- 減筆(abbrv.):將啲現有嘅字縮短,通常係由原先隻字或者句嘢度攞最重要嗰啲部份出嚟,最後形成隻新字或者句新句子,例如粵語個英文名—— Cantonese ——以英文嚟講係一隻幾長嘅字,成日畀人減筆做 Canto,形成 Canto-pop(指粵語流行曲)等嘅字詞[14]。睇埋揳夫簡潔定律。
- 頭字語:淨係適用於寫起上嚟會攞字母寫嘅語言,指將隻詞用字母寫低,再攞隻詞每個字開頭嗰個字母,砌做一隻新字,例如北大西洋公約組織個名噉,北大西洋公約組織嘅英文名叫
- North Atlantic Treaty Organization
- 借詞:指由第啲語言度借啲字詞嚟用[註 3][16]。
... 等等。
語料分析
[編輯]從事語言相關工作嘅人,成日都會靠住分析語料嚟研究一隻語言嘅詞庫。例如協氏定律就好出名:協氏定律係語言學上一條靠實證[註 4]得出嘅定律;根據協氏定律,以下呢條式實會成立[17]:
- ,當中
指一份 隻字咁長嘅文件入面有幾多隻唔同款嘅字——我我係兩隻同款嘅字,我係係兩隻唔同款嘅字, 同 係某啲參數,數值視乎語言而定。喺英文入面, 數值通常會係 10 至 100,而 數值係 0.4 至 0.6(睇附圖)。用日常用語講嘅話,協氏定律講嘅嘢即係「一份文件嘅長度愈長,愈難搵到新鮮嘅字」。協氏定律講嘅嘢畫做圖嘅樣如下,當中打戙軸做 ,打橫軸做 。
睇埋
[編輯]註釋
[編輯]引咗
[編輯]- ↑ Lai, R., & Winterstein, G. (2020, May). Cifu: a frequency lexicon of Hong Kong Cantonese. In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3069-3077).
- ↑ CC-Canto beta.
- ↑ Dominiek, Sandra; Taft, Marcus (1994). Morphological structure, lexical representation, and lexical access. Lawrence Erlbaum Associates, Publishers.
- ↑ Matthews, Stephen; Yip, Virginia (2011). Cantonese: A Comprehensive Grammar (2nd ed.). London: Routledge.
- ↑ Aronoff, M., & Fudeman, K. (2022). What is morphology?. John Wiley & Sons.
- ↑ Phoneme. Encyclopedia Britannica.
- ↑ Master List of Morphemes: Suffixes, Prefixes, Roots (PDF). Florida Department of Education.
- ↑ Haspelmath, Martin (2010). Understanding Morphology. Andrea D. Sims (2nd ed.). London: Hodder Education.
- ↑ [1]
- ↑ Lipka, Leonhard (January 1992). "Lexicalization and Institutionalization in English and German" (PDF). Linguistica Pragensia: 1-13.
- ↑ ice-cream (n.). Online Etymology Dictionary.
- ↑ 7.2 Compound Words. Essentials of Linguistics. Open Library.
- ↑ Kin-chung, C. H. I. N. (2003). On the Interface Properties of Cantonese Verb-Object Compounds (PDF) (Doctoral dissertation, The Chinese University of Hong Kong).
- ↑ Chu, Yiu-wai; Leung, Eve (2013). "Remapping Hong Kong popular music: Covers, localisation and the waning hybridity of Cantopop". Popular Music. 32 (1): 65-78.
- ↑ What Is an Acronym? Definition and Examples. Grammarly.
- ↑ Kang, Y. J. (2013). Loanwords. Oxford Bibliographies.
- ↑ Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206-208).