計量語言學

出自維基百科,自由嘅百科全書

計量語言學gai3 loeng6 jyu5 jin4 hok6quantitative linguistics)係語言學一門,專運用數學化嘅方法(例如係電腦模擬統計學)嚟研究語言

定位[編輯]

定律[編輯]

  • 揳夫簡潔定律(Zipf's brevity law):語言學上一條定律;根據呢條定律[1],一隻喺隻語言入面出現得愈密,隻字就傾向愈短[註 1]
    • 呢條定律係由美國語言學家佐治揳夫喺 1945 年提出嘅,當時揳夫佢喺度研究英文入面嘅字,發覺英文裏面出現得最密嗰幾隻字-the, be, to, of, a-都好短,頂嗮櫳得嗰三隻字母咁長;打後佢去研究拉丁文嗰陣,又係觀察到噉嘅情況,於是佢就提出咗簡潔定律,主張人喺講嘢嗰時傾向會想令啲常用字有咁短得咁短,噉做講嘢嗰陣會慳返好多精力,而且寫字嗰陣又會慳返好多時間[2]
  • 協氏定律(Heaps' law):語言學上一條靠實證[註 2]得出嘅定律;根據協氏定律,以下呢條式實會成立[3]
    ,當中
    • 指一份 隻字咁長嘅文件入面有幾多隻唔同款嘅字-am am 係兩隻同款嘅字,I am 係兩隻唔同款嘅字, 係某啲參數,數值視乎語言而定。喺英文入面, 數值通常會係 10 至 100,而 數值係 0.4 至 0.6(睇附圖)。用日常用語講嘅話,協氏定律講嘅嘢即係「一份文件嘅長度愈長,愈難搵到新鮮嘅字」。

註釋[編輯]

  1. 技術性啲噉講,即係話是但攞隻語言嚟睇,每一隻字嘅「長度」同「出現頻率」呢兩個變數會成負相關
  2. 即係話語言學家都唔肯定點解會有噉嘅現象,但總之實際睇數據嗰陣就係睇到噉嘅規律。

[編輯]

  1. Bentz C., Ferrer-i-Cancho R. (2016). Zipf's Law of abbreviation as a language universal. Universitätsbibliothek Tübingen.
  2. Zipf, G.K. (1949). Human behavior and the principle of least effort. Cambridge, MA: Addison-Wesley.
  3. Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206-208).