統計機械翻譯

出自維基百科,自由嘅百科全書

統計機械翻譯英文Statistical machine translation,SMT)係機械翻譯嘅一種做法,靠分析雙語語料庫,得知兩隻語言統計關係,達致機翻。

概論[編輯]

睇埋:統計學語料N-gram

簡單噉講,可以首先諗吓字詞層面嘅翻譯:

  • 想像研究者手上有一大拃語料[註 1],啲語料包含咗(例如)由隻語言寫出嚟嘅文,仲講明嗮邊句粵文句子對應緊邊句法文句子;
  • 個 MT 程式想知 pomme 呢隻法國話嘅字要點譯做廣東話;
  • 佢可以摷勻嗮啲語料,睇吓啲有隻 pomme 字嘅法文句子,佢哋對應嗰啲粵文句子有咩共通點;
  • 假設啲粵文句子夠代表到「好多唔同意思但都有提到蘋果」嘅句子,個程式應該會發現啲對應嘅粵文句子都有蘋果

-個 MT 程式可以畀蘋果做 output。

原理[編輯]

呢種機翻嘅原理係揾一大柞事先人手翻譯咗嘅兩種語言嘅句子返嚟做樣本,再寫啲程式去教部電腦揾出唔同字之間嘅統計關係。舉個例說明:如果部電腦撞到一句英文句子入面有「disturbing」呢個字,噉佢會嘗試透過啲樣本嚟計吓個字應該譯做「令人不安」嘅機會率係幾多幾多,同埋呢個機會率會點樣隨住「句句子入面仲有乜嘢字」變化(如果個字俾寫嘢嗰個人用嚟形容一套驚慄片,噉應該譯做「令人不安」嘅機會率就會高啲)。喺部電腦處理完個樣本之後,佢內部會產生一個統計模型,而呢個統計模型嗰柞參數會由個樣本嗰度導出[1]。一般嚟講,個樣本愈大,統計機翻嘅準確性就愈高[2]。到咗廿一世紀,世界上有多個政府都興用呢種手法翻譯佢哋啲文件,例如加拿大嘅聯邦政府就用咗呢種方法同佢啲文件做英(佢嗰兩個官方語言)翻譯[3],而且 Google 翻譯都有用咗呢種手法[4]

統計機翻相當受歡迎,有唔少科學家都想進一步發展佢,甚至有人提倡話再進步啲嘅統計機翻能夠淨係用一種語言嘅樣本就可以做到機翻[5]

註釋[編輯]

  1. 喺實際應用上,講緊係閒閒哋幾百萬字咁多。

[編輯]

  1. Philipp Koehn (2009). Statistical Machine Translation. Cambridge University Press. p. 27. ISBN 0521874157. Retrieved 22 March 2015. Statistical machine translation is related to other data-driven methods in machine translation, such as the earlier work on example-based machine translation. Contrast this to systems that are based on hand-crafted rules.
  2. "Inside Google Translate – Google Translate".
  3. Hoy, Claire. Nice Work: The Continuing Scandal of Canada's Senate, p. 165.
  4. "Google Translator: The Universal Language". Blog.outer-court.com.
  5. Tambouratzis, G., Sofianopoulos, S., & Vassiliou, M. (2013). Language-independent hybrid MT with PRESEMT. In Proceedings of the Second Workshop on Hybrid Approaches to Translation (pp. 123-130).