機械翻譯

出自維基百科,自由嘅百科全書
Jump to navigation Jump to search
唐字羅馬字俾好多人攞嚟書寫佢哋嘅語言。

機械翻譯粵拼gei1 haai6 faan1 jik6英文machine translation,簡稱「MT」),或者叫機器翻譯,有陣時會簡稱機翻,係電算語言學(computational linguistics)嘅一個子領域,專門研究點樣用電腦軟件嚟幫手翻譯一啲用自然語言寫嘅文-「自然語言」即係好似廣東話台灣話人類日常講嘢會用嘅語言[1][2][3][4]

喺最基本嘅層次,機翻會將一種語言嘅字直接換做目標語言當中相應嘅字,但係現實係,靠呢種做法通常都唔會俾到理想嘅翻譯出嚟-呢種做法得出嘅結果幾乎實要用人手執先至會靚[5]。要翻譯得流暢,部機器要識得睇嗮成句句子,甚至乎係成段嘢,了解嗮當中每一個字嘅意思,先至再決定俾啲乜嘢輸出好。舉兩句英文句子嚟說明:

句子 1:The thriller movie is disturbing.
句子 2:The noises he makes are disturbing.

喺以上呢兩句句子裏面,講緊嘢嗰個人都用咗「disturbing」呢個形容詞,但係呢個字要譯做粵文嘅話就起碼有兩個可能嘅意思:呢個字就噉睇可以譯做「令人不安」噉解,但係譯做「令人覺得佢煩」噉解又得[6],所以對於呢個字要點譯,就一定要睇嗮成句句子先可以做決定:句子 1 用「disturbing」嚟形容一套驚慄片,而句子 2 就用「disturbing」嚟形容某個人所發出嘅噪音。因為噉,喺前者嘅情況當中,「disturbing」比較有可能係指「令人不安」,而喺後者嘅情況入面,「disturbing」就比較可能係指緊「令人覺得佢煩」。由上面呢個例子睇得出,一個字嘅意思可能會因為成句句子或者成段嘢當中嘅其他字而有所不同。一個完善嘅機翻程式一定要識處理呢個問題,而呢個過程通常要用到統計同埋人工神經網絡等嘅技巧[1]

有陣時人類又可以幫手改善機翻軟件嘅輸出嘅質素。例如係有啲系統就會俾個用家負責指明要翻嗰段文入面邊啲字係屬於名,等部電腦識得邊啲字唔好直譯(例如「New York」要譯做粵文就唔應該譯做「新約克」)。有咗呢啲技術,機翻成功噉俾人類廣泛噉用嚟幫手做翻譯,而喺某啲情況裏面,機翻俾出嚟嘅輸出仲可以直接-即係唔使經人手執-攞嚟用,好似係對天氣報告嘅翻譯就係噉樣。

對於機翻嘅潛質,學界自從 1950 年代嗰陣開始經已有唔少嘅爭論,當中有唔少相關領域嘅科學家都唔覺得機翻會有一日完全取代人手翻譯,但係又有啲科學家持有相反嘅意見[7][8]

概論[編輯]

一個譯到鬼五馬六嘅餐牌;就噉將一種語言嘅字直接換做目標語言當中相應嘅字好多時會俾到令人啼笑皆非嘅輸出。

核心問題[編輯]

睇埋:翻譯

用人手做翻譯嘅過程大致上如下[9]

  1. 解讀源文段字嘅意思;
  2. 將呢啲意思重新噉用目標語言表達出嚟。

呢個過程就噉睇好似簡單得好交關,但係實際上佢背後有住一柞好複雜嘅認知作業[10]。要將源文段字嘅意思完全噉解讀嗮出嚟嘅話,個翻譯者實要分析嗮成段字嘅特徵-呢個過程要求個翻譯者要好詳細噉了解嗰隻語言嘅文法語義句法慣用語、以至講嗰隻語言嗰班人嘅文化。同一道理,個翻譯者亦都要對隻目標語言有深入嘅認識[9]。而機械翻譯呢個領域最主要嘅挑戰就在於要點先至可以寫一啲程式令到一部電腦曉學人噉樣做呢個過程,而且俾出嚟嘅輸出仲要係望落同人手做嘅冇分別嘅

基於規則[編輯]

內文: 基於規則機械翻譯

基於規則機械翻譯(ruled-based machine translation;RBMT)主要係喺整字典同埋文法程式嗰陣用嘅,會運用對來源語言同目標語言嘅文法嘅認識同埋對兩隻語言嘅語義嘅分析。基本嘅做法係用對來源語言嘅分析將輸入嗰句嘢嘅結構同輸出嗰句嘢嘅結構連繫埋一齊,再產生一句輸出嘅句子[11]。例如係以下呢段翻譯噉:

英文句子:A girl eats an apple.
目標語言:廣東話

RBMT 會揾本字典將原句句子嘅每個字揾個對應嘅廣東話字:「A」係「個」,「girl」係「女仔」,「eat」係「食」等等。跟手 RBMT 會分析英文同粵文分別嘅造句法則,再用揾出嗰啲對應字用粵文造句法則砌返句句子出嚟,跟手就會俾呢個輸出:「個女仔食個蘋果」。

RBMT 最大嘅問題係,要用佢做翻譯就實要將兩種語言內含嘅規則明文噉列嗮出嚟,但係呢個做法有唔少問題:一,語言呢家嘢有陣時有好多不成文嘅規定嘅,例如「某某食某樣嘢」喺廣東話入面聽落有啲怪-喺描述動作嗰陣,廣東話比較常會講「某某食緊某樣嘢」或者「某某食咗某樣嘢」,但係呢條係不成文嘅規則;二,用 RBMT 嘅人仲要同部電腦講好嗮所有有關歧義要點處理嘅法則,例如對於「disturbing」呢個字應該對應「令人不安」定係「令人覺得佢煩」,寫 RBMT 機翻程式嗰個人一定要指定好嗮喺乜嘢情況下譯做前者,乜嘢情況下譯做後者,但係英文(同埋其他主要語言)入面有過萬個字-要逐個逐個字指明嗮呢啲法則好多時根本就唔可行。因為噉,RBMT 有好多限制,喺好多情況之下都行唔通。

統計[編輯]

內文: 統計機械翻譯

統計機械翻譯(statistical machine translation;SMT)會嘗試用統計學嘅方法嚟做機翻。呢種機翻嘅原理係揾一大柞(事先人手翻譯咗嘅)兩種語言嘅句子返嚟做樣本,再寫啲程式去教部電腦揾出唔同字之間嘅統計關係。舉個例說明:如果部電腦撞到一句英文句子入面有「disturbing」呢個字,噉佢會嘗試透過啲樣本嚟計吓個字應該譯做「令人不安」嘅機會率係幾多幾多,同埋呢個機會率會點樣隨住「句句子入面仲有乜嘢字」變化(如果個字俾寫嘢嗰個人用嚟形容一套驚慄片,噉應該譯做「令人不安」嘅機會率就會高啲)。喺部電腦處理完個樣本之後,佢內部會產生一個統計模型,而呢個統計模型嗰柞參數會由個樣本嗰度導出[12]。一般嚟講,個樣本愈大,統計機翻嘅準確性就愈高[13]。到咗廿一世紀,世界上有多個政府都興用呢種手法翻譯佢哋啲文件,例如加拿大嘅聯邦政府就用咗呢種方法同佢啲文件做英(佢嗰兩個官方語言)翻譯[14],而且 Google 翻譯都有用咗呢種手法[15]

統計機翻相當受歡迎,有唔少科學家都想進一步發展佢,甚至有人提倡話再進步啲嘅統計機翻能夠淨係用一種語言嘅樣本就可以做到機翻[16]

進一步嘅MT原理[編輯]

語料庫嘅技巧,我哋可以進行複雜啲嘅翻譯,允許更好咁處理語言嘅類型學、短語同識別嘅差異,同埋成語嘅翻譯,最好就隔離咗啲異常嘢去。

依家嘅機械翻譯軟件成日畀啲由領域同事定制(例如天氣報告)— 改善輸出畀啲有限嘅範圍嚟准許性嘅換人。呢個技巧係經常性嘅影響喺個領域邊度正式定係方程式語言係用過嘅. 佢跟緊住個政府同符合法律嘅機械翻譯迅速咁產生咗冇能力嘅輸出多過去拗定係少啲標準化嘅文字。

提高翻譯文質素[編輯]

講嚟講去,依家最好嘅提高質量方法依然係人工介入,譬如人擅長于響長長嘅文字段落中辨別出專有名詞,而且好少會搞錯,所以可以先由人將嗰啲詞翻譯出來,再有機器翻譯其他,有效減少出錯嘅機會。

但係,當前嘅機譯系統始終都唔能夠達到人翻譯嘅同等質量,特別係當文字語氣寫得唔係幾嚴謹時。

MT嘅歷史[編輯]

機械翻譯嘅意見可能會搵返去喺十七世紀度。喺1629年, René Descartes 建議整個普及嘅語言同啲相關嘅意見喺唔同嘅發音分享一個標誌。"機械翻譯"個區入面所出現嘅會喺Warren Weaver備忘錄嘅翻譯度 (1949年). 第一個搜索嘅人喺個區入面係 Yehosha Bar-Hillel, 佢開始去進行佢嘅搜索喺MIT 嗰度(1951年)。搜索者繼續咁樣去加入個區域機械翻譯同電腦性共同語嘅組織邊個係喺美國度組成嘅 (1962年)。1972年,佢畀保護性搜索同工程總監(簡稱DDR&E)寫報告, 全面MT嘅可能性已經重新再建立嘅由啲成功嘅MT系統喺翻緊譯軍用手册轉成越南文當打緊仗嘅時候。

MT響今日世界嘅現狀[編輯]

日本[編輯]

20世紀80年代末,日本文部省大藏省都極力主張大搞人工智能同機器譯,並由野村研究所專門負責協調各項MT技術研究。搞出好多款實用嘅MT軟體,以下為有代表性嘅幾款。

參考同工具[編輯]

基礎知識[編輯]

經典書籍[編輯]

Hutchins, W. John; and Harold L. Somers (1992). 《機械翻譯導論》 —— An Introduction to Machine Translation. London: Academic Press. ISBN 0-12-362830-X.  Cite uses deprecated parameter |coauthors= (詳情)

  • 機械翻譯文獻網 —— 該網址由以上同一作者維護,An electronic repository (and bibliography) of articles, books and papers in the field of machine translation and computer-based translation technology

有代表性嘅MT引擎[編輯]

翻訳サイトのいわば下請け業者的な物で、実際にはこれらの翻訳エンジンの出力結果が表示される。新たに翻訳サイトを立ち上げる時に、自ら開発をしない場合はこれらの業者からライセンスを受けることになる。

  • BizLingo エキサイト翻訳ほか
  • KODENSHA エキサイト翻訳ほか
  • クロスランゲージ Yahoo!翻訳、Infoseek マルチ翻訳ほか
  • Amikai エキサイト翻訳、EnjoyKoreaほか
  • World Lingo Googleほか
  • J-SERVER 英語、中国語、韓国語に対応。OCN翻訳に左記3言語翻訳を、Excite翻訳に中国語翻訳を提供している。Yahoo!Chinaにも提供。)

人氣好嘅網上機械翻譯[編輯]

[編輯]

  1. 1.0 1.1 Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D., Jelinek, F., Lafferty, J. D., ... & Roossin, P. S. (1990). A statistical approach to machine translation. Computational linguistics, 16(2), 79-85.
  2. Somers, H. (1999). Example-based machine translation. Machine translation, 14(2), 113-157.
  3. Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
  4. Machine Translation | SYSTRAN Technologies.
  5. Albat, Thomas Fritz. "Systems and Methods for Automatically Estimating a Translation Time." US Patent 0185235, 19 July 2012.
  6. Definition of 'disturbing'. Collins English Dictionary.
  7. Yehoshua Bar-Hillel (1964). Language and Information: Selected Essays on Their Theory and Application. Reading, MA: Addison-Wesley. pp. 174–179.
  8. "Madsen, Mathias: The Limits of Machine Translation (2010)". Docs.google.com.
  9. 9.0 9.1 Kelly, Nataly; Zetzsche, Jost (2012). Found in Translation: How Language Shapes Our Lives and Transforms the World. TarcherPerigee.
  10. Gutt, E. A. (2014). Translation and relevance: Cognition and context. Routledge.
  11. Nirenburg, Sergei (1989). "Knowledge-Based Machine Translation". Machine Trandation 4 (1989), 5 - 24. Kluwer Academic Publishers.
  12. Philipp Koehn (2009). Statistical Machine Translation. Cambridge University Press. p. 27. ISBN 0521874157. Retrieved 22 March 2015. Statistical machine translation is related to other data-driven methods in machine translation, such as the earlier work on example-based machine translation. Contrast this to systems that are based on hand-crafted rules.
  13. "Inside Google Translate – Google Translate".
  14. Hoy, Claire. Nice Work: The Continuing Scandal of Canada's Senate, p. 165.
  15. "Google Translator: The Universal Language". Blog.outer-court.com.
  16. Tambouratzis, G., Sofianopoulos, S., & Vassiliou, M. (2013). Language-independent hybrid MT with PRESEMT. In Proceedings of the Second Workshop on Hybrid Approaches to Translation (pp. 123-130).

[編輯]