機械翻譯嘅評估
呢篇文 需要熟悉呢方面嘅人幫手寫。 |
機械翻譯嘅評估係指「評估一個 MT 程式嘅 output」。
評估係 MT 上一項重要嘅工序:無論係邊門工程學都好,研究者喺設計一件嘢嗰陣都實要評估件嘢「有幾掂」,件嘢解決問題嘅能力要有返咁上下勁,先至可以攞去出街當產品噉賣。不過 MT 評估一啲都唔易做-首先,翻譯呢家嘢有啲主觀,一位專家覺得掂嘅翻譯,另一位專家可能會覺得唔掂;除此之外,同一句句子要譯做第隻語言,好多時會有多過一個可能嘅譯法,而且兩個譯法都係普遍畀人覺得係可以接受嘅。
評估嘅等級
[編輯]評估單位要係句子(sentence-level)定係成份文件(document-level)?如果話「用句子做評估單位」,意思係指研究者會將啲句子逐句逐句攞嚟睇,睇吓係咪句句都「譯得靚」,而如果話「用成份文件做評估單位」,意思係指研究者會一吓過睇嗮成段字,即係會諗埋「某啲語言,可能會慣例上將某啲類嘅句子擺喺段落最頭」噉嘅問題[1]。
夠掂同流暢
[編輯]夠掂同流暢(adequacy and fluency):呢個概念係講緊「評估重心要係語義定係句法?」噉嘅問題;
- 「評估重點係語義」(夠掂)意思係指,研究者睇重嘅係要將句嘢包含嘅意思全部 output 好佢,而
- 「評估重點係句法」(流暢)意思係指,研究者想個 MT 程式出到嘅 output 要「好似一個能夠流暢使用目標語言嘅人」噉,
所以如果有句 output 係「以目標語言做母語嘅人 get1 到想講乜,但文法唔係好啱」嘅,追求「夠掂」嘅研究者會接受,而追求「流暢」嘅研究者就唔會[2]。
人手評估
[編輯]用人手嚟評估 MT 系統嘅做法如下。
首先,研究者要搵一大班人返嚟做評判,評判一定要係識目標語言又識來源語言嘅。喺實際應用上,評判好多時仲會係對翻譯起碼有啲認識嘅人[註 1]。
假定而家有 5 個英到粵 MT 系統要評估,研究者會要求啲評判坐定定喺部電腦前面,電腦嘅熒幕會顯示類似噉嘅字:
唔該同以下嘅譯法排先後,表示啲譯法邊個最好邊個最差,最好嘅排先,最差嘅排後[註 2]。
- 譯法 1:「我提到嗰個暗窖係由遠古麻石造嘅。」
- 譯法 2:「我講嘅嗰個暗窖係用古老麻石起嘅。」
- 譯法 3:「我講嗰個暗窖係用古老麻石起出嚟嘅。」
- 譯法 4:「我講嘅嗰一個暗窖係用古老麻石起出嚟嘅。」
- 譯法 5:「我提到嘅嗰個暗窖係用古麻石砌出嚟嘅。」
可以用下面嘅空間畀答案。
...
-當中嗰 5 個譯法,就係 5 個 MT 系統分別出嘅 output。正常嚟講,啲 output 嘅出現次序係隨機化嘅,即係唔會(例如)其中一個系統出嘅 output 永遠擺喺「譯法 1」嗰個位,費事「句子出現嘅次序」對研究結果造成干擾。
研究者會重複噉要評判睇好似上面噉嘅問題,可能睇成幾千次。搞掂之後,研究者手上就會有一拃數據,啲數據會(簡化噉講)包含「每一句 input,嗰 5 個系統平均喺嗰句 input 上得到幾高嘅名次」噉嘅資訊[註 3],跟住研究者就有得睇吓「邊個系統傾向攞到高嘅名次」[註 4]-名次傾向高嗰個 MT 系統,就算係「最掂」[4]。
自動評估
[編輯]註釋
[編輯]攷
[編輯]- ↑ Liu, S., & Zhang, X. (2020, May). Corpora for document-level neural machine translation. In Proceedings of the 12th Language Resources and Evaluation Conference (pp. 3775-3781).
- ↑ Banchs, R. E., D'Haro, L. F., & Li, H. (2015). Adequacy-fluency metrics: Evaluating mt in the continuous space model framework. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23(3), 472-482.
- ↑ 句嘢出自 1922 年 H. P. Lovecraft 短篇小說 The Tomb。
- ↑ Graham, Y. (2013). Continuous measurement scales in human evaluation of machine translation. Association for Computational Linguistics.