同乐城娱乐科技讲堂|机器翻译评测
时间:2018-03-07 11:04:51      来源:NewTranx

一、简介

        机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。事实上,在科学研究和产业界的任何一个领域,如果提出一个新的算法并声称其具有良好的性能,都需要使用某种通用的、被遍及认可的评价标准为这个算法“打分”。这个分数不但要体现出该算法是好的,并且要求能够体现出与其他算法相比,该算法能够好到什么水平。与其他的评测任务面对的东西差别,机器翻译所处理惩罚的东西―语言―自己存在某种水平的歧义,无法像数学公式或者物理模型那样简单客观地描述出来,这使得为机器翻译结果进?行客观的打分变得非常困难。

二、机器翻译系统的用户类型

        机器翻译的译文质量评测与用户的类型有密切干系,差别类型的用户对译文有差别的要求。凭据用户需求的差别,机器翻译系统一般可以分为如下类型:

1.为浏览者研制的机器翻译(MT for the Watcher,简称 MT-W): 其目的是资助浏览者查阅外文资料,对付译问质量要求不高,浏览者可以接受粗糙的译文。

2.为修订者研制的机器翻译(MT for the Reviser,简称 MT-R):其目的是资助用户修订粗糙的翻译,粗糙的译文经过修订之后,质量应该比为浏览者研制的机器翻译的译文有所提 。

3.为翻译者研制的机器翻译(MT for the Translator,简称 MT-T):其目的是资助用户进行在线机器翻译, 用户在翻译时可以使用在线机器辞书、翻译实例库等,因此,对付译文质量的要求比力高 。

4.为写作者研制的机器翻译(MT for the Author,简称 MT-A):其目的在于资助用户进翻译或写作,要尽量制止翻译中的歧义,因此,对付译文质量要求更高。

凭据上述分类,可以有针对性地对机器翻译系统进评测,凭据用户类型的差别,评测时考虑差别的评测重点。

三、人工评测        人是语言的使用者,是机器翻译结果的最终享者,也就自然而然地成为了机器翻译系统质量的唯一评价标准(golden standard)。那么,什么样的译文质量才称得上好呢?我们知道翻译界推崇的“信、达、雅”这个最高标准,即使是最好的翻译人员也很难做到,使用这个标准来要求现阶段还在牙牙学语的机器翻译系统实在是有些勉为其难了。因此,统的机器翻译评测中使用的是诸如“忠实度”(Adequacy)和“流畅度”(Fluency)这一类指标来衡量译文的质量。直观地说,这里的“忠实度”反应的是机器翻译系统生成的译文在多洪流平上忠实于原 文所要表达的意思, “流利度”则用于评价译文自己是否流畅、是否切合目标语言的表达习惯等。理论上,这两个指标是相互独立的,译文可以非常通顺、很容易理解,但却与原文完全不相关。不外,对付机器翻译评测而言 ,这两个指标经常是相关的, 一般忠实度比力差的译文也不容易理解。在人工评测的具体操纵过程中,可进一步对上述指标进行分级,由双语专家比较原文判断每个译文的忠实度和流利度,并为其打分,系统的最终得分即为每个译文分数的累加。

3.1单独接纳忠实度和流畅度进行评测的标准a)忠实度(Adequacy):评测译文是否忠实地表达了原文的内容。按 0–5 分打分,打分可含一位小数。最后的得分是所有打分的算术平均值。

b)流畅度(Fluency):评测译文是否流畅和隧道。按0–5分打分,打分可含一位小数。最后的得分是所有打分的算术平均值。


3.2综合地接纳可理解度(intelligibility)进行评测

表3:人工评测可理解度打分评测时按0.0 – 5.0分打分,可含一位小数,最后接纳百分制换算评测结果。总的流畅度 = 所有句子得分之和/总句数×100%

        使用人工评价的要领得到的结果一般是十分准确的,但主要问题在于评测的本钱太 , 周期过长(评测过程可能长达几周甚至数月 ),评价结果也会随着评价人的变革和时间的推移而差别,这使得评价结果不可重复,缺乏客观性。在这种评测方法下,研究人员无法迅速得知系统改造的效果,延长了机器翻译系统的开周期。

四、国际人工评测网址

        国际上人工评测比力着名的为WMT,该评测组织将会有来自全世界的企业、学术单位进行果然评测,相比力中国内地的CWMT评测具有更多的权威性。几个可供参考的自动评测系统和东西有:

WMT评测系统(www.appraise.cf)

【图1:WMT评测系统】

爱丁堡大学评测系统(matrix.statmt.org)

【图2:爱丁堡大学评测系统】

Universitat Politècnica de Catalunya评测系统

【图3:Universitat Politècnica de Catalunya评测系统】

五、自动评测

        人工评测的耗时耗力使得机器翻译的自动评测被提上了议事日程。如果一种语言中的每一个词都只有一种含义,只对应到另外一门语言中的一个词,任何一个句子都只有一种翻译要领, 那么,不但机器翻译评测变得轻而易举,机器翻译本自己也就只需查找一一对应的标记替换表就可以了。但人类总是要挥自己的智慧才智,实验使差别的要领来表达同一个含义,这就造就了美丽富厚的语言世界,也给机器翻译及其评测带来了巨大的困难。我们知道, 即使是一小我私家类专家,要对一个机器翻译的译文给出一个评分,也不是一件很简单的事情, 要对源文和译文都有比力准确的理解才华做到。机器并没有步伐去理解一个句子,如何能对一个译文句子进行自动评分呢?

        如果一个机器翻译评测系统只凭据原文就能自动地为若干译文打分并选择出其中最好的结果,那么这个评测系统自己就是一个质量更好的机器翻译系统了。因此,人们最先想到的自动评测的出点就是给出一些标准的翻译结果,然后比力机器生成的译文与这些翻译之间的相似水平。我们称这些标准的翻译为参考译文 (或者参考答案)。同一个句子可以有多个差别的参考译 ,这些参考译文都表达同一个含义,但可能使用了差别的词汇,或者虽然使用了相同的词汇但在句中的词序差别。这样一来,机器翻译自动评测的问题转换为比力机器翻译系统输出的一个翻译结果和多个通过人工产生的正确的参考译文之间的相似度的问题, 使用差别的相似度计算要领即可得到差别的自动评测要领。

5.1BLEU 评测要领

        这是一种基于 N 元语法(N-gram)的自动评测法,它通过对译文跟参考译文进行 N-gram 的比力综合而得出译文的好坏的评价分数。这种基于N元语法共现的统计要领中, 一元词的共现代表了翻译的忠实度,它表征了原文有几多单词被翻译了过来; 而二元以上的共现词汇代表了目标标语言的流畅度,阶数高的N元词的匹配度越 ,系统译文的流畅度就越好。

其基本计算公式为:

  • 其中,

  • Pn = 被测译 文中与参考答案匹配的 N-gram 总数/被测译文中 N-gram 总数;

  • BP = 长度处罚因 ;

  • Lref = 与被测句 子长度最接近的答案长度;

  • Lsys = 被评测句子的长度;

  • N = 最 N-gram 长度;

  • Wn = N-gram 的权重;

  • exp x 表 ex,即以 自然对数e为底的指数函数。

  • BLEU 是凭据 N-gram 准确率的几何平均值来计算的,得分越高越好。

5.2NIST评测法

        NIST 在 BLEU 标准基础上提出的一个改造方案,称为 NIST 评测标准。 NIST要领接纳各阶N-gram 的算术平均值,而不是几何平均值,使得总体评价结果更偏重于忠实度, 且也不至于因为某一阶N-gram 的匹配率为零而导致总体评价为零。另外,NIST考虑到每一个N- gram 在多个参考译文中出现的次数差别能够体现出该词的重要性,因此凭据其在多个参考 译文中出现的次数给每一个N-gram 赋予一个权值。实验证明,NIST在敏感性(对被测系统的区分水平) 方面高于BLEU。

下面是 NIST 的基本公式:

  • β是个常数,是一个经验阈值,使得在 Lsys/Lref=2/3 时, β使得长度罚分率为 0.5; Lref 是参考答案的平均长度;其余参数意义与BLEU 相同。

  • NIST 是凭据凭据 N-gram 准确率的算术平均值来计算的,得分越高越好。

  • BLEU 和NIST的自动评测结果有助于减少人工评测的主观性,对付人工评测有一定参考价值。虽然还有其它自动评测要领,诸如:GTM,WER等,这里不再一一详述。






文章列表

同乐城娱乐科技版权所有 京ICP备15037590号