全网多领域智能翻译首上线——同乐城娱乐科技机器翻译更新上线
时间:2018-03-07 11:05:14      来源:newtranx

摘要

        同乐城娱乐信息科技(北京/深圳)有限公司(以下简称“同乐城娱乐科技”)技术团队历经四个月的努力更新上线了该次垂直领域的机器翻译。该次更新对底层架构进行了彻底调换,并对机器翻译解码器的速度和质量再提高。

        该次升级涉及英语,中文,俄语和维语,并笼罩中英新闻媒体、IT通讯、专利产权、金融财经、生物医学、执法合同,工程制造、国际工程、石油化工、旅游口语十个领域和偏向。

        新版机翻多领域化偏向全网首次上线,翻译速度更快,翻译质量更高。大家如果迫不及待想体验可直接点击链接前往体验公测版(同乐城娱乐智能翻译),如果对其中的技术细节和性能感兴趣可继续阅读哦。

技术部分正文        2014年至今,机器翻译领域可以说是排山倒海。这期间生的大事,是以神经网络作为基础的神经网络机器翻译(NMT),开始在全面逾越此前以统计模型为基础的统计机器翻译(SMT),并快速成为在线翻译系统的主流标配。

        NMT的基本思想,是以每一个句子作为独立的神经元,从而冲破统基于短语的翻译障碍。别的,NMT跳过统基于短语的机器翻译中间种种子NLP步调(分词、词性标注、句法阐发等),用深层的网络结构去直接学习拟合源语言到目标语言的概率,可以实现监督训练,不必完全依赖牢固命据,这可以在专业领域等资料稀少的环节,获得更好的翻译结果 。

图1:人工智能能技术图谱

        同乐城娱乐科技专注人工智能文本领域(自然语言理解),自2014年建立以来一直致力于机器翻译质量的不绝提升和改造,不绝为B端G端用户提供强有力的支撑办事。同乐城娱乐科技深圳公司机器翻译技术团队,历经四个月再次更新完善一版,该版本岂论训练效率还是解码速度和质量都较前一版有较大提升,从技术工程层面看,该次系统较2016年6月和2015版本有如下改变:

图2:各版本机器翻译比拟

本次更新主要有以下特点:1.支持GPU多卡训练        该次升级主要对原有神经网络算法的工程改造以及全部底层语言代码的统一,事实上,近年来深度学习取得的许多进展都源于模型容量的增加和计算力的相应提升。模型容量增大,通常会涉及使用更大、更深的网络,而这些网络又需要庞大的超参数设置和调整。因此,不绝增大的模型和超参数数量也大大增加了训练时间。快速的训练是增量学习能够实用的一个前提包管,所以尽可能的缩短训练时间也是这次更新的重点。通过技术人员的测试,该次更新也支持了多卡训练,让单GPU逊з度接近1.5-2倍的速度快于开源框架Theano, Tensorflow, Torch的训练时间。我们以每秒钟能够处理惩罚的单词数(中文为分词后词语)为评测标准,图2中展示了多卡训练的效果,在NVIDIA GTX 1080 TI的训练中,我们现随着GPU卡数的增多,能够每秒处理惩罚的单词数不绝增多。现实测试现,训练效果比力明显的是4卡同时训练,增加到6卡的时候,提升幅度降低,但是仍然有所提高,能够从单卡每秒4000到每秒15000单词的效果,这样可以大大提升我们的更新线上语言对的速度。当前在漫衍式集群训练环境下,只需要3-5天的时间就可以训练一个千万句对的双语数据。

图3:多GPU卡训练效率评测

2.支持CPU和GPU多卡解码        同时本次系统也同时支持CPU和GPU解码。在真实的B端和G端业务中,我们现用户对CPU和GPU均有需求,由于种种原因,部分用户对GPU办事器的采购是限制的,所以能够在现有CPU办事器上进行解码实用就变得越来越重要。该次更新中,我们增加了对CPU和GPU同时支持,并且响应速度大幅提升。

在CPU解码中:

?第一版的统计机器翻译(435词/秒)解码速度约莫是统计神经网络混合模型(37词/秒)的12倍;

?16线程解码速度中,纯神经网络机器翻译(170词/秒)是混合解码速度(37词/秒)的4倍,是纯统计模型的1/3;

?第二版纯神经网络解码速度(235词/秒)是第一版速度的1.5倍(170词/秒)。

在GPU解码中:

?第二版纯神经网络单卡单线程解码速度(830词/秒)是第一版解码速度(235词/秒)的3倍;

?第二版解码中在BLEU大抵相同的情况下,解码空间从15降为8,速度最高为1128词/秒;

图4:新老版本CPU、GPU解码速度评测

3.多领域翻译支持

        当前有一个共鸣就是,在一定命量的双语数据中,垂直领域的机器翻译要比通用的效果好。这次更新中,我们对公司现存的5.7亿句中英双语数据进行归类整理,划分出了25个领域。最终选择了新闻媒体、IT通讯、专利产权、金融财经、生物医学、执法合同,工程制造、机械工程、石油化工、旅游口语十个领域和偏向作为首批上线领域(图5)。

图5:新版机器翻译10个领域划分

        之所以优先选择这几类领域,是因为机器翻译擅长是叙述性文本的表述和达,对付创作性内容(诗歌,散文)并不完美。而这几个领域正好切合表述相对牢固,容易被机器“理解”。从实践的效果来看,同样一句话,选择差别的领域翻译的质量也会有些许差别,甚至很大的质量差别。这也从结果的层面来验证领域翻译的重要性。

4.效果评测

        为了检验本次更新的效果,我们也使用果然的联合国领域内数据(United Nations Parallel Corpus v1.0) (参考文件下载) 以及UM-Corpus,参考网址 (http://nlp2ct.cis.umac.mo/um-corpus) 做了评测。其中果然的United Nations Parallel Corpus v1.0为1990年到2014年的数据,我们选择了所有的外语到中文的双语数据(英中、法中、西班牙中、阿拉伯语中、俄语中文),另外增补了2015-2016年的联合国双语数据每个语言对约莫30万句以及UM-Corpus的210万句英中双语数据。测试集合选择United Nations Parallel Corpus v1.0中的果然测试集合开集。图6给出了以BELU值作为评测指标的比拟图。

图6:新老版本NMT引擎比拟

        从图6中的评测中可以看出,新版系统翻译质量较上一版本提升效果明显,基本都到达了2个BLEU值的提升(BLEU为机器翻译中常用的自动评测要领,更多关于机器翻译的评测要领介绍,可以存眷同乐城娱乐大讲堂的详细讲解:《 同乐城娱乐科技讲堂 | 机器翻译评测 》),最高能提升9个百分点。虽然,自动评测虽然能从一定水平上能反响出同样测试集,在差别系统中的性能,但是在实际的过程中,人工翻译同样也是一个很重要的指标。这里剧透下我们合作机构的评测结果,专业的译员对300句执法领域评测中显示,有261句可以到达直接稍微修改即可使用的水平,其中有23句的漏译(原文中某些短语片段不翻译)和9句的过译(某个短语片段会重复翻译)问题,有7句需要大的修改,属于机器翻译错误。更多的测试,这里我们留给宽大的用户来评测和反馈。

        别的,该次测试数据中,我们完善了UM-CORPUS中原有的数据,改正去除了其中的乱码和错误的地方,并且增补了100万句通用领域的双语句对,供研究者学习使用。训练数据我们将在十一过后,随着上线更多的语言通知中一起提供。

迫不及待想试试了吧?那就点击体验同乐城娱乐智能翻译






文章列表

同乐城娱乐科技版权所有 京ICP备15037590号