谷歌神经翻译引擎提高了多少？

美国时间9月27日，谷歌宣布推出谷歌神经网络机器翻译系统(GNMT)，采用神经网络机器翻译(NMT)技术大幅提升机器翻译的水平，《麻省理工学院技术评论》杂志MIT TR 报道称“几乎与人类无异”。

结果是让人耳目一新的。翻译界同行Michael Zhang在其微信公众号“译言千金”做了一次谷歌翻译引擎新老版本和人工翻译的对比：下文的“GT1”代表2016年3月份GT机译结果;“GT2”代表2016年10月中旬GT机译结果。

老版本的谷歌译文是让人你熟悉的“机器文”：词是对的，整句需要你在脑子里调整语序后再理解。新版本的译文和人说话的语序几乎一样，和人工翻译没有大区别。

触手可及的体感变化触动了用户和媒体的心弦：它就是我们通常认为的那个会说人话的人工智能，科技的力量很颠覆，至少“颠覆了翻译行业”。

谷歌引擎到底进步了多少?谷歌在发表的论文中列举了几个语向的翻译错误下降率。

其中英语到西班牙语下降了87%，英文到中文下降了58%。

“错误率下降”是怎么回事?我的同事，商鹊网CTO魏勇鹏在接受雷锋网的记者采访时解释了谷歌是如何做的：

比如汉译英。谷歌随机从中文维基百科挑选500个句子，让基于统计的老引擎PBMT、基于神经网络的GNMT和熟练译员各自做一次，译文质量打分从0到6分不等，6分为满分。结果就是老引擎得分3.694，新引擎得分4.263，人工翻译得分4.636。

错误率计算方式为：

勇鹏告诉记者：“一、从3.6提升到4.2，和从4.2提升到4.6，这两个所需要付出的努力程度，后者可能是前者的10倍以上都不止，但Google就简单的线性计算为缩小了60%的差距。二、中英的人工翻译，得到的评分也就只是4.6，比英西的人工翻译要低得多，这点说明用来作为基准的‘人’未必是靠谱的，以它为基准来评估也未必靠谱。”

加拿大国家研究委员会NRC多语言处理研究组陈博兴研究员在他的微信朋友圈发文给了一个评价：

“谷歌所做的事情是将这两年学术界神经网络机器翻译的多种最新技术做了一个整合集成，利用他们强大的工程能力和计算能力，搭了一个很好的系统。他们最好的单系统比我利用开源训练的系统在同一个数据集上要好了大概3个多BLEU值。【注：BLEU标准是美国商务部下属的国家标准与技术研究所NIST举办的一项机器翻译研究水平评测，其原理是比较机译结果和人译结果的相似度，完全一致得分为100(当然不同的人的翻译很难“完全一致”，所以得分100为理想值)。2008年NIST的英文-中文的机器翻译评测结果，谷歌翻译得分41.42。】3个多BLEU的差距，如果由人来判断，仔细看的话，是能感觉到的，但是也就是一个小的进步，谈不上突破什么的。

“对于他们(谷歌发表)的文章，我觉得有两个遗憾的地方：1.所采用的技术都是之前发表过的，没有全新的技术(对google的要求自然要高一点，呵呵)。2. 如果我们有那么大的计算和工程能力以及那么多人力可以投入，即使只是整合已有技术，我觉得我们可以做得更好，比如我会加上清华大学刘洋他们首先采用的最小风险训练方法来进行训练，等等。”

陈老师提到的刘洋在接受媒体采访时淡淡地说：“谷歌做的其实是把目前学术界的一些技术集成在一起。谷歌本身的数据、运算能力，还有工程师水平都非常高，所以他们通过集成做了一个非常强的系统，这个系统和传统方法相比有比较显著的提高。但媒体的报道有点夸张，并不能说机器翻译已经接近人的水平，或者完全取代人。谷歌这项工作还达不到 ‘颠覆性突破’ 这种程度。”

专业人士的评价和普通用户的体感不完全一致。于是懂行的有心人找出了一些有趣的谷歌翻译案例。加拿大博芬翻译公司的赵杰打算寒假回深圳过年，在网上查询找到一家合适的酒店，各种条件都不错，但是看到价钱时含糊了，“The price is quite high”。老赵找到酒店的原版中文介绍，原文是“性价比相当高”，谷歌给的译文把意思给弄反了。

谷歌新翻译引擎在妥当处理原文译文语序的同时，出现了一些莫名其妙的问题。

引擎把“美美”翻成了“美国和美国”，而一个标点或者一个近义词的改变，会让它的译文发生很大的变化，甚者译文会意思迥异。相比之下，采用统计原理训练的有道翻译则把“我想美美地睡一觉”和“我要美美地睡一觉”给出了同样的英文译文。

“谷歌的新引擎的错误无法追溯。”中科院自动化所的张家俊副研究员说，多层神经网络的算法模型的计算过程是一个黑盒子，人无法理解和解释程序自动学习的过程。“谷歌的新引擎在语言流利性有大幅度提高，但是在原文忠诚度上没有明显变化。”张家俊说。

通俗化的话来讲，统计型翻译引擎的基础数据是双语对齐的词、短语和句子，数据对齐的精度越高翻译质量也越高。但是数据精度越高，也意味着在实际应用中命中的概率也越低。过去以谷歌的强大计算能力和最多的语言数据，也无法在穷尽各种语境、各种词句上可以再上一个台阶，谷歌的统计型翻译引擎的BLEU值好几年维持在40+的水平而无法明显提高。

神经网络的算法不再依赖人对语言的理解(词、短语和句子的对齐译法)，在很多语种中把词切分到字母的层级(即Subword)，比如词根、后缀等，对原文各个词之间的关系也计算得更加细致。谷歌新翻译引擎的神经网络达到了八层，计算的过程耗费了巨大的计算能力。这有赖于谷歌自己开发专门面向深度学习的TPU处理器，其单位耗电量的性能达到GPU和FPGA的10倍，且不外卖。

“神经机器翻译NMT系统是个好东西，但相对传统统计机器翻译SMT来说，系统部署所需硬件投入至少涨十几倍。举个例子，抛开翻译性能而言，像采用我们最近组装的支持4块GPU的服务器，NMT系统在这样一台价值4万多元的服务器上运行速度和吞吐，才接近于SMT系统在3000多元的PC机上的性能。假设用户为了满足大规模吞吐和翻译工作的话，比如需要100台机器的话，基于小牛翻译SMT版本只需要投入30多万硬件，但满足同样的性能如果采用小牛翻译NMT系统可能需要投入400多万硬件。真的期待硬件成本继续下降，才能真正让小牛翻译NMT系统真正走入中小企业啊。”小牛翻译的创始人、东北大学朱靖波教授感慨道。

谷歌新引擎的发布让机器翻译行的专业人士达成了一致：神经网络算法的翻译引擎取代传统引擎是行业趋势。但“取代”是抛弃还是迭代?这是一个重大的问题，它意味着诸多传统机器翻译研究学者和行业从业者如何跨入下一步?

张家俊在10月下旬发表了一篇论文，公布了他做的一项研究。他使用了一些传统词典的双语数据支持神经网络的翻译引擎。由于算法的不同，这些词典的词对齐数据无法直接被神经网络的引擎使用。佳俊找到一些使用这些词的公开语句，利用传统引擎翻译成英文，再把这些新生成的数据作为神经网络引擎的源数据。在训练后的翻译引擎测试数据中，如果有100个低频词被词典覆盖，接近80个可以得到正确译文，匹配度接近80%。

“把现有的词典都照你的方法处理成神经网络引擎的语料，它最后的词的准确度就能大幅度提高吗?”笔者问张老师。家俊说：“不是的。我给的数据是传统翻译引擎的译文，有很大的噪音，因此不能说数据越多效果越好。”

张家俊说传统研发的积累，让他得以在新旧引擎之间找到了一些可以继承并创新的方法，为神经网络翻译引擎的进步提出补缺的新思路。

陈博兴研究员说：“机器翻译在可以预见的未来取代不了人工翻译。尤其是现在的人工翻译的市场跟机器翻译的市场基本上不重合，人工翻译对准的是高端市场，要求很精准的翻译需求，而机器翻译则是1，要求不那么精准的翻译情景，比如旅游，比如网页浏览，比如信息监控等等。2，机器翻译帮助专业翻译人员提高效率。如果中国对外交流的程度达到欧美现在的程度，那么中国的高端翻译市场将会是无比巨大的。有志于从事翻译的同学，放心大胆地进来吧。”

“举例来说，理想的法律翻译是100分，实际工作达到95或98分就很好了，80分、85分、95分的质量，收入/报酬的差别不是以五个百分点计算，而是以倍数计算。PE(注：译后编辑，一种新的翻译工作模式，译员基于机器翻译的结果进行校对编辑优化)如果没有能力提升那几个百分点，那和机器翻译没啥差别，报价、收入一样上不去。”微博上的一个资深法律译者，@readthinker99 对译后编辑的看法。

神经网络翻译引擎NMT对翻译行业的好处是它给出的结果更符合人的叙述习惯，可用的部分更多，而从事译后编辑的译员可以更专注在垂直的专业术语短语上给出好的翻译，是一举两得效率提高成本降低的好事情。

——————————

后记：

大赌注

面对神经网络计算的黑盒子，身在实际研究和开发中的专家基本上都和陈博兴先生持相同态度：机器翻译离理解人类语言还很远，可见的时间里跨语种的深入交流需要借助有专业外语能力的人工帮助。因为神经网络的深度学习方式和基于统计的机器翻译算法一样，都没有涉及到语义的理解。无论现在神经翻译引擎读起来有多接近人的话语，这个软件其实“不理解”它计算出来的译文的意思。

人类对自己身认知过程的运转机制，还处于很浅层的研究阶段，脑科学还无法还原大脑在思考一个问题的生理过程。英国物理学家、认知学家戴维·多伊奇教授的看法是：“因为在其核心里有一个悬而未决的哲学问题：我们还不了解创造性如何运作。”所以人类也就无法复制创造的过程。这几乎是人对自身认知、对人工智能AI的最清醒的一个出发点，但是神经网络研究者给了另外一条路径。

清华大学的韩锋老师给一本译著《重新定义智能》作序著文《让“人脑”走下神坛》，该文写于Alphago与李世石大战的过程中。其主要论点是，物理研究已经知道事物或系统有自相似性，基于一种重整化群的方法，使用神经网络的算法和够大的计算能力，可以计算出有计算机智能的逻辑，并得以解释对象，比如Alphago战胜了李世石。(具体阐述过程请参见原文)

韩老师的点出了大部分机器翻译专家面对的一个隐藏问题：他们认为以可靠的能力和认知，机器无法理解人。但是谁也不能确认下一步神经网络会算出什么?那么韩锋老师提出来得可能性不能被证伪。霍金、马斯克说的机器威胁人类，也同样不能被证伪。

真有趣啊。AI时代，人类认知学的大家伙，拥有大数据的公司都在面对、觊觎或担心有一个潘多拉的盒子被打开。更多的人则充满热情和信心、欣喜地准备迎接新的AI的进步，并计算现有的数据和能力，在那一天能做什么。万一没实现呢，我们也不会失去未来。

(本文得到了我的同事魏勇鹏、胡日勒的专业支持)

作者：邹剑宇

本文来自投稿，不代表重蔚自留地立场，如若转载，请注明出处https://www.cwhello.com/44809.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除