上个月,OpenAI推出了其GPT-3(生成型预训练变换器-3)的封闭测试版,展示了该模型的潜力。随着参与该项目的人数开始增加,一批经过挑选的投资者、专家和记者在社交媒体上分享了他们的实验成果。
GPT-3的指导原则很简单,至少在概念上是这样:机器学习算法对从数字化书籍和网络讨论中推算出的万亿字统计模型进行分析。其结果就是流畅的文字,即使从长远来看,软件在遇到复杂的推理时显示它的所有逻辑限制——因为这种软件通常就是这种情况。尽管一些专家测试了GPT-3的翻译能力,并且在很小的投入下就获得了令人印象深刻的结果,但我们仍与Murray Leinster在《第一次接触》中描述的通用翻译器或其他更受欢迎的科幻小说中发现的神奇装置相去甚远。
因此,提醒一下现实世界中技术的现状,同时对事情的发展情况有个大致的了解,可能很有用。为此,Wordbee组织了一个由四位专家组成的小组,讨论在不久的将来我们可以从神经机器翻译中期待什么。
机器学习和神经机器翻译
机器学习(ML)是计算机科学的一个分支,可被视为人工智能的子领域。以简单的方式定义机器学习的特性和应用并不总是可能的,因为应用领域很广泛,而且ML的工作方式、技术和工具也不尽相同。
但是,我们感兴趣的问题更为具体,即机器学习如何应用于计算语言学和自然语言编程?
有人可能会说机器学习和神经机器翻译(NMT)之间没有太大的区别。机器翻译领域也存在诸如开发机器学习模型、适应现有模型、进行部署以及确保它提供高质量结果等问题。另一方面,机器翻译管理非结构化数据,因此我们需要特定的模型来帮助查找数据集中的结构(模式)。
多年来,语言服务提供商一直试图找到机器翻译的理想用例,并使其适合客户和自己。直到大约五年前,主要讨论的焦点是机器翻译的生产力和后期编辑的有用性。在对这些话题进行了许多基准、学术论文和会议之后,到2020年,讨论终于向前迈进了一步。
我们的专家小组一致认为,用于通用神经机器翻译的培训数据中有80%是有用的。正如Glovo研发主管马克西姆•哈利洛夫(MaximKhalilov)所言,这意味着我们处于一个新时代的风口浪尖,在这个新时代中,机器学习在如何区分好与坏翻译方面正扮演着一个新的重要角色。
质量评估:游戏规则的改变者?
可能会出现一个以质量保证、质量控制和质量评估为基本要素的全新行业模式。顺便说一下,如果这些首字母缩略词让您晕头转向,我们已经在上一篇文章中为您做了介绍。
当谈到2020年的质量和机器翻译的话题时,未来几年我们能期待什么呢?
作为机器学习技术,质量评估(QE)算法自动为机器翻译输出分配一个质量指标,无需访问人工生成的参考翻译。该技术本身已经存在了一段时间,但只有少数公司拥有必要的财力和人力资源,能够在生产环境中试验质量评估。Intento Inc.的全球化与本地化总监Yuka Nakasone表示,到2020年,机器翻译系统的质量评估技术将得以大规模实现,我们很可能看到混合MT-QE系统的兴起。
对于机器翻译提供商来说,这种发展可能特别有趣。部署机器翻译系统时,通常需要考虑的主要因素是系统、时间、成本和质量。质量评估技术可以让技术提供商尝试在成本和时间之间取得正确平衡的同时利用质量界限。
据Hiernymus首席执行官Paula Reichenberg所言,质量评估技术的另外两个有趣的用途可能是:a) 评估用于训练神经机器翻译引擎的数据质量,b) 检测用于翻译特定文档的最佳神经机器翻译引擎。这在复杂和高度专业化的领域,如法律和制药领域尤其有趣。谷歌和微软已经在使用这种质量评估技术:这一创新将使质量评估向公众开放。
更紧密的集成和自适应系统
TextShutle的首席技术官Samuel Lüubli强调了另一个有趣的发展,即各种工具(尤其是CAT工具)和神经机器翻译之间的相互作用,以及翻译记忆库和术语库。目前的集成水平——允许翻译人员对神经机器翻译系统的建议进行后期编辑,CAT是通过API与神经机器翻译系统相连接的——将会变得更加紧密。
就像2015年的统计机器翻译(SMT)一样,现在人们开始讨论自适应神经机器翻译系统。得益于自适应技术,神经机器翻译系统可以在工作中“学习”,同时在后期编辑过程中不断改进。为此,翻译记忆库必不可少:它们必须相关、精确且质量高。术语库也一样,尽管术语集成对于形态丰富的语言来说可能仍然是一个痛点。
感知语境的机器翻译
传统的机器翻译系统是逐句翻译的,孤立单元的翻译有着明显的局限性。现在的工作是开发文档级机器翻译系统,这样的话在翻译句子时,机器翻译引擎会查看前面和后面的句子。谷歌在这方面已经取得了一些进展。
还有其他潜在趋势正在浮现:如何根据垂直领域和语言对选择神经机器翻译引擎?是否需要多种不同的神经机器翻译引擎来处理多语言内容?特定市场的神经机器翻译引擎超专业化是否会成为可能?最重要的是,如何选择跟随哪些趋势?当然,跟上技术发展的步伐非常重要,但每种新鲜“事物”都需要根据您自己的公司需要解决的问题、解决方案的可扩展性、开放源代码的可用性等等进行评估。
Wordbee集成了多种机器翻译引擎,随时准备帮助您将技术解决方案融入您的翻译工作流程中。联系我们进行免费咨询。