有道翻译在线(在线英汉互译翻译)

机器心脏报告作者:泽南如果你根本不懂外语,你可以拿起手机和外国人直接对话:你甚至不需要选择他们在说什么语言。遇到自己看不懂的单词,很多人会想到打开网易有道词典a

机器心脏报告

作者:泽南

如果你根本不懂外语,你可以拿起手机和外国人直接对话:你甚至不需要选择他们在说什么语言。

遇到自己看不懂的单词,很多人会想到打开网易有道词典app进行查询。最近用过这款应用的同学可能会注意到一个新功能:

有道翻译在线(在线英汉互译翻译)

词典有“对话翻译”功能,现在可以自动检测语言。

除了自动识别语言,有道词典还可以实现近乎实时的同传,延迟不超过一秒,在大部分iOS或Android智能手机上都可以实现。有了这项技术,两个说不同语言的人只需要一部安装了词典app的手机,就可以进行实时流畅的对话。

这个神奇的功能现在支持11种语言互相翻译,这意味着它可以覆盖全球一半以上的人口(如果一个词典手动选择语言进行翻译,则支持44种语言)。

语音识别语言使用图像识别模型。

让手机快速自动识别语言,看似简单的小功能,却大大提高了使用的便利性。在这背后,R&D团队的工作也是一个有趣的故事。

目前,人们日常使用的机器翻译软件中的语音翻译一般遵循类似的工作流程:人群说出的话由语音识别(ASR)系统转换成单词,再由神经机器翻译模型(NMT)转换成目标语言,最后由语音合成(TTS)系统转换成目标语言的语音。

有道翻译在线(在线英汉互译翻译)

语音翻译的级联模型(图片来自MSRA)。

这样的自动过程也有手动步骤——转换语言的类型需要由用户预先选择。一个新的在线功能直接省去了这一步:通过在整个级联过程的前端添加语音活动检测(VAD)和自动语音识别技术(LID),现在你可以与人进行即时对话,而不必切换翻译类型。

有趣的是,语音识别的LID模型来源于ResNet(残差神经网络),在图像识别领域大放异彩。在人工智能行业,这是一个“你必须知道的模型”。ResNet极大的刷新了ImageNet比赛的记录,启发了很多计算机视觉的新方法,但是在语音领域,用ResNet落地技术还是比较新的。

为了让擅长识别图像的AI模型能够处理语音内容,一些开发者专门对原有模型进行了修改和配置。有道词典使用的LID方法,将图像RGB三通道输入修改为语音单通道,神经网络模型压缩到只有2Mb,使其可以离线识别语言。

“此外,当图像输入神经网络时,它们通常具有固定的大小,但在语音识别领域,我们经常会遇到不同长度的内容,”这一新功能的主要贡献者、算法工程师王海伟说。“我们认为让ResNet识别不同大小的内容是可行的,因此我们修改了模型并取得了成功。」

在有道词典app上,语音识别的内容在翻译对话时呈现出一个流的过程。随着说话人输入内容的增加,机器判断的准确率也在不断提高。当“置信度”达到阈值时,系统会开始调用后续进程启动翻译,一个LID给出的自动语言识别最快0.5秒就能给出结果。

有道翻译在线(在线英汉互译翻译)

手机端到端AI模型发起的流程,不仅解决了翻译准确率的问题,还优化了翻译系统的响应速度。

让手机自动识别语言的原理并不复杂。在目前的应用市场中,iPhone在最新的iOS 14系统中使用了类似的技术。从效果上来看,对于有口音的对话,适当识别更好。

有道翻译在线(在线英汉互译翻译)

词典app(左)和iPhone iOS 14系统(右)的对话翻译对比。在中文语境下,字典给出的结果更好。

即使一本字典涵盖了拥有更大用户群和众多型号的Android系统,这一点也是可以实现的。

AI技术落地并没有想象中那么简单。

“一项技术的真正落地,和参加数据竞赛、写论文遇到的挑战是完全不同的,有时甚至更加困难,”有道AI语音团队负责人李青说。

去年有工程师参加了由中国计算机联合会、西北工业大学、上海交通大学、南洋理工大学等机构联合举办的INTERSPEECH2020“口音英语语音识别技术挑战赛”。刚从学校毕业加入有道的吴昊和王海伟,仅仅经过十天的准备,就在口音类型识别和英语语音识别两个赛道上取得了第二名和第三名的成绩。

比赛结束后,团队将研究方案整理成论文发表。在基于目前最流行的深度学习模型Transformer的技术上,研究人员开发了基于端到端语音识别的口音分类算法。据了解,该论文目前也被ICASSP2021接受。

有道翻译在线(在线英汉互译翻译)

有一篇参加INTERSPEECH 2020竞赛的团队发表的论文。

实验表明,该方法在测试集和开发集上的准确率分别为72.39%和80.98%。在2020年INTERSPEECH口音英语语音识别挑战赛中,研究人员提交的系统在口音识别任务中排名第二。

更重要的是,他们在比赛中使用的方案和在线词典app的功能思维是一样的。“为了研究这些属性,归根结底,我们希望改善用户在不同场景下使用产品的体验,”王海伟说我们希望用户在遇到不同口音和语言的时候,能够获得更好的效率。」

相比玩一个游戏,一个技术项目的落地是一个漫长的过程。在有道AI团队,人们总是希望产品能够接近完美。LID技术从迭代到最终推出,花了将近四个月的时间打磨。

与手机自带系统不同的是,有道词典app需要适配大量不同品牌的手机,其中部分可能配置较低,甚至部分品牌的设备在调用录音功能时会有延迟。一个小功能的推出,背后是R&D人员无数次的尝试和努力。

这种工作很复杂,但陶一直在做。

为什么会有这么好用的翻译?

有道翻译有一个专注于技术的团队。算法团队成员主要根据业务需求,研究、设计和实现各种相关算法,训练各种模型。数据团队的成员在不断挖掘高质量的训练数据,并根据算法的要求对数据进行清洗、分类和标注。此外,高性能和R&D团队负责优化模型训练的速度,实现推理机,优化服务性能,并提供在线和离线翻译能力。

有道翻译在线(在线英汉互译翻译)

有一个AI语音团队。

在分工合作下,有道翻译提供的产品不断进化,逐渐成为大量国内用户的首选。目前,网易所有产品月活跃用户(MAU)超过1.2亿。

经常需要翻译外语的同学可能会发现,百度、谷歌、有道翻译系统在不同领域各有得失。事实上,不同领域的质量差异大多是由训练语料的领域分布造成的。如果为每个领域训练一个专门的模型可以得到很好的效果,但是成本很高。如果想要一个模型适应多个领域,一方面可以增加训练数据,另一方面需要在模型或者训练过程中优化领域语料库的使用,比如在模型训练中引入领域信息,或者在训练过程中对一些领域语料库进行重采样等。

有道翻译系统支持用户自定义词汇表的扩展,可以根据用户提供的不同术语实时优化翻译结果,给出正确译文。

“我们在训练中采用了多任务学习的方法,增加了待翻译文本的领域预测,使得整个系统在翻译不同领域时具有更好的质量,”有道AI NLP团队负责人王尽美说。“此外,在一些对速度不敏感的应用场景中,我们探索基于领域记忆的实时优化算法,大大提高了相应领域的翻译质量。」

有道翻译在线(在线英汉互译翻译)

中英文混合的内容也可以通过一本字典准确识别。

自2016年谷歌将神经网络(GNMT)集成到其翻译系统中以来,已经过去了近五年的时间,网易有道紧随其后,于2017年初推出了自研的NMT。业内AI翻译的技术相比过去有了明显的提升,但在一些真实场景中仍然可以看到很多亟待解决的问题。即使在Transformer被广泛使用的今天,仍然有很多空的方法可以提高翻译质量,比如低资源甚至零资源语言的翻译质量。虽然多任务学习和预训练模型方法的使用有所改进,但还可以进一步改进。

“使用Transformer模型也有缺点,需要根据不同的任务场景进行优化。比如在长句推理时,计算量比较大,叠加深度时很难提高模型能力”,王尽美说。“因此,在陶的翻译中,我们优化了离线应用、深度模型应用等任务。」

有道翻译在线(在线英汉互译翻译)

众所周知的硬件词典笔现在已经发展到第三代,不仅可以快速翻译,还可以给你的口语发音打分。

一个学习工具很难从0到1获得人们的青睐。目前教育领域很少有像有道翻译这样的热门产品。另一方面,对于陶来说,“1对1.1”也是一个重要的创新。

未来,有道翻译的算法团队将沿着应用先进技术的道路前进,让翻译系统支持更多语种,达到更高的准确率,进一步降低翻译延迟。

当然,他们也对新技术持开放态度。“除了经典方法和热门技术,我们也一直在关注那些有望在未来几年内落地的技术。”李青说。

*应要求,文中所列人员均使用化名。*

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/206062.html

发表回复

登录后才能评论