首页手记不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本

不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本

标签：

人工智能

翻栗子发自凹非寺
量子位出品

在我们的世界里，谷歌翻译是这样的：

一直被调戏的翻译娘

在谷歌的世界里，谷歌翻译是这样的：

西语英语：你不问，就不会知道了

请注意，视频里的文字只是为了便于观赏，才存在的。

而AI在翻译语音的时候，不把西语的音频转成文本，也不生成任何英语的文本，直接产出了英文音频。和标答一字不差。

这是谷歌团队的最新成果，想法大胆而有效。

仿佛在双语环境里出生的小朋友，还没识字，就能把爸爸说的话翻译给妈妈。

怎么会不用看文本？

这个翻译模型，名字叫做S2ST (全称Speech-to-Speech Translation) 。

不看文本只靠听，背后的原理是把一种语音的声谱图 (Spectrogram) ，映射到另一种语音的声谱图上。

那么，声谱图什么样？

下图就是 (西语) “你好么，嘿，我是威廉，你怎么样啊？”的声谱图。

横轴是时间，纵轴是Mel频率

然后是目标，英文的声谱图。

AI只要从大量的成对数据里，学懂英文和西语的声谱映射关系，就算不识别人类说的是什么字，依然能当上翻译员。

当然，一个完整的翻译模型，并没有上面说的这么简单，它由三个部分组成：

一是基于注意力的序列到序列 (seq2seq) 神经网络。就是下图的蓝色部分，它负责生成目标声谱图，这只是第一步，还不是音频；

二是一个声码器(Vocoder) 。下图的红色部分，它会把声谱图转换成时域波形 (Time-Domain Waveforms) ，这已经是带有时间顺序的正经声波了；

三是个可选的附加功能，原本说话人的编码器。绿色部分，经过它的加工，翻译出的英文，和原本的西语，听上去就像同一个人发出来的。

当然，蓝色部分还是主角。

里面的编码器 (左) ，是8层双向LSTM堆起来的；而解码器 (Spectrogram Decoder) ，团队说要选4-6层LSTM的，深一点效果比较好。

成功了

模型是用人类自发的对话 (比如打电话的语音) 端到端训练出来的，一起来看看成果吧。

第一题，短语。“克兰菲尔德大学的新员工”，翻译和标答一字不差。

克兰菲尔德大学的新员工来自量子位00:0000:01

原文：nuevos empleados de Cranfield University
标答：New hires at Cranfield University

第二题，句子。“看看这个国家上下，你看到了什么”，依然和标答一致。

原文：Por lo tanto, mirar alrededor del país y lo que ves.
标答：So, look around the country and what do you see?

对手表现怎样？借助转换文本来翻译的AI，缺了个“do”字：

第三题，带从句的句子。“我的表 (堂) 兄弟姐妹们小的时候，我照顾过他们也教过他们，有过一些这样的经历。”

原文：Tengo cierta experiencia en cuidar y enseñar a mis primos cuando eran jóvenes.
标答：I’ve got some experience in looking after and teaching my cousins when they were young.

照顾 (Taking Care of) 有缺失，其他部分对比标答是完整的。

再看对手，“照顾 (Care) ”和“教 (Teach) ”都用了动词原形，语法不是很严格：

肉眼看过之后，再让S2ST和先转换文本再翻译的AI对比一下BLEU分。

在“Conversational”大数据集上，S2ST的BLEU分比对手差了6分：42.7比48.7。

的确还有一些差距，但毕竟对手依靠了文本，算是开卷考了。

这样说来，直接跳过文本的想法，虽然听起来有些飘，但结果证明是可行的。

所以，谷歌团队说，大有可为啊。

论文传送门：
https://arxiv.org/pdf/1904.06037.pdf

更多样本传送门：
https://google-research.github.io/lingvo-lab/translatotron/

— 完 —

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

量子位

产品经理

手记
篇

粉丝

5267

获赞与收藏

376

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32665 368

网络编程入门教程

20个小节 13524 255

Pandas 入门教程

25个小节 20155 383

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空