为了账号安全,请及时绑定邮箱和手机立即绑定

有内味了!MIT文本转语音神器,少量数据集还原角色声音 | 在线免费

文本转语音,又出了个神器。

这个工具来自MIT,并且还是在线、免费,可以用它来生成各种字符的44.1 kHz声音。

https://img3.sycdn.imooc.com/5e6498b00001f8b110800397.jpg

这些声音是使用多种音频合成算法定制的深层神经网络实时生成的。

最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的“声情并茂”了。

使用起来非常简单,主页中的“Source”提供了几部电影或动画,“Character”提供了里面的一些角色。

只需要在文本框中输入不多于140字符的文本,点击生成,就能很快输出对应角色、带有韵律的语音。

文本转语音,有内味儿了

效果怎么样?我们先来看看几个例子。

首先是《Portal 2》中的GLaDOS的声音。

https://img1.sycdn.imooc.com/5e6498b00001880602560302.jpg

The Enrichment Center would like to announce a new employee initiative (inishutive) of forced voluntary participation. If any Aperture Science employee would like to opt out of this new voluntary testing program, please remember, science rhymes with compliance.


GLaDOS来自量子位00:0000:08

接下来是《My Little Pony》中Fluttershy的声音。

https://img1.sycdn.imooc.com/5e6498b00001ba3610800779.jpg

As we speak I am contacting (cawnt tacting) my secret network of spies across the USA (you ess ay) and your IP (iypea) is being traced right now so you better prepare for the storm, maggot. The storm that wipes out the pathetic (puh thetic) little thing you call your life.

Fluttershy来自量子位00:0000:06

最后,是来自《Doctor Who》中Tenth Doctor的声音。

https://img1.sycdn.imooc.com/5e6498b000017d3c02500287.jpg

Harry tells me you’re quite the science whiz. You know, I’m something of a scientist myself.

Tenth Doctor来自量子位00:0000:04

嗯,确实有内味儿了!

好玩,但可以更完美

当然,我们也可以从一些例子中听出来,出来的声音并不是完美的,作者对此也做出了解释。

为什么有些句子听起来像机器人或者声音比较嘶哑?

这个工具生成音频文件的采样率为44100 Hz,而大多数深度学习文本到语音实现使用的是传统采样率,为16000 Hz。

这样处理的一个优点就是产生的音频质量比较高,但是代价也是明显的。

使用一个外部程序(例如 Audacity)来降低音频的采样率,这样就可以让声音听着不那么像机器人。

为什么有些字发音不正确?

这是因为和标准数据集相比,字符数据集非常小,标准音频通常有超过40小时的对话,包含许多不同的词汇。

而这个工具的字符数据集,每个字符只有30至120分钟的对话。

当然,作者也表示,由于英语拼写的不一致,即使是人类也无法100% 准确地说出不熟悉的单词。其中一些问题将来可能会得到解决。


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消