当前位置:经济频道首页 > 科技前沿 > 正文

真假难辨?猎户星空10段话克隆你的声音!(2)

2018-11-06 09:00:20    快科技  参与评论()人

现在大家地图导航软件中的听到的明星音,针对导航场景录制了几千句的语料,不仅声音生涩感强,而且需要的成本和周期较长,在其他领域的声音效果不是很好。如果用户预期不苛刻,这样一种方式也未尝不可。

真假难辨?猎户星空10段话克隆你的声音!

另一种是基于单元挑选和波形拼接的语音合成,或者叫做拼接合成、拼接法,与参数法相反,优点是合成语音自然度很好,缺点就是数据要求太大,至少万句语料才能满足商用需求,一些厂商会请声优为其智能产品录制语料库,前后时间长达数月,花费动辄几百万。

猎户星空:十段话合成人声

鱼和熊掌不可兼得,传统的TTS存在着或多或少的问题。所以这个领域的核心,在于如何降低训练成本,用更少的语料合成高质量的声音。

随着人工智能、深度学习的应用,TTS也迎来了新的变革。2017年3月,Google 提出了一种新的端到端的语音合成系统:Tacotron。它可将接收的输入字符,输出成相应的原始频谱图,然后提供给Griffin-Lim重建算法生成语音。2017年底,Tacotron 2结合了WaveNet和Tacotron的优势,不需要任何语法知识即可直接输出文本对应的语音。

在已有的技术创新铺垫下,猎户星空TTS团队在Tactron的基础上,训练了大语料库的语音库作为基础模型,目标发音人只需要录制10段话,通过Adapt自适应模型,提取出目标发音人的特征,再通过World声码器,即可合成出目标发音人音色相同的语音。

所以,这项技术真正落地商用后,将为明星语音、个性化语音的合成带来重大突破,尤其是很大程度上减少明星音合成的成本、缩短应用研发的周期。

关键词:

相关报道:

    404 提示信息
    404

    您访问的页面找不回来了!

    返回首页
      您感兴趣的信息加载中...

    相关新闻