全部项目 视觉感知 视觉增强 自然语言 音频处理 分析推荐 自动驾驶

SV2TTS 5秒内声音克隆

1千     2021-01-28 14:05   [分类:音频处理]   

源码
论文
2

仅需几秒钟的录音,就能克隆你的声音。

该存储库是使用实时工作的声码器实现从说话者验证到多说话者语音合成的转换学习(SV2TTS)的实现。如果您好奇或正在寻找我未记录的信息,请随时检查我的论文。通常,我建议您快速浏览一下引言之外的数字。

SV2TTS是一个三阶段的深度学习框架,它允许从几秒钟的音频中创建语音的数字表示,并使用它来调节经过训练的文本到语音模型,以推广到新的语音。


使用所建议的系统以不同声音合成句子的例子。梅尔频谱图被可视化为参考话语,用于生成说话人嵌入(左),和相应的合成器输出(右)。文本到光谱图的对齐以红色显示。
使用三个从列车组中伸出的扬声器:一个公扬声器(顶部)和两个母扬声器(中间和底部)



跟着UP主,体验一下吧


英语原版Real Time Voice Cloning: https://github.com/CorentinJ/Real-Time-Voice-Cloning
中文版Real Time Voice Cloning声音模型: https://github.com/KuangDD/zhrtvc  



推荐项目
Copyright © 2020 万物律动 旗下 AI算法狮 京ICP备20010037号-1
本站内容来源于网络开放内容的收集整理,并且仅供学习交流使用;
如有侵权,请联系删除相关内容;