重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
本篇文章为大家展示了RTVC 中 ASV 和 TTS 模块结合使用的调研示例分析,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
创新互联坚持“要么做到,要么别承诺”的工作理念,服务领域包括:网站设计制作、成都网站设计、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的抚顺网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!
不知道如何克服 ASV 的输出 SV Vector 应用到 TTS 后, 合成时候的 Unseen Speaker 问题
背景描述:
不管是 M2VoC 还是 音色迁移版本 Cross-lingual TTS, 均可以
先用 ASV 得到音色向量
这个向量不一定需要表述音色, 只需要同一个人集中就好
然后这个向量结合文本参与 TTS 的训练, 让 TTS 熟悉向量
但是如果未见过的说话人, 就需要 ASV 提取的比较准, 并且 TTS 的地方见到的人比较多
比如 ASV 提取向量, 并且寻找离他最近的, 然后用他代替
提取向量在训练的时候, 是当前句子的向量, 但是 Inference 的时候可以随机取 20 句话, 然后取平均
因此调研下文献以及讨论
哪些 SVV 导致 Good Case
哪些 SVV 导致 Bad Case
都记录下来, 进行观察和二分类
不用更改思路, 增多 VCTK 类似的思路, 仔细训练
主要贡献可以体现在
公开数据集的收集
处理
以及使用
最终 Test 集的构建上
不用本身提取的 SVV, 寻找他最近的那个
一个抓去不够, 参考的少, 使用多个
其中多个可以有中文的, 英文的
使用 ASV 得到 SVV, 然后不直接使用 SVV, 而是通过 Attention 将 SVV 表示成几个 GST 的加权和, 然后参与 TTS
训练的时候允许 ASV 进行梯度回传的修改
不过这个方法 TTS 语料只有 100 说话人级别, 而 ASV 语料都是 7000 级别, 因此不好训
但是之前有人做到过很好的跨语言效果, 并且并没有用到这么多说话人
不过先用吧, 看能不能出效果
上述内容就是RTVC 中 ASV 和 TTS 模块结合使用的调研示例分析,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注创新互联行业资讯频道。