当前位置: 首页 > news >正文

深度解析:语音转换与数据增强的TTS前沿技术

在今年的声学、语音与信号处理国际会议(ICASSP)上,某中心的文本转语音(TTS)团队发表了四篇论文。这些论文均涉及语音转换(在保持韵律特征的同时将一种合成语音转换为另一种)、数据增强,或两者兼而有之。

该团队的研究对于某机构的语音助手至关重要,因为这是其与用户沟通的方式。其开发的模型也通过其云服务中的文本转语音服务向客户开放。

以下是对这四篇论文核心内容的概述:

1. 《语音过滤器:使用语音转换作为后处理模块进行少样本文本转语音说话人自适应》
本文针对少样本说话人自适应问题——即仅从少量训练样本中学习新的合成语音。论文将该问题重新定义为学习一个语音转换模型,该模型应用于高质量TTS模型的输出。这是对现有少样本TTS范式的概念性转变。

其核心思想是:对于少样本学习,将现有高质量TTS模型输出的语音谱图,适配到新的目标语音,比直接调整模型本身更容易。关键在于,“语音过滤器”是在TTS模型自身生成的合成数据上进行训练的。该TTS模型是时长可控的,这意味着输入文本会被编码以指示每个音素在输出语音中的持续时间。这使研究人员能够创建两个平行的训练数据语料库:一个由120位不同说话人的真实样本组成,另一个则是TTS模型生成的但时长与多说话人样本相匹配的合成语音。

语音过滤器在平行语料库上训练后,对于少样本学习,只需在新说话人数据上进行微调。实验表明,这种方法产生的语音质量与使用30倍数据训练的传统模型相当。

2. 《使用数据增强进行跨说话人风格迁移的文本转语音》
这篇论文展示了如何构建一个能够进行富有表现力语音合成的TTS模型,即使目标语音的唯一可用训练数据是中性语音。其思路是:首先训练一个语音转换模型,将其他语音中的富有表现力的语音样本转换为目标语音,然后将转换后的语音作为TTS模型的额外训练数据。

该TTS模型接收两个输入:文本序列和风格向量。在训练期间,文本序列传递给TTS模型,目标语音样本的谱图传递给一个参考编码器以产生风格嵌入。在推理时,虽然没有输入谱图,但研究人员证明可以通过向模型输入预先计算的风格嵌入来控制输出风格。

根据使用MUSHRA感知量表的人类评估,相对于基准模型,新模型在14位不同说话人上将合成语音与真实语音之间感知到的风格相似度差距平均缩小了58%。

3. 《针对低资源表达性文本转语音的分布增强》
本文考虑了缺乏新语音训练数据的情况。目标是通过置换现有样本的文本产生新的文本,并重新组合相应语音样本的片段来产生新的语音样本。这并未增加训练目标的声学多样性,但增加了训练输入的语言学多样性。

为确保合成的训练示例在句法上不会过于不连贯,研究人员为输入文本构建了句法分析树,然后在树之间交换句法上等效的分支。交换声学信号中相应部分需要文本和信号之间良好的对齐,这由现有的强制对齐模型完成。

为防止TTS模型对合成示例过度偏向,训练时还在输入中加入了一个特殊标记,用于指示两个现有样本被融合在一起的位置。模型将学习优先处理来自真实样本内部的音素序列,而非跨越融合样本边界的序列。在推理时,该标记的值在所有输入中均设为0。

人类评估表明,新模型在五个不同数据集上的语音输出质量均优于基准模型。

4. 《使用标准化流进行文本无关的非平行多对多语音转换》
在这篇论文中,某中心TTS团队将标准化流的概念(已广泛应用于TTS)应用于语音转换问题。与大多数深度学习模型一样,标准化流学习生成输入数据的向量表示的函数。不同之处在于,这些函数是可逆的,因此可以从表示中恢复输入。团队假设,保留更多输入信息将产生更好的语音转换,早期实验证实了这一假设。

该流程的输入包括源谱图、音素嵌入、说话人身份嵌入、声学信号的基本频率以及指示音频帧是否发声的标志。流程将输入映射到特定应用域中的音素频率分布。

通常,标准化流会从训练数据中同时学习分布和映射。但在这里,研究人员先在标准TTS任务上对流程进行预训练(该任务数据充足),以预先学习分布。由于流程是可逆的,只要其他模型输入(音素嵌入、说话人ID等)可用,表示空间中的向量就可以映射回一组源输入。为了使用标准化流进行语音转换,研究人员只需在此反向映射过程中替换说话人。

研究人员在两种实验设置下进行了检验:一种是语音转换模型同时接收文本序列和谱图作为输入,另一种是仅接收谱图。在后一种情况下,预训练的标准化流模型显著优于基准模型。直接从训练数据中学习音素分布的标准化流模型表现较差,这说明了预训练步骤的重要性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.cnnetsun.cn/news/103296.html

相关文章:

  • 网易云音乐脚本:3大隐藏功能解锁你的音乐自由
  • IDM激活脚本技术深度解析:兼容性重构与性能优化完整指南
  • Minecraft Bedrock启动器技术实现与优化指南
  • MegSpot开源项目完整教程:从入门到精通
  • XposedRimetHelper位置服务功能深度解析:提升钉钉使用体验
  • 深度解锁Windows隐藏功能:ViVeTool GUI使用全攻略
  • 如何快速配置Jellyfin Bangumi插件:新手3分钟上手教程
  • KOReader终极完整指南:免费打造专业级电子书阅读体验
  • VMD-Python分子可视化工具深度解析与实战指南
  • 零基础掌握X-AnyLabeling:GeCO模型目标计数实战全解析
  • Windows界面美化终极指南:DWMBlurGlass实现透明效果全解析
  • 掌握Tianshou:PyTorch强化学习框架从入门到实战
  • 百度网盘秒传链接高效使用指南:从零基础到精通
  • QQ截图独立版:解锁Windows屏幕捕捉新体验的完整手册
  • Emby界面美化完全手册:3种方法打造专属影音中心
  • EmotiVoice语音能量调节功能改善发音力度
  • uvm32一款极简、无依赖的虚拟机沙盒,支持动态加载APP,仅需3KB Flash/1KB RAM
  • Blender版本管理革命:智能化工具如何重塑3D创作工作流
  • 5、Linux 命令使用指南
  • EmotiVoice与动作捕捉结合:打造全感知虚拟人
  • Stable Diffusion WebUI Forge技术架构深度解析:PyTorch生态下的AI绘画引擎
  • 如何快速掌握Grammarly插件:开发者的写作辅助完整指南
  • 5分钟快速上手:yt-dlp-gui 图形界面视频下载终极指南
  • ReadCat电子书阅读器:打造极致纯净的数字阅读体验
  • 韩国掘金必看:Coupang火箭速度背后,跨境卖家的蓝海锚点逻辑
  • FT Transformer终极指南:从架构解析到实战优化
  • 告别混乱桌面:5个步骤用Windows Terminal打造高效远程工作站
  • 16、Kubernetes存储与有状态应用运行指南
  • 19、Kubernetes资源配额、集群容量管理与性能优化
  • 21、高级 Kubernetes 网络技术全解析