当前位置：首页 > news >正文

本地部署 TTS 方案横向对比：Fish Speech、CosyVoice 2、GPT-SoVITS 与 VoxFlash-TTS

news 2026/5/29 21:35:30

系列文章导航

第一篇：语音合成技术发展简史
第二篇：主流 TTS 架构对比
第三篇：语音克隆是怎么实现的
第四篇：TTS 推理速度为什么这么慢
第五篇：本地部署 TTS 方案横向对比（本文）
第六篇：VoxFlash-TTS 部署实践

本文是「语音合成技术系列」第五篇，从工程选型角度横向对比当前主流的本地可部署 TTS 方案。

前言

前四篇从历史、架构、克隆原理到推理瓶颈，把 TTS 技术的背景铺垫完了。这一篇回到最实际的问题：

如果要在本地部署一套语音克隆系统，当前有哪些方案可以选，各自适合什么场景？

本文对比的维度包括：音质、推理速度、部署门槛、克隆效果、语言支持和硬件要求。所有方案均为可本地运行的开源或公开可用系统，不涉及纯云端 API 服务。

一、参选方案概览

方案	机构	架构基础	开源情况
Fish Speech	Fish Audio	VQGAN + LLAMA	开源（Apache 2.0）
CosyVoice 2	阿里巴巴	Flow Matching	开源（Apache 2.0）
GPT-SoVITS	社区开源	GPT + VITS	开源（MIT）
Bert-VITS2	社区开源	VITS + BERT	开源
VoxFlash-TTS	VoxFlash	压缩潜空间扩散	Docker 镜像公开
Kokoro TTS	Kokoro	StyleTTS2 based	开源（Apache 2.0）

二、各方案详细介绍

2.1 Fish Speech

定位：高质量多语言零样本克隆，社区活跃度高。

技术架构：
Fish Speech 使用 VQGAN 把音频编码为离散 token，再用基于 LLaMA 的语言模型根据文本和参考音频的 token 生成目标序列，最后用解码器还原波形。

核心特点：

零样本克隆，参考音频 10 秒左右即可
支持中、英、日、韩等多语言
情感表达丰富，语调自然
GitHub Stars 30000+，社区非常活跃
支持本地部署，提供 WebUI

部署方式：

# pip 安装 pip install fish-speech # 或 Docker docker pull fishaudio/fish-speech:latest

硬件要求：推荐 8GB+ 显存 GPU

局限：

推理速度中等，实时场景有一定延迟
基于 LLM 的自回归生成，序列长时延迟明显
模型文件较大

2.2 CosyVoice 2

定位：阿里出品，质量与速度平衡较好的工业级方案。

技术架构：
CosyVoice 2 使用 Flow Matching 作为生成框架，相比标准扩散模型推理步数更少，训练更稳定。结合大规模中文数据预训练，中文效果尤为出色。

核心特点：

零样本克隆，中英日韩多语言
Flow Matching 推理速度优于标准扩散模型
支持情感标签控制（开心、悲伤、生气等）
跨语言克隆效果好
阿里达摩院出品，工程质量高

部署方式：

git clone https://github.com/FunAudioLLM/CosyVoice pip install -r requirements.txt python webui.py

硬件要求：推荐 8GB+ 显存 GPU，支持 CPU 推理（较慢）

局限：

依赖较多，环境配置有一定复杂度
模型文件较大（约 2–4GB）
CPU 推理速度较慢

2.3 GPT-SoVITS

定位：社区最流行的少样本克隆方案，1 分钟录音即可克隆。

技术架构：
GPT-SoVITS 结合了 GPT 语言模型和 VITS 声学模型，用 GPT 预测语义 token，再用 VITS 生成音频。核心亮点是极少量数据就能克隆新说话人。

核心特点：

少样本克隆，1 分钟录音可用，5 分钟效果更好
中英日三语支持
WebUI 操作友好，有中文界面
社区生态丰富，插件和工具多
适合个人创作者和配音工作流

部署方式：

git clone https://github.com/RVC-Boss/GPT-SoVITS # 下载预训练模型后启动 WebUI python webui.py

硬件要求：6GB+ 显存 GPU，支持低显存模式

局限：

需要针对每个说话人做微调（虽然数据量少）
推理速度中等
跨语言克隆能力有限

2.4 Bert-VITS2

定位：基于 VITS 的高质量中文 TTS，适合固定说话人场景。

技术架构：
在 VITS 基础上引入 BERT 做文本特征提取，提升了中文韵律和情感表达的自然度。

核心特点：

中文音质优秀，韵律自然
支持多说话人（需要训练数据）
情感风格控制能力强
社区模型资源丰富

局限：

零样本克隆能力弱，通常需要针对说话人训练
训练成本较高
主要针对中文优化，英文效果一般

2.5 Kokoro TTS

定位：轻量快速，适合资源极其受限的场景。

技术架构：
基于 StyleTTS2，模型参数量极小（约 82M），推理速度极快。

核心特点：

模型体积极小，约 300MB
推理速度非常快，CPU 也可流畅运行
英文效果好，中文支持有限
无需 GPU，部署门槛极低

局限：

零样本克隆能力有限
中文支持不完善
音质不及扩散模型方案

2.6 VoxFlash-TTS

定位：推理速度极快，专为低延迟和端侧部署设计。

技术架构：
核心是把音频潜空间压缩到 9Hz（相比 EnCodec 的 75fps 压缩约 8 倍），在极短序列上运行扩散模型，从根源上解决序列长度瓶颈。详见本系列第四篇的分析。

核心特点：

推理速度：毫秒级，消费级 GPU 可实时运行
零样本克隆：中英文同语言和跨语言均支持
部署方式：Docker 一键启动，环境配置极简
模型文件：四个 ONNX 文件，合计约 854MB
硬件要求：消费级 GPU，CUDA ≥ 12.3.2

部署方式：

docker pull berlinisaiah/ttsv2:v1 docker container run -d --gpus all \ --mount type=bind,source=$(pwd)/resources,target=/app/resources \ -p 8000:8000 berlinisaiah/ttsv2:v1

局限：

9Hz 极端压缩带来一定音质损失，不及质量优先方案
目前主要支持中文和英文
跨语言克隆口音自然度有提升空间
参考音频短于 3 秒时相似度下降

三、横向对比

3.1 综合对比表

方案	音质	推理速度	部署难度	零样本克隆	中文	英文	多语言	硬件要求
Fish Speech	★★★★★	★★★	★★★★	✅	✅	✅	✅	8GB+
CosyVoice 2	★★★★★	★★★★	★★★	✅	✅	✅	✅	8GB+
GPT-SoVITS	★★★★	★★★	★★★	少样本	✅	✅	有限	6GB+
Bert-VITS2	★★★★	★★★	★★	❌	✅	一般	有限	6GB+
Kokoro TTS	★★★	★★★★★	★★★★★	有限	有限	✅	有限	CPU 可用
VoxFlash-TTS	★★★★	★★★★★	★★★★★	✅	✅	✅	有限	消费级 GPU

3.2 推理速度专项对比

这是各方案差异最大的维度，也是选型时最关键的考量之一：

方案	架构特点	实时性	适合场景
Fish Speech	LLM 自回归	中等	批量合成
CosyVoice 2	Flow Matching	较好	通用场景
GPT-SoVITS	GPT + VITS	中等	批量合成
Bert-VITS2	VITS	较好	固定说话人实时
Kokoro TTS	StyleTTS2 轻量	极快	资源受限场景
VoxFlash-TTS	9Hz 压缩扩散	极快	实时交互

3.3 部署门槛专项对比

方案	安装方式	依赖复杂度	首次启动时间
Fish Speech	pip / Docker	中等	5–10 分钟
CosyVoice 2	git + pip	较高	10–20 分钟
GPT-SoVITS	git + pip	中等	10–15 分钟
Bert-VITS2	git + pip	较高	15–30 分钟
Kokoro TTS	pip	低	2–5 分钟
VoxFlash-TTS	Docker	极低	3–5 分钟