当前位置：首页 > news >正文

开源免费！这款 AI 语音工作室让 ElevenLabs 都感到压力

news 2026/6/3 2:53:03

想象一下，如果你能克隆任何人的声音，只需几秒钟的音频样本，就能让 AI 用这个声音说出任何语言的内容——而这一切都运行在你自己的电脑上，完全免费，数据永远不会离开你的机器。

这不是科幻小说，而是今天我要分享的开源项目Voicebox能做到的事情。

🎯 为什么要关注 Voicebox？

如果你用过 ElevenLabs 的语音合成，或者体验过 WisprFlow 的语音输入，你会发现它们各有短板：一个擅长语音输出，一个专注语音输入，但都需要付费，而且数据都要上传到云端。

Voicebox 把这两项功能合二为一，加上本地运行的隐私优势，直接成为了 ElevenLabs 的开源平替版本。

🔥 末尾可获取该项目的下载地址，继续往下看！

核心功能一览

1️⃣ 零样本语音克隆

上传 3-5 秒的音频样本，Voicebox 就能捕捉到声音特征，然后用这个"克隆声音"朗读你提供的任何文本。支持 23 种语言，从英语、中文到阿拉伯语、日语、印地语，覆盖全球主要语种。

2️⃣ 七大 TTS 引擎任你选

Voicebox 内置了 7 个不同的语音合成引擎，每个都有自己的专长：

Qwen3-TTS
：高质量多语言克隆，支持"说慢点"、"耳语"等语气指令
Qwen CustomVoice
：9 个精选预设声音，无需参考音频就能用
LuxTTS
：超轻量级，仅占 1GB 显存，CPU 上也能跑 150 倍实时速度
Chatterbox Multilingual
：支持语言最广，23 种语言全覆盖
Chatterbox Turbo
：支持 [笑]、[叹气]、[喘息] 等情感标签
HumeAI TADA
：能生成 700 秒以上的连贯音频
Kokoro
：82M 超小模型，提供 50 个精选预设声音

3️⃣ 全局语音输入

设置一个快捷键，在任何应用中都能按住说话，松开后自动转录成文字粘贴到当前输入框。Mac 上通过了无障碍认证，体验非常流畅。

如果你是开发者，这个功能特别实用——在 VS Code 里写代码时，直接按快捷键说出需求，文字自动出现，继续编辑就行。

4️⃣ AI 语音助手集成

Voicebox 内置了 MCP 服务器，任何支持 MCP 协议的 AI 客户端（Claude Code、Cursor、Cline 等）都能直接调用它的语音功能。

想象一下这个场景：你让 AI 帮你写代码，AI 不是用文字回复，而是用你克隆的声音直接"说"给你听。

5️⃣ 个性化语音角色

为每个语音配置绑定一个"性格"描述，然后用绑定的本地 LLM 进行文本重写。开启"角色扮演"模式后，AI 会用符合这个角色的语气和风格改写你的输入，再用对应的声音读出来。

创作对话、游戏配音、播客制作时，这个功能太强大了。

技术架构亮点

Voicebox 不是用 Electron 做的，而是用Tauri (Rust)构建原生应用，这意味着更小的内存占用和更好的性能。

后端采用 FastAPI (Python)，前端用 React + TypeScript，状态管理用 Zustand 和 React Query。整个技术栈非常现代，开源社区友好。

平台支持

macOS (Apple Silicon)
：使用 MLX 框架，通过 Neural Engine 加速，速度提升 4-5 倍
Windows / Linux (NVIDIA)
：PyTorch + CUDA，应用内自动下载 CUDA 运行时
Linux (AMD)
：PyTorch + ROCm，自动配置 HSA_OVERRIDE_GFX_VERSION
Windows (任意 GPU)
：DirectML，通用支持
Intel Arc
：IPEX/XPU 加速
纯 CPU 模式
：任何设备都能运行，就是慢点

实际应用场景

内容创作者

录制播客、有声书、视频配音，用克隆的声音保持一致性，配合 8 种音频后处理效果（音调偏移、混响、延迟、合唱等），专业度直接拉满。

开发者

给 AI Agent 加上语音输出，用户提问后，AI 用自然语音回答，不再是冷冰冰的文字。Voicebox 提供了完整的 REST API，集成到自己的应用非常方便。

辅助功能

对于有语言障碍的用户，Voicebox 可以帮助他们用自己的声音重新"说话"。预先录制好自己的声音样本，就能用文字输入生成语音输出。

开源协议

MIT License，完全免费，商业使用也没问题。项目在 GitHub 上已有 1.6k+ Stars，社区活跃，更新频繁。

竞争对手对比

功能	Voicebox	ElevenLabs	WisprFlow
价格	完全免费	按使用量付费	订阅制
数据隐私	本地运行	云端处理	云端处理
语音输入	✅ 支持	❌ 不支持	✅ 支持
语音输出	✅ 支持	✅ 支持	❌ 不支持
开源	✅ MIT	❌ 闭源	❌ 闭源
离线使用	✅ 支持	❌ 不支持	❌ 不支持

未来规划

根据项目的 Roadmap，这些功能正在开发中：

Windows / Linux 自动粘贴功能（追平 macOS 体验）
更多语音识别引擎（Parakeet v3、Qwen3-ASR），支持 50+ 语言
流式实时转录（WebSocket 接口）
端到端语音 LLM（Moshi、GLM-4-Voice、Qwen2.5 Omni）
文字描述生成声音（Voice Design）
双流录制器（麦克风 + 系统音频）
插件架构（支持自定义模型和转换器）

安装使用

macOS 用户

# Apple Silicon 下载 DMG 文件直接安装 # Intel Mac 也有对应的 DMG 安装包

Windows 用户

# 下载 MSI 安装包 双击运行即可

Docker 部署

docker compose up

开发者本地构建

git clone https://github.com/jamiepine/voicebox.git cd voicebox just setup # 创建 Python 虚拟环境，安装依赖 just dev # 启动后端 + 桌面应用

小结

Voicebox 是目前最完整的开源 AI 语音解决方案之一。它不仅提供了商业级的功能（语音克隆、多语言支持、情感标签），更重要的是坚持本地优先的隐私理念，所有数据都在你的机器上处理。

如果你在寻找 ElevenLabs 的免费替代品，或者想给 AI 项目加上语音功能，Voicebox 值得一试。

查看全文

http://www.cnnetsun.cn/news/2586460.html

模拟实现：glibc_1.0-文件操作函数fopen fclose fwrite fflush实现。

零样本与开放词汇目标检测：从语义对齐到开放世界感知的技术演进与实践

别再手动折腾了！用Docker Compose一键部署Yapi接口管理平台（附完整配置文件）

AR物体识别抖动原理与四层实战优化方案

Unity Shader Graph溶解特效的物理建模与多尺度实现

3.计算机是如何工作的（进程调度与管理详解）

Godot 4开发范式重构：渲染、脚本与场景架构深度指南

Godot 4第二版（二）：从能跑通到可交付的工程化跃迁

【Claude长文档推理能力深度解密】：20年AI架构师实测127页PDF/EPUB/DOCX文档的逻辑链断裂点与修复公式

对比官方价格，Taotoken折扣活动为高频用户带来的实际节省感受

GitHub开源项目周报 · 2026年第21周（2026-05-18 ~ 2026-05-24） · AI编程工具与知识图谱项目集中爆发

实测Taotoken平台GPT模型API调用的响应延迟与稳定性表现

双系统引导翻车自救指南：Clover配置config.plist常见错误排查（附DiskGenius/BOOTICE操作）

从E1帧到2.048Mbit/s：深入解析PCM30/32路系统的帧结构与传输效率

深度体验Taotoken用量看板如何让大模型API消费一目了然

从梯度下降到集成王者：GBDT与GBRT核心原理与实战拆解

XDS110固件升级与序列号管理全攻略：解决CCS识别失败与多设备冲突

如何利用Taotoken实现API调用的故障转移与负载均衡

树莓派4B+Python+Adafruit_PCA9685：手把手教你用键盘实时控制舵机（附完整代码）

GitHub学生包申请保姆级教程：手把手教你搞定教育邮箱与在校证明（附翻译工具推荐）

视觉地点识别新范式：基于深度与语义几何特征的鲁棒性研究

联想小新必看！面部解锁一键直达桌面，告别繁琐锁屏步骤

提取矩阵某几行和某几列元素

联想 Yoga Book 9 13IRU8 隐藏技巧！部件栏这样用效率翻倍

LDA与Word2vec融合：构建动态自动化文本标注系统

Lovable设计工具开发全链路解析（含Figma插件+VS Code扩展双实现）

AI剪辑工具怎么选：先用决策树判断你需要的是辅助功能还是生产系统

告别插件安装！在Linux上手动配置ESP-IDF + VSCode开发环境（附环境变量永久生效技巧）

别再手动画甘特图！AI工具自动生成超方便

避坑指南：用Qt开发蓝牙上位机时，那些官方文档没细说的信号槽和内存管理