当前位置: 首页 > news >正文

开源免费!这款 AI 语音工作室让 ElevenLabs 都感到压力

想象一下,如果你能克隆任何人的声音,只需几秒钟的音频样本,就能让 AI 用这个声音说出任何语言的内容——而这一切都运行在你自己的电脑上,完全免费,数据永远不会离开你的机器。

这不是科幻小说,而是今天我要分享的开源项目Voicebox能做到的事情。

🎯 为什么要关注 Voicebox?

如果你用过 ElevenLabs 的语音合成,或者体验过 WisprFlow 的语音输入,你会发现它们各有短板:一个擅长语音输出,一个专注语音输入,但都需要付费,而且数据都要上传到云端。

Voicebox 把这两项功能合二为一,加上本地运行的隐私优势,直接成为了 ElevenLabs 的开源平替版本。

🔥 末尾可获取该项目的下载地址,继续往下看!

核心功能一览

1️⃣ 零样本语音克隆

上传 3-5 秒的音频样本,Voicebox 就能捕捉到声音特征,然后用这个"克隆声音"朗读你提供的任何文本。支持 23 种语言,从英语、中文到阿拉伯语、日语、印地语,覆盖全球主要语种。

2️⃣ 七大 TTS 引擎任你选

Voicebox 内置了 7 个不同的语音合成引擎,每个都有自己的专长:

  • Qwen3-TTS

    :高质量多语言克隆,支持"说慢点"、"耳语"等语气指令

  • Qwen CustomVoice

    :9 个精选预设声音,无需参考音频就能用

  • LuxTTS

    :超轻量级,仅占 1GB 显存,CPU 上也能跑 150 倍实时速度

  • Chatterbox Multilingual

    :支持语言最广,23 种语言全覆盖

  • Chatterbox Turbo

    :支持 [笑]、[叹气]、[喘息] 等情感标签

  • HumeAI TADA

    :能生成 700 秒以上的连贯音频

  • Kokoro

    :82M 超小模型,提供 50 个精选预设声音

3️⃣ 全局语音输入

设置一个快捷键,在任何应用中都能按住说话,松开后自动转录成文字粘贴到当前输入框。Mac 上通过了无障碍认证,体验非常流畅。

如果你是开发者,这个功能特别实用——在 VS Code 里写代码时,直接按快捷键说出需求,文字自动出现,继续编辑就行。

4️⃣ AI 语音助手集成

Voicebox 内置了 MCP 服务器,任何支持 MCP 协议的 AI 客户端(Claude Code、Cursor、Cline 等)都能直接调用它的语音功能。

想象一下这个场景:你让 AI 帮你写代码,AI 不是用文字回复,而是用你克隆的声音直接"说"给你听。

5️⃣ 个性化语音角色

为每个语音配置绑定一个"性格"描述,然后用绑定的本地 LLM 进行文本重写。开启"角色扮演"模式后,AI 会用符合这个角色的语气和风格改写你的输入,再用对应的声音读出来。

创作对话、游戏配音、播客制作时,这个功能太强大了。

技术架构亮点

Voicebox 不是用 Electron 做的,而是用Tauri (Rust)构建原生应用,这意味着更小的内存占用和更好的性能。

后端采用 FastAPI (Python),前端用 React + TypeScript,状态管理用 Zustand 和 React Query。整个技术栈非常现代,开源社区友好。

平台支持

  • macOS (Apple Silicon)

    :使用 MLX 框架,通过 Neural Engine 加速,速度提升 4-5 倍

  • Windows / Linux (NVIDIA)

    :PyTorch + CUDA,应用内自动下载 CUDA 运行时

  • Linux (AMD)

    :PyTorch + ROCm,自动配置 HSA_OVERRIDE_GFX_VERSION

  • Windows (任意 GPU)

    :DirectML,通用支持

  • Intel Arc

    :IPEX/XPU 加速

  • 纯 CPU 模式

    :任何设备都能运行,就是慢点

实际应用场景

内容创作者

录制播客、有声书、视频配音,用克隆的声音保持一致性,配合 8 种音频后处理效果(音调偏移、混响、延迟、合唱等),专业度直接拉满。

开发者

给 AI Agent 加上语音输出,用户提问后,AI 用自然语音回答,不再是冷冰冰的文字。Voicebox 提供了完整的 REST API,集成到自己的应用非常方便。

辅助功能

对于有语言障碍的用户,Voicebox 可以帮助他们用自己的声音重新"说话"。预先录制好自己的声音样本,就能用文字输入生成语音输出。

开源协议

MIT License,完全免费,商业使用也没问题。项目在 GitHub 上已有 1.6k+ Stars,社区活跃,更新频繁。

竞争对手对比

功能

Voicebox

ElevenLabs

WisprFlow

价格

完全免费

按使用量付费

订阅制

数据隐私

本地运行

云端处理

云端处理

语音输入

✅ 支持

❌ 不支持

✅ 支持

语音输出

✅ 支持

✅ 支持

❌ 不支持

开源

✅ MIT

❌ 闭源

❌ 闭源

离线使用

✅ 支持

❌ 不支持

❌ 不支持

未来规划

根据项目的 Roadmap,这些功能正在开发中:

  • Windows / Linux 自动粘贴功能(追平 macOS 体验)

  • 更多语音识别引擎(Parakeet v3、Qwen3-ASR),支持 50+ 语言

  • 流式实时转录(WebSocket 接口)

  • 端到端语音 LLM(Moshi、GLM-4-Voice、Qwen2.5 Omni)

  • 文字描述生成声音(Voice Design)

  • 双流录制器(麦克风 + 系统音频)

  • 插件架构(支持自定义模型和转换器)

安装使用

macOS 用户

# Apple Silicon 下载 DMG 文件直接安装 # Intel Mac 也有对应的 DMG 安装包

Windows 用户

# 下载 MSI 安装包 双击运行即可

Docker 部署

docker compose up

开发者本地构建

git clone https://github.com/jamiepine/voicebox.git cd voicebox just setup # 创建 Python 虚拟环境,安装依赖 just dev # 启动后端 + 桌面应用

小结

Voicebox 是目前最完整的开源 AI 语音解决方案之一。它不仅提供了商业级的功能(语音克隆、多语言支持、情感标签),更重要的是坚持本地优先的隐私理念,所有数据都在你的机器上处理。

如果你在寻找 ElevenLabs 的免费替代品,或者想给 AI 项目加上语音功能,Voicebox 值得一试。

http://www.cnnetsun.cn/news/2586460.html

相关文章:

  • 模拟实现:glibc_1.0-文件操作函数fopen fclose fwrite fflush实现。
  • 零样本与开放词汇目标检测:从语义对齐到开放世界感知的技术演进与实践
  • 别再手动折腾了!用Docker Compose一键部署Yapi接口管理平台(附完整配置文件)
  • AR物体识别抖动原理与四层实战优化方案
  • Unity Shader Graph溶解特效的物理建模与多尺度实现
  • 3.计算机是如何工作的(进程调度与管理详解)
  • Godot 4开发范式重构:渲染、脚本与场景架构深度指南
  • Godot 4第二版(二):从能跑通到可交付的工程化跃迁
  • 【Claude长文档推理能力深度解密】:20年AI架构师实测127页PDF/EPUB/DOCX文档的逻辑链断裂点与修复公式
  • 对比官方价格,Taotoken折扣活动为高频用户带来的实际节省感受
  • GitHub开源项目周报 · 2026年第21周(2026-05-18 ~ 2026-05-24) · AI编程工具与知识图谱项目集中爆发
  • 实测Taotoken平台GPT模型API调用的响应延迟与稳定性表现
  • 双系统引导翻车自救指南:Clover配置config.plist常见错误排查(附DiskGenius/BOOTICE操作)
  • 从E1帧到2.048Mbit/s:深入解析PCM30/32路系统的帧结构与传输效率
  • 深度体验Taotoken用量看板如何让大模型API消费一目了然
  • 从梯度下降到集成王者:GBDT与GBRT核心原理与实战拆解
  • XDS110固件升级与序列号管理全攻略:解决CCS识别失败与多设备冲突
  • 如何利用Taotoken实现API调用的故障转移与负载均衡
  • 树莓派4B+Python+Adafruit_PCA9685:手把手教你用键盘实时控制舵机(附完整代码)
  • GitHub学生包申请保姆级教程:手把手教你搞定教育邮箱与在校证明(附翻译工具推荐)
  • 视觉地点识别新范式:基于深度与语义几何特征的鲁棒性研究
  • 联想小新必看!面部解锁一键直达桌面,告别繁琐锁屏步骤
  • 提取矩阵某几行和某几列元素
  • 联想 Yoga Book 9 13IRU8 隐藏技巧!部件栏这样用效率翻倍
  • LDA与Word2vec融合:构建动态自动化文本标注系统
  • Lovable设计工具开发全链路解析(含Figma插件+VS Code扩展双实现)
  • AI剪辑工具怎么选:先用决策树判断你需要的是辅助功能还是生产系统
  • 告别插件安装!在Linux上手动配置ESP-IDF + VSCode开发环境(附环境变量永久生效技巧)
  • 别再手动画甘特图!AI工具自动生成超方便
  • 避坑指南:用Qt开发蓝牙上位机时,那些官方文档没细说的信号槽和内存管理