
一个免费、本地运行的 AI 语音工作室让你从 3 秒音频克隆任意声音用 7 个 TTS 引擎生成多语言语音还能让 AI agent 用你克隆的声音跟你对话。这个项目解决什么问题录了个视频想加配音发现 ElevenLabs 的语音克隆一个月要 99 美元。写了个 AI 工具想让它能开口说话发现 WisprFlow 只做语音输入不做语音输出。想给播客角色配不同的声音发现每个引擎只能干一件事。Voicebox 把语音 AI 的输入和输出拼在了一起——语音克隆、文本转语音、语音转文本、AI agent 语音输出全部本地运行。7 个 TTS 引擎随意切换23 种语言覆盖还能给每个声音配一个人格——让同一个克隆声音用不同语气说话。快速上手安装# macOS Apple Siliconcurl-L-ovoicebox.dmg https://voicebox.sh/download/mac-arm# macOS Intelcurl-L-ovoicebox.dmg https://voicebox.sh/download/mac-intel# Windowscurl-L-ovoicebox.msi https://voicebox.sh/download/windows# Dockerdockercompose up最简使用打开 Voicebox 桌面应用点击添加声音→ 拖入一段 3-10 秒的音频文件WAV/MP3/FLAC选一个 TTS 引擎推荐 Qwen3-TTS 或 Chatterbox Multilingual输入文本点击生成——几秒后就能听到克隆的声音全局听写按⌘⌥macOS或CtrlAltWindows在任何应用中说话语音自动转文字粘贴到当前输入框。Whisper 本地运行无需联网。让 AI agent 开口说话Voicebox 内建 MCP 服务器。在 Claude Code、Cursor 或 Cline 中配置 MCP 连接后agent 只需调用voicebox.speak就能用你克隆的声音说话。每个 agent 可以绑定不同的声音——Claude Code 用 Morgan 的声音Cursor 用 Scarlett 的声音。常见踩坑首次使用需要下载模型几百 MB 到几 GB建议在有网络的环境下提前下载GPU 要求macOS 需要 Apple SiliconM1Windows/Linux 需要 NVIDIA GPUCUDA部分引擎只支持英文Chatterbox Multilingual 支持 23 种语言是最广的生成过程中 GPU 会被独占同一时间只能跑一个生成任务技术原理Voicebox 的核心架构是一个前端 一个后端 一堆引擎。前端是 TauriRust写的桌面应用负责 UI 和系统交互。Tauri 比 Electron 轻很多——二进制文件小、内存占用低。后端是 Python FastAPI 服务管理所有的 TTS 引擎、语音克隆、音频处理和数据库。7 个 TTS 引擎各有定位引擎大小语言强项Qwen3-TTS0.6B / 1.7B10指令式控制“说慢点”“用气声说”Chatterbox Multilingual—23语言覆盖最广Chatterbox Turbo350M英文带情感标签[笑][叹气]LuxTTS轻量英文48kHz 输出CPU 也能跑Kokoro82M850 个预设声音CPU 推理超快TADA (HumeAI)1B / 3B10超长连贯音频700 秒每个引擎是一个独立的 PyTorch 模型Voicebox 用统一的调用接口封装它们。选择引擎并输入文本后后端加载对应模型的 checkpoint如果启用了语音克隆将参考音频的特征注入模型然后运行推理生成音频最后应用后处理效果链。语音克隆走的是零样本路径——不需要对参考声音做 fine-tune。一个 speaker encoder 把参考音频编码成 embedding 向量注入到 TTS 模型的 cross-attention 层。参考音频最短 3 秒就能工作10-30 秒效果更好。长文本自动按句子边界分块可配置 100-5000 字符每块独立生成然后 crossfade 拼接。支持 50000 字符上限对文章和章节级别的 TTS 足够了。每次生成都有来源追踪——原始输出、加效果后的版本、重新生成的 takes。每个版本记录 lineage方便回溯。架构分析Voicebox 的模块划分voicebox/ ├── app/ ← React 前端 ├── backend/ ← Python FastAPI 后端 │ ├── routes/ ← API 路由 │ ├── services/ ← 核心逻辑 │ ├── mcp_server/ ← MCP 协议服务器 │ ├── database/ ← SQLite 数据库 │ └── config.py ← 配置管理 ├── tauri/ ← Tauri 壳Rust ├── web/ ← Web 版前端 └── docs/ ← 文档设计上几个值得说的点后端与前端完全分离。Python 后端是独立服务不依赖 Tauri。你可以只启动后端uvicorn backend.main:app --port 17493用任何 HTTP 客户端调用 REST API。这为 Docker 部署和云部署留了路。MCP 是一等公民不是事后插件。mcp_server/和 REST API 并列这让 Voicebox 天然适合 AI agent 集成。每个 TTS 引擎是一个独立的服务类注册到引擎注册表。新增引擎只需要实现统一接口不需要改核心逻辑。任务队列用串行队列管理生成任务避免多个引擎同时抢占 GPU。支持 SSE 状态推送。不太好的地方模型下载没有统一的包管理器。每个引擎在首次使用时各自下载没有全局的模型仓库管理用户可能会搞不清哪些模型已下载、哪些还没下。引擎切换需要手动。没有自动选引擎的智能路由用户需要知道每个引擎的特性才能选对——对小白用户门槛偏高。优缺点 适用场景优点完全本地运行隐私天花板7 个 TTS 引擎随意切换从轻量 CPU 到高端 GPU 都有得选MCP 协议支持让 AI agent 集成零门槛语音克隆 听写 TTS 三合一一个软件顶三个缺点GPU 要求不低部分引擎需要 8GB VRAM引擎选择对新手不友好——7 个引擎各有长短0.5.0 还在早期稳定性待验证谁应该立刻试试内容创作者播客、配音、视频旁白AI 应用开发者需要让 agent 说话的产品隐私敏感用户不想把声音数据交给云端谁应该再等等需要零配置开箱即用的用户只做单一语言简单 TTS 的浏览器在线 TTS 可能已经够用了