Voicebox：本地免费开源语音克隆工作站

来源: 今日头条 (2026-04-14)
原文链接: https://m.toutiao.com/article/7628233479225885222/
GitHub: github.com/jamiepine/voicebox (15.7k stars)
官网: voicebox.sh

定位

本地版、免费版、开源版的 ElevenLabs。解决云端 TTS 的三大痛点：贵、隐私、限制。

核心能力

声音克隆: 3~30 秒音频样本即可克隆声音档案
多语言: 中文、英语、日语、阿拉伯语、印地语等
多引擎: Qwen3-TTS、LuxTTS、Chatterbox Turbo 可切换
情绪标签: [laugh]、[sigh]、[gasp] 等
音频后处理: 混响、延迟、合唱、音调变换等 8 种效果
长文本: 自动分句并交叉淡化，可处理整篇文章
多轨编辑: 类 DAW 界面，支持多声部播客/对话混音
REST API: http://localhost:17493，完整文档 /docs

技术架构

前端: React + Tauri（Rust），性能优于 Electron
后端: Python FastAPI，内嵌或远程连接
模型: 默认 Qwen3-TTS，Apple Silicon 支持 MLX 加速
平台: macOS / Windows 预构建包，Linux 需源码构建

安装

# 源码方式
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
make setup
make dev

依赖：Bun、Rust、Python 3.11+

API 示例

# 生成语音
curl -X POST http://localhost:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "你好，世界", "profile_id": "abc123", "language": "zh"}'

# 查看声音档案
curl http://localhost:17493/profiles

适用场景

游戏 NPC 语音生成
无障碍文本朗读
有声内容自动生成（文章/书籍）
私有部署 TTS 能力

作者

Jamie Pine（同时也是 Spacedrive 开源文件管理器作者）

标签: #TTS #语音克隆 #开源 #本地部署 #Voicebox #AI语音