Voicebox:本地免费开源语音克隆工作站
来源: 今日头条 (2026-04-14)
原文链接: https://m.toutiao.com/article/7628233479225885222/
GitHub: github.com/jamiepine/voicebox (15.7k stars)
官网: voicebox.sh
定位
本地版、免费版、开源版的 ElevenLabs。解决云端 TTS 的三大痛点:贵、隐私、限制。
核心能力
- 声音克隆: 3~30 秒音频样本即可克隆声音档案
- 多语言: 中文、英语、日语、阿拉伯语、印地语等
- 多引擎: Qwen3-TTS、LuxTTS、Chatterbox Turbo 可切换
- 情绪标签:
[laugh]、[sigh]、[gasp]等 - 音频后处理: 混响、延迟、合唱、音调变换等 8 种效果
- 长文本: 自动分句并交叉淡化,可处理整篇文章
- 多轨编辑: 类 DAW 界面,支持多声部播客/对话混音
- REST API:
http://localhost:17493,完整文档/docs
技术架构
- 前端: React + Tauri(Rust),性能优于 Electron
- 后端: Python FastAPI,内嵌或远程连接
- 模型: 默认 Qwen3-TTS,Apple Silicon 支持 MLX 加速
- 平台: macOS / Windows 预构建包,Linux 需源码构建
安装
# 源码方式
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
make setup
make dev
依赖:Bun、Rust、Python 3.11+
API 示例
# 生成语音
curl -X POST http://localhost:17493/generate \
-H "Content-Type: application/json" \
-d '{"text": "你好,世界", "profile_id": "abc123", "language": "zh"}'
# 查看声音档案
curl http://localhost:17493/profiles
适用场景
- 游戏 NPC 语音生成
- 无障碍文本朗读
- 有声内容自动生成(文章/书籍)
- 私有部署 TTS 能力
作者
Jamie Pine(同时也是 Spacedrive 开源文件管理器作者)
标签: #TTS #语音克隆 #开源 #本地部署 #Voicebox #AI语音