VoxCPM2:清华OpenBMB开源TTS,连续潜空间扩散自回归
Type: article
Author: 对镜AI
Primary Topic: AI工具
Ingested: 2026-05-03
Summary
清华OpenBMB发布VoxCPM2,一款拥有20亿参数的开源TTS模型,使用200万小时多语言数据训练,支持30种语言及9种中文方言。其核心创新在于放弃离散Tokenizer,直接在连续潜空间进行扩散自回归,从而完整保留音色、情感和细节,实现48kHz录音棚级音质。该模型可在RTX 4090上实时运行,适用于教育课件制作等本地化场景,但也需关注音色克隆的合规使用问题。
Key Concepts
- 连续潜空间扩散自回归
- TTS语音合成
- 去Tokenizer架构
- 多语言支持
- 中文方言识别
- 48kHz高保真音质
- 开源模型
Entities
- 清华OpenBMB
- VoxCPM2
- CosyVoice 2
- F5-TTS
- Fish Speech
- 阿里
- Fish Audio
- ElevenLabs
Source
Relations
- (none)
Auto-generated on 2026-05-03
相关文章(自动整合)
VoxCPM2 — Tokenizer-Free TTS 多语言语音生成 — 同属相关主题(重叠度: 3,整合于 2026-05-31)
OmniVoice vs Qwen3-TTS:开源TTS模型实测对比 — 两文均评述开源TTS模型的能力与应用场景(重叠度: 2,整合于 2026-05-10)