VoxCPM2:清华OpenBMB开源TTS,连续潜空间扩散自回归

Type: article
Author: 对镜AI
Primary Topic: AI工具
Ingested: 2026-05-03

Summary

清华OpenBMB发布VoxCPM2,一款拥有20亿参数的开源TTS模型,使用200万小时多语言数据训练,支持30种语言及9种中文方言。其核心创新在于放弃离散Tokenizer,直接在连续潜空间进行扩散自回归,从而完整保留音色、情感和细节,实现48kHz录音棚级音质。该模型可在RTX 4090上实时运行,适用于教育课件制作等本地化场景,但也需关注音色克隆的合规使用问题。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-05-03

相关文章(自动整合)