MiniMind-O:0.1B参数全模态开源模型
Type: article
Author: 今日头条 / 科技第一线
Primary Topic: 行业动态
Ingested: 2026-05-10
Summary
MiniMind-O是一个仅0.1B参数的全模态开源模型,采用Thinker-Talker架构实现文本、语音、图像输入到流式语音输出的完整闭环。该模型通过中间层桥接、低秩码本接口和三阶段渐进式训练等关键设计,以极低成本(1人+4块RTX 3090,4小时)完成训练,CER最低达0.0897。其核心价值在于提供完全可复现的小规模基线,揭示全模态设计的关键选择。
Key Concepts
- 全模态模型
- Thinker-Talker架构
- 流式语音生成
- 低秩码本接口
- 渐进式训练
- 端到端多模态
Entities
- MiniMind-O
- jingyaogong
- SenseVoice
- SigLIP2
- Mimi
- CAM++
- RTX 3090
Source
Relations
- (none)
Auto-generated on 2026-05-10