字节Lance 3B:一个模型统一图像/视频理解、生成与编辑
Type: article
Author: ByteDance Research
Primary Topic: 行业动态
Ingested: 2026-06-01
Summary
字节跳动发布Lance 3B,一个30亿参数的多模态统一模型,可同时处理图像与视频的理解、生成和编辑任务,无需多模型协作。该模型在VBench、MVBench、GenEval等主流基准上达到开源顶级水平,仅需单张RTX 4090即可运行,部署成本从百万级降至千元级。采用Apache 2.0协议完全免费商用,核心创新包括统一交错序列架构、MaPE位置编码和四阶段训练策略。
Key Concepts
- 统一多模态模型
- 图像视频理解生成编辑
- 双流混合专家
- MaPE模态感知位置编码
- 3D因果VAE
- GRPO强化学习
- Apache 2.0开源
Entities
- ByteDance Research
- Lance 3B
- 字节跳动
- Qwen2.5-VL
- Wan2.2
- HuggingFace
- PaddleOCR
Source
Relations
- (none)
Auto-generated on 2026-06-01