LLaVA-OneVision-2:完全开源8B视觉大模型,Codec流视频理解领先Qwen3-VL
Type: article
Author: Glint Lab、AIM for Health Lab、MVP Lab
Primary Topic: 行业动态
Ingested: 2026-05-27
Summary
LLaVA-OV-2是基于Qwen3-8B的完全开源8B视觉大模型,采用Apache-2.0协议。核心创新是Codec流Tokenization,利用H.264/H.265编解码信号自动分配token密度,使token时间密度与视频内容信息密度对齐。在视频理解、空间推理和目标追踪任务上全面领先同规模的Qwen3-VL-8B,但OCR和文档理解能力相对较弱。
Key Concepts
- Codec流Tokenization
- 视频理解
- 时序定位
- 目标追踪
- 空间推理
- Group-visible Attention
- 3D RoPE
Entities
- LLaVA-OneVision-2
- Glint Lab
- AIM for Health Lab
- MVP Lab
- Qwen3-VL
- Qwen3-8B
- SAM2
- HuggingFace
- EvolvingLMMs-Lab
Source
Relations
- (none)
Auto-generated on 2026-05-27