LLaVA-OneVision-2：完全开源8B视觉大模型，Codec流视频理解领先Qwen3-VL

Type: article
Author: Glint Lab、AIM for Health Lab、MVP Lab
Primary Topic: 行业动态
Ingested: 2026-05-27

Summary

LLaVA-OV-2是基于Qwen3-8B的完全开源8B视觉大模型，采用Apache-2.0协议。核心创新是Codec流Tokenization，利用H.264/H.265编解码信号自动分配token密度，使token时间密度与视频内容信息密度对齐。在视频理解、空间推理和目标追踪任务上全面领先同规模的Qwen3-VL-8B，但OCR和文档理解能力相对较弱。

Key Concepts

Codec流Tokenization
视频理解
时序定位
目标追踪
空间推理
Group-visible Attention
3D RoPE

Entities

LLaVA-OneVision-2
Glint Lab
AIM for Health Lab
MVP Lab
Qwen3-VL
Qwen3-8B
SAM2
HuggingFace
EvolvingLMMs-Lab

Source

Raw: llava-onevision-2-codec-video-model.md

Relations

(none)

Auto-generated on 2026-05-27