LLaVA-OneVision-2:完全开源8B视觉大模型,Codec流视频理解领先Qwen3-VL

Type: article
Author: Glint Lab、AIM for Health Lab、MVP Lab
Primary Topic: 行业动态
Ingested: 2026-05-27

Summary

LLaVA-OV-2是基于Qwen3-8B的完全开源8B视觉大模型,采用Apache-2.0协议。核心创新是Codec流Tokenization,利用H.264/H.265编解码信号自动分配token密度,使token时间密度与视频内容信息密度对齐。在视频理解、空间推理和目标追踪任务上全面领先同规模的Qwen3-VL-8B,但OCR和文档理解能力相对较弱。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-05-27