长上下文模型新配方:从32K泛化512K(MMProLong,Qwen2.5-VL-7B)
Type: paper
Author: unknown
Primary Topic: 行业动态
Ingested: 2026-05-20
Summary
本文介绍MMProLong训练配方,通过调整mRoPE基频(1M→4M)和优化数据策略,将Qwen2.5-VL-7B从32K上下文扩展到128K,并零样本泛化到512K。核心发现包括:VQA训练信号优于OCR转录、池原生长度分布优于长偏置分布、提取与推理任务8:2比例最优。实验表明纯长上下文训练不会损害短上下文能力,模型学到的是广义检索策略而非特定长度模式。
Key Concepts
- mRoPE缩放
- 长上下文扩展
- 多模态大语言模型
- VQA训练策略
- 零样本泛化
- 上下文窗口扩展
- 数据配比策略
Entities
- Qwen2.5-VL-7B
- MMProLong
- Anthropic
- alphaxiv
Source
Relations
- (none)
Auto-generated on 2026-05-20