Qwen3.6 27B MTP 实测:RTX 3090 长上下文推理速度暴增 2.37 倍
Type: article
Author: unknown
Primary Topic: 本地部署
Ingested: 2026-05-20
Summary
本文对 Qwen3.6 27B MTP 模型在 RTX 3090 上使用 llama.cpp 进行实测,发现长上下文(32k/64k)下 Decode 速度最高提升 2.37 倍,但短上下文(4k)因 Prefill 变慢反而不如基线。MTP 本质是用 Prefill 性能换取 Decode 爆发,适合 Agent 长链路推理、多轮代码编辑等场景,不适合高并发短请求。当前 llama.cpp 不支持多并发,KV Cache 量化(q8_0)是跑通长上下文的关键。
Key Concepts
- MTP推测解码
- KV Cache量化
- 长上下文推理
- GGUF量化
- Decode加速
- Prefill代价
Entities
- Qwen3.6 27B
- RTX 3090
- llama.cpp
- OpenClaw Agent
Source
Relations
- (none)
Auto-generated on 2026-05-20