Qwen3.6 27B MTP 实测:RTX 3090 长上下文推理速度暴增 2.37 倍

Type: article
Author: unknown
Primary Topic: 本地部署
Ingested: 2026-05-20

Summary

本文对 Qwen3.6 27B MTP 模型在 RTX 3090 上使用 llama.cpp 进行实测,发现长上下文(32k/64k)下 Decode 速度最高提升 2.37 倍,但短上下文(4k)因 Prefill 变慢反而不如基线。MTP 本质是用 Prefill 性能换取 Decode 爆发,适合 Agent 长链路推理、多轮代码编辑等场景,不适合高并发短请求。当前 llama.cpp 不支持多并发,KV Cache 量化(q8_0)是跑通长上下文的关键。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-05-20