Qwen3.6 27B MTP 实测：RTX 3090 长上下文推理速度暴增 2.37 倍

Type: article
Author: unknown
Primary Topic: 本地部署
Ingested: 2026-05-20

Summary

本文对 Qwen3.6 27B MTP 模型在 RTX 3090 上使用 llama.cpp 进行实测，发现长上下文（32k/64k）下 Decode 速度最高提升 2.37 倍，但短上下文（4k）因 Prefill 变慢反而不如基线。MTP 本质是用 Prefill 性能换取 Decode 爆发，适合 Agent 长链路推理、多轮代码编辑等场景，不适合高并发短请求。当前 llama.cpp 不支持多并发，KV Cache 量化（q8_0）是跑通长上下文的关键。

Key Concepts

MTP推测解码
KV Cache量化
长上下文推理
GGUF量化
Decode加速
Prefill代价

Entities

Qwen3.6 27B
RTX 3090
llama.cpp
OpenClaw Agent

Source

Raw: qwen36-27b-mtp-benchmark-rtx3090-long-context.md

Relations

(none)

Auto-generated on 2026-05-20