128GB内存跑Qwen 3.6-35B-A3B，1M上下文仅它没爆OOM

Type: article
Author: unknown
Primary Topic: 本地部署
Ingested: 2026-05-07

Summary

本文在MacBook Pro M5 Max（128GB统一内存）上对Qwen3 MoE模型进行了8小时的KV Cache选型基准测试，覆盖f16、q8_0、turbo3、turbo4四种格式。核心结论是：短上下文f16最快，但超过128K后只有turbo3能在1M上下文下存活（内存占用89GB，速度6.5 tok/s）。turbo3适合RAG和极限长上下文，turbo4适合编程智能体等解码密集场景。

Key Concepts

KV Cache量化
长上下文推理
内存带宽优化
MoE架构
TurboQuant
OOM防护
本地推理性能

Entities

Qwen3
Apple Silicon
MacBook Pro M5 Max
llama.cpp
TurboQuant
TheTom

Source

Raw: qwen3-1m-context-kv-cache-benchmark.md

Relations

(none)

Auto-generated on 2026-05-07