128GB内存跑Qwen 3.6-35B-A3B,1M上下文仅它没爆OOM
Type: article
Author: unknown
Primary Topic: 本地部署
Ingested: 2026-05-07
Summary
本文在MacBook Pro M5 Max(128GB统一内存)上对Qwen3 MoE模型进行了8小时的KV Cache选型基准测试,覆盖f16、q8_0、turbo3、turbo4四种格式。核心结论是:短上下文f16最快,但超过128K后只有turbo3能在1M上下文下存活(内存占用89GB,速度6.5 tok/s)。turbo3适合RAG和极限长上下文,turbo4适合编程智能体等解码密集场景。
Key Concepts
- KV Cache量化
- 长上下文推理
- 内存带宽优化
- MoE架构
- TurboQuant
- OOM防护
- 本地推理性能
Entities
- Qwen3
- Apple Silicon
- MacBook Pro M5 Max
- llama.cpp
- TurboQuant
- TheTom
Source
Relations
- (none)
Auto-generated on 2026-05-07