Qwen3.6-35B-A3B GGUF 2位量化实测：13GB 内存跑 30+ 工具调用

来源：今日头条 / 2026-04-23
标签：本地模型, Qwen3, GGUF, 量化, 工具调用, llama.cpp

核心结论

Qwen3.6-35B-A3B（MoE 架构，实际激活 3B 参数）经 2位量化后：

内存占用：~13GB
工具调用能力：30+ 工具调用测试表现优异，据称超过同量级模型
运行环境：llama.cpp / Ollama，普通消费级硬件可跑

技术背景

MoE（Mixture of Experts）架构：35B 总参数，每次推理只激活约 3B，兼顾参数规模与运行效率。2位量化在精度和内存之间取极端平衡。

注意事项

2位量化精度损失较大，复杂推理任务慎用
工具调用场景表现好，但长文本推理质量需实测验证
WSL2 环境 16GB+ 内存理论可跑

参考价值

可作为本地 LLM 备用方案，彻底摆脱 API key 依赖。适合工具调用密集型 agent 场景。