Qwen3.6-35B-A3B GGUF 2位量化实测:13GB 内存跑 30+ 工具调用
- 来源:今日头条 / 2026-04-23
- 标签:本地模型, Qwen3, GGUF, 量化, 工具调用, llama.cpp
核心结论
Qwen3.6-35B-A3B(MoE 架构,实际激活 3B 参数)经 2位量化后:
- 内存占用:~13GB
- 工具调用能力:30+ 工具调用测试表现优异,据称超过同量级模型
- 运行环境:llama.cpp / Ollama,普通消费级硬件可跑
技术背景
MoE(Mixture of Experts)架构:35B 总参数,每次推理只激活约 3B,兼顾参数规模与运行效率。2位量化在精度和内存之间取极端平衡。
注意事项
- 2位量化精度损失较大,复杂推理任务慎用
- 工具调用场景表现好,但长文本推理质量需实测验证
- WSL2 环境 16GB+ 内存理论可跑
参考价值
可作为本地 LLM 备用方案,彻底摆脱 API key 依赖。适合工具调用密集型 agent 场景。