Qwen3.6-35B-A3B GGUF 2位量化实测:13GB 内存跑 30+ 工具调用

核心结论

Qwen3.6-35B-A3B(MoE 架构,实际激活 3B 参数)经 2位量化后:

技术背景

MoE(Mixture of Experts)架构:35B 总参数,每次推理只激活约 3B,兼顾参数规模与运行效率。2位量化在精度和内存之间取极端平衡。

注意事项

参考价值

可作为本地 LLM 备用方案,彻底摆脱 API key 依赖。适合工具调用密集型 agent 场景。