Qwen3.6-35B-A3B GGUF 2位量化实测：13GB内存跑30+工具调用

Type: article
Author: 今日头条
Primary Topic: 本地大语言模型量化部署
Ingested: 2026-04-23

Summary

本文测试了Qwen3.6-35B-A3B模型经2位量化后的本地运行表现，该模型采用MoE架构，实际激活参数约3B，量化后内存占用约13GB。测试结果显示其工具调用能力优异，可在普通消费级硬件上通过llama.cpp或Ollama运行，适合工具调用密集型Agent场景。

Key Concepts

2位量化
MoE架构
GGUF格式
工具调用
本地推理
内存优化

Entities

Qwen3
Qwen3.6-35B-A3B
llama.cpp
Ollama
今日头条

Source

Raw: qwen3-35b-2bit-gguf-local-inference.md

Relations

(none)

Auto-generated on 2026-04-23

相关文章（自动整合）

llama.cpp b9553 性能实测：自适应混合推理引擎与IQ4_XXS量化突破 — 同属相关主题（重叠度: 2，整合于 2026-06-15）
Cohere North Mini Code：128专家激活8个，专为Agent编码训练的开源MoE模型 — 同属相关主题（重叠度: 2，整合于 2026-06-14）
谷歌放出Gemma 4 QAT量化版！26B模型仅需15GB内存，精度几乎无损 — 同属相关主题（重叠度: 2，整合于 2026-06-07）
国产900M小钢炮GLM-OCR：公式表格识别率94%，边缘设备可跑 — 同属相关主题（重叠度: 2，整合于 2026-06-03）
Frankenmerge：Qwopus-GLM-18B，9.2GB打赢Qwen3.6-35B（22GB） — 同属相关主题（重叠度: 2，整合于 2026-05-20）
llama.cpp MTP 更新：本地 AI 推理速度提升 73%，仅增加 1GB VRAM — 同属相关主题（重叠度: 2，整合于 2026-05-18）
本地大模型：从跑起来到跑得好 — 前者提供量化选型理论，后者为2位量化MoE模型的实践验证（重叠度: 5，整合于 2026-05-11）
Redis之父下场，给DeepSeek V4单独造了一台推理引擎 — MoE架构大模型均可通过量化在消费级硬件本地运行（重叠度: 2，整合于 2026-05-09）
128GB内存跑Qwen 3.6-35B-A3B，1M上下文仅它没爆OOM — 两文对比同款MoE模型在高低内存设备上的量化部署方案（重叠度: 3，整合于 2026-05-07）
8G显存畅跑35B大模型｜TurboQuant+llama.cpp+Qwen3.6 部署教程 — 两文均探讨Qwen3.6-35B在消费级硬件上的量化部署方案（重叠度: 3，整合于 2026-04-28）