Qwen3.6-35B-A3B GGUF 2位量化实测:13GB内存跑30+工具调用
Type: article
Author: 今日头条
Primary Topic: 本地大语言模型量化部署
Ingested: 2026-04-23
Summary
本文测试了Qwen3.6-35B-A3B模型经2位量化后的本地运行表现,该模型采用MoE架构,实际激活参数约3B,量化后内存占用约13GB。测试结果显示其工具调用能力优异,可在普通消费级硬件上通过llama.cpp或Ollama运行,适合工具调用密集型Agent场景。
Key Concepts
- 2位量化
- MoE架构
- GGUF格式
- 工具调用
- 本地推理
- 内存优化
Entities
- Qwen3
- Qwen3.6-35B-A3B
- llama.cpp
- Ollama
- 今日头条
Source
Relations
- (none)
Auto-generated on 2026-04-23
相关文章(自动整合)
llama.cpp b9553 性能实测:自适应混合推理引擎与IQ4_XXS量化突破 — 同属相关主题(重叠度: 2,整合于 2026-06-15)
Cohere North Mini Code:128专家激活8个,专为Agent编码训练的开源MoE模型 — 同属相关主题(重叠度: 2,整合于 2026-06-14)
谷歌放出Gemma 4 QAT量化版!26B模型仅需15GB内存,精度几乎无损 — 同属相关主题(重叠度: 2,整合于 2026-06-07)
国产900M小钢炮GLM-OCR:公式表格识别率94%,边缘设备可跑 — 同属相关主题(重叠度: 2,整合于 2026-06-03)
Frankenmerge:Qwopus-GLM-18B,9.2GB打赢Qwen3.6-35B(22GB) — 同属相关主题(重叠度: 2,整合于 2026-05-20)
llama.cpp MTP 更新:本地 AI 推理速度提升 73%,仅增加 1GB VRAM — 同属相关主题(重叠度: 2,整合于 2026-05-18)
本地大模型:从跑起来到跑得好 — 前者提供量化选型理论,后者为2位量化MoE模型的实践验证(重叠度: 5,整合于 2026-05-11)
Redis之父下场,给DeepSeek V4单独造了一台推理引擎 — MoE架构大模型均可通过量化在消费级硬件本地运行(重叠度: 2,整合于 2026-05-09)
128GB内存跑Qwen 3.6-35B-A3B,1M上下文仅它没爆OOM — 两文对比同款MoE模型在高低内存设备上的量化部署方案(重叠度: 3,整合于 2026-05-07)
8G显存畅跑35B大模型|TurboQuant+llama.cpp+Qwen3.6 部署教程 — 两文均探讨Qwen3.6-35B在消费级硬件上的量化部署方案(重叠度: 3,整合于 2026-04-28)