8G显存封神!RTX3070本地流畅跑通35B多模态大模型
Type: article
Author: unknown
Primary Topic: 本地部署
Ingested: 2026-05-26
Summary
本文介绍如何用RTX3070 8G显卡配合大内存,通过llama.cpp的GPU/CPU混合推理技术,成功本地部署Qwen3.6-35B多模态大模型。核心方案是利用-ngl参数控制GPU层数,将超出显存的层offload到内存,Q4_K_M量化后约20GB。证明消费级显卡加32GB以上内存即可流畅运行35B级别多模态模型,无需A100或4090等专业GPU。
Key Concepts
- GPU/CPU混合推理
- 显存优化
- 模型量化
- CPU offload
- Q4_K_M
- 多模态大模型
- 消费级显卡部署
Entities
- RTX3070
- Qwen3.6-35B
- llama.cpp
- Qwen
- Hugging Face
Source
Relations
- (none)
Auto-generated on 2026-05-26