8G显存封神！RTX3070本地流畅跑通35B多模态大模型

Type: article
Author: unknown
Primary Topic: 本地部署
Ingested: 2026-05-26

Summary

本文介绍如何用RTX3070 8G显卡配合大内存，通过llama.cpp的GPU/CPU混合推理技术，成功本地部署Qwen3.6-35B多模态大模型。核心方案是利用-ngl参数控制GPU层数，将超出显存的层offload到内存，Q4_K_M量化后约20GB。证明消费级显卡加32GB以上内存即可流畅运行35B级别多模态模型，无需A100或4090等专业GPU。

Key Concepts

GPU/CPU混合推理
显存优化
模型量化
CPU offload
Q4_K_M
多模态大模型
消费级显卡部署

Entities

RTX3070
Qwen3.6-35B
llama.cpp
Qwen
Hugging Face

Source

Raw: rtx3070-8g-vram-local-35b-multimodal-llm.md

Relations

(none)

Auto-generated on 2026-05-26