8G显存封神!RTX3070本地流畅跑通35B多模态大模型

Type: article
Author: unknown
Primary Topic: 本地部署
Ingested: 2026-05-26

Summary

本文介绍如何用RTX3070 8G显卡配合大内存,通过llama.cpp的GPU/CPU混合推理技术,成功本地部署Qwen3.6-35B多模态大模型。核心方案是利用-ngl参数控制GPU层数,将超出显存的层offload到内存,Q4_K_M量化后约20GB。证明消费级显卡加32GB以上内存即可流畅运行35B级别多模态模型,无需A100或4090等专业GPU。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-05-26