本地大模型:从跑起来到跑得好
Type: article
Author: @Michaelzsguo (X)
Primary Topic: 本地部署
Ingested: 2026-05-11
Summary
本文系统介绍了在本地运行大语言模型的五层决策框架:硬件、内存、Runtime、模型选择与量化。重点讲解了Apple Silicon的内存带宽优势、KV Cache的内存消耗规律、各Runtime工具的适用场景,以及Q4_K_M量化作为日常主力的实用建议。还涵盖了MoE架构理解、Flash Attention、imatrix量化等进阶优化技巧。
Key Concepts
- 内存带宽
- 量化精度
- KV Cache
- MoE架构
- GGUF格式
- Flash Attention
- Speculative Decoding
Entities
- Ollama
- llama.cpp
- MLX
- LM Studio
- Qwen3
- Apple Silicon
- MacBook Pro M4 Max
- Mac Studio M3 Ultra
- RTX 4090
- RTX 3090
- @Michaelzsguo
Source
Relations
- (none)
Auto-generated on 2026-05-11