本地大模型：从跑起来到跑得好

Type: article
Author: @Michaelzsguo (X)
Primary Topic: 本地部署
Ingested: 2026-05-11

Summary

本文系统介绍了在本地运行大语言模型的五层决策框架：硬件、内存、Runtime、模型选择与量化。重点讲解了Apple Silicon的内存带宽优势、KV Cache的内存消耗规律、各Runtime工具的适用场景，以及Q4_K_M量化作为日常主力的实用建议。还涵盖了MoE架构理解、Flash Attention、imatrix量化等进阶优化技巧。

Key Concepts

内存带宽
量化精度
KV Cache
MoE架构
GGUF格式
Flash Attention
Speculative Decoding

Entities

Ollama
llama.cpp
MLX
LM Studio
Qwen3
Apple Silicon
MacBook Pro M4 Max
Mac Studio M3 Ultra
RTX 4090
RTX 3090
@Michaelzsguo

Source

Raw: local-llm-from-running-to-running-well.md

Relations

(none)

Auto-generated on 2026-05-11