本地大模型:从跑起来到跑得好

Type: article
Author: @Michaelzsguo (X)
Primary Topic: 本地部署
Ingested: 2026-05-11

Summary

本文系统介绍了在本地运行大语言模型的五层决策框架:硬件、内存、Runtime、模型选择与量化。重点讲解了Apple Silicon的内存带宽优势、KV Cache的内存消耗规律、各Runtime工具的适用场景,以及Q4_K_M量化作为日常主力的实用建议。还涵盖了MoE架构理解、Flash Attention、imatrix量化等进阶优化技巧。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-05-11