llama.cpp b9553 性能实测：自适应混合推理引擎与IQ4_XXS量化突破

Type: article
Author: 未知
Primary Topic: 本地部署
Ingested: 2026-06-15

Summary

本文对llama.cpp b9553版本进行实测，重点评估两项核心升级：自适应混合推理引擎和IQ4_XXS量化格式。实测数据显示，在M4 Pro MacBook上运行Gemma-4-12B，自适应混合模式相比旧版CPU模式生成速度提升34%，首token延迟降低33%；IQ4_XXS格式在Ryzen 9平台上相比Q4_0提速34%且质量损失可忽略。文章同时提供了升级指南、已知问题及与vLLM多卡部署的定位对比。

Key Concepts

自适应混合推理引擎
IQ4_XXS量化格式
GGUF
CPU/GPU负载均衡
KV缓存调度
SIMD指令集优化
本地推理性能

Entities

llama.cpp
ggerganov
Gemma-4-12B
Ollama
vLLM
HuggingFace
M4 Pro MacBook
Ryzen 9 8945HS
RK3588

Source

Raw: llamacpp-b9553-adaptive-hybrid-inference-iq4xxs-benchmark.md

Relations

(none)

Auto-generated on 2026-06-15