llama.cpp b9553 性能实测:自适应混合推理引擎与IQ4_XXS量化突破

Type: article
Author: 未知
Primary Topic: 本地部署
Ingested: 2026-06-15

Summary

本文对llama.cpp b9553版本进行实测,重点评估两项核心升级:自适应混合推理引擎和IQ4_XXS量化格式。实测数据显示,在M4 Pro MacBook上运行Gemma-4-12B,自适应混合模式相比旧版CPU模式生成速度提升34%,首token延迟降低33%;IQ4_XXS格式在Ryzen 9平台上相比Q4_0提速34%且质量损失可忽略。文章同时提供了升级指南、已知问题及与vLLM多卡部署的定位对比。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-06-15