Lucebox:让单张RTX 3090跑Qwen3.5-27B,速度飙到207tok/s

Type: article
Author: unknown
Primary Topic: 本地LLM推理引擎性能优化
Ingested: 2026-04-27

Summary

Lucebox是一款基于纯C++实现的高性能本地LLM推理引擎,采用DFlash注意力优化和ggml后端,在单张RTX 3090 24GB显卡上运行Qwen3.5-27B可达207tok/s峰值速度。相比llama.cpp同配置下的40-80tok/s,性能提升约3-5倍,接近A100水平。该项目专注单机单卡极致优化,适用于本地开发、边缘部署及对延迟敏感的实时推理场景。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-04-27