Lucebox：让单张RTX 3090跑Qwen3.5-27B，速度飙到207tok/s

Type: article
Author: unknown
Primary Topic: 本地LLM推理引擎性能优化
Ingested: 2026-04-27

Summary

Lucebox是一款基于纯C++实现的高性能本地LLM推理引擎，采用DFlash注意力优化和ggml后端，在单张RTX 3090 24GB显卡上运行Qwen3.5-27B可达207tok/s峰值速度。相比llama.cpp同配置下的40-80tok/s，性能提升约3-5倍，接近A100水平。该项目专注单机单卡极致优化，适用于本地开发、边缘部署及对延迟敏感的实时推理场景。

Key Concepts

纯C++推理引擎
DFlash注意力优化
ggml后端
单卡27B推理
207tok/s峰值性能
量化压缩
低延迟部署

Entities

Lucebox
Qwen3.5-27B
RTX 3090
DFlash
ggml
llama.cpp
TurboQuant
vLLM
A100

Source

Raw: lucebox-local-llm-inference-engine-rtx3090-207toks.md

Relations

(none)

Auto-generated on 2026-04-27