Lucebox:让单张RTX 3090跑Qwen3.5-27B,速度飙到207tok/s
Type: article
Author: unknown
Primary Topic: 本地LLM推理引擎性能优化
Ingested: 2026-04-27
Summary
Lucebox是一款基于纯C++实现的高性能本地LLM推理引擎,采用DFlash注意力优化和ggml后端,在单张RTX 3090 24GB显卡上运行Qwen3.5-27B可达207tok/s峰值速度。相比llama.cpp同配置下的40-80tok/s,性能提升约3-5倍,接近A100水平。该项目专注单机单卡极致优化,适用于本地开发、边缘部署及对延迟敏感的实时推理场景。
Key Concepts
- 纯C++推理引擎
- DFlash注意力优化
- ggml后端
- 单卡27B推理
- 207tok/s峰值性能
- 量化压缩
- 低延迟部署
Entities
- Lucebox
- Qwen3.5-27B
- RTX 3090
- DFlash
- ggml
- llama.cpp
- TurboQuant
- vLLM
- A100
Source
Relations
- (none)
Auto-generated on 2026-04-27