TokenSpeed:光速级智能体推理引擎
Type: article
Author: 机器之心Pro
Primary Topic: 本地部署
Ingested: 2026-05-08
Summary
TokenSpeed 是由 LightSeek Foundation 开发的开源推理引擎,定位为兼具 TensorRT-LLM 级性能与 vLLM 级易用性的智能体推理基础设施。其核心创新包括本地 SPMD 建模、控制与执行平面解耦的调度器,以及针对 NVIDIA Blackwell 架构优化的 MLA Kernel。在 Coding Agent 生产流量测试中,相比 TensorRT-LLM 延迟降低约 9%,带 speculative decoding 时延迟降低近一半。
Key Concepts
- 推理引擎
- MLA Kernel
- SPMD架构
- KV Cache
- 智能体推理
- speculative decoding
- 异构加速器
Entities
- LightSeek Foundation
- TokenSpeed
- NVIDIA
- Blackwell
- vLLM
- TensorRT-LLM
- Kimi K2.5
- 机器之心Pro
Source
Relations
- (none)
Auto-generated on 2026-05-08