FlashMemory-DeepSeek-V4:13.5% KV缓存占用,500K超长上下文开销下降90%
Type: paper
Author: Yan Wang 等(腾讯AI Lab / 清华等机构)
Primary Topic: 本地部署
Ingested: 2026-06-14
Summary
FlashMemory是一种基于预测性稀疏注意力的KV缓存压缩方案,通过神经记忆索引器提前预测哪些KV块会被当前查询用到,从而只保留关键上下文。在DeepSeek-V4上验证,平均物理KV缓存占用仅为全量基线的13.5%,500K超长上下文下显存开销降低超90%。得益于注意力去噪效果,下游任务准确率平均反而提升0.6%。
Key Concepts
- KV缓存压缩
- 稀疏注意力
- 长上下文推理
- 神经记忆索引器
- 双编码器架构
- 显存优化
- Lookahead Sparse Attention
Entities
- Yan Wang
- 腾讯AI Lab
- 清华大学
- DeepSeek-V4
- FlashMemory
- TurboQuant
- Headroom
Source
Relations
- (none)
Auto-generated on 2026-06-14