FlashMemory-DeepSeek-V4:13.5% KV缓存占用,500K超长上下文开销下降90%

Type: paper
Author: Yan Wang 等(腾讯AI Lab / 清华等机构)
Primary Topic: 本地部署
Ingested: 2026-06-14

Summary

FlashMemory是一种基于预测性稀疏注意力的KV缓存压缩方案,通过神经记忆索引器提前预测哪些KV块会被当前查询用到,从而只保留关键上下文。在DeepSeek-V4上验证,平均物理KV缓存占用仅为全量基线的13.5%,500K超长上下文下显存开销降低超90%。得益于注意力去噪效果,下游任务准确率平均反而提升0.6%。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-06-14