FlashMemory-DeepSeek-V4：13.5% KV缓存占用，500K超长上下文开销下降90%

Type: paper
Author: Yan Wang 等（腾讯AI Lab / 清华等机构）
Primary Topic: 本地部署
Ingested: 2026-06-14

Summary

FlashMemory是一种基于预测性稀疏注意力的KV缓存压缩方案，通过神经记忆索引器提前预测哪些KV块会被当前查询用到，从而只保留关键上下文。在DeepSeek-V4上验证，平均物理KV缓存占用仅为全量基线的13.5%，500K超长上下文下显存开销降低超90%。得益于注意力去噪效果，下游任务准确率平均反而提升0.6%。

Key Concepts

KV缓存压缩
稀疏注意力
长上下文推理
神经记忆索引器
双编码器架构
显存优化
Lookahead Sparse Attention

Entities

Yan Wang
腾讯AI Lab
清华大学
DeepSeek-V4
FlashMemory
TurboQuant
Headroom

Source

Raw: flashmemory-deepseek-v4-kv-cache-compression.md

Relations

(none)

Auto-generated on 2026-06-14