DeepSeek V4 Flash 双机部署指南(ThinkStation PGX / GB10)
Type: note
Author: unknown
Primary Topic: 本地部署
Ingested: 2026-06-14
Summary
本文详细介绍了在两台Lenovo ThinkStation PGX(配备NVIDIA GB10 Grace Blackwell芯片,各128GB统一内存)上部署DeepSeek-V4-Flash(284B参数)的完整流程。由于模型FP8权重约149GB超出单机内存上限,必须采用双机TP=2张量并行方案,并使用社区fork版vLLM以支持GB10的sm_121架构及Triton MLA稀疏kernel。文章涵盖镜像构建、torch修复、权重下载、swap关闭及启动参数配置等关键步骤。
Key Concepts
- 双机张量并行
- FP8量化推理
- 统一内存架构
- MLA稀疏kernel
- 分布式推理部署
- KV缓存优化
- NVLink互联
Entities
- DeepSeek
- DeepSeek-V4-Flash
- Lenovo ThinkStation PGX
- NVIDIA GB10
- vLLM
- jasl/vllm
- eugr/spark-vllm-docker
- NVIDIA Grace Blackwell
Source
Relations
- (none)
Auto-generated on 2026-06-14