DeepSeek V4 Flash 双机部署指南（ThinkStation PGX / GB10）

Type: note
Author: unknown
Primary Topic: 本地部署
Ingested: 2026-06-14

Summary

本文详细介绍了在两台Lenovo ThinkStation PGX（配备NVIDIA GB10 Grace Blackwell芯片，各128GB统一内存）上部署DeepSeek-V4-Flash（284B参数）的完整流程。由于模型FP8权重约149GB超出单机内存上限，必须采用双机TP=2张量并行方案，并使用社区fork版vLLM以支持GB10的sm_121架构及Triton MLA稀疏kernel。文章涵盖镜像构建、torch修复、权重下载、swap关闭及启动参数配置等关键步骤。

Key Concepts

双机张量并行
FP8量化推理
统一内存架构
MLA稀疏kernel
分布式推理部署
KV缓存优化
NVLink互联

Entities

DeepSeek
DeepSeek-V4-Flash
Lenovo ThinkStation PGX
NVIDIA GB10
vLLM
jasl/vllm
eugr/spark-vllm-docker
NVIDIA Grace Blackwell

Source

Raw: deepseek-v4-flash-dual-node-pgx-gb10-deployment.md

Relations

(none)

Auto-generated on 2026-06-14