DeepSeek R1性能优化有哪些技巧 - AI技术

DeepSeek R1性能优化技巧
一精度与量化

在支持 NVIDIA Blackwell 的 TensorRT‑LLM 路径中，优先启用 FP8 KV 缓存 与 FP8 注意力，相较 BF16 可提升并发与吞吐；在 GSM8K 等任务上未见明显精度下降。若自有数据出现差异，可回退到 BF16 KV/注意力。
使用 FP4 全量权重（如 NVIDIA 提供的 nvidia/DeepSeek‑R1‑FP4 Checkpoint）：MoE 层权重量化至 FP4 能释放大量显存（原始 FP8 约 640GB → FP4 约 400GB），让更多显存用于 KV 缓存 与并发；在 GPQA Diamond / MATH‑500 上，FP8 与 FP4 精度相当（示例：FP8 0.697/0.954，FP4 0.705/0.960）。
通信层面将 AllGather 从 BF16 切换为 FP4，在不影响正确性的前提下降低通信量、提升带宽利用率（内核层面约 3× 提速）。

二并行与执行策略

采用 注意力数据并行（ADP） 而非张量并行（TP）：TP 会复制 KV 缓存，限制并发；在 8×B200 场景下，ADP 相较 ATP 可将全局并发从 500 提升到 4000，最大吞吐场景实测可带来约 400% 提速。
对 MoE 使用 专家并行（EP）：R1 含 256 个稀疏专家 + 1 个共享专家；EP 在小规模 GEMM 上更优，且只需将 token 发送至对应活跃专家，通信从 AllReduce 降为 点对点，在 1K/2K 吞吐场景可提速约 142%。
利用 权重吸收 将 MLA 在解码阶段等效为 MQA：解码时显著减少向上投影 K/V 的 FLOPs；在 Prefill 阶段当输入长度 ≥256 时，非吸收版本更有利，TensorRT‑LLM 已为两个阶段分别选择最优内核。

三内核与图级优化

启用高吞吐 MLA 注意力内核：结合 Blackwell Tensor Core 5th MMA 2CTA、interleaved tile 与 softmax 重叠，端到端较 2 月基线提升约 20%。
对特定形状 GEMM 进行手动策略调优（cublasLtMatmul 最佳算法离线搜索），规避通用启发式不佳；更新 CUTLASS 组 GEMM 内核，MoE 组 GEMM 性能提升 13%，端到端 TPS/GPU +1.3%。
进行 水平融合（如将 Q/KV 向下投影 GEMM 与 K 的 RoPE 融合）以减少内核启动开销并增大 GEMM 规模；在双流中并行 Q/KV 范数 等小算子。
在 MoE Router GEMM 使用混合 I/O 数据类型（如 BF16 输入 / FP32 输出）避免显式 Cast，端到端约 +4%；将 Top‑K（256→8，两阶段 + 偏置/缩放）多算子融合为 2 个内核，端到端约 +7.4%（B200 上从 252µs 降至 15µs）；结合多流执行共享/路由专家，端到端约 +5.3%。

四运行时与系统级调优

优先选择 TensorRT‑LLM 的吞吐优化路径（已集成上述 MLA/MoE/并行/内核优化），在 ISL/OSL = 1K/2K 场景下，吞吐从约 2000 TPS/GPU 提升到约 4600 TPS/GPU。
若采用 vLLM 部署，开启 动态批处理/连续批处理 与 PagedAttention：可显著提升 GPU 利用率并降低 KV 缓存 碎片与占用（长文本场景约 30% 内存节省），适合多并发与长上下文服务化场景。
资源与调度：合理设置 max_num_batched_tokens / max_concurrent_requests，结合 KV 缓存上限 与 显存预算 做权衡；监控 GPU 利用率、显存占用、请求排队时延，按峰值与均值分别留出安全余量。

五快速检查清单与取舍

硬件与内核：优先 Blackwell + 最新 TensorRT‑LLM；确认已启用 FP8 KV/注意力 与（可用时）FP4 权重。
并行配置：Attention 用 DP8，MoE 用 EP8，共享专家 DP8；避免 TP 以免 KV 缓存 复制导致并发受限。
路由与通信：启用 Top‑K 融合、Router GEMM 混合 I/O、FP4 AllGather。
图优化：打开 权重吸收、水平融合、双流/多流。
精度取舍：默认 FP8 KV/注意力；若任务对精度更敏感或观察到退化，回退 BF16；FP4 在多数评测上与 FP8 相当，但需确认算子与路径支持。
场景匹配：追求极致吞吐选 TensorRT‑LLM 吞吐路径；面向在线服务与高并发选 vLLM + 动态/连续批处理。