Hopper 架构的安全增强机制
一 机密计算与 TEE 扩展
- 在 NVIDIA H100(Hopper) 上引入 GPU 机密计算(GPU-CC),将信任边界从 CPU TEE 扩展到 GPU,使模型与数据在使用时的机密性与完整性同时受保护,适配如 Intel TDX、AMD SEV-SNP、Arm CCA 等主机 TEE。应用侧无需修改即可在受保护域中运行。为便于采用,H100 提供三种模式:CC-Off(标准模式)、CC-On(全量安全功能启用)、CC-DevTools(部分安全功能关闭以启用性能分析工具)。在 CC-On 下会禁用性能计数器等可能泄露行为的硬件资源,以降低侧信道风险。
二 数据通路加密与访问控制
- 在 CPU TEE 内运行的 NVIDIA 驱动与 GPU 硬件协同,通过位于共享系统内存的加密反弹缓冲区在主机内存与 GPU 内存之间搬运数据,GPU 无法直接访问 CVM(机密虚拟机)内存,从而阻断来自虚拟化层或物理层面的窥探路径。该路径在 PCIe 带内由系统管理程序主机下发控制指令进行启用/关闭,确保在云/多租户环境下的数据在使用中加密与最小暴露面。
三 多租户隔离与资源控制
- 通过 MIG(多实例 GPU) 提供物理级隔离的 GPU 实例,单卡可划分最多 7 个独立实例,每个实例具备专用计算、显存与带宽,实现租户间强隔离与可预期的 QoS,降低跨租户攻击面并提升合规能力。结合机密计算模式,敏感工作负载可在隔离实例中运行,进一步减少侧信道与被干扰风险。
四 安全启动与运行时防护
- 新增 片上 RoT(Root of Trust) 与 测量/验证引导,在硬件层建立可信根并度量关键固件,确保从启动到运行的完整性与可信链。同时提供 加密固件与固件撤销机制,配合 故障注入对策,增强对物理与供应链攻击的抵御能力,形成从芯片到固件的纵深防护。
五 侧信道缓解与互联安全
- 在 CC-On 模式下禁用 性能计数器 等易被利用的观测接口,降低通过性能波动推断行为的侧信道风险。结合 PCIe 带内控制与主机 TEE 的访问控制,形成从总线到设备的访问隔离。对 NVLink/NVSwitch 等高速互联,系统通过 SHARP 等网络计算技术优化聚合/归约操作,减少暴露窗口并提升大规模训练/推理的通信安全与效率。