NVIDIA H100 介绍

变革性的 AI 训练

H100 采用第四代 Tensor Core 和具有 FP8 精度的 Transformer 引擎，与上一代 GPT-3 （175B）模型的训练速度相比，训练速度提高了 4 倍。第四代 NVLink 的组合，提供每秒 900 GB / s 的 GPU 到 GPU 互连;NDR Quantum-2 InfiniBand 网络，可加速每个 GPU 跨节点的通信;PCIe Gen5 的;NVIDIA Magnum IO™ 软件提供从小型企业系统到大规模统一 GPU 集群的高效可扩展性。

实时深度学习推理

AI 使用同样广泛的神经网络解决了各种业务挑战。出色的 AI 推理加速器不仅必须提供最高性能，还必须提供加速这些网络的多功能性。H100 通过多项改进扩展了 NVIDIA 市场领先的推理领导地位，将推理速度提高了 30 倍，并提供了最低的延迟。第四代 Tensor Core 可加速所有精度，包括 FP64、TF32、FP32、FP16、INT8 和现在的 FP8，以减少内存使用并提高性能，同时仍保持 LLM 的准确性。

百万兆次级高性能计算

NVIDIA 数据中心平台始终如一地提供超出摩尔定律的性能提升。H100 新的突破性 AI 功能进一步放大了 HPC+AI 的强大功能，为致力于解决世界上最重要挑战的科学家和研究人员加快发现时间。H100 的每秒浮点运算数（FLOPS）是双精度 Tensor Core 的三倍，为 HPC 提供 60 teraflops 的 FP64 计算能力。AI 融合的 HPC 应用程序还可以利用 H100 的 TF32 精度，为单精度矩阵乘法运算实现 1 petaflop 的吞吐量，而无需更改代码。H100 还具有新的 DPX 指令，在动态编程算法（例如用于 DNA 序列比对的 Smith-Waterman 和用于蛋白质结构预测的蛋白质比对）上，性能比 A100 高 7 倍，比 CPU 快 40 倍。

加速数据分析

数据分析通常会消耗 AI 应用程序开发的大部分时间。由于大型数据集分散在多个服务器上，因此使用商用纯 CPU 服务器的横向扩展解决方案会因缺乏可扩展的计算性能而陷入困境。采用 H100 的加速服务器提供计算能力，以及每个 GPU 每秒 3 TB / s 的内存带宽以及 NVLink 和 NVSwitch™ 的可扩展性，以高性能和可扩展性处理数据分析，以支持海量数据集。结合 NVIDIA Quantum-2 InfiniBand、Magnum IO 软件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS，NVIDIA™ 数据中心平台能够以更高的性能和效率加速这些巨大的工作负载。

内置机密计算

传统的机密计算解决方案是基于 CPU 的，这对于大规模 AI 等计算密集型工作负载来说太有限了。NVIDIA 机密计算是 NVIDIA Hopper 架构的内置安全功能，使 H100 成为世界上第一款具有这些功能的加速器。借助 NVIDIA Blackwell，有机会以指数方式提高性能，同时保护正在使用的数据和应用程序的机密性和完整性，从而能够以前所未有的方式解锁数据洞察。客户现在可以使用基于硬件的可信执行环境（TEE），以最高性能的方式保护和隔离整个工作负载。

适用于大规模 AI 和 HPC 的卓越性能

Hopper Tensor Core GPU 将为 NVIDIA Grace Hopper CPU+GPU 架构提供支持，该架构专为 TB 级加速计算而构建，并在大型模型 AI 和 HPC 上提供 10 倍的性能提升。NVIDIA Grace CPU 利用 Arm® 架构的灵活性来创建专为加速计算而设计的 CPU 和服务器架构。Hopper GPU 使用 NVIDIA 的超快速芯片到芯片互连与 Grace CPU 配对，提供 900GB/s 的带宽，比 PCIe Gen5 快 7 倍。与当今最快的服务器相比，这种创新设计为 GPU 提供高达 30 倍的聚合系统内存带宽，并为运行 TB 级数据的应用程序提供高达 10 倍的性能。

性能对比

	RTX 5090	RTX 5080	RTX 5070Ti	RTX 5070	RTX 5060Ti	RTX 5060
NVIDIA 架构	Blackwell	Blackwell	Blackwell	Blackwell	Blackwell	Blackwell	Ada Lovelace
DLSS	DLSS 4	DLSS 4	DLSS 4	DLSS 4	DLSS 4	DLSS 4	DLSS 3
AI TOPS	3352	1801	1406	988	759	614	242
Tensor Core	第 5 代	第 5 代	第 5 代	第 5 代	第 5 代	第 5 代	第 4 代
RT Core	第 4 代	第 4 代	第 4 代	第 4 代	第 4 代	第 4 代	第 3 代
NVIDIA 编码器 (NVDEC)	3x 第 9 代	3x 第 9 代	3x 第 9 代	3x 第 9 代	3x 第 9 代	3x 第 9 代	1x 第 8 代
NVIDIA 解码器 (NVDEC)	2x 第 6 代	2x 第 6 代	2x 第 6 代	2x 第 6 代	2x 第 6 代	2x 第 6 代	1x 第 5 代
显存配置	32 GB GDDR7	16 GB GDDR7	16 GB GDDR7	12 GB GDDR7	16 GB / 8 GB GDDR7	8 GB GDDR7	8 GB GDDR7
显存带宽	1792 GB /sec	960 GB /sec	896 GB /sec	672 GB /sec	448 GB /sec	448 GB /sec	272 GB /sec