NVIDIA Blackwell 在 MLPerf 训练性能方面实现新里程碑

By Amelia On 11 月 14, 2024

阿尔文·朗
2024 年 11 月 14 日 10:15

NVIDIA 的 Blackwell 平台在 MLPerf Training 4.1 基准测试中展示了卓越的性能，通过显着的每 GPU 改进增强了 AI 训练能力。

根据 NVIDIA 的博客，NVIDIA 的 Blackwell 平台取得了一项非凡的成就，在 MLPerf Training 4.1 行业基准中树立了新标准，在各种工作负载中提供了出色的结果。该平台在大型语言模型 (LLM) 基准测试中显示，每个 GPU 的性能提高了 2.2 倍，特别是在 Llama 2 70B 微调和 GPT-3 175B 预训练方面表现出色。

与布莱克威尔一起实现跨越式发展

Blackwell 架构首次提交给 MLCommons 联盟，强调了其在提高生成式 AI 训练性能方面的作用。这一成就的关键是优化张量核心使用的新内核，张量核心是许多深度学习算法背后的基本数学运算。这种优化使 Blackwell 能够在利用更大、更快的高带宽内存的同时，实现每个 GPU 更高的计算吞吐量。

值得注意的是，该平台的效率因其仅用 64 个 GPU 即可运行 GPT-3 LLM 基准测试的能力而得到凸显，从而保持了卓越的每 GPU 性能。相比之下，相同的任务在 Hopper 平台上需要 256 个 GPU，这凸显了 Blackwell 卓越的效率和能力。

不断优化

NVIDIA 通过持续的软件开发不断增强其平台，提高各种框架和应用程序的性能和功能。最新的 MLPerf 训练提交显示，自基准推出以来，Hopper 上的 GPT-3 175B 每 GPU 训练性能提高了 1.3 倍。

此外，使用 11,616 个 Hopper GPU 实现了大规模成果，这些 GPU 通过 NVIDIA NVLink 和 NVSwitch 连接以实现高带宽通信，以及 NVIDIA Quantum-2 InfiniBand 网络。与前一年相比，该设置在 GPT-3 175B 基准测试中的规模和性能提高了两倍多。

合作伙伴

NVIDIA 的成功还体现在其合作伙伴的贡献上，包括华硕、Azure、思科、戴尔、富士通等主要系统制造商和云服务提供商，他们向 MLPerf 提交了令人印象深刻的结果。作为 MLCommons 的创始成员，NVIDIA 强调人工智能计算中行业标准基准的重要性，为公司提供关键数据以做出明智的平台投资决策。

通过不断的进步和优化，NVIDIA 的加速计算平台正在为 AI 训练树立新的基准，为合作伙伴和客户提供增强的性能和更大的投资回报。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻