阿尔文·朗
2024 年 11 月 14 日 10:15
NVIDIA 的 Blackwell 平台在 MLPerf Training 4.1 基准测试中展示了卓越的性能,通过显着的每 GPU 改进增强了 AI 训练能力。
根据 NVIDIA 的博客,NVIDIA 的 Blackwell 平台取得了一项非凡的成就,在 MLPerf Training 4.1 行业基准中树立了新标准,在各种工作负载中提供了出色的结果。该平台在大型语言模型 (LLM) 基准测试中显示,每个 GPU 的性能提高了 2.2 倍,特别是在 Llama 2 70B 微调和 GPT-3 175B 预训练方面表现出色。
与布莱克威尔一起实现跨越式发展
Blackwell 架构首次提交给 MLCommons 联盟,强调了其在提高生成式 AI 训练性能方面的作用。这一成就的关键是优化张量核心使用的新内核,张量核心是许多深度学习算法背后的基本数学运算。这种优化使 Blackwell 能够在利用更大、更快的高带宽内存的同时,实现每个 GPU 更高的计算吞吐量。
值得注意的是,该平台的效率因其仅用 64 个 GPU 即可运行 GPT-3 LLM 基准测试的能力而得到凸显,从而保持了卓越的每 GPU 性能。相比之下,相同的任务在 Hopper 平台上需要 256 个 GPU,这凸显了 Blackwell 卓越的效率和能力。
不断优化
NVIDIA 通过持续的软件开发不断增强其平台,提高各种框架和应用程序的性能和功能。最新的 MLPerf 训练提交显示,自基准推出以来,Hopper 上的 GPT-3 175B 每 GPU 训练性能提高了 1.3 倍。
此外,使用 11,616 个 Hopper GPU 实现了大规模成果,这些 GPU 通过 NVIDIA NVLink 和 NVSwitch 连接以实现高带宽通信,以及 NVIDIA Quantum-2 InfiniBand 网络。与前一年相比,该设置在 GPT-3 175B 基准测试中的规模和性能提高了两倍多。
合作伙伴
NVIDIA 的成功还体现在其合作伙伴的贡献上,包括华硕、Azure、思科、戴尔、富士通等主要系统制造商和云服务提供商,他们向 MLPerf 提交了令人印象深刻的结果。作为 MLCommons 的创始成员,NVIDIA 强调人工智能计算中行业标准基准的重要性,为公司提供关键数据以做出明智的平台投资决策。
通过不断的进步和优化,NVIDIA 的加速计算平台正在为 AI 训练树立新的基准,为合作伙伴和客户提供增强的性能和更大的投资回报。
图片来源:Shutterstock
关键词:人工智能,加密,区块链,新闻