丽贝卡·摩恩
2024 年 9 月 26 日 14:20
NVIDIA 的 GH200 Grace Hopper 超级芯片在 MLPerf Inference v4.1 中表现出色,在生成式 AI 基准测试和企业应用程序中展示了高性能。
据 NVIDIA 技术博客称,在最新一轮 MLPerf Inference 基准测试中,NVIDIA 平台在各种测试中展现了卓越的性能。这些基准测试中表现出色的是 NVIDIA GH200 Grace Hopper 超级芯片,它使用高带宽、低延迟的 NVIDIA NVLink-C2C 互连将 NVIDIA Grace CPU 与 NVIDIA Hopper GPU 集成在一起。
GH200 Superchip的架构创新
NVIDIA GH200 Grace Hopper Superchip 代表了一种新颖的融合 CPU 和 GPU 架构,将高性能、高能效的 Grace CPU 与强大的 Hopper GPU 相结合。 NVLink-C2C 促进了这种集成,为 GPU 提供 900 GB/s 的带宽,显着超过了当前的服务器。这种架构允许CPU和GPU线程访问所有系统分配的内存,而不需要在CPU和GPU之间进行数据传输,从而提高了效率和性能。
MLPerf 推理基准测试中的性能
GH200 Superchip 在 MLPerf Inference v4.1 的各种生成式 AI 基准测试中表现出色。值得注意的是,与 H100 Tensor Core GPU 相比,在 Mixtral 8x7B 和 Llama 2 70B 等严苛基准测试中,每个加速器的性能提高了 1.4 倍。此外,在 GPT-J 基准测试中,它的性能比最好的双插槽、仅 CPU 提交的版本高出 22 倍。
在实时、面向用户的服务中,GH200 将性能保持在其离线功能的 5% 以内,这与在最佳仅 CPU 提交中观察到的 55% 性能下降形成鲜明对比。这使得 GH200 成为需要实时 AI 推理的生产环境中部署的可行选择。
GH200 NVL2:增强的功能
GH200 NVL2 以 GH200 的功能为基础,通过 NVLink 在单个节点内链接两个 GH200 超级芯片。此配置提供 8 petaflops 的 AI 性能、144 个 Arm Neoverse 核心和 960GB LPDDR5X 内存。此设置中的 Hopper GPU 提供 288GB HBM3e 内存和高达 10TB/s 的内存带宽,非常适合大型语言模型 (LLM)、图神经网络 (GNN) 和高性能计算等高性能应用(高性能计算)。
行业采用和认可
一些行业领导者已在其服务器设计中采用了 GH200 架构。惠普企业 (HPE) 和 Supermicro 等公司提交了使用基于 GH200 的设计的结果。 HPE 首席 AI 性能工程师 Kenneth Leach 称赞 GH200 NVL2 设计的高性能,并将其归因于每个 Superchip 的 144GB HBM3e 内存。
Oracle 云基础设施 (OCI) 还验证了 GH200 的性能,OCI 云工程高级总监 Sanjay Basu 强调了该架构在 AI 推理和即将推出的 Grace Blackwell Superchips 方面的潜力。
结论
NVIDIA GH200 Grace Hopper 超级芯片在 MLPerf Inference v4.1 测试中树立了新基准,提供无与伦比的性能和效率。其创新架构和高带宽使其成为企业人工智能应用程序的强大解决方案,确保它仍然是寻求部署高级人工智能工作负载的组织的领先选择。
图片来源:Shutterstock
关键词:人工智能,加密,区块链,新闻