约尔格·希勒
2024 年 8 月 29 日 07:18
NVIDIA 的 Blackwell 架构在 MLPerf Inference v4.1 中设定了新的基准,展示了 LLM 推理的显著性能提升。
据 NVIDIA 技术博客报道,NVIDIA 的全新 Blackwell 架构在最新的 MLPerf Inference v4.1 中创下了前所未有的基准。该平台在 NVIDIA GTC 2024 上推出,采用基于 2080 亿个晶体管的超级芯片,并采用为 NVIDIA 量身定制的台积电 4NP 工艺,使其成为有史以来最大的 GPU。
NVIDIA Blackwell 在 MLPerf 推理首秀中大放异彩
在首轮 MLPerf 推理提交中,NVIDIA 的 Blackwell 架构在 Llama 2 70B LLM 基准测试中取得了令人瞩目的成绩,与之前的 H100 GPU 相比,每 GPU 每秒的令牌数最多可提高 4 倍。这一性能飞跃得益于新的第二代 Transformer Engine,它利用了 Blackwell Tensor Core 技术和 TensorRT-LLM 创新。
根据 MLPerf 的结果,Blackwell 的 FP4 Transformer Engine 成功执行了 FP4 中大约 50% 的工作负载,实现了 5.2 petaflops 的数学吞吐量。基于 Blackwell 的提交属于封闭式组,这意味着模型未经修改但符合高精度标准。
NVIDIA H200 Tensor Core GPU 的卓越性能
作为 Hopper 架构的升级版,NVIDIA H200 GPU 在所有基准测试中也取得了出色的成绩。配备 HBM3e 内存的 H200 在内存容量和带宽方面表现出色,这对内存敏感型应用程序大有裨益。
例如,H200 在 Llama 2 70B 基准测试中取得了显著的性能提升,与上一轮相比提高了 14%,这完全得益于 TensorRT-LLM 中的软件增强。此外,当热设计功率 (TDP) 增加到 1,000 瓦时,H200 的性能飙升了 12%。
Jetson AGX Orin 在边缘 AI 领域的巨大飞跃
NVIDIA 的 Jetson AGX Orin 在边缘生成 AI 方面表现出了令人印象深刻的性能改进,在 GPT-J 6B 参数 LLM 基准上实现了高达 6.2 倍的吞吐量和 2.4 倍的延迟。这是通过大量软件优化实现的,包括使用 INT4 激活感知权重量化 (AWQ) 和飞行中批处理。
Jetson AGX Orin 平台具有独特的优势,可以在边缘运行 GPT-J、视觉转换器和稳定扩散等复杂模型,并从图像和视频等传感器数据中提供实时、可操作的见解。
结论
总而言之,NVIDIA 的 Blackwell 架构在 MLPerf Inference v4.1 中树立了新标准,性能比其前身 H100 提高了 4 倍。H200 GPU 继续在多个基准测试中提供顶级性能,而 Jetson AGX Orin 则展示了边缘 AI 的重大进步。
NVIDIA 在整个技术堆栈中的持续创新确保其在从大型数据中心到低功耗边缘设备的 AI 推理性能方面始终处于领先地位。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news