Alvin Lang
2025年2月12日08:20
NVIDIA DGX Cloud引入了基准配方,以增强AI平台性能,并通过全面的评估方法指导用户优化培训工作负载。
在对AI技术的重大发展中,NVIDIA宣布发布DGX Cloud Bench测试配方,旨在提高AI平台的性能。 NVIDIA表示,该计划旨在通过提供对性能指标进行整体评估的现成模板来指导用户优化AI培训工作负载。
全面的AI性能评估
DGX Cloud基准测试配方是端到端的基准测试套件,使用户可以在实际情况下衡量性能,同时识别潜在的优化领域。这些模板解决了以芯片为中心的指标(例如峰值浮点操作(FLOP)(FLOP))的局限性,这些指标(Flops)通常没有提供准确的端到端性能评估。通过考虑网络,软件和基础架构等因素,NVIDIA的方法可以更准确地描述培训时间和成本。
优化AI工作负载
这些食谱不仅评估了性能,还提供了优化流行的AI模型和工作量的策略,包括Llama 3.1和Grok。每个工作负载均采用特定配置来量身定制,以最大程度地提高性能,例如调整并行性策略并利用NVIDIA的NVLINK进行增强的数据吞吐量。这种方法可确保整个AI堆栈都针对培训和微调应用进行了优化。
高级技术的集成
NVIDIA的基准配方集成了高级技术,例如FP8精度格式和高带宽NVLINK网络,这对于有效地缩放AI工作负载至关重要。这些技术有助于弥合理论和实际性能之间的差距,从而使用户能够在现实世界应用中获得更高的失败。食谱还包括针对各种模型的基线性能指标,使用户可以设定现实的性能目标并相应地优化其系统。
从基准配方开始
通过NVIDIA的NGC目录获得,DGX云基准配方配方提供集装箱基准,合成数据生成脚本和性能指标收集工具。这些资源有助于可重复性,并为不同平台提供最佳实践配置。尽管目前需要slurm群集管理,但对Kubernetes的支持正在进行中,从而扩大了这些食谱在不同环境中的可用性。
通过不断完善其技术堆栈,NVIDIA旨在推动AI行业的大量绩效增长和创新。这些基准测试模板的引入不仅增强了AI基础设施投资,而且还强调了NVIDIA对优化AI工作量的承诺,以提高效率和降低成本。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: