NVIDIA MLPERF v5.0:LLM基准的训练分数


彼得张
6月4日,2025年18:17

NVIDIA概述了复制LLM基准测试的MLPERF V5.0培训得分的过程,强调硬件先决条件和逐步执行。




NVIDIA详细介绍了从MLPERF V5.0基准测试的训练分数的过程,特别关注Llama 2 70B Lora微调和Llama 3.1 405B预处理。正如Sukru Burc Eryilmaz在NVIDIA博客上报道的那样,NVIDIA先前宣布在MLPERF培训v5.0中取得高达2.6倍的表现之后,该倡议提高了2.6倍。这些基准是MLPERF综合评估套件的一部分,旨在衡量机器学习模型的性能。

基准测试的先决条件

要运行这些基准,必须满足特定的硬件和软件要求。对于Llama 2 70B Lora,必须使用NVIDIA DGX B200或GB200 NVL72系统,而Llama 3.1 405b需要至少四个通过Infiniband连接的GB200 NVL72系统。此外,需要大量的磁盘空间:Llama 3.1和300 GB的2.5 TB用于Lora微调。

集群和环境设置

NVIDIA使用了由NVIDIA基本命令管理器(BCM)管理的集群设置,该设置需要基于Slurm,Pyxis和Enroot的环境。建议在RAID0中配置的快速本地存储,以最大程度地减少数据瓶颈。网络应结合NVIDIA NVLINK和INFINIBAND,以获得最佳性能。

执行基准

执行过程涉及多个步骤,从构建Docker容器并下载必要的数据集和检查点开始。基准测试使用Slurm运行,并带有一个配置文件详细详细介绍超参数和系统设置。该过程旨在灵活,可以根据不同的系统尺寸和要求进行调整。

分析基准日志

在基准测试过程中,生成包括关键MLPERF标记的日志。这些日志为初始化,培训进度和最终准确性提供了见解。最终目标是实现目标评估损失,这标志着成功完成基准。

有关更详细的说明,包括特定的脚本和配置示例,请参阅NVIDIA博客。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

MLPerfNvidiav5.0LLM基准的训练分数
Comments (0)
Add Comment