NVIDIA MLPERF v5.0：LLM基准的训练分数

彼得张
6月4日，2025年18:17

NVIDIA概述了复制LLM基准测试的MLPERF V5.0培训得分的过程，强调硬件先决条件和逐步执行。

NVIDIA详细介绍了从MLPERF V5.0基准测试的训练分数的过程，特别关注Llama 2 70B Lora微调和Llama 3.1 405B预处理。正如Sukru Burc Eryilmaz在NVIDIA博客上报道的那样，NVIDIA先前宣布在MLPERF培训v5.0中取得高达2.6倍的表现之后，该倡议提高了2.6倍。这些基准是MLPERF综合评估套件的一部分，旨在衡量机器学习模型的性能。

基准测试的先决条件

要运行这些基准，必须满足特定的硬件和软件要求。对于Llama 2 70B Lora，必须使用NVIDIA DGX B200或GB200 NVL72系统，而Llama 3.1 405b需要至少四个通过Infiniband连接的GB200 NVL72系统。此外，需要大量的磁盘空间：Llama 3.1和300 GB的2.5 TB用于Lora微调。

集群和环境设置

NVIDIA使用了由NVIDIA基本命令管理器（BCM）管理的集群设置，该设置需要基于Slurm，Pyxis和Enroot的环境。建议在RAID0中配置的快速本地存储，以最大程度地减少数据瓶颈。网络应结合NVIDIA NVLINK和INFINIBAND，以获得最佳性能。

执行基准

执行过程涉及多个步骤，从构建Docker容器并下载必要的数据集和检查点开始。基准测试使用Slurm运行，并带有一个配置文件详细详细介绍超参数和系统设置。该过程旨在灵活，可以根据不同的系统尺寸和要求进行调整。

分析基准日志

在基准测试过程中，生成包括关键MLPERF标记的日志。这些日志为初始化，培训进度和最终准确性提供了见解。最终目标是实现目标评估损失，这标志着成功完成基准。

有关更详细的说明，包括特定的脚本和配置示例，请参阅NVIDIA博客。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：

NVIDIA MLPERF v5.0：LLM基准的训练分数

基准测试的先决条件

集群和环境设置

执行基准

分析基准日志

Related Posts

国防初创公司 Govini 创始人吉莱斯皮被指控儿童性行为

虐待法律小组发起协调一致的法律努力，为机构虐待的幸存者伸张正义 – 区块链新闻网站

摩根士丹利披露 Avadel Pharmaceuticals 股票交易

ADNOC天然气公司2025年第三季度业绩下滑：在油价逆风中国内天然气推动利润增长8%

客户挑战

金融服务实力强劲，意大利邮政营业利润超出预期

看看以色列驱逐巴勒斯坦囚犯可能产生的影响：NPR