NVIDIA通过Nemo-RL的Megatron-Core增强了训练吞吐量


泰德·霍索瓦(Ted Hisokawa)
2025年8月20日16:26

NVIDIA在Nemo-RL V0.3中引入了威质核支持,以使用GPU优化的技术和增强的并行性为大型模型进行优化训练吞吐量。




NVIDIA揭示了其Nemo-RL框架0.3版的最新迭代,该版本包含了对超级核心核心的支持。根据NVIDIA的官方博客的说法,这种增强旨在通过利用GPU优化的技术和高级并行性策略来优化大型语言模型的培训吞吐量。

以前的后端挑战

NVIDIA NEMO-RL的初步释放利用了Pytorch dtensor(FSDP2),从而提供了与Huggingface生态系统的天然积分,并通过Pytorch的天然并行性启用了快速实验。但是,随着模型尺寸增加到数十亿个参数,由于大量重新计算开销和缺乏优化的NVIDIA CUDA内核,DTENSOR路径被证明是不足的,导致阶段效率低下。

介绍Megatron-Core

威质核心库通过为培训广泛的模型提供更有效的解决方案来解决这些局限性。它采用6D并行性策略来增强沟通和计算模式,并支持各种模型体系结构。该后端可以无缝培训大规模的语言模型,从而大大提高吞吐量和表现。

威质核心入门

实施基于威震天的培训涉及在YAML设置中添加特定的配置。该过程由NEMO-RL简化,该过程会自动处理复杂的调整,向用户提供直接的配置选项。这使得超级核心的采用更容易为开发人员访问,从而使他们专注于优化其模型培训过程。

绩效改进

基于威震天的培训支持专家(MOE)模型的密集和混合。与Pytorch Dtensor相比,性能测试表明,具有高毒核训练性能出色,如各种模型配置所示,如Llama 3.1-8B和70B。增强功能在更快的步骤和改善的收敛属性中很明显。

其他功能和未来的前景

NEMO-RL V0.3介绍了异步推出和非关联发电等功能,从而扩大了其功能。展望未来,NVIDIA计划支持更大的MOE模型,并引入进一步的优化,包括通过Megatron-Core使用Megatron-Core的FP8生成支持和非共同生成。

Megatron-Core后端在Nemo-RL中的进步标志着优化大规模语言模型的强化学习迈出的重要一步,从而确保了模型培训的效率和可扩展性。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

NVIDIA通过NemoRL的MegatronCore增强了训练吞吐量
Comments (0)
Add Comment