NVIDIA NEMO-RL利用GRPO进行高级加固学习

By Amelia On 7 月 10, 2025

彼得张
7月10日，2025年06:07

NVIDIA介绍了Nemo-RL，这是一个用于增强学习的开源库，可通过GRPO进行可扩展的培训，并与拥抱的面部模型进行整合。

根据NVIDIA的官方博客的说法，NVIDIA已揭露了Nemo-RL，这是一个尖端的开源库，旨在增强增强学习（RL）功能。该图书馆支持可扩展的模型培训，从单GPU原型到大量千-GPU部署，并与诸如拥抱脸等流行的框架无缝集成。

Nemo-RL的架构和功能

Nemo-RL是更广泛的NVIDIA NEMO框架的一部分，该框架以其多功能性和高性能功能而闻名。该库包括与拥抱面部模型，优化培训和推理过程的本地集成。它支持流行的RL算法，例如DPO和GRPO，并采用基于射线的编排来提高效率。

NEMO-RL的架构设计为灵活性。它支持各种培训和推出后端，以确保高级算法实现仍然不可知。这种设计允许在不需要算法代码修改的情况下进行无缝缩放模型，使其非常适合小规模和大规模部署。

博客文章探讨了NEMO-RL使用组相对策略优化（GRPO）算法复制DeepScaler-1.5b配方的应用。这涉及培训诸如QWEN-1.5B之类的高性能推理模型，以在AIME24学术数学挑战中与OpenAI的O1基准竞争。

训练过程分为三个步骤，每个步骤都增加了所使用的最大序列长度：从8K开始，然后是16K，最后24K。这种逐渐增加有助于管理推出序列长度的分布，从而优化训练过程。

培训设置涉及克隆NEMO-RL存储库和安装必要的软件包。训练是在阶段进行的，该模型不断评估，以确保满足性能基准。结果表明，NEMO-RL仅在400个步骤中获得了0.65的培训奖励。

对AIME24基准测试的评估表明，受过训练的模型超过了OpenAI O1，与GRPO算法结合使用了Nemo-RL的有效性。

NEMO-RL可用于开源使用，在其GitHub存储库上提供详细的文档和示例脚本。对于那些希望使用可扩展有效方法进行增强学习的人来说，此资源是理想的选择。

图书馆与拥抱面的集成及其模块化设计使其成为寻求利用其项目中先进RL技术的研究人员和开发人员的强大工具。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：