NVIDIA揭示了增强吞吐量的Nemotron-H推理模型


詹姆斯·丁
6月6日,2025年10:02

根据NVIDIA的博客,NVIDIA介绍了Nemotron-H推理模型家族,在推理密集型任务中提供了显着的吞吐量增长和多功能应用程序。




在人工智能的重大发展中,NVIDIA宣布了Nemotron-H推理模型家族,旨在增强吞吐量而不会损害性能。这些模型是针对处理推理密集型任务的量身定制的,特别关注数学和科学,在该任务上,产出长度已经大大扩展,有时达到了数万个令牌。

AI推理模型的突破

NVIDIA的最新产品包括Nemotron-H-47B-Reoning-128K和Nemotron-H-8B-Reasounding-128K型号,均在FP8量化的变体中可用。根据NVIDIA的博客,这些模型源自Nemotron-H-47B-Base-8K和Nemotron-H-8B-Base-8K基础模型。

Nemotron-H-47B反应模型是该家族中最有能力的模型,其吞吐量是可比变压器模型(例如Llama-Nemotron Super 49B V1.0)的吞吐量近四倍。它支持128K令牌上下文,并在精确的精确性方面出色地完成了重重的任务。同样,Nemotron-H-8B-Remounting-128K模型显示出比骆驼 – 纽马纳米8B V1.0的显着改善。

创新功能和许可

Nemotron-H模型引入了灵活的操作功能,使用户可以在推理和非争议模式之间进行选择。这种适应性使其适用于广泛的现实应用程序。 NVIDIA已根据开放的研究许可发布了这些模型,鼓励研究界进一步探索和创新。

培训和表现

对这些模型的培训涉及监督的微调(SFT),其中包括包括明确推理轨迹的示例。这种全面的培训方法跨越了数学,科学和编码的30,000多个步骤,从而对内部STEM基准进行了一致的改进。随后的培训阶段的重点是遵循教学,安全对准和对话,进一步提高了模型在各种任务中的表现。

长篇小说处理和强化学习

为了支持128k token上下文,使用高达256K令牌的合成序列对模型进行了培训,从而提高了其长期关注能力。此外,还将使用小组相对政策优化(GRPO)进行加强学习来完善技能,例如以下教学和工具使用,从而增强了模型的整体响应质量。

最终结果和吞吐量比较

针对诸如Llama-Nemotron Super 49b V1.0和Qwen3 32b之类的模型的基准测试,Nemotron-H-47B-ROUNTINing-128K模型表现出了较高的精度和吞吐量。值得注意的是,它的吞吐量比传统的基于变压器的模型高四倍,这标志着AI模型效率的显着进步。

总体而言,Nemotron-H推理模型代表了需要精确和速度的应用程序的多功能且高性能的基础,从而在AI推理能力方面提供了重大进步。

有关更多详细信息,请参阅NVIDIA博客上的官方公告。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

NVIDIA揭示了增强吞吐量的NemotronH推理模型
Comments (0)
Add Comment