The news is by your side.

NVIDIA和AWS联手增强了AI训练可伸缩性

2


艾里斯·科尔曼(Iris Coleman)
2025年6月24日12:39

NVIDIA运行:AI和AWS SageMaker HyperPod集成以简化AI训练,在混合云环境中提供了增强的可扩展性和资源管理。




Nvidia Run:AI和Amazon Web Services(AWS)揭示了一项战略整合,旨在增强复杂的AI培训工作负载的可扩展性和管理。根据NVIDIA的说法,这项合作将AWS Sagemaker Hyperpod与NVIDIA RUN:AI的高级AI工作量和GPU编排平台合并,有望提高效率和灵活性。

简化AI基础架构

AWS Sagemaker HyperPod旨在为大型分布式培训和推理提供一个弹性和持久的集群。通过优化多个GPU的资源利用,它可以大大减少模型培训时间。此功能与任何模型体系结构都兼容,使团队可以有效地扩展培训工作。

此外,SageMaker HyperPod通过自动检测和处理基础设施故障来提高弹性,从而确保不间断的培训工作恢复而没有大量停机时间。这种能力可以加速机器学习生命周期并提高生产率。

NVIDIA运行:AI的集中管理

NVIDIA运行:AI为跨混合环境(包括本地和云设置)提供了用于AI工作负载和GPU编排的集中式接口。这种方法使IT管理员可以在各个地理位置上有效地管理GPU资源,从而在需求尖峰时促进无缝的云爆发。

AWS和NVIDIA RUN:AI的技术团队都对集成进行了彻底的测试。它允许用户在受益于NVIDIA RUN:AI的GPU优化和资源管理功能的同时利用SageMaker Hyperpod的灵活性。

动态且具有成本效益的缩放

该协作使组织能够在本地和云环境中无缝地扩展其AI基础架构。 NVIDIA运行:AI的控制平面允许企业在本地或云中有效地管理GPU资源。该功能支持动态缩放,而无需过度提供硬件,从而在保持性能的同时降低了成本。

Sagemaker Hyperpod的灵活基础架构是大规模模型培训和推断的理想选择,使其适用于专注于培训或微调基础模型的企业,例如Llama或稳定的扩散。

增强的资源管理

NVIDIA运行:AI可确保AI基础架构有效地使用了其高级调度和GPU分级功能。这种灵活性对管理波动需求的企业特别有益,因为它适应了计算需求的转变,减少了空闲时间并最大程度地提高了GPU投资回报率。

作为验证过程的一部分,NVIDIA运行:AI测试了几个关键功能,包括混合和多群集管理,硬件故障后的自动求职以及推理服务。这种集成代表了在混合环境中管理AI工作负载方面迈出的重要一步。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词: