NVIDIA和AWS联手增强了AI训练可伸缩性

By Amelia On 6 月 26, 2025

艾里斯·科尔曼（Iris Coleman）
2025年6月24日12:39

NVIDIA运行：AI和AWS SageMaker HyperPod集成以简化AI训练，在混合云环境中提供了增强的可扩展性和资源管理。

Nvidia Run：AI和Amazon Web Services（AWS）揭示了一项战略整合，旨在增强复杂的AI培训工作负载的可扩展性和管理。根据NVIDIA的说法，这项合作将AWS Sagemaker Hyperpod与NVIDIA RUN：AI的高级AI工作量和GPU编排平台合并，有望提高效率和灵活性。

简化AI基础架构

AWS Sagemaker HyperPod旨在为大型分布式培训和推理提供一个弹性和持久的集群。通过优化多个GPU的资源利用，它可以大大减少模型培训时间。此功能与任何模型体系结构都兼容，使团队可以有效地扩展培训工作。

此外，SageMaker HyperPod通过自动检测和处理基础设施故障来提高弹性，从而确保不间断的培训工作恢复而没有大量停机时间。这种能力可以加速机器学习生命周期并提高生产率。

NVIDIA运行：AI的集中管理

NVIDIA运行：AI为跨混合环境（包括本地和云设置）提供了用于AI工作负载和GPU编排的集中式接口。这种方法使IT管理员可以在各个地理位置上有效地管理GPU资源，从而在需求尖峰时促进无缝的云爆发。

AWS和NVIDIA RUN：AI的技术团队都对集成进行了彻底的测试。它允许用户在受益于NVIDIA RUN：AI的GPU优化和资源管理功能的同时利用SageMaker Hyperpod的灵活性。

动态且具有成本效益的缩放

该协作使组织能够在本地和云环境中无缝地扩展其AI基础架构。 NVIDIA运行：AI的控制平面允许企业在本地或云中有效地管理GPU资源。该功能支持动态缩放，而无需过度提供硬件，从而在保持性能的同时降低了成本。

Sagemaker Hyperpod的灵活基础架构是大规模模型培训和推断的理想选择，使其适用于专注于培训或微调基础模型的企业，例如Llama或稳定的扩散。

增强的资源管理

NVIDIA运行：AI可确保AI基础架构有效地使用了其高级调度和GPU分级功能。这种灵活性对管理波动需求的企业特别有益，因为它适应了计算需求的转变，减少了空闲时间并最大程度地提高了GPU投资回报率。

作为验证过程的一部分，NVIDIA运行：AI测试了几个关键功能，包括混合和多群集管理，硬件故障后的自动求职以及推理服务。这种集成代表了在混合环境中管理AI工作负载方面迈出的重要一步。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：

NVIDIA和AWS联手增强了AI训练可伸缩性