Google Cloud Run 集成 NVIDIA L4 GPU,以增强 AI 推理部署


路易莎·克劳福德
2024 年 8 月 22 日 07:50

Google Cloud Run 现已支持 NVIDIA L4 GPU、NVIDIA NIM 和无服务器 AI 推理部署,从而优化 AI 应用程序的性能和可扩展性。




据 NVIDIA 技术博客报道,Google Cloud Run 宣布集成 NVIDIA L4 Tensor Core GPU、NVIDIA NIM 微服务以及无服务器 AI 推理部署功能。此次合作旨在解决企业在部署支持 AI 的应用程序时面临的挑战,包括性能优化、可扩展性和基础设施复杂性。

增强 AI 推理部署

Google Cloud 的全托管无服务器容器运行时 Cloud Run 现已预览支持 NVIDIA L4 Tensor Core GPU。这使企业可以按需运行实时 AI 应用程序,而无需管理基础设施。NVIDIA NIM 微服务的集成进一步简化了 AI 模型的优化和部署,从而最大限度地提高应用程序性能并降低复杂性。

实时人工智能应用程序

Cloud Run 根据传入流量动态分配资源,从而抽象化基础架构管理,确保高效扩展和资源利用率。对 NVIDIA L4 GPU 的支持是之前仅支持 CPU 的产品的重大升级,与 CPU 解决方案相比,AI 视频性能提高了 120 倍,生成式 AI 推理性能比上一代提高了 2.7 倍。

值得注意的是,Let's Enhance、Wombo、Writer、Descript 和 AppLovin 等公司正在利用 NVIDIA L4 GPU 为其生成式 AI 应用程序提供支持,从而提供增强的用户体验。

性能优化的无服务器 AI 推理

优化 AI 模型性能对于资源效率和成本管理至关重要。NVIDIA NIM 提供了一组优化的云原生微服务,可简化和加速 AI 模型部署。这些预先优化的容器化模型可无缝集成到应用程序中,从而缩短开发时间并最大限度地提高资源效率。

Cloud Run 上的 NVIDIA NIM 允许使用优化的推理引擎部署高性能 AI 应用程序,从而充分发挥 NVIDIA L4 GPU 的潜力,提供卓越的吞吐量和延迟,而无需推理性能优化方面的专业知识。

部署 Llama3-8B-Instruct NIM 微服务

使用 Cloud Run 在 NVIDIA L4 GPU 上部署 Llama3-8B-Instruct 等模型非常简单。用户需要安装 Google Cloud SDK 并按照一系列步骤克隆存储库、设置环境变量、编辑 Dockerfile、构建容器并使用提供的脚本进行部署。

入门

NVIDIA AI 平台(包括 NVIDIA NIM 和 NVIDIA L4 GPU)与 Google Cloud Run 的集成解决了 AI 应用程序部署中的关键挑战。这种协同作用可加速部署、提高性能并确保运营效率和成本效益。

开发人员可以通过 NVIDIA API 目录使用 NVIDIA NIM 微服务进行原型设计,然后下载 NIM 容器以在 Google Cloud Run 上进一步开发。如需企业级安全性和支持,可使用 90 天 NVIDIA AI Enterprise 许可证。

目前,支持 NVIDIA L4 GPU 的 Cloud Run 正在 us-central1 Google Cloud 区域进行预览。更多信息和演示可在发布会直播和注册页面上找到。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news

AIblockchainCloudCryptoGoogleGPU以增强newsNvidiaRun推理部署集成
Comments (0)
Add Comment