王荣差
2024 年 8 月 29 日 06:56
NVIDIA Triton 推理服务器在 MLPerf Inference 4.1 基准测试中取得了卓越的性能,展示了其在 AI 模型部署方面的能力。
据 NVIDIA 技术博客报道,NVIDIA 的 Triton 推理服务器在最新的 MLPerf Inference 4.1 基准测试中取得了卓越的表现。该服务器在配备八个 H200 GPU 的系统上运行,在 Llama 2 70B 基准测试中表现出的性能几乎与 NVIDIA 的裸机提交相同,突显了其在功能丰富的生产级 AI 推理与峰值吞吐量性能之间取得平衡的能力。
NVIDIA Triton 主要功能
NVIDIA Triton 是一个开源 AI 模型服务平台,旨在简化和加速生产中 AI 推理工作负载的部署。主要功能包括通用 AI 框架支持、无缝云集成、业务逻辑脚本、模型集成和模型分析器。
通用 AI 框架支持
Triton 最初于 2016 年推出,支持 NVIDIA TensorRT 后端,现在支持所有主要框架,包括 TensorFlow、PyTorch、ONNX 等。这种广泛的支持使开发人员能够快速将新模型部署到现有的生产实例中,从而大大缩短上市时间。
无缝云集成
NVIDIA Triton 与主要云服务提供商深度集成,只需极少的代码或无需任何代码即可轻松在云中部署。它支持 OCI Data Science、Azure ML CLI、GKE 管理集群和 AWS 深度学习容器等平台。
业务逻辑脚本
Triton 允许通过业务逻辑脚本将自定义 Python 或 C++ 脚本合并到生产流程中,使组织能够根据其特定需求定制 AI 工作负载。
模型集成
模型集成使企业能够将预处理和后处理工作流程连接到无需编程的连贯管道中,从而优化基础设施成本并减少延迟。
模型分析器
模型分析器功能允许试验各种部署配置,并以视觉方式映射这些配置,以确定最有效的生产使用设置。它还包括 GenA-Perf,这是一款专为生成式 AI 性能基准测试而设计的工具。
MLPerf 4.1 的出色吞吐量结果
在 MLCommons 主办的 MLPerf Inference v4.1 上,NVIDIA Triton 在 TensorRT-LLM 优化的 Llama-v2-70B 模型上展示了其功能。该服务器的性能几乎与裸机提交相同,证明企业可以同时实现功能丰富的生产级 AI 推理和峰值吞吐量性能。
MLPerf 基准测试提交详情
提交内容包括两种场景:离线(输入被批量处理)和服务器(模拟具有离散输入请求的实际生产部署)。NVIDIA Triton 实现使用了 gRPC 客户端-服务器设置,服务器提供 gRPC 端点以与 TensorRT-LLM 交互。
下一场面对面用户见面会
NVIDIA 宣布下一次 Triton 用户见面会将于 2024 年 9 月 9 日在旧金山的 Fort Mason 艺术与文化中心举行。此次活动将重点关注 LLM 的新功能和未来创新。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news