The news is by your side.

Perplexity AI 利用 NVIDIA 推理堆栈每月处理 4.35 亿次查询

22


特里尔·迪基
2024 年 12 月 6 日 04:17

Perplexity AI 利用 NVIDIA 的推理堆栈(包括 H100 Tensor Core GPU 和 Triton 推理服务器)每月管理超过 4.35 亿个搜索查询,从而优化性能并降低成本。




Perplexity AI 是领先的人工智能驱动的搜索引擎,凭借 NVIDIA 的高级推理堆栈,每月成功管理超过 4.35 亿次搜索查询。据NVIDIA官方博客称,该平台集成了NVIDIA H100 Tensor Core GPU、Triton Inference Server和TensorRT-LLM,可高效部署大型语言模型(LLM)。

服务多种AI模型

为了满足不同的用户需求,Perplexity AI 同时运行 20 多个人工智能模型,包括开源 Llama 3.1 模型的变体。每个用户请求都使用确定用户意图的较小分类器模型与最合适的模型进行匹配。这些模型部署在 GPU Pod 上,每个 GPU Pod 均由 NVIDIA Triton 推理服务器管理,确保严格的服务级别协议 (SLA) 下的效率。

Pod 托管在 Kubernetes 集群中,具有内部前端调度程序,可根据负载和使用情况引导流量。这可确保一致的 SLA 遵守、优化性能和资源利用率。

优化性能和成本

Perplexity AI 采用全面的 A/B 测试策略来为不同的用例定义 SLA。此过程旨在最大限度地提高 GPU 利用率,同时维持目标 SLA,优化推理服务成本。较小的型号侧重于最大限度地减少延迟,而较大的面向用户的型号(如 Llama 8B、70B 和 405B)则进行详细的性能分析,以平衡成本和用户体验。

通过跨多个 GPU 并行模型部署、增加张量并行性以降低延迟敏感请求的服务成本,进一步增强了性能。这种战略方法通过在基于云的 NVIDIA GPU 上托管模型,使 Perplexity 每年节省约 100 万美元,超过了第三方 LLM API 服务成本。

提高吞吐量的创新技术

Perplexity AI 正在与 NVIDIA 合作实施“分解服务”,这是一种将推理阶段分离到不同 GPU 上的方法,在遵守 SLA 的同时显着提高吞吐量。这种灵活性使 Perplexity 能够利用各种 NVIDIA GPU 产品来优化性能和成本效率。

即将推出的 NVIDIA Blackwell 平台预计将得到进一步改进,有望通过技术创新(包括第二代 Transformer 引擎和先进的 NVLink 功能)大幅提升性能。

Perplexity 对 NVIDIA 推理堆栈的战略性使用凸显了人工智能驱动的平台在有效管理大量查询、提供高质量用户体验的同时保持成本效益的潜力。

图片来源:Shutterstock




关键词:人工智能,加密,区块链,新闻