Together AI 通过内核集合提升 NVIDIA H200 和 H100 GPU 集群性能

By Amelia On 9 月 6, 2024

约尔格·希勒
2024 年 9 月 6 日 07:14

Together AI 通过其 Together Kernel Collection 增强了 NVIDIA H200 和 H100 GPU 集群，从而显著提高了 AI 训练和推理的性能。

据together.ai报道，Together AI宣布通过集成NVIDIA H200 Tensor Core GPU，显著增强了其GPU集群。此次升级将伴随Together Kernel Collection (TKC)，这是一个定制的内核堆栈，旨在优化AI操作，为训练和推理任务提供显着的性能提升。

通过 TKC 提高性能

Together Kernel Collection (TKC) 旨在显著加速常见的 AI 操作。与标准 PyTorch 实现相比，TKC 可将常用训练运算符的速度提高 24%，将 FP8 推理操作的速度提高 75%。这一改进有望减少 GPU 时间，从而提高成本效率并缩短上市时间。

训练和推理优化

TKC 的优化内核（例如具有 SwiGLU 激活的多层感知器 (MLP)）对于训练 Llama-3 等大型语言模型 (LLM) 至关重要。据报道，这些内核比标准实现快 22-24%，与现有最佳基线相比，速度可能提高 10%。推理任务受益于强大的 FP8 内核堆栈，Together AI 已对其进行优化，与基本 PyTorch 实现相比，速度提高了 75% 以上。

原生 PyTorch 兼容性

TKC 与 PyTorch 完全集成，使 AI 开发人员能够在现有框架内无缝利用其优化。这种集成简化了 TKC 的采用，使其变得像在 PyTorch 中更改导入语句一样简单。

生产级测试

Together AI 确保 TKC 经过严格测试，符合生产级标准，从而保证实际应用的高性能和可靠性。所有 Together GPU 集群（无论是 H200 还是 H100）都将配备开箱即用的 TKC。

NVIDIA H200：更快的性能和更大的内存

基于 Hopper 架构的 NVIDIA H200 Tensor Core GPU 专为高性能 AI 和 HPC 工作负载而设计。据 NVIDIA 称，与前代产品 H100 相比，H200 在 Llama 2 13B 上的推理性能提高了 40%，在 Llama 2 70B 上的推理性能提高了 90%。H200 具有 141GB 的 HBM3e 内存和 4.8TB/s 的内存带宽，容量几乎是 H100 的两倍，带宽是 H100 的 1.4 倍。

高性能互联互通

GPU 集群共同利用 SXM 规格实现高带宽和快速数据传输，并由 NVIDIA 的 NVLink 和 NVSwitch 技术提供支持，以实现 GPU 之间的超高速通信。结合 NVIDIA Quantum-2 3200Gb/s InfiniBand 网络，此设置非常适合大规模 AI 训练和 HPC 工作负载。

经济高效的基础设施

Together AI 可显著节省成本，其基础设施设计成本效率比 AWS 等云提供商高出 75%。该公司还提供灵活的承诺选项，从一个月到五年不等，确保在 AI 开发生命周期的每个阶段都拥有合适的资源。

可靠性和支持

Together AI 的 GPU 集群具有 99.9% 的正常运行时间 SLA，并经过严格的验收测试。该公司的 White Glove Service 提供端到端支持，从集群设置到持续维护，确保 AI 模型达到最佳性能。

灵活的部署选项

Together AI 提供多种部署选项，包括用于高性能工作负载管理的 Slurm、用于容器化 AI 工作负载的 Kubernetes 以及运行 Ubuntu 的裸机集群，以实现直接访问和极致灵活性。这些选项可满足不同的 AI 项目需求，从大规模训练到生产级推理。

Together AI 凭借其高性能 NVIDIA H200 GPU 集群和 Together Kernel Collection 继续支持整个 AI 生命周期。该平台旨在优化性能、降低成本并确保可靠性，是加速 AI 开发的理想选择。

图片来源：Shutterstock

（标签翻译）人工智能（t）加密（t）区块链（t）新闻

关键词：AI,crypto,blockchain,news

AI blockchain Crypto GPU H100 H200 news Nvidia