利用 AI 代理和 OODA Loop 增强数据中心性能

艾尔文·朗
2024 年 9 月 17 日 17:05

NVIDIA 引入了使用 OODA 循环策略的可观察性 AI 代理框架，以优化数据中心中复杂的 GPU 集群管理。

管理数据中心中大型、复杂的 GPU 集群是一项艰巨的任务，需要对冷却、电源、网络等进行细致的监督。据 NVIDIA 技术博客称，为了解决这种复杂性，NVIDIA 开发了一个利用 OODA 循环策略的可观察性 AI 代理框架。

人工智能驱动的可观察性框架

NVIDIA DGX Cloud 团队负责管理遍布各大云服务提供商和 NVIDIA 自身数据中心的全球 GPU 集群，并实施了这一创新框架。该系统使操作员能够与数据中心进行交互，询问有关 GPU 集群可靠性和其他运营指标的问题。

例如，操作员可以向系统查询供应链风险最高的五个最常更换的部件，或指派技术人员解决最脆弱集群中的问题。此功能是 LLo11yPop（LLM + 可观察性）项目的一部分，该项目使用 OODA 循环（观察、定位、决策、行动）来增强数据中心管理。

随着每一代 GPU 的出现，对全面可观察性的需求也在增加。利用率、错误和吞吐量等标准指标只是基准。要充分了解运行环境，还必须考虑温度、湿度、功率稳定性和延迟等其他因素。

NVIDIA 的系统利用现有的可观察性工具并将其与 NIM 微服务集成，使操作员能够使用人类语言与 Elasticsearch 交谈。这可以对整个机组的风扇故障等问题提供准确、可操作的洞察。

该框架由各种代理类型组成：

这种多代理方法模仿组织层次结构，其中主管协调工作，经理使用领域知识分配工作，工人针对特定任务进行优化。

为了管理有效集群管理所需的各种遥测数据，NVIDIA 采用了混合代理 (MoA) 方法。这涉及使用多个大型语言模型 (LLM) 来处理不同类型的数据，从 GPU 指标到 Slurm 和 Kubernetes 等编排层。

通过将小型、集中的模型链接在一起，系统可以微调特定任务（例如 Elasticsearch 的 SQL 查询生成），从而优化性能和准确性。

下一步是使用在 OODA 循环内运行的自主监督代理来闭合循环。这些代理观察数据、自我定位、决定行动并执行。最初，人工监督确保这些行动的可靠性，形成一个强化学习循环，随着时间的推移不断改进系统。

开发该框架的关键见解包括：在早期模型训练中及时进行工程设计的重要性、为特定任务选择正确的模型、以及在系统被证明可靠和安全之前保持人工监督。

NVIDIA 为那些想要构建自己的 AI 代理和应用程序的人提供了各种工具和技术。资源可在 ai.nvidia.com 上找到，详细指南可在 NVIDIA 开发者博客上找到。

图片来源：Shutterstock

（标签翻译）人工智能（t）加密（t）区块链（t）新闻

关键词：AI,crypto,blockchain,news