利用 AI 代理和 OODA Loop 增强数据中心性能


艾尔文·朗
2024 年 9 月 17 日 17:05

NVIDIA 引入了使用 OODA 循环策略的可观察性 AI 代理框架,以优化数据中心中复杂的 GPU 集群管理。




管理数据中心中大型、复杂的 GPU 集群是一项艰巨的任务,需要对冷却、电源、网络等进行细致的监督。据 NVIDIA 技术博客称,为了解决这种复杂性,NVIDIA 开发了一个利用 OODA 循环策略的可观察性 AI 代理框架。

人工智能驱动的可观察性框架

NVIDIA DGX Cloud 团队负责管理遍布各大云服务提供商和 NVIDIA 自身数据中心的全球 GPU 集群,并实施了这一创新框架。该系统使操作员能够与数据中心进行交互,询问有关 GPU 集群可靠性和其他运营指标的问题。

例如,操作员可以向系统查询供应链风险最高的五个最常更换的部件,或指派技术人员解决最脆弱集群中的问题。此功能是 LLo11yPop(LLM + 可观察性)项目的一部分,该项目使用 OODA 循环(观察、定位、决策、行动)来增强数据中心管理。

监控加速数据中心

随着每一代 GPU 的出现,对全面可观察性的需求也在增加。利用率、错误和吞吐量等标准指标只是基准。要充分了解运行环境,还必须考虑温度、湿度、功率稳定性和延迟等其他因素。

NVIDIA 的系统利用现有的可观察性工具并将其与 NIM 微服务集成,使操作员能够使用人类语言与 Elasticsearch 交谈。这可以对整个机组的风扇故障等问题提供准确、可操作的洞察。

模型架构

该框架由各种代理类型组成:

  • 协调器代理: 将问题转给适当的分析师并选择最佳行动。
  • 分析师代理: 将广泛的问题转换为检索代理回答的具体查询。
  • 作用剂: 协调响应,例如通知站点可靠性工程师 (SRE)。
  • 检索代理: 针对数据源或服务端点执行查询。
  • 任务执行代理: 执行特定任务,通常通过工作流引擎。

这种多代理方法模仿组织层次结构,其中主管协调工作,经理使用领域知识分配工作,工人针对特定任务进行优化。

迈向多LLM复合模式

为了管理有效集群管理所需的各种遥测数据,NVIDIA 采用了混合代理 (MoA) 方法。这涉及使用多个大型语言模型 (LLM) 来处理不同类型的数据,从 GPU 指标到 Slurm 和 Kubernetes 等编排层。

通过将小型、集中的模型链接在一起,系统可以微调特定任务(例如 Elasticsearch 的 SQL 查询生成),从而优化性能和准确性。

具有 OODA 循环的自主代理

下一步是使用在 OODA 循环内运行的自主监督代理来闭合循环。这些代理观察数据、自我定位、决定行动并执行。最初,人工监督确保这些行动的可靠性,形成一个强化学习循环,随着时间的推移不断改进系统。

经验教训

开发该框架的关键见解包括:在早期模型训练中及时进行工程设计的重要性、为特定任务选择正确的模型、以及在系统被证明可靠和安全之前保持人工监督。

构建你的AI代理应用程序

NVIDIA 为那些想要构建自己的 AI 代理和应用程序的人提供了各种工具和技术。资源可在 ai.nvidia.com 上找到,详细指南可在 NVIDIA 开发者博客上找到。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news

AIblockchainCryptoLoopnewsOODA代理和利用增强数据中心性能
Comments (0)
Add Comment