评估多代理体系结构:性能基准测试


彼得张
2025年6月10日18:25

Langchain的新研究基准了各种多机构体系结构,使用TAU基础数据集专注于它们的性能和可伸缩性,突出了模块化系统的优势。




在Langchain的最新分析中,对多代理体系结构的深入研究突出了这些系统在Tau Bench数据集的变体上的动机,约束和性能。该研究强调了多代理系统在处理需要多个工具和环境的复杂任务中的重要性。

多代理系统的动机

由威尔·福·辛瑟恩(Will Fu-Hinthorn)领导的兰班(Langchain)的研究探讨了越来越多的多代理体系结构采用的原因。这些动机包括需要可扩展性来处理众多工具和环境,并遵守更喜欢模块化和可维护系统的工程最佳实践。该研究还指出,多机构系统允许各种开发人员的贡献,从而增强了系统的整体能力。

基准测试方法

基准测试涉及在经过修改的TAU基础数据集中测试不同的体系结构,该数据集模拟了零售客户支持和飞行预订之类的真实情况。扩展了该数据集,以包括其他环境,例如技术支持和汽车,旨在测试系统的过滤和管理无关紧要的工具和说明的能力。

建筑比较

Langchain评估了三个体系结构:单特工,群和主管。单个代理模型充当基线,利用单个提示来访问所有工具和说明。群架构允许子代理将任务互相交付,而主管模型则使用中央代理将任务委托给子代理和继电器响应。

绩效见解

结果表明,单个代理体系结构在多个干扰物域中挣扎,而由于直接通信能力,群模型略微优于主管模型。该研究强调了主管模型的初始绩效问题,这些问题通过信息处理和上下文管理的战略改进来减轻。

成本分析

令牌用法是一个关键的指标,随着干扰物域的增加,单个代理模型会消耗更多的令牌。 Swarm和主管模型都保持了一致的令牌用法,尽管主管模型由于其翻译层而需要更多,该层在以后的迭代中进行了优化。

未来的方向

Langchain概述了一些进一步研究的领域,包括探索跨代理商的多跳问题,改善单个干扰器领域的性能以及研究替代体系结构。在维护任务上下文的同时跳过翻译层的潜力也是增强主管模型的焦点。

随着多机构系统的不断发展,研究表明,通用体系结构将变得更加可行,在维持性能的同时易于开发。 Langchain的发现在其博客上进一步详细介绍了。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

评估多代理体系结构性能基准测试
Comments (0)
Add Comment