Composio 的 SWE Agent 借助 LangGraph 和 LangSmith 在 SweBench 上取得了 48.6% 的成绩

扎克·安德森
2024 年 11 月 11 日 18:08

Composio 的 SWE 代理利用 LangGraph 和 LangSmith 在 SweBench 上取得了 48.6% 的分数，展示了开源 AI 驱动的软件工程的进步。

Composio 的 SWE 代理在 SweBench 基准测试中取得了 48.6% 的分数，在开源软件工程领域取得了重大进展。 LangChainAI 表示，这一成就凸显了该代理利用 LangGraph 和 LangSmith 有效应对现实世界软件工程挑战的能力。

SweBench 上的性能

SweBench 是一个严格的基准测试，旨在评估编码代理在实际任务中的有效性。它包括来自 Django、SymPy、Flask 和 Scikit-learn 等知名 Python 库的 2,294 个 GitHub 问题。在 500 个人工验证问题的子集中，SWE 代理成功解决了 243 个问题，总体排名第四，在开源贡献中排名第二。

创新的代理架构

SWE 代理的架构基于 LangGraph 构建，它将代理建模为状态机以实现高效的状态管理。这种方法超越了传统的代理通信方法，通过使用状态图来有效地管理代理交互和隐藏状态。每个代理都充当状态机，确保可靠且透明的工作流程。

使用 LangSmith 进行监控

LangSmith 在监控代理操作的不确定性、提供全面的日志记录和代理操作的整体视图方面发挥着关键作用。与 LangGraph 的集成通过提供问题解决过程每个步骤的精细可见性，增强了系统改进工具的能力。

提高性能的专业代理

SWE 代理采用专门的代理，每个代理都配备了用于特定任务的不同工具集。这包括用于任务委派的软件工程代理、用于代码库分析的 CodeAnalyzer 代理以及用于代码导航和修改的编辑器代理。这种专业化确保每个代理专注于明确定义的任务，从而提高整体绩效。

状态管理和工作流程

LangGraph 的架构有助于多代理系统中的有效状态管理。它实现了复杂的状态管理系统，以避免隐藏的状态陷阱，同时保持清晰的边界和转换。代理由路由器功能引导，该功能使用消息标记来控制状态转换，确保它们只参与相关任务。

LangGraph工作流程由三个代理节点和工具节点组成，每个节点都有预定义的任务和工具。这种结构化方法确保了明确的任务委派和模块化，防止重叠和意外的副作用。

为开发者赋能

SWE-Kit 平台提供模块化设计，使开发人员能够创建适合其特定工作流程的自定义代理。这种灵活性超越了软件工程，延伸到了 CRM、HRM 和管理任务中的应用程序。 Composio 旨在帮助开发人员构建能够改变各个行业工作流程的智能代理。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻

Composio 的 SWE Agent 借助 LangGraph 和 LangSmith 在 SweBench 上取得了 48.6% 的成绩

SweBench 上的性能

创新的代理架构

使用 LangSmith 进行监控

提高性能的专业代理

状态管理和工作流程

为开发者赋能

Related Posts

伊朗，以色列发动新攻击，在德黑兰排除核谈判之后

当美联储等待关税的影响时，有些已经感觉到了

直接税收征收4.9％；到目前为止，26财年的提高税率上涨了3.9％

韩国首席贸易特使计划美国6月22日至27日访问

Zentra Group plc：Churchgate土地销售

随着敌对行动的继续，特朗普从伊朗罢工退后

政府顾问说，印度的通货膨胀率有限。