扎克·安德森
2024 年 11 月 11 日 18:08
Composio 的 SWE 代理利用 LangGraph 和 LangSmith 在 SweBench 上取得了 48.6% 的分数,展示了开源 AI 驱动的软件工程的进步。
Composio 的 SWE 代理在 SweBench 基准测试中取得了 48.6% 的分数,在开源软件工程领域取得了重大进展。 LangChainAI 表示,这一成就凸显了该代理利用 LangGraph 和 LangSmith 有效应对现实世界软件工程挑战的能力。
SweBench 上的性能
SweBench 是一个严格的基准测试,旨在评估编码代理在实际任务中的有效性。它包括来自 Django、SymPy、Flask 和 Scikit-learn 等知名 Python 库的 2,294 个 GitHub 问题。在 500 个人工验证问题的子集中,SWE 代理成功解决了 243 个问题,总体排名第四,在开源贡献中排名第二。
创新的代理架构
SWE 代理的架构基于 LangGraph 构建,它将代理建模为状态机以实现高效的状态管理。这种方法超越了传统的代理通信方法,通过使用状态图来有效地管理代理交互和隐藏状态。每个代理都充当状态机,确保可靠且透明的工作流程。
使用 LangSmith 进行监控
LangSmith 在监控代理操作的不确定性、提供全面的日志记录和代理操作的整体视图方面发挥着关键作用。与 LangGraph 的集成通过提供问题解决过程每个步骤的精细可见性,增强了系统改进工具的能力。
提高性能的专业代理
SWE 代理采用专门的代理,每个代理都配备了用于特定任务的不同工具集。这包括用于任务委派的软件工程代理、用于代码库分析的 CodeAnalyzer 代理以及用于代码导航和修改的编辑器代理。这种专业化确保每个代理专注于明确定义的任务,从而提高整体绩效。
状态管理和工作流程
LangGraph 的架构有助于多代理系统中的有效状态管理。它实现了复杂的状态管理系统,以避免隐藏的状态陷阱,同时保持清晰的边界和转换。代理由路由器功能引导,该功能使用消息标记来控制状态转换,确保它们只参与相关任务。
LangGraph工作流程由三个代理节点和工具节点组成,每个节点都有预定义的任务和工具。这种结构化方法确保了明确的任务委派和模块化,防止重叠和意外的副作用。
为开发者赋能
SWE-Kit 平台提供模块化设计,使开发人员能够创建适合其特定工作流程的自定义代理。这种灵活性超越了软件工程,延伸到了 CRM、HRM 和管理任务中的应用程序。 Composio 旨在帮助开发人员构建能够改变各个行业工作流程的智能代理。
图片来源:Shutterstock
关键词:人工智能,加密,区块链,新闻