詹姆斯·丁
2024 年 10 月 31 日 18:09
Claude 3.5 Sonnet 在 SWE-bench Verified 上的表现优于之前的模型,得分为 49%。了解实现这一进步的增强功能和代理框架。
根据 anthropic.com 的数据,最近升级的 Claude 3.5 Sonnet 模型在软件工程评估方面树立了新的基准,在 SWE-bench Verified 上取得了 49% 的分数。这一性能超过了之前最先进模型的 45%。 Claude 3.5 Sonnet 旨在通过提供增强的推理和编码功能来提高开发人员的效率。
了解 SWE-bench 已验证
SWE-bench 是著名的人工智能评估基准,它根据模型处理现实世界软件工程任务的能力来评估模型。它专注于解决流行开源 Python 存储库中的 GitHub 问题。基准测试涉及设置 Python 环境并在问题解决之前检查存储库的本地工作副本。然后,人工智能模型必须理解、修改和测试代码以提出解决方案。每个解决方案都会根据解决问题的拉取请求中的原始单元测试进行评估,确保人工智能模型实现与人类开发人员相同的功能。
创新的代理框架
Claude 3.5 Sonnet 的成功可以归功于优化模型性能的创新代理框架。该框架包括一个最小的脚手架系统,允许语言模型进行重要的控制,从而增强其决策能力。该框架包括一个提示符、一个用于执行命令的 Bash 工具和一个用于文件管理的编辑工具。这种设置使模型能够灵活地执行任务,利用其判断而不是遵循严格的工作流程。
SWE-bench 评估不仅单独评估人工智能模型,还评估整个“代理”系统,包括模型及其软件支架。这种方法之所以受到欢迎,是因为它使用真实的工程任务而不是假设的场景,并且测量整个代理的性能而不仅仅是模型。
挑战与未来展望
尽管取得了成功,但使用 SWE-bench Verified 仍面临一些挑战。其中包括运行评估的持续时间和高令牌成本、分级复杂性以及模型无法查看保存到文件系统的文件,这使调试变得复杂。此外,某些任务需要 GitHub 问题之外的其他上下文才能解决,突出显示未来需要增强的领域。
总体而言,Claude 3.5 Sonnet 模型展示了卓越的推理、编码和数学能力,以及改进的代理能力。这些进步得到了旨在最大限度地发挥其潜力的工具和脚手架的支持。随着开发人员继续在此框架的基础上进行构建,预计 SWE 基准分数将进一步提高,为更高效的人工智能驱动的软件工程解决方案铺平道路。
图片来源:Shutterstock
关键词:人工智能,加密,区块链,新闻