The news is by your side.

DeepSwe:用开源钢筋学习彻底改变编码代理

8


路易莎·克劳福德(Luisa Crawford)
7月2日,2025年17:58

高级编码代理DeepSwe-Preview在开源AI中设置了新的基准测试标准,并在SWE-Bench验证的,使用加强学习的最先进的性能上取得了59%的成功率。




在AI驱动的软件开发方面的重大进步中,DeepSwe-Preiview已成为一种开创性的开源编码代理。根据AI的数据,该代理通过Agentica团队与AI共同开发,该代理利用强化学习(RL)在SWE-Bench验证的基准上实现了59%的通过率。

革命性的软件工程

DeepSwe-Preview建立在QWEN3-32B型号的基础上,仅利用RL来增强其功能。这种方法允许代理商胜过其他开放权重编码代理,达到16%的1张速度和16率的通过率为71.0%。该模型在六天内使用64 H100 GPU进行了培训,并处理了从R2E-GYM培训环境中采购的4,500个现实世界软件工程任务。

利用RLLM的力量

Agentica的框架为培训后语言代理人RLLM促进了DeepSwe-Preiview的培训。该框架允许对数据集,代码和培训日志进行开源,从而鼓励使用RL扩展和改善代理的协作努力。现在可以向公众提供将32B模型开发为智能编码代理的完整培训配方,从而促进透明度和创新。

新兴行为和表现

DeepSwe-Preview在训练过程中表现出了新兴行为,例如预期边缘病例和进行彻底的回归测试。这些功能对于处理复杂的软件工程任务至关重要,这需要导航广泛的代码库并确保与现有功能兼容。

测试时间扩展和进一步的发展

DeepSwe-Preiview采用测试时间缩放(TTS)来增强其性能,结合了基于执行和基于执行的验证方法。这种混合缩放策略大大提高了其通过@1性能,将其与其他模型区分开来。未来的研究旨在探索更大的模型并将功能扩展到包括网络代理在内的不同领域。

DeepSwe-Preiview是使AI开发民主化的关键步骤,展示了强化学习解决长期培训,在软件工程中的多步挑战的潜力。凭借其开源性质,它邀请全球研究界为成功做出贡献和建立。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词: