开源AI：代理对齐的混合物彻底改变了LLMS的培训后培训

By Amelia On 5 月 29, 2025

Felix Pinkston
5月29日，2025年09:46

代理对齐（MOAA）是一种开创性的训练后方法，可以通过利用开源集体智能来增强大型语言模型，如新的ICML 2025论文中所述。

正如最近的ICML 2025论文所述，代理对齐（MOAA）代表了人工智能领域的重大进步，尤其是在优化大语言模型（LLM）的性能（LLM）方面。据geter.ai称，MOAA是一种创新的培训后方法，它利用开源LLM的集体智能来实现有效的模型性能。

MOAA简介

MOAA以前在聊天任务中表现优于GPT-4O的基础（MOA）方法奠定了基础，MOAA将这种集合优势巩固为单个模型。该方法通过将多个模型的集体智能提炼成更紧凑，更有效的形式，以解决与MOA相关的高计算成本和架构复杂性。

性能增强

MOAA证明了其能够增强较小模型的能力，以实现以前保留的绩效水平，以预留其尺寸的十倍。这是在保持较小模型的成本效益和效率优势的同时实现的。实际上，MOAA开发的模型对更大的模型显示了竞争性能，这突显了AI中开源开发的潜力。

实验验证

在实验设置中，MOAA在包括Alpacaeval 2，Arena-Hard和MT Bench在内的几个比对基准上进行了测试。这些基准涉及与GPT-4的直接响应比较，以确保一致和高质量的评估。结果表明，使用MOAA方法微调的模型表现出显着的性能改进，即使表现优于使用GPT-4O等更强数据集训练的模型。

成本效益

在成本方面，MOAA提供了使用封闭式模型的更经济替代方案。例如，使用MOAA生成超退步子集需要366美元，而GPT-4O则为429美元，在实现卓越性能的同时，成本降低了15％。

直接优先优化

MOAA通过直接偏好优化（DPO）进一步增强了模型性能，该功能通过使用奖励模型对齐偏好来完善模型。这种方法可以显着改善接受监督微调（SFT）训练的模型的性能，这证明了MOAA在偏好比对方面的功效。

自我改善管道

MOAA的引入为自我改善的AI开发管道铺平了道路。通过整合MOAA生成的数据，即使是MOA混合物中最强的模型也可以实现大量的性能提升，这表明在不依赖更强大的LLM的情况下，可以进行持续改进。

随着AI社区继续探索开源模型的潜力，MOAA脱颖而出，是推进LLMS能力的有前途的方法，为未来的AI开发提供了可扩展有效的途径。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：

开源AI代理对齐的混合物彻底改变了LLMS的培训后培训