The news is by your side.

开源AI:代理对齐的混合物彻底改变了LLMS的培训后培训

6


Felix Pinkston
5月29日,2025年09:46

代理对齐(MOAA)是一种开创性的训练后方法,可以通过利用开源集体智能来增强大型语言模型,如新的ICML 2025论文中所述。




正如最近的ICML 2025论文所述,代理对齐(MOAA)代表了人工智能领域的重大进步,尤其是在优化大语言模型(LLM)的性能(LLM)方面。据geter.ai称,MOAA是一种创新的培训后方法,它利用开源LLM的集体智能来实现有效的模型性能。

MOAA简介

MOAA以前在聊天任务中表现优于GPT-4O的基础(MOA)方法奠定了基础,MOAA将这种集合优势巩固为单个模型。该方法通过将多个模型的集体智能提炼成更紧凑,更有效的形式,以解决与MOA相关的高计算成本和架构复杂性。

性能增强

MOAA证明了其能够增强较小模型的能力,以实现以前保留的绩效水平,以预留其尺寸的十倍。这是在保持较小模型的成本效益和效率优势的同时实现的。实际上,MOAA开发的模型对更大的模型显示了竞争性能,这突显了AI中开源开发的潜力。

实验验证

在实验设置中,MOAA在包括Alpacaeval 2,Arena-Hard和MT Bench在内的几个比对基准上进行了测试。这些基准涉及与GPT-4的直接响应比较,以确保一致和高质量的评估。结果表明,使用MOAA方法微调的模型表现出显着的性能改进,即使表现优于使用GPT-4O等更强数据集训练的模型。

成本效益

在成本方面,MOAA提供了使用封闭式模型的更经济替代方案。例如,使用MOAA生成超退步子集需要366美元,而GPT-4O则为429美元,在实现卓越性能的同时,成本降低了15%。

直接优先优化

MOAA通过直接偏好优化(DPO)进一步增强了模型性能,该功能通过使用奖励模型对齐偏好来完善模型。这种方法可以显着改善接受监督微调(SFT)训练的模型的性能,这证明了MOAA在偏好比对方面的功效。

自我改善管道

MOAA的引入为自我改善的AI开发管道铺平了道路。通过整合MOAA生成的数据,即使是MOA混合物中最强的模型也可以实现大量的性能提升,这表明在不依赖更强大的LLM的情况下,可以进行持续改进。

随着AI社区继续探索开源模型的潜力,MOAA脱颖而出,是推进LLMS能力的有前途的方法,为未来的AI开发提供了可扩展有效的途径。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词: