Anyscale 探索利用合成数据进行直接偏好优化

费利克斯·平克斯顿
2024 年 8 月 22 日 03:00

Anyscale 的最新博客文章深入探讨了使用合成数据的直接偏好优化 (DPO)，重点介绍了其在调整语言模型方面的方法和应用。

Anyscale 称，直接偏好优化 (DPO) 已成为一种重要的方法，可用于调整语言模型，使其输出与人类偏好保持一致。该公司的最新博客文章提供了有关使用合成数据应用 DPO 的深入案例研究，特别是在摘要任务中。

合成数据生成

合成数据生成已成为创建高质量数据集的强大技术。Anyscale 的方法利用 AI 模型作为数据增强器和判断器来改进后续模型。该博客概述了合成数据生成的详细流程，强调了 Ray Data 和 vLLM 在扩展和快速实验方面的实用性。

直接偏好优化 (DPO) 在复杂性和有效性之间实现了平衡，使其成为广泛采用的偏好调整算法。Anyscale 已将 DPO 集成到其 LLM 套件中，使用户能够通过直观的 API 构建偏好调整模型。该博客涵盖了建模见解和在 DPO 上进行的实验以供总结。

Anyscale 利用 Ray Data 和 vLLM 进行批量推理，以大规模评估生成的摘要。评估对于确定模型的质量至关重要，Anyscale 强调与训练目标相一致的特定任务评估的重要性。该博客提供了有关设置偏好函数以进行有效评估的关键细节。

该博客将 DPO 与传统的监督微调 (SFT) 进行了对比。虽然 SFT 依赖于高质量的数据收集和对所需行为的精确模仿，但偏好调整侧重于某种响应是否优于另一种响应。这种方法允许可扩展的数据生成和策略数据收集，直接解决特定于模型的问题。

案例研究将 DPO 应用于 Mistral-7B-instruct-v0.1 模型，用于总结 CNN 文章。Anyscale 设计了一个合成总结偏好数据集，使用合成判断器来降低成本并确保训练和评估之间的一致性。偏好函数结合字数最小化和问答准确性来评估总结。

Anyscale 使用 Mistral-7B-Instruct-v0.1 模型生成符合策略的数据进行摘要。该过程涉及为每篇文章生成多个摘要，并使用 Llama-3-70B-Instruct 模型创建和回答有关原文的多项选择题。这种方法确保了输出的多样性和准确的评估。

Anyscale 在其 LLM 后训练产品中实现了 DPO，允许用户配置超参数和计算资源以进行训练。该博客提供了 DPO 训练配置的详细示例，强调了 β 超参数和使用 Ray 进行高效训练的重要性。

评估包括计算每个模型的胜率，并将 DPO 训练的模型与原始模型和其他基线进行比较。结果证明了 DPO 在平衡准确度和压缩方面的优势，优于 SFT 和 GPT-4o 基线。

Anyscale 确定了 DPO 训练的关键见解，包括 β 和学习率超参数的关键作用。该博客还讨论了失败模式，例如长篇离题结尾和胡言乱语标记，强调了仔细调整和监控超参数的必要性。

该博客建议使用迭代式策略训练来提高 DPO 性能。通过使用微调模型重新生成训练数据并应用额外的 DPO 轮次，Anyscale 实现了显著的性能提升，使 DPO 能够与传统的 RLHF 方法相媲美。

有关完整详细的案例研究和方法，读者可以参考 Anyscale 上的原始帖子。

图片来源：Shutterstock

（标签翻译）人工智能（t）加密（t）区块链（t）新闻

关键词：AI,crypto,blockchain,news