The news is by your side.

AI一起引入了llms的灵活基准测试

7


王王
7月29日,2025年01:59

AI共同介绍了评估,这是使用开源模型作为法官进行大型语言模型进行基准测试的框架,从而为模型性能提供了可自定义的见解。




AI共同宣布启动评估,这是一个新的框架,旨在使用开源模型作为法官来对大型语言模型(LLM)的性能进行基准测试。根据ai的说法,这种创新的方法旨在为模型质量提供快速,可定制的见解,从而消除了对手动标记和刚性指标的需求。

革命性的模型评估

共同评估的引入解决了开发商在与LLM迅速发展方面所面临的挑战。通过利用特定于任务的基准和强大的AI模型作为法官,开发人员可以快速比较模型响应并评估性能,而无需开销。

该框架允许用户定义根据其特定需求量身定制的基准,从而提供灵活性和对评估过程的控制。与传统方法相比,LLM的使用加速了评估过程,并提供了更适合适应性的度量系统。

评估模式和用例

评估共同提供了三种不同的模式:分类,得分和比较。每种模式都由LLM驱动,用户可以通过迅速模板完全控制:

  • 分类: 将样本分配给选定的标签,有助于识别违反政策的任务。
  • 分数: 生成数字评分,可用于在定义的量表上测量相关性或质量。
  • 比较: 允许用户在两个模型响应之间进行判断,从而促进选择更简洁或相关的输出。

这些评估模式提供了总指标,例如准确性和平均得分,以及法官的详细反馈,使开发人员能够有效地调整其模型。

实际实施

AI共同提供了将评估整合到现有工作流程中的全面支持。开发人员可以以JSONL或CSV格式上传数据,并选择适当的评估类型。该框架支持广泛的模型,从而可以进行广泛的测试和LLM输出的验证。

对于那些有兴趣探索评估功能的人,该平台提供了实用的演示和jupyter笔记本,展示了LLM-AS-AS-A-A-Judge Workflows现实应用程序。这些资源旨在帮助开发人员有效理解和实施该框架。

结论

随着LLM驱动的应用程序的领域继续成熟,AI共同介绍了共同的评估,这代表了使开发人员有效地基准和完善其模型的重要一步。该框架不仅简化了评估过程,而且还增强了根据特定任务要求选择和优化模型的能力。

开发人员和人工智能爱好者被邀请参加7月31日的实践演练,在那里AI将演示如何利用各种用例的评估共同评估,进一步巩固其对支持AI社区的承诺。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词: