凯蒂·保罗
纽约 – Facebook(纳斯达克股票代码:)所有者 Meta 周五表示,该公司正在其研究部门发布一批新的人工智能模型,其中包括一个“自学评估器”,该模型可能会提供一条减少人类参与人工智能开发过程的途径。
在此发布之前,Meta 在 8 月份的一篇论文中介绍了该工具,该论文详细介绍了它如何依赖 OpenAI 最近发布的 o1 模型所使用的相同“思想链”技术来对其模型的响应做出可靠的判断。
该技术涉及将复杂的问题分解为更小的逻辑步骤,并且似乎可以提高对科学、编码和数学等学科中具有挑战性的问题的响应准确性。
Meta 的研究人员完全使用人工智能生成的数据来训练评估器模型,从而消除了该阶段的人工输入。
该项目背后的两位 Meta 研究人员告诉路透社,使用人工智能可靠地评估人工智能的能力为构建能够从自己的错误中学习的自主人工智能代理提供了可能的途径。
人工智能领域的许多人设想数字助理等代理足够智能,无需人工干预即可执行大量任务。
自我改进的模型可以消除目前使用的一种通常昂贵且低效的过程,称为“人类反馈强化学习”,该过程需要人类注释者的输入,这些注释者必须具备专业知识来准确地标记数据并验证复杂数学和编写查询的答案是正确的。
研究人员之一贾森·韦斯顿 (Jason Weston) 表示:“我们希望,随着人工智能变得越来越超人类,它在检查工作方面会越来越好,这样它实际上会比普通人类更好。”
他说:“自学和自我评估的想法对于达到这种超人类水平的人工智能至关重要。”
包括谷歌(纳斯达克:)和 Anthropic 在内的其他公司也发表了有关 RLAIF(即 AI 反馈强化学习)概念的研究。然而,与 Meta 不同的是,这些公司往往不会发布其模型供公众使用。
Meta 周五发布的其他人工智能工具包括该公司图像识别 Segment Anything 模型的更新,该工具可以加快 LLM 响应生成时间和可用于帮助发现新无机材料的数据集。
关键词: