作者:Supantha Mukherjee 和 Anna Tong
斯德哥尔摩/旧金山(路透社) – 早年,让 ChatGPT 或其竞争对手 Cohere 等人工智能模型能够给出类似人类的反应,需要大量低成本工作人员团队帮助模型区分基本事实,例如图像是否属于汽车或胡萝卜。
但在竞争激烈的舞台上,对人工智能模型进行更复杂的更新现在需要一个快速扩大的人类培训师网络,这些培训师拥有专业知识——从历史学家到科学家,其中一些人拥有博士学位。
“一年前,我们可以不用雇佣本科生,而是简单地教授人工智能如何改进,”Cohere 联合创始人 Ivan 张在谈到其内部人类培训师时说道。
“现在我们有执照医生、财务分析师或会计师来教授模型如何在医疗环境中表现。”
为了提供更多培训,Cohere(最近估值超过 50 亿美元)与一家名为 Invisible Tech 的初创公司合作。 Cohere 是 OpenAI 的主要竞争对手之一,专注于企业人工智能。
初创公司 Invisible Tech 雇佣了数千名远程工作的培训师,并已成为从 AI21 到微软(纳斯达克:)等人工智能公司的主要合作伙伴之一,训练他们的人工智能模型以减少错误,在人工智能世界中被称为幻觉。
Invisible 创始人 Francis Pedraza 表示:“我们在全球 100 多个国家拥有 5,000 名博士、硕士学位持有者和知识工作专家。”
Invisible 的薪酬高达每小时 40 美元,具体取决于工人的位置和工作的复杂程度。 Outlier 等一些公司每小时支付高达 50 美元,而另一家名为 Labelbox 的公司表示,对于量子物理等“高专业性”主题,其每小时支付高达 200 美元,但基本主题的起价为 15 美元。
Invisible 成立于 2015 年,是一家工作流程自动化公司,为食品配送公司 DoorDash(纳斯达克:)等公司提供服务,将其配送菜单数字化。但当一家相对不知名的研究公司 OpenAI 在 ChatGPT 公开发布之前与他们联系时,事情发生了变化。 2022 年春天。
“OpenAI 给我们带来了一个问题,那就是当你向 ChatGPT 的早期版本提出问题时,它会产生幻觉。你不能相信答案,”Pedraza 告诉路透社。
“他们需要一个先进的人工智能培训合作伙伴来提供带有人类反馈的强化学习。”
OpenAI 没有回应置评请求。
生成式人工智能根据过去用于训练的数据生成新内容。然而,有时它无法区分真假信息并生成称为幻觉的错误输出。一个著名的例子是,2023 年,谷歌(纳斯达克:)的一个聊天机器人在宣传视频中分享了关于哪颗卫星首先拍摄了地球太阳系外行星照片的不准确信息。
人工智能公司意识到幻觉可能会降低 GenAI 对企业的吸引力,并正在尝试各种方法来减少幻觉,包括使用人类培训师来教授事实和虚构的概念。
Invisible 表示,自加入 OpenAI 以来,它已成为大多数 GenAI 公司的人工智能培训合作伙伴,包括 Cohere、AI21 和微软。 Cohere 和 AI21 确认他们是客户。微软没有确认它是 Invisible 的客户。
“这些公司都面临着培训方面的挑战,他们的第一大成本是计算能力,第二大成本是高质量培训,”佩德拉萨说。
它是如何运作的?
OpenAI 掀起了 GenAI 的热潮,它拥有一个被恰当地命名为“人类数据团队”的研究人员团队,该团队与 AI 培训师合作,收集专门的数据来训练其模型,例如 ChatGPT。
一位熟悉该公司流程的消息人士称,OpenAI 研究人员提出了各种实验,例如减少幻觉或改善写作风格,并与 Invisible 和其他供应商的人工智能培训师合作。
该人士表示,无论何时,都有数十个实验正在进行,其中一些使用了 OpenAI 开发的工具,另一些则使用了供应商的工具。
根据人工智能公司的需求——从更好地了解瑞典历史或进行金融建模——Invisible 为这些项目雇佣具有相关学位的员工,减轻了人工智能公司管理数百名培训师的负担。
Pedraza 说:“OpenAI 拥有一些世界上最令人难以置信的计算机科学家,但他们不一定是瑞典历史、化学问题、生物学问题或任何你可以问的问题方面的专家。”他补充说,OpenAI 有超过 1,000 名合同工独自的。
Cohere 的张表示,他亲自使用 Invisible 的训练器找到了一种方法来教其 GenAI 模型从大数据集中查找相关信息。
竞赛
该领域的竞争对手之一是 Scale AI,这是一家私人初创公司,最新估值为 140 亿美元,为人工智能公司提供训练数据集。它还涉足提供人工智能培训师的领域,并将 OpenAI 视为客户。 Scale AI 没有回应本文的采访请求。
Invisible自2021年以来一直盈利,仅筹集了800万美元的主要资本,
“我们团队拥有 70% 的股份,投资者仅拥有 30% 的股份,”Pedraza 说。 “我们确实促进了第二轮融资,最近的交易价格估值为 5 亿美元。”路透社无法证实这一估值。
人类培训师首先通过数据标记工作进入人工智能培训领域,这些工作所需的资格较少,报酬也较低,有时低至 2 美元,主要由非洲和亚洲国家的人员完成。
随着人工智能公司推出更先进的模型,对专业培训师和数十种语言的需求不断增加,这就创造了一个高薪的利基市场,来自不同学科的工作人员甚至不需要知道如何编码就可以成为人工智能培训师。
人工智能公司的需求正在催生更多提供类似服务的公司。
“我的收件箱基本上被到处涌现的新公司淹没了。我确实认为这是一个新的空间,公司雇佣人类只是为了为像我们这样的人工智能实验室创建数据,”张说。
关键词: