我们距离真正的开源人工智能还有很长的路要走

By Prof.Brand On 8 月 23, 2024

免费解锁编辑文摘

开源人工智能是过去一年最令人吃惊的科技新闻之一。随着 OpenAI 和谷歌等公司投入数十亿美元打造更强大的人工智能，可供开发人员免费使用和调整的“开放”模型缩小了性能差距。

唯一的缺点是，这些开源系统大多不够开放。批评者指责其支持者“洗白开放”——他们试图利用开源的光环效应，摆脱普通商业软件产品的束缚，但却名不副实。

打造真正开源版人工智能的努力终于有了起色。但没有人能保证其进展能赶上开源软件，而开源软件在过去 20 年中已成为科技界的关键角色。传统开源软件（如 Linux 操作系统）的代码可供开发人员免费查看、使用和调整。而所谓的开源人工智能则截然不同，尤其是因为大多数现代人工智能系统都是从数据中学习，而不是将其逻辑编程为代码。

以 Meta 的 Llama 为例。只有决定模型如何响应查询的“权重”才会被公开。用户可以采用和调整它，但他们看不到训练模型的底层数据，也没有足够的信息从头开始重现模型。

对于许多开发者来说，这仍然有一些明显的好处。他们可以根据自己的信息调整和训练准开放模型，而无需将敏感的内部数据交给其他公司。

但不完全开放也有其代价。Mozilla 基金会高级顾问 Ayah Bdeir 表示，只有真正的开源技术才能让人们充分了解开始影响我们生活各个方面的系统，同时也能保证创新和竞争不会被少数占主导地位的 AI 公司所压制。

对此，开放源代码促进会做出了回应。20 多年前，该组织就提出了开源软件的定义。本周，该组织给出了接近最终版的定义，这可能有助于塑造该领域的发展方向。

这不仅需要模型的权重才能发布，还需要足够的数据信息，以便其他人可以重现它，以及系统背后的所有代码。其他组织，如 Mozilla 和 Linux 基金会，也在推动类似的举措。

此类举措已导致人工智能领域进一步分化。许多公司在术语使用上更加谨慎——或许是因为他们意识到 OSI 拥有“开源”一词的商标，并可以提起诉讼，以防止该术语被用于超出其定义的人工智能模型。例如，Mistral 称其 Nemo 为“开放权重”模型。

除了部分开放的系统外，完全开源的模型也开始出现，比如艾伦人工智能研究所开发的 Olmo 大型语言模型。然而，目前还不清楚这个版本是否会对人工智能世界产生与传统软件一样大的影响。要做到这一点，需要满足两个条件。

一是该技术需要满足足够大的需求，以吸引大量用户和开发者。在传统软件方面，Linux 服务器操作系统是微软 Windows 的明显替代品，赢得了大量用户，并获得了包括 IBM 和 Oracle 在内的微软竞争对手的大力支持。在人工智能领域，Linux 尚无同类产品。市场已经更加分散，许多用户会发现 Llama 等准开放式 LLM 已经足够。

开源人工智能的支持者也需要更好地论证其安全性。如此强大的通用技术被发布给任何人正确使用，这一前景引起了广泛的担忧。

艾伦研究所前负责人奥伦·埃齐奥尼 (Oren Etzioni) 表示，许多担忧都被夸大了。谈到上网研究如何制造炸弹或生物武器时，他说：“你从这些 (AI 模型) 中得到的收获并不比从谷歌中得到的多。网上有很多这样的模型，只是包装方式不同。”他承认，在某些领域，让 AI 更加自由地使用可能会造成危害，比如自动创建更多的在线虚假信息。

“封闭式”人工智能也存在风险。但除非对开源技术的额外边际风险以及潜在利益进行更彻底的研究，否则担忧仍将存在。

[email protected]

关键词：

我们距离真正的开源人工智能还有很长的路要走