CloudFlare以不同意而阻止AI公司刮擦内容

By Mann On 7 月 1, 2025

Jaque Silva |养育|盖蒂图像

互联网公司 Cloudflare 默认情况下，将开始阻止人工智能爬网访问内容，而无需网站所有者的许可或薪酬，这可能会大大影响AI开发人员培训其模型的能力。

从星期二开始，将询问每个新的Web域，询问他们是否要允许AI爬网，有效地使他们能够防止机器人从其网站上刮擦数据。

CloudFlare就是所谓的内容输送网络或CDN。它通过将数据更接近最终用户来帮助企业更快地传递在线内容和应用程序。他们在确保人们每天都能无缝访问Web内容方面发挥了重要作用。

该公司在2023年的一份报告中估计，全球互联网流量的大约16％直接通过Cloudflare的CDN进行。

Cloudflare的联合创始人兼首席执行官Matthew Prince在周二的一份声明中说：“ AI爬行者一直在不限制的情况下刮擦内容。我们的目标是将权力放回创作者的手中，同时仍在帮助AI公司创新。”

他补充说：“这是关于通过适用于每个人的新模型来保护免费且充满活力的互联网的未来。”

什么是AI爬行者？

AI爬网是自动机器人，旨在从网站，数据库和其他信息来源中提取大量数据，以培训OpenAI和谷歌。

根据Cloudflare的说法，尽管Internet先前通过将用户引导到原始网站来奖励了创建者，但如今，AI爬网者通过收集文本，文章和图像来打破该模型，以以用户不需要访问原始源的方式生成对查询的响应。

该公司补充说，这正在剥夺出版商的重要流量，进而拒绝在线广告中的收入。

周二的举动是建立在去年9月推出的工具Cloudflare上的，该工具使出版商能够单击一次AI爬网。现在，通过使其提供服务的所有网站的默认值，该公司将迈出一步。

Openai表示，当CloudFlare预览其计划以默认情况下阻止AI爬行者的计划时，它拒绝参加，因为内容交付网络正在为系统添加中间人。

Microsoft Backed AI实验室强调了其作为使用Robots.txt的先驱的作用，该代码是一组防止自动刮擦Web数据的代码，并表示其爬网尊敬的出版商偏好。

英国律师事务所Cripps的合伙人马修·霍尔曼（Matthew Holman）告诉CNBC：“在消费者的数据方面，通常认为AI爬行者更具侵入性和有选择性。他们被指控压倒性网站并显着影响用户体验。”

他补充说：“如果有效，该发展将阻碍AI聊天机器人收集数据以进行培训和搜索目的的能力。” “这可能会导致对AI模型培训的短期影响，从长远来看，可能会影响模型的可行性。”

观看：AI工程师需求量很高 – 但是工作到底是什么样的？

（tagstotranslate）Cloudflare Inc（T）字母inc（T）突发新闻：技术（T）技术（T）Internet（T）人工智能（T）生成AI（T）商业新闻

关键词：