Cloudflare将默认阻止AI爬虫访问广告网站

📅 2026 年 7 月 2 日 📖 约 3 分钟 TechCrunch AI商业互联网

Cloudflare周三宣布，从2026年9月15日起，其默认设置将阻止“混合用途”爬虫访问任何带广告的页面。混合用途爬虫指的是既用于搜索引擎、又用于AI训练或服务的爬虫。新规默认生效，适用于新客户、现有客户的新站点以及所有现有的免费客户。

Cloudflare解释说，大多数网站所有者希望自己的内容能被搜索和AI服务发现，但同时想保护知识产权不被免费拿走。新规则把选择权还给网站：如果网站有广告，默认拒绝混合用途爬虫；如果网站所有者愿意让AI免费抓取，可以主动开启。

Cloudflare特别指出了“世界最大搜索引擎”——明显指谷歌——比其他AI公司多访问约“2倍的信息”。原因是谷歌让网站难以在不被用于AI的情况下保持可发现性：旗舰爬虫Googlebot既爬取搜索，也爬取AI功能（如AI Overviews和AI Mode）。谷歌曾反驳，说它提供了Google Extended机器人，网站所有者可以单独选择退出AI用途，且不影响搜索收录。但现实是，网站若想同时出现在搜索和AI结果中，往往只能接受谷歌的一揽子访问。

谷歌可能比其他AI公司（如OpenAI）拥有更大的内容获取优势。而Cloudflare的新默认设置会迫使谷歌或网站所有者更明确地切割爬虫用途——但具体怎么做，目前还不清楚。

除了默认阻止，Cloudflare还建立了一套变现机制。近两年它推出了“按爬取付费”市场，现在演变为“按使用付费”：当AI公司使用的内容创造了价值（比如生成了答案），而不是仅仅被抓取时，出版商就能收费。Cloudflare的数据显示，超过50%的AI爬虫流量是在重复抓取未变化的页面，这套系统也能减少无效爬取。

首批合作伙伴是Ceramic.ai和You.com。当出版商选择加入，他们的内容出现在Ceramic的AI搜索结果中，或You.com访问其付费内容时，出版商获得报酬。Cloudflare表示其他AI公司也可以定制这套模型来适应自己的工作方式。

这一系列动作的背景是：互联网流量已不再是人类主导。Cloudflare CEO Matthew Prince说，机器人流量超过人类流量的里程碑比预期提前一年发生，“现在大多数互联网流量来自非人类，我们必须更快行动，建立可持续的生态系统”。

对普通用户来说，AI公司免费获取信息的空间会缩小。网站所有者将更容易控制内容使用权，默认阻止意味着除非主动开启，否则AI公司无法免费抓取带广告的网站。这会促使更多网站加入付费市场，接下来可能看到AI服务需要订阅才能访问某些信息，或者免费功能的质量下降。不是一刀切禁用。默认门槛提高——网站依然可以主动允许AI爬虫。

谷歌是否会调整爬虫策略来适应Cloudflare的新默认设置，其他AI公司（如OpenAI）是否也会与Cloudflare合作采用类似模式，目前都没有明确说法。网站所有者最终会普遍选择允许付费访问还是完全阻止，也在未知之中。Cloudflare的新规只给出了框架，真正的博弈才刚刚开始。

阅读原文

📚 相关主题商业互联网

📬 订阅 AI Pulse