Cloudflare将默认阻止AI爬虫访问广告网站
Cloudflare周三宣布,从2026年9月15日起,其默认设置将阻止“混合用途”爬虫访问任何带广告的页面。混合用途爬虫指的是既用于搜索引擎、又用于AI训练或服务的爬虫。新规默认生效,适用于新客户、现有客户的新站点以及所有现有的免费客户。
Cloudflare解释说,大多数网站所有者希望自己的内容能被搜索和AI服务发现,但同时想保护知识产权不被免费拿走。新规则把选择权还给网站:如果网站有广告,默认拒绝混合用途爬虫;如果网站所有者愿意让AI免费抓取,可以主动开启。
Cloudflare特别指出了“世界最大搜索引擎”——明显指谷歌——比其他AI公司多访问约“2倍的信息”。原因是谷歌让网站难以在不被用于AI的情况下保持可发现性:旗舰爬虫Googlebot既爬取搜索,也爬取AI功能(如AI Overviews和AI Mode)。谷歌曾反驳,说它提供了Google Extended机器人,网站所有者可以单独选择退出AI用途,且不影响搜索收录。但现实是,网站若想同时出现在搜索和AI结果中,往往只能接受谷歌的一揽子访问。
谷歌可能比其他AI公司(如OpenAI)拥有更大的内容获取优势。而Cloudflare的新默认设置会迫使谷歌或网站所有者更明确地切割爬虫用途——但具体怎么做,目前还不清楚。
除了默认阻止,Cloudflare还建立了一套变现机制。近两年它推出了“按爬取付费”市场,现在演变为“按使用付费”:当AI公司使用的内容创造了价值(比如生成了答案),而不是仅仅被抓取时,出版商就能收费。Cloudflare的数据显示,超过50%的AI爬虫流量是在重复抓取未变化的页面,这套系统也能减少无效爬取。
首批合作伙伴是Ceramic.ai和You.com。当出版商选择加入,他们的内容出现在Ceramic的AI搜索结果中,或You.com访问其付费内容时,出版商获得报酬。Cloudflare表示其他AI公司也可以定制这套模型来适应自己的工作方式。
这一系列动作的背景是:互联网流量已不再是人类主导。Cloudflare CEO Matthew Prince说,机器人流量超过人类流量的里程碑比预期提前一年发生,“现在大多数互联网流量来自非人类,我们必须更快行动,建立可持续的生态系统”。
对普通用户来说,AI公司免费获取信息的空间会缩小。网站所有者将更容易控制内容使用权,默认阻止意味着除非主动开启,否则AI公司无法免费抓取带广告的网站。这会促使更多网站加入付费市场,接下来可能看到AI服务需要订阅才能访问某些信息,或者免费功能的质量下降。不是一刀切禁用。默认门槛提高——网站依然可以主动允许AI爬虫。
谷歌是否会调整爬虫策略来适应Cloudflare的新默认设置,其他AI公司(如OpenAI)是否也会与Cloudflare合作采用类似模式,目前都没有明确说法。网站所有者最终会普遍选择允许付费访问还是完全阻止,也在未知之中。Cloudflare的新规只给出了框架,真正的博弈才刚刚开始。