Cloudflare 增强robots协议：对“AI白嫖”说不 - 文章 - 开发者社区

现在的互联网有个死结：要么完全开放内容，任人宰割；要么藏在登录墙后面，失去大部分读者。现在AI来了，这一局面雪上加霜，在此之前笔者就刊载一篇文章来探讨这一问题。

Penske Media（旗下有《滚石》和《好莱坞报道者》）9 月份直接起诉了 Google，声称联盟链接收入一年内下降超过三分之一。诉状里明确指出了这个逻辑陷阱：完全屏蔽 Google 等于商业自杀，但不屏蔽就得眼看着流量被吸走。

picture.image

Cloudflare手持全网近 20% 的网站流量一直想打破这个局面。在此之前推出了抓取付费策略（爬网页要收费了！AI应用成本再度增高！Cloudflare宣布新实验），最近又推出了"内容信号政策"，对于已经开启 Cloudflare 托管 robots.txt 功能的 380 万个域名自动添加了新规则，限制内容用途，对ai训练说No。

传统的 robots.txt 从 1994 年就存在了，开始就很简单：告诉爬虫哪里能爬，哪里不能爬。但它不能说明爬到的内容可以用来干什么。

Cloudflare 的内容信号政策直接升级了这套系统，加入了三个新的用途分类：

search：建立搜索索引，提供搜索结果（不包括 AI 生成的摘要）
ai-input：把内容输入到 AI 模型中（比如检索增强生成）
ai-train：训练或微调 AI 模型

语法很直接：

Content-Signal: search=yes, ai-train=no

对于免费用户，如果没有现有的 robots.txt 文件，Cloudflare 会添加策略说明（作为注释），但不会添加实际的信号。用户需要自己选择是否开启生效。想要自定义的用户可以去 ContentSignals.org 生成配置。

picture.image

可以说，这是一场迟早要发生的“革命”，Cloudflare 预计到 2029 年底，机器人流量将超过人类流量。新时代应该有新时代匹配的契约，就像AI 1.0自媒体时代一样，还想一直挣过去的钱，等来的只是会被趋势掀翻，顺应趋势才会带来新的繁荣。

picture.image

不过,robots协议只是一个没有法律约束力的“君子协定”，Cloudflare 故意把这个做得像许可协议，就是要给爬取者制造法律风险。政策文本还专门引用了欧盟版权指令，明确这是权利保留声明。

Google、OpenAI们是主动遵守还教它遵守还需要时间…

关注公众号回复“进群”入群讨论。