现在的互联网有个死结:要么完全开放内容,任人宰割;要么藏在登录墙后面,失去大部分读者。现在AI来了,这一局面雪上加霜,在此之前笔者就刊载一篇文章来探讨这一问题。
Google AI搜索革命的代价:网站流量暴跌一半,内容创作者哭了
Penske Media(旗下有《滚石》和《好莱坞报道者》)9 月份直接起诉了 Google,声称联盟链接收入一年内下降超过三分之一。诉状里明确指出了这个逻辑陷阱:完全屏蔽 Google 等于商业自杀,但不屏蔽就得眼看着流量被吸走。
Cloudflare手持全网近 20% 的网站流量一直想打破这个局面。在此之前推出了抓取付费策略(爬网页要收费了!AI应用成本再度增高!Cloudflare宣布新实验),最近又推出了"内容信号政策",对于已经开启 Cloudflare 托管 robots.txt 功能的 380 万个域名自动添加了新规则,限制内容用途,对ai训练说No。
传统的 robots.txt 从 1994 年就存在了,开始就很简单:告诉爬虫哪里能爬,哪里不能爬。但它不能说明爬到的内容可以用来干什么。
Cloudflare 的内容信号政策直接升级了这套系统,加入了三个新的用途分类:
- search:建立搜索索引,提供搜索结果(不包括 AI 生成的摘要)
- ai-input:把内容输入到 AI 模型中(比如检索增强生成)
- ai-train:训练或微调 AI 模型
语法很直接:
Content-Signal: search=yes, ai-train=no
对于免费用户,如果没有现有的 robots.txt 文件,Cloudflare 会添加策略说明(作为注释),但不会添加实际的信号。用户需要自己选择是否开启生效。想要自定义的用户可以去 ContentSignals.org 生成配置。
可以说,这是一场迟早要发生的“革命”,Cloudflare 预计到 2029 年底,机器人流量将超过人类流量。新时代应该有新时代匹配的契约,就像AI 1.0自媒体时代一样,还想一直挣过去的钱,等来的只是会被趋势掀翻,顺应趋势才会带来新的繁荣。
不过,robots协议只是一个没有法律约束力的“君子协定”,Cloudflare 故意把这个做得像许可协议,就是要给爬取者制造法律风险。政策文本还专门引用了欧盟版权指令,明确这是权利保留声明。
Google、OpenAI们是主动遵守还教它遵守还需要时间…
关注公众号回复“进群”入群讨论。
