Cloudflare 增强robots协议:对“AI白嫖”说不

域名与网站内容安全与风控云安全

现在的互联网有个死结:要么完全开放内容,任人宰割;要么藏在登录墙后面,失去大部分读者。现在AI来了,这一局面雪上加霜,在此之前笔者就刊载一篇文章来探讨这一问题。

Google AI搜索革命的代价:网站流量暴跌一半,内容创作者哭了

Penske Media(旗下有《滚石》和《好莱坞报道者》)9 月份直接起诉了 Google,声称联盟链接收入一年内下降超过三分之一。诉状里明确指出了这个逻辑陷阱:完全屏蔽 Google 等于商业自杀,但不屏蔽就得眼看着流量被吸走。

picture.image

Cloudflare手持全网近 20% 的网站流量一直想打破这个局面。在此之前推出了抓取付费策略(爬网页要收费了!AI应用成本再度增高!Cloudflare宣布新实验),最近又推出了"内容信号政策",对于已经开启 Cloudflare 托管 robots.txt 功能的 380 万个域名自动添加了新规则,限制内容用途,对ai训练说No。

传统的 robots.txt 从 1994 年就存在了,开始就很简单:告诉爬虫哪里能爬,哪里不能爬。但它不能说明爬到的内容可以用来干什么。

Cloudflare 的内容信号政策直接升级了这套系统,加入了三个新的用途分类:

  • search:建立搜索索引,提供搜索结果(不包括 AI 生成的摘要)
  • ai-input:把内容输入到 AI 模型中(比如检索增强生成)
  • ai-train:训练或微调 AI 模型

语法很直接:

Content-Signal: search=yes, ai-train=no

对于免费用户,如果没有现有的 robots.txt 文件,Cloudflare 会添加策略说明(作为注释),但不会添加实际的信号。用户需要自己选择是否开启生效。想要自定义的用户可以去 ContentSignals.org 生成配置。

picture.image

可以说,这是一场迟早要发生的“革命”,Cloudflare 预计到 2029 年底,机器人流量将超过人类流量。新时代应该有新时代匹配的契约,就像AI 1.0自媒体时代一样,还想一直挣过去的钱,等来的只是会被趋势掀翻,顺应趋势才会带来新的繁荣。

picture.image

不过,robots协议只是一个没有法律约束力的“君子协定”,Cloudflare 故意把这个做得像许可协议,就是要给爬取者制造法律风险。政策文本还专门引用了欧盟版权指令,明确这是权利保留声明。

Google、OpenAI们是主动遵守还教它遵守还需要时间…

关注公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论