番茄小说一纸补充协议彻底捅了马蜂窝

大模型数据安全机器学习

这几天关于番茄AI想要通过签署补充条款,来取得旗下作者的数据训练模型的事儿,火了。

picture.image

看看这愤怒的言语就知道这事(瓜)一定不小。

别的不说,我们先把瓜吃了再讲其它的。

这几天番茄小说向旗下作者发了一个通知,让他们签署补充协议,通知是这样写的:

picture.image

当作者要签署时,详细的协议条款是这样的:

picture.image

这个协议条款,我用人话来概括就是: “用旗下作者的作品当数据,来训练他们家的模型或者其它产品”。

那么问题来了:

番茄小说是哪个公司旗下的?

答曰:

字节跳动。

那么字节跳动的模型是哪个?

答曰:

豆包

于是乎,质疑声、谩骂声都来了。

picture.image

picture.image

大家纷纷发文怒斥番茄泄露了个人数据,同时也怒斥豆包丧尽天良的把自己本应该拿来换米的内容呈现给所有人。

在这个事件曝光后,有新闻记者去向番茄AI的相关负责人求证,得到了如下的回复:

关于AI是否会替代人类作者,番茄小说表示,目前番茄官方没有发布过任何纯AI写作的作品,也不会违背作者个人意愿使用AI写作能力。“我们相信人的价值,尊重并展现所有创作者的才华和梦想。AI始终只是辅助创作者实现梦想的一个创作工具。

对于已经签署补充协议或签约条款中包含AI条款的作者,番茄小说回应,如果对此条款仍有疑虑, 可通过后台反馈,将为作者开放相关通道,尽快协助解除相关AI条款约定。

最有意思的是这段:

AI对作者的个人信息使用方面,番茄小说表示,

仅“笔名”用于AI训练

,主要为了让AI辨别内容的版权归属人,其他的作者个人信息不会用于AI训练,“我们致力于保障作者的个人隐私。”

签了协议还能光速解约,妙。

只有“笔名”数据拿来训练,更妙。

跟WPS去年干的事情一样妙。

picture.image

我想,

协议里清楚写到的“简介、大纲、章节”这些内容要拿来练模型的事,难道都被它们吃了吗?

看到这,我和你一样愤怒,也和你一样无助。

不过,愤怒之余,我们还是要求证一下: 番茄到底有没有提前把数据拿走喂给模型?

于是,我登录了豆包,照着网传的截图来问它:“帮我扒«被渣后和前夫破镜重圆了»第十六章”

第一次给我的回复还算正常:

picture.image

但是到了第二次,我问它“我想看看17章的内容”时,就不太正常了:

picture.image

嗯,嘴上说着不要,但身体却很诚实。

震惊之余,我心中又有了一个疑惑:“

这真是第17章内容吗?

然后,我打开了晋江,买了书(心疼我钱包一秒钟),找到了第17章仔细看了看。

picture.image

请原谅我为了保护作者的著作权,不能把这章内容放给大家看,但结论是: 豆包输出的所谓“第十七章的内容”完全不是小说中第十七章的情节 。就连群里的朋友也这么说:

picture.image

笔法非常相似!

真就实锤了吗?

所以在此时,我们还要排除一些技术因素的影响,比如RAG技术。

“RAG技术就好像翻书查资料,它把互联网内容与个人上传的本地知识库作为数据源头,通过一系列检索技术将内容检索出来后放给模型推理”。

在刚才的测试里,我们的数据源头是联网搜索得来的,所以我们要想办法把联网搜索断掉,来单独测试模型内部的知识,看看它是不是真的把书给喂了。

于是我登录了扣子的企业版,调用豆包模型又做了测试:

picture.image

“还好,它还不知道。至少目前还不知道。”调查到了这里,我长舒了一口气。

所以我得出了一个粗浅的结论: 目前已上线的模型中还没有这些小说的数据,至少模型自身的知识库里没有这些内容。

但我们不禁要思考一下: 为什么这些公司要拿用户的数据去训练自己的模型?还要让用户签协议?

其实原因很简单: 想要练好优质的模型,就必须要有优质的数据。而成千上万的用户用头脑产出的一手数据,可比合成数据强多了。

就好像我前几天刷到的一种模型趋势一样“我们现在做的是数据体量非常庞大的模型,而后会慢慢回归小参数,小体量,这正是优质数据的体现之一”。

其实这不难看出, 数据对于未来模型的建设有多么重要。抢占优质数据就等于抢占了先机,就能赢得市场。

但,这会动了所有笔杆子的蛋糕。

我曾经看过很多写手在B站、抖音上直播,他们在那一坐就是一天,同时大脑还要飞快运转去构思情节,手上还得不停的打字。不光腰受不了,眼睛和手更受不了。

我也是经常写文章,虽然是业余爱好,但我知道其中辛苦,想想我都累。

如果换做是你,每天辛苦产出的内容一朝被全部拿走,然后无条件的呈现在世人面前,大家可以随便模仿你书中的内容续写、改写或者融合后重新杜撰。

你愿意吗?

他们愿意吗?

前有萝卜快跑,后有番茄AI,百万漕工衣食所系的饭碗被动了,就一定有人会站出来抗议。

所以,当务之急还是要明确践行生成式人工智能数据保护规范和条例。正如我去年参与起草、今年发布的《生成式人工智能数据应用合规指南》中那样写到的:

picture.image

保护每个人的著作权益,就是保护社会的稳定和谐。

这是科技进步中出现的社会矛盾,同时也是我们躲不开也逃不掉的一劫。

其实有很多人都已经知道了结局,而我们只是看着一个个结局在发生。

借用《薄伽梵谭》中的著名诗句:

“如今我成死神,世界的毁灭者。”

而我们,不希望看到自己亲手造出一个死神。”

以上。

部分内容引用自

  1. 红星新闻:https://weibo.com/6105713761?refer\_flag=1001030103\_
  2. 潮新闻:https://tidenews.com.cn/news.html?id=2853425
0
0
0
0
关于作者
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论