随着AI时代的到来,大模型备案早已是屡见不鲜的话题,我在网上也看到过很多友商的攻略文章,大多通篇都是备案意义、备案流程及法律法规等笼统描写,没有人具体罗列出做大模型备案具体需要符合什么“条件”?有些什么“注意事项”?
今天围绕网信办的备案要求,我们就来具体分析一下大模型备案实际情况究竟是怎么个事儿!
在申请大模型备案之前,我们首先要明确自己模型的一个基本情况,包括模型的主要功能、适用场合及服务范围等内容。
一般模型功能主要包含:
- 人机对话
- 文字生成
- 图片生成
- 声音合成
- 视频合成
- 代码生成或优化
我们在做大模型备案的时候,需要根据自己的实际情况申报,可单选也可多选主要功能。
适用人群及适用场合: 要具体说明,重点说明是否适用未成年人、学生等。适用场合包括:自动控制、医疗信息服务、心理咨询、关键信息基础设施和其他场合。
服务范围: 选择是未限定特定领域还是限定特定领域,具体说明限定的领域是哪方面。
模型备案情况:除自研模型外,调用第三方已备案模型为基座进行微调的模型,需要详细说明采用的模型情况及采用方式:商业合作还是开源免费模型。
训练算力资源:需说明训练服务器数量及GPU厂商,采用第三方云平台或服务器情况
训练语料和标注语料来源与规模:
- 需注明文本训练语料规模的存储数量及语料数量
- 各类型语料规模的的数量及来源
- 标注人员的数量、类型及标注人员的培训情况
- 标注内容准确性人工核验比例
推理算力资源: 说明推理服务器数量及GPU厂商
开发服务能力: 十万级、百万级、千万级还是其他
服务方式:APP、网页、API接口还是其他
需重点说明服务过程中的信息:
- 模型适用人群、场合、用途的方式;
- 提供服务过程中收集保存个人信息情况;
- 收集个人信息征得个人同意的方式;
- 受理处理使用者关于查阅、复制、更正、补充、删除个人信息请求的方式;
- 图片、视频的标识样式、位置、频度
- 接受公众或使用者投诉举报的途径、反馈方式
非法内容拦截措施: 预置关键词拦截一栏,提供拦截关键词列表。
根据TC260提到的标准,对模型的安全情况进行多方面评估,包括:
- 语料内容评估
- 生成内容评估
- 涉知识产权、商业秘密评估
- 涉民族、信仰、性别等评估
- 涉透明性、准确性、可靠性等评估
- 模型性能(拒答率)评估
其中“语料内容评估”和“生成内容评估”重点针对涉意识形态、国家主权、个人隐私、个人肖像权和名誉权等方面的评估。
“语料内容评估”须附关键词列表;“生成内容评估”须附测试题集。
- 生成式人工智能服务上线备案表
- 安全评估报告
- 模型服务协议
- 语料标注规则
- 拦截关键词列表
- 评估测试题集
不同地区的备案要求不同,例如北京地区会比其他地区多一个信息采集表,有的地区会要求增加未成年人保护条款、知识产权策略等材料。
大模型备案的整个周期长达5-8个月,北京地区甚至长达8-10个月左右,目前“清朗·整治AI技术滥用”专项行动正在严查未备案直接提供服务的企业与AI产品,符合备案条件的企业建议尽早筹备备案,以免耽误产品上架时间或被网信办约谈下架产品,得不偿失!
以上就是本篇文章的全部内容,有其他备案问题或经验,欢迎在评论区交流~