上一篇,我们看到了,AI 模型厂商与安全厂商合作情况。本期,我们将关注 AI 模型厂商安全能力自建方向,包括 Open AI 、Apple、Google。以及国内云厂商的安全能力自建情况
这是从设计+研发视角盘点的一次国内外AI安全实践整理,尤其希望对从事AI模型开发、平台安全建设的朋友有参考价值~
Part1:AI 模型厂商安全能力自建
1️⃣ Open AI
Open AI模型自身安全训练三大方向:教导AI、测试AI、反馈 Open AI应用上,基于 SafeBase 信任中心平台,进行安全门户的搭建,可进行产品安全、访问控制、网络安全、基础设施等内容的管理和保护
方向1:Open AI模型安全能力
教导 AI :教育AI明辨是非、过滤有害信息
- 模型训练:在模型训练的每个阶段,我们都采用方法来灌输模型规范和我们的安全政策分类法中所建议的原则、政策和人文价值观,最大限度地减少模型的有害或有偏见的输出。
- 系统级防护:除了教导我们的Al模型如何保证安全之外,我们还构建了额外的备份保护措施,用于检查人们输入的内容和我们的为AI输出的内容。这些保护措施有助于通过分层安全堆栈提高整个系统的稳健性。
- 长期安全:我们投入大量资金研究开发值得信赖的人工智能系统的方法,即使模型变得更强大并且任务变得更具代理性和复杂性,该系统仍能始终遵循我们的政策和人类意图。
测试 AI :通过内部评估&专家测试,来增强保障措施
- 安全评估:我们进行人工和自动评估,以确保模型符合我们的安全政策。
- 红队:我们与外部专家、值得信赖的合作伙伴和研究人员合作,对我们的模型进行压力测试并收集反馈,帮助我们识别风险并建立护栏,以更好地减轻危害并抵御越狱或对抗性攻击。在此处了解有关红队网络的更多信息。
- 准备框架:在发布我们的AI之前,我们会测试和评估四个灾难性风险领域:网络安全、CBRN(化学、生物、放射、核)、说服力利模型自主性。如果任何领域被评为高风险,该模型将返回进行进一步训练。在此处了解有关准备框架的更多信息。
反馈:利用反馈来帮助 AI 变得更安全和更有意义
- 安全不能凭空而来。我们非常认真地对待与公众分享我们的人工智能的决定,并在受控条件下逐步发布,以最大限度地降低风险。
- Alpha和Beta版本:从小群用户开始,让我们学习和改进,然后再扩展到更多人。持续监控和更新:我们使用多种人工智能工具并派遣人员监控我们的人工智能是否被滥用或违反我们的使用政策,并进行相应更新。
- 安全委员会审查:对于我们最新的Al模型,我们确保安全咨咨询小组、微软的部署安全委员会(DSB)以及安全与安保委员会批准该模型在发布之前足够安全。
方向2:Open AI 自身应用安全
以“产品安全”为例
用量情况的监控:API 密钥默认启用跟踪,为每个功能、团队、产品或项目设置单独的 API ,可以轻松查看每个功能、团队、产品或项目级别的使用情况
同时,也提供基于角色的访问控制、多重身份的验证、sso登录等
以“基础设施”为例
OpenAI 基础设施由 Azure 在美国多个地区托管。有关 Azure 基础设施安全性的更多信息
以“网络安全”为例
2️⃣ Apple
Apple intelligence的核心防护:通过端到端加密的云服务来进行数据隐私的防护;其口号是苹果自己也无法访问你的数据
方向1:私有云 计算:云端 AI 隐私的新前沿(Private Cloud Compute = PCC ) 链接
Private Cloud Compute 是一种专为私有 AI 处理而设计的突破性云智能系统。私有云计算首次将 Apple 设备业界领先的安全性和隐私性扩展到云端,确保发送到 PCC 的个人用户数据不会被用户以外的任何人访问,甚至 Apple 也无法访问。PCC 采用定制的 Apple 芯片和专为隐私设计的强化操作系统构建,我们相信它是有史以来为大规模云 AI 计算部署的最先进的安全架构。
方向2:Apple 平台安全 链接
硬件安全
安全软件需要以硬件内建的安全性为基础。因此,运行 iOS、iPadOS、macOS、Apple tvOS 或 watchOS 的 Apple 设备均具备设有安全性功能的芯片。
系统安全
在 Apple 硬件独特功能的基础上,系统安全性可以最大程度地提高 Apple 设备上操作系统的安全性,而不影响其可用性。系统安全性覆盖了启动过程、软件更新以及操作系统中正在进行的操作。
3️⃣ Gemini
方向1:模型对齐工具
Google 的Vertex AI Studio在模型对齐开源库的直接工作流基础上添加了 “细化提示”功能,以补充其创作、运行、评估和比较工具。
方向2:LLM Comparator
使用LLM Comparator 进行并行评估,定性评估模型之间响应的差异、同一模型的不同提示,甚至模型的不同调整。
能力:
- 查看模型性能的不同之处
- 了解不同的内容:通自动化策略合规性评估,并提供哪种模型可能更合规的理由。并突出显示哪种模型与每个主题更契合。
- 检查模型输出有哪些不同:可以突出显示模型生成的文本中的特定模式,从而提供清晰的锚点来了解它们的差异。
方向3:采取保障措施——基于 API 的分类器 Checks AI Safety提供支持模型评估和监控的合规性评估和仪表板。
Part2:国内AI模型厂商的安全建设
国内 AI 模型厂商拥有自建安全能力的均为 “自身拥有云安全产品能力,同时为自家大模型提供安全防护”国内较为普遍的做法是:建设模型平台,并集成自身云安全/安全相关的能力,赋能自身模型平台。
厂商 | 阿里 | 百度 | 腾讯 | 华为 |
---|---|---|---|---|
模型平台 | 阿里百炼平台 | 千帆大模型平台 | 混元大模型 | 盘古大模型 |
安全解决方案 | 大模型 数据生命周期 安全保护 | 百度智能云大模型安全解决方案 | 大模型安全与伦理报告 | 华为云大模型安全解决方案 |
1️⃣ 阿里云模型平台与安全建设
阿里云-百炼
- 通义 大模型企业级服务平台,助力企业轻松打造最优落地效果的AI应用
- 阿里云百炼大模型服务平台提供了丰富的模型和工具,供用户构建自己的应用。用户可以基于基础模型调用构建AI应用。
- 百炼平台也提供***「模型体验」和「模型测试」***的功能,用户可以 根据体验效果选择合适的基础模型来进行下一步的应用开发。
① 丰富多样的模型服务
- 大模型能力即开即用,提供开源和 闭源 的文本、语音、图片等多种 模态 大模型。
- 支持高性能的模型调用服务、同时开放大模型三方生态合作。
② 应用双驱动快速构建
- 兼容 LlamaIndex 等开源框架 和 Open AI 的 Assistant API调用,支持5-10分钟低代码 快速构建 智能体。
- 应用和模型双引擎驱动,助力千行百业落地大模型应用。
③ 提供全链路模型评估工具
- 提供全链路的模型训练及评估工具,以及可以帮助企业和开发者快速灵活构建Agent的全套应用开发工具,包含插件工具、智能体编排组件和精细化运营工具箱等。满足基础工作流编排,也能自定义大模型应用流程编排等。
全流程的产品安全保障建设
通过多环节干预,以纵深防御 、 零信任 架构 设计理念为指导,并通过自动化、数字化安全分度量机制,切实保障安全要求的落地。使云平台、云产品具备高安全水位。 阿里云百炼 立足于阿里云基础安全保障 的安全防护机制和能力,打造“可靠、可信、可控”的数据安全保障体系。
2️⃣ 百度智能云大模型安全建设
企业级一站式大模型与AI原生应用开发及服务平台
一、百度智能云大模型安全解决方案
百度智能云针对大模型面临的安全风险,推出了全栈式安全解决方案,覆盖**
数据安全、模型安全、应用安全
**三个层面,旨在帮助企业构建安全可靠的大模型应用。链接
二、大模型内容解决方案🔗
支持用户内容安全检测、内容安全过滤、内容安全溯源
- 内容安全检测
- 多模态内容安全检测:支持对文本、图像、视频等多种模态的内容进行安全检测,覆盖色情、暴恐、政治敏感、辱骂、广告、低俗等多种风险类别。
- 细粒度风险识别:能够识别文本中的敏感词、敏感短语、敏感主题,以及图像和视频中的敏感元素,实现精准的风险识别。
- 多语言支持:支持多种语言的内容安全检测,满足全球化业务需求。
- 实时检测:支持实时内容安全检测,及时发现和拦截违规内容。
- 内容安全过滤
- 多种过滤方式:提供多种过滤方式,包括关键词过滤、正则表达式过滤、机器学习模型过滤等,满足不同场景的过滤需求。
- 灵活的过滤策略:支持 自定义过滤策略,根据风险级别、内容类型等因素进行差异化过滤。
- 高效的过滤引擎:采用高效的过滤引擎,确保过滤速度和效率。
- 内容安全溯源
- 内容来源追踪: 追踪违规内容的来源,识别内容的创建者和传播者。
- 传播路径分析:分析违规内容的传播路径,了解其传播范围和影响。
- 证据保存:保存违规内容的证据,为后续的追责和处理提供依
3️⃣ 腾讯云大模型安全建设
腾讯-混元大模型
由腾讯公司全链路自研,在高质量内容创作、数理逻辑、代码生成和多轮对话上性能表现卓越,处于业界领先水平。混元API支持AI搜索联网插件,通过整合腾讯优质的内容生态(如微信公众号、视频号等),提供强大的时新、深度内容 获取和AI问答能力
AIGC 内容合规解决方案
1.数据层面
- 数据清洗和过滤:对海量数据进行严格的清洗和过滤,去除包含违规、有害、敏感信息的样本,从源头上避免模型学习到不良内容。
- 高质量数据集构建:注重高质量、合规的数据集构建,选择来自可靠来源的数据,并进行人工标注和审核,确保训练数据的安全性和合规性。
- 模型层面
- 预训练阶段的价值观引导:在预训练阶段,通过技术手段和人工干预,引导模型学习积极、健康、正向的价值观,避免生成偏激、歧视、仇恨等不良内容。
- 微调阶段的合规性增强:在针对特定任务进行微调时,加入合规性约束和惩罚机制,强化模型对合规性要求的学习,降低生成违规内容的风险。
- 生成内容审核
- 多模态内容识别:结合文本、图像、语音等多模态内容识别技术,对模型生成的文字、图片、视频等进行全方位审核,识别和过滤违规内容。
- 人工审核机制:对于部分敏感内容,引入人工审核机制,进行二次确认和过滤,确保内容的安全性。
4️⃣ 华为云大模型安全建设
华为盘古大模型
盘古大模型是面向行业的大模型,包含L0中5类基础大模型、L1行业大模型及L2场景模型三层架构
盘古大模型致力于深耕行业,打造金融、政务、制造、矿山、气象、铁路等领域行业大模型和能力集,将行业知识know-how与大模型能力相结合,重塑千行百业,成为各组织、企业、个人的专家助手。
行业解决方案
大模型套件
安全建设:
华为云将盘古大模型安全实践服务化,打造覆盖环境安全、数据安全、 内容安全 、模型安全和统一安全运营的端到端大模型安全方案,助力企业构建安全可信、以人为本的大模型服务
全面覆盖训推全过程场景:大模型训练过程安全方案 & 大模型推理应用防护 训练过程解决方案:
- 零信任管理:身份可信管控、网络按需开放、资源访问端到端控制
- 模型漏洞(后门)检测:自动化测试工具发现模型漏洞数据分级脱敏:内置多行业模板,支持自定义规则
- 数据防泄露防污染:数据端到端加密,全过程审计泄露风险
- 模型内容安全评测:全维度评测工具和服务验证模型价值观和内生防御机制,提供改进建议!