关于 AIOps、AI 人像写真、云上 AI 应用训练与推理的感想 |社区征文

2023总结

一、前言

前几天受阿里云邀请,去深圳湾一号参加了关于 AI + 数据相关的技术分享。该分享分了三大主题:可观测场景下AIOps、基于FaceChain的AI人像生成实践、云上AI应用训练与推理的存储最佳实践。

二、感想

2.1 可观测场景下AIOps

可观测场景下AIOps还是有很多东西要做的,组件有模块水平集成、模块上下集成、外部系统引入:可观测性数据融合。可观测多模态数据由统一的协议:OpenTelemetry,使用它来检测、生成、收集和导出遥测数据(Metrics、Logs 和 Traces),以帮助运维开发人员分析软件的性能和行为。为众多开发人员带来 Metrics、Traces、Logs 的统一标准,三者都有相同的元数据结构,可以轻松实现互相关联。

OpenTelemetry 架构组件:

picture.image

由于OpenTelemetry旨在成为一个为厂商和可观察性后端提供的跨语言框架,因此它非常灵活且可扩展,但同时也很复杂。OpenTelemetry的默认实现中,其架构可以分为如下三部分:

  • OpenTelemetry API

  • OpenTelemetry SDK,包括

    • Tracer pipeline
    • Meter pipeline
    • hared Context layer
  • Collector

多模态数据统一——存储+分析:Knowledge Graph、有哪些基础数据、业务对象、对象关联。

最后讲了Copilot for X-Ops、领域知识沉淀+检索、人工打标与SFT、AI Agents、意图识别+拆解、获得结果、自主行动、向量数据库等。这里不展开了,给大家起一个抛砖引玉的作用。

picture.image

2.2 基于FaceChain的AI人像写真生成实践

FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得独属于自己的个人形象数字替身。FaceChain支持在gradio的界面中使用模型训练和推理能力、支持资深开发者使用python脚本进行训练推理,也支持在sd webui中安装插件使用。

基本原理:

个人写真模型的能力来源于Stable Diffusion模型的文生图功能,输入一段文本或一系列提示词,输出对应的图像。我们考虑影响个人写真生成效果的主要因素:写真风格信息,以及用户人物信息。为此,我们分别使用线下训练的风格LoRA模型和线上训练的人脸LoRA模型以学习上述信息。LoRA是一种具有较少可训练参数的微调模型,在Stable Diffusion中,可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到LoRA模型中。因此,个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于微调Stable Diffusion模型的图像与文本标签数据,得到人脸LoRA模型;推断阶段基于人脸LoRA模型和风格LoRA模型生成个人写真图像。

picture.image

训练阶段:

输入:用户上传的包含清晰人脸区域的图像

输出:人脸LoRA模型

描述:首先,我们分别使用基于朝向判断的图像旋转模型,以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像,得到包含正向人脸的图像;接下来,我们使用人体解析模型和人像美肤模型,以获得高质量的人脸训练图像;随后,我们使用人脸属性模型和文本标注模型,结合标签后处理方法,产生训练图像的精细化标签;最后,我们使用上述图像和标签数据微调Stable Diffusion模型得到人脸LoRA模型。

推断阶段:

输入:训练阶段用户上传图像,预设的用于生成个人写真的输入提示词

输出:个人写真图像

描述:首先,我们将人脸LoRA模型和风格LoRA模型的权重融合到Stable Diffusion模型中;接下来,我们使用Stable Diffusion模型的文生图功能,基于预设的输入提示词初步生成个人写真图像;随后,我们使用人脸融合模型进一步改善上述写真图像的人脸细节,其中用于融合的模板人脸通过人脸质量评估模型在训练图像中挑选;最后,我们使用人脸识别模型计算生成的写真图像与模板人脸的相似度,以此对写真图像进行排序,并输出排名靠前的个人写真图像作为最终输出结果。

这个项目很有意思,很多老年人年轻的时候条件没那么好,婚纱照都没有留下点什么,用AI人像写真帮爷爷奶奶们去实现年轻的时候的梦想,那也是一件很有意义的事情。

初步需要打磨的模块如下:

  • 更多写真风格lora模型训练
  • 自适应基模+多lora融合模块探索
  • 专业的face prompt模型训练
  • 专业的SD人物写真基模训练
  • 人物属性的更多prompt探索
  • swap face模块的打磨优化
  • 女性专业美颜后处理模块探索
  • 高阶应用探索:(例如:表情包、人物动态视频、游戏角色设计、影视动画角色设计等)

2.3 云上AI应用训练与推理的存储最佳实践

AI应用训练是真的费钱,不是一般的企业还真搞不起,最基础的硬件跑一个钟都要几万块。这个看看就是,玩不起。

picture.image

picture.image

三、小结

2023年可谓是AI元年,万物皆可AIGC,大模型层出不穷,各大厂大模型军备竞赛如火如荼,各种AI的应用如雨后春笋般涌现。

  • 我第一个比较担心的就是AI安全的问题,谁来对第三方模型的合法性、安全性、准确性进行保证?由此引发的任何损害他人的责任问题谁来承担? 这块还是一个巨大的黑盒,需要行业与政府制定相应的政策来规范与约束。
  • 第二点我想提的点是,各大厂商各造各的大模型,耗费极大的算力,能不能大家把资源整合起来、参数规模共享出来?

据不完全统计,中国目前已经有超过120家机构或企业发布了自己的AI大模型,其中10亿参数规模以上的大模型就已经有79个,有20个是通用领域的大模型,基本来自互联网大厂和科研院所,其余均为垂直领域的产业应用大模型。毫无疑问,中国的AI产业正在进入一场名副其实的“百模大战”,而且已经有了逐渐开始向垂直领域深入分化的趋势。

AI浪潮滚滚而来,你我皆是这股浪潮里的浪花,起起伏伏,被裹挟着往前走。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论