百度开源文心 4.5 系列开源大模型多维度测评分析

「源力觉醒创作者计划」_百度开源文心 4.5 系列开源大模型：ERNIE-4.5-VL-28B-A3B-Paddle vs DeepSeek-R1 多维度测评分析

背景

人工智能技术迅猛发展，大模型成为推动各行业智能化升级的核心引擎，百度开源的文心 4.5 系列大模型中的 ERNIE-4.5-VL-28B-A3B-Paddle，创新的技术架构与卓越的性能表现，多模态处理、知识理解等领域展现出强大潜力，本文将通过详细的部署实操、多维度性能对比，深度剖析 ERNIE-4.5-VL-28B-A3B-Paddle 在实际应用场景中的表现。

ERNIE-4.5-VL-28B-A3B-Paddle 模型介绍

关键字	值
模态	文本 & 视觉
训练阶段	后训练
参数量（总/激活）	28B / 3B
层数	28
头数（Q/KV）	20 / 4
文本专家（总/激活）	64 / 6
视觉专家（总/激活）	64 / 6
共享专家	2
上下文长度	131072

ERNIE-4.5-VL-28B-A3B 是一个多模态 MoE 聊天模型，总参数量为 28B，每个 Token 激活参数量为 3B，ERNIE 4.5 模型基于 MoE 的 A47B 和 A3B 系列，先进能力源于三大关键技术创新：

✅多模态异构 MoE 预训练，通过设计异构 MoE 结构、引入模态隔离路由等，联合训练文本和视觉模态，提升多模态任务性能

✅规模效率化基础设施，提出异构混合并行和层次负载均衡策略用于训练，采用多专家并行协作等方法用于推理，基于 PaddlePaddle 实现高性能推理

✅模态特定后训练，针对不同需求对预训练模型变体进行特定模态微调，在视觉语言模型微调阶段，聚焦核心能力优化数据构建和训练策略，并使用 RLVR 提升对齐和性能

ERNIE-4.5-VL-28B-A3B-Paddle 部署体验

1、PP飞浆AI Studio：模型库-搜索ERNIE-4.5-VL-28B-A3B-Paddle模型

picture.image

2、快速开发

picture.image

3、新增一个baidu名称的目录

picture.image

4、删除清空实例代码

picture.image

5、安装 aistudio-sdk 库以支持平台相关功能，接着使用 aistudio 命令行工具下载 "PaddlePaddle/ERNIE-4.5-VL-28B-A3B-Paddle" 模型到本地目录，最后通过 erniekit 工具基于 8K 序列长度配置文件对该模型进行监督微调训练
# 首先请先安装aistudio-sdk库
!pip install --upgrade aistudio-sdk
# 使用aistudio cli下载模型
!aistudio download --model "PaddlePaddle/ERNIE-4.5-VL-28B-A3B-Paddle" --local_dir "baidu/ERNIE-4.5-VL-28B-A3B-Paddle"
# 8K Sequence Length, SFT
!erniekit train "examples/configs/ERNIE-4.5-VL-28B-A3B-Paddle/sft/run_sft_8k.yaml"

picture.image

6、等待模型运行加载下载

picture.image

7、下载运行成功

picture.image

8、点击专业开发

picture.image

9、点击左上角-终端-新建终端：输入如下命令进行框架安装

通过指定镜像源安装支持 CUDA 12.6 的 PaddlePaddle 3.1.0 GPU 版本，从清华镜像源补充依赖并安装适配 GPU（支持 CUDA 8.6/8.9）的 FastDeploy 推理框架
# 预构建的 Pip 安装程序
python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
# Install stable release
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

picture.image

10、PyCharm配置代码

通过 OpenAI Python 库调用飞桨 AI Studio 平台的自定义 API 接口，配置自定义的 API 密钥和 base_url 指向飞桨的代理服务，然后创建一个聊天完成请求，使用默认模型以 0.6 的温度生成回复，并启用流式输出模式，代码在处理响应时会优先输出推理中间过程，否则输出最终回复内容，实现实时打印模型生成的文本
# pip install openai
from openai import OpenAI

client = OpenAI(
    api_key="831af68b59f205f8f5409f843c173f500ac1d8ad",
    base_url="https://api-m3d4ra73ffw7h9o4.aistudio-app.com/v1"
)

completion = client.chat.completions.create(
    model="default",
    temperature=0.6,
    messages=[
        {"role": "user", "content": "你好，请介绍一下你自己"}
    ],
    stream=True
)

for chunk in completion:
    if hasattr(chunk.choices[0].delta, "reasoning_content") and chunk.choices[0].delta.reasoning_content:
        print(chunk.choices[0].delta.reasoning_content, end="", flush=True)
    else:
        print(chunk.choices[0].delta.content, end="", flush=True)

picture.image

11、图片识别

准备一张图片

picture.image

代码配置

# pip install openai pillow
from openai import OpenAI
import base64

def encode_image(image_path):
    """将图片编码为Base64字符串"""
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

client = OpenAI(
    api_key="831af68b59f205f8f5409f843c173f500ac1d8ad",
    base_url="https://api-m3d4ra73ffw7h9o4.aistudio-app.com/v1"
)

# 图片路径
image_path = "example.png"
image_base64 = encode_image(image_path)

completion = client.chat.completions.create(
    model="gpt-4-vision-preview",  # 使用支持图片的模型
    temperature=0.6,
    messages=[
        {"role": "user", "content": [
            {"type": "text", "text": "这张图片里有什么？"},
            {"type": "image_url", "image_url": {
                "url": f"data:image/jpeg;base64,{image_base64}"
            }}
        ]}
    ],
    max_tokens=300,  # 限制回复长度
    stream=True
)

for chunk in completion:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

picture.image

多轮对话

# pip install openai
from openai import OpenAI

client = OpenAI(
    api_key="831af68b59f205f8f5409f843c173f500ac1d8ad",
    base_url="https://api-m3d4ra73ffw7h9o4.aistudio-app.com/v1"
)


def main():
    # 初始化对话历史
    messages = []

    print("欢迎使用多轮对话系统！输入'exit'结束对话。")

    while True:
        # 获取用户输入
        user_input = input("\n你: ")

        # 检查是否退出
        if user_input.lower() == "exit":
            print("对话已结束。")
            break

        # 添加用户消息到对话历史
        messages.append({"role": "user", "content": user_input})

        try:
            # 调用API
            completion = client.chat.completions.create(
                model="default",
                temperature=0.6,
                messages=messages,
                stream=True
            )

            # 显示AI回复
            print("AI:", end=" ", flush=True)
            ai_response = ""

            for chunk in completion:
                if hasattr(chunk.choices[0].delta, "content") and chunk.choices[0].delta.content:
                    content = chunk.choices[0].delta.content
                    print(content, end="", flush=True)
                    ai_response += content

            # 添加AI回复到对话历史
            messages.append({"role": "assistant", "content": ai_response})

        except Exception as e:
            print(f"\n错误: {e}")
            # 发生错误时，可以选择从对话历史中移除最后一条用户消息
            if messages and messages[-1]["role"] == "user":
                messages.pop()


if __name__ == "__main__":
    main()

picture.image

ERNIE-4.5-VL-28B-A3B-Paddle 对比 DeepSeek-R1

对比项目	ERNIE-4.5-VL-28B-A3B	DeepSeek-R1
模型类型	多模态大模型	大型语言模型，主打推理功能
参数量	28B	6710 亿，另有 1.5B 至 70B 的蒸馏版本
训练框架	飞桨（PaddlePaddle）	未明确提及，但 DeepSeek 系列通常基于 Transformer 架构
训练方法	采用 “FlashMask 动态注意力遮蔽” 和 “异质多模态混合专家” 架构，实现多模态数据的协同优化	采用多阶段混合训练策略，包括监督微调冷启动和强化学习优化；使用 GRPO 算法替代传统的 PPO 算法
开源协议	Apache 2.0 licence，允许学术和商业使用	MIT 协议，开源模型权重、训练代码和数据处理工具链
性能表现	在 28 个基准测试中的 20 多个指标上超越了 DeepSeek-V3-671B-A37B-Base，达到 SOTA 水平	在 AIME 2024 上达到了 79.8% 的 Pass@1 分数，稍微超过 OpenAI-o1-1217；在 MATH-500 中取得了 97.3% 的分数，表现与 OpenAI-o1-1217 相当
擅长领域	跨模态的理解与生成能力强，能够无缝整合文本、图像、音频和视频内容	在数学、编程和推理等任务上表现出色

ERNIE-4.5-VL-28B-A3B 与 DeepSeek-R1 对比测试时，保持除模型外其他参数一致，这样对比结果更具参考性，能清晰看出模型在不同任务场景的表现差异

picture.image

通用文本理解与生成

用日常多样主题的指令，看生成文本的逻辑、表达自然度，测试模型基础语言能力

测试内容

新闻原文（可简化给模型）：
“本市 XX 小区近期因宠物扰民纠纷增多，居民志愿者发起‘宠物友好公约’倡议，包含遛狗时间、粪便清理等条款，经业主群讨论后，超 8 成住户支持，周末已组织首场文明遛狗宣传活动。”

把这段严肃新闻改写成脱口秀段子，保留核心事件（某小区居民自发组织 “宠物友好公约” ），用幽默吐槽、接地气梗呈现，200 字左右

picture.image

结果分析

ERNIE-4.5-VL-28B-A3B 更贴近小区邻里唠嗑松弛感，紧扣新闻核心"宠物公约从纠纷到落地"，用 "狗子直立行走、业主群炸锅" 这类生活化吐槽，把规则自然融进段子，信息清晰好懂，还留了 "人狗示范区" 互动钩子

DeepSeek-R1 走网感综艺梗路线，拿 "人类驯狗影像、汪汪队宪法" 玩二次创作，脑洞密集但信息碎片化，规则藏在梗里难提炼，更像独立短段子，后续延展话题的空间弱

ERNIE 适合让普通人听明白又乐呵的日常脱口秀，DeepSeek 更对互联网冲浪选手的 "玩梗胃口"，风格差异背后，前者侧重生活场景文本转换，后者偏向网感内容再创作

专业知识问答

选不同领域深度问题，验证知识储备、解答准确性与专业度，体现知识掌握水平

测试内容

请从算法公平性角度，分析深度学习模型在信贷风险评估场景中，可能产生偏见的 3 类核心原因（需区分数据、模型、应用流程维度），并给出对应缓解策略，要求专业逻辑清晰，300 - 400 字。

picture.image

结果分析

ERNIE - 4.5 - VL - 28B - A3B 围绕算法公平性，从数据、模型、应用流程维度，系统拆解深度学习模型在信贷场景偏见成因，如数据存在偏差、模型结构有局限等，策略覆盖工具优化、架构调整与流程规范，逻辑严谨且专业纵深

DeepSeek - R1 同样按维度分析，结合对抗训练、正则化等技术谈缓解，案例与表述更具网感，侧重实操路径

ERNIE - 4.5 - VL - 28B - A3B 和 DeepSeek - R1 完成知识拆解，但 ERNIE 偏学术体系化输出，DeepSeek 更贴近工程实践场景，差异体现知识组织与风格适配的模型特性

多轮对话连贯性

设计连续关联话题（如先聊旅游经历，再延伸规划下次旅行），观察对话衔接、意图理解延续性，检验交互能力。

测试内容

社会话题 - AI 就业影响

Round 1：AI 工具普及，会让普通文案岗位消失吗？

Round 2：那文案从业者想转型，该补哪些 AI 技能？

Round 3：如果成立一个‘文案人 AI 技能互助小组’，怎么设计学习计划？

Round 4：用小组学习计划为基础，写一段招募文案，突出AI 转型必要性

核心测社会议题链：从岗位担忧到转型路径，再到落地行动，看模型对「问题提出→解决方案→执行设计」的逻辑衔接

Round 1

picture.image

Round 2

picture.image

Round 3

picture.image

Round 4

picture.image

ERNIE-4.5-VL-28B-A3B 最终生成内容

【文案人AI转型联盟】招募启事——别让AI成为你的替代者，而是成为驾驭它的领航者！

你是否在焦虑：AI工具的普及，是否会让文案岗位成为“明日黄花”？
答案不是“淘汰”，而是“进化”！
当AI开始写脚本、改文案、优化策略，传统文案人若不主动拥抱变革，只会沦为“工具使用者”；而掌握AI技能的人，将率先抢占内容生产的新赛道，实现效率与创意的双重跃迁！

加入【文案人AI技能互助小组】，你得到的不仅是工具使用指南，而是一套“AI+人类”的生存法则：
✅ 系统破局：从AI工具链（ChatGPT、MidJourney、Notion AI等）到行业场景实战，用3个月完成从“被动适应”到“主动掌控”的蜕变；
✅ 实战赋能：每月1次线下工作坊，用真实项目打磨AI辅助文案能力，让创意与数据双轮驱动；
✅ 协作共生：新手与高手结对互助，共享灵感库、避坑指南，避免单打独斗的迷茫；
✅ 未来入场券：成为团队内部的AI赋能者，用“人机协作”模式提升竞争力，甚至主导内容策略升级！

为什么现在必须转型？
▶️ 效率革命：AI可24小时生成初稿、优化语言、匹配受众，人类只需聚焦“不可替代的创意与洞察”；
▶️ 需求升级：品牌需要“懂AI的文案人”来设计智能内容策略，用数据验证创意价值；
▶️ 行业门槛：掌握AI技能的文案人，将成为稀缺人才，在就业市场和项目竞争中占据主动权！

我们承诺：
🔥 轻量学习：碎片化时间+高频互助，拒绝“填鸭式”培训；
🔥 成果导向：每阶段有实战任务，用AI优化后的文案直接应用到工作中；
🔥 长期陪伴：从新手到专家，小组持续迭代学习内容，陪你走完转型全程。

行动号召：
未来已来，你准备好了吗？
👉 加入小组，与10+同行一起：
用AI工具提升效率，用创意策略定义价值，用协作模式打破边界！
扫码入群，抢占AI转型席位——别让AI成为你的替代者，而是成为驾驭它的领航者！

文案人的AI进化，从这一刻开始！ 🚀

DeepSeek-R1最终生成内容

【最后的文案船票】AI不会淘汰文字工作者，但会淘汰不懂AI的文案人

亲爱的文字创作者：

当ChatGPT写出第一条爆款标题时，有人焦虑地计算被取代的时间
当Midjourney生成视觉化文案时，有人连夜收藏100个提示词模板
当企业开始要求「人均AI内容产能提升300%」时——
你是否意识到：文案人的职业护城河，正在被技术重构？

🔥 这不是选择题，而是生存战
麦肯锡数据显示：2025年15%基础文案工作将被AI接管，但内容市场规模正以12%年增速扩张
残酷现实：甲方已开始用「AI初稿+人类润色」压缩70%预算，传统按字计费模式濒临崩解
转机浮现：掌握AI协作的文案人，正获得3倍接单效率+5倍服务溢价
🚀 加入「文案人AI方舟计划」，抓住转型最后窗口期
我们拒绝空洞的理论教学，这里是战场前线补给站：

✅ 你会亲手攻克这些生死线问题
如何让AI吐出「不像AI的文案」？—— 破解「机械感诅咒」的提示词炼金术
怎样用1小时完成7天工作量？—— 自动化工作流搭建实战（附赠200+场景SOP）
被老板要求「AI全包」时怎么反击？—— 人机协同价值证明模型
✅ 你会获得这些求生装备
💼 就业保险：企业认证的AI文案能力证书+真实项目履历背书
🧠 认知疫苗：与AI工程师/法律顾问/品牌总监的跨维度对话
🔑 变现地图：人均产出3个可售卖的AI内容解决方案
✅ 你会见证这样的进化
「以前：熬夜改第8稿标题 → 现在：批量生成200条数据优选」
「以前：恐惧甲方比价 → 现在：用AI增效报告支撑涨价50%」

⏳ 招募限时开放（72小时截止）
👥 席位：仅限100名敢All in的转型先行者
🔒 保障：首次会期未突破能力瓶颈可全额退费

扫码抢占最后船票
这不是一场培训，而是一次行业进化实验
要么成为驾驭AI的进化者，要么沦为被算法优化的代价

P.S. 现在报名赠「AI转型诊断报告」，5分钟厘清你的可替代性指数与突围路径

[立即扫码] | [点击了解更多]
文案人的未来只有两种：
被AI淘汰，或者用AI淘汰同行

这段文案通过制造危机感与希望感的动态平衡，将AI转型必要性拆解为「生存威胁」与「增长机遇」双重维度，结合数据锚点、场景化痛点、利益承诺，精准刺中目标人群的深层焦虑。末尾的二元对立选择，则进一步强化决策紧迫性。

结果分析

从多轮对话连贯性看，围绕文案人 AI 转型主题，都完成了需求承接与内容延伸，但风格和逻辑路径有差异：

ERNIE走理性赋能路线，以 "问题→方案→价值" 线性推进，从转型焦虑切入，逐步拆解工具、实战、协作等系统策略，回应每一轮对 "转型方法、执行路径" 的需求，像导师式陪跑，逻辑扎实、步骤清晰

DeepSeek主打危机破局叙事，用 "威胁→转机→行动" 制造情绪张力，借数据、案例强化紧迫感，回应中融入 "证书、变现" 等现实利益，更像营销式动员，抓眼球、促行动

差异源于模型对 "对话需求" 的理解侧重：ERNIE 聚焦知识落地的连贯性，DeepSeek 侧重情绪驱动的延续性，一个稳扎稳打教方法，一个剑走偏锋造势能

百度开源文心4.5系列开源

模型类型	激活参数规模	总参数量	模型特点
混合专家（MoE）模型	47B	约 424B	通过专家路由技术，保持高容量的同时显著降低 FLOPs，适用于多模态任务，通过跨模态参数共享机制实现模态间知识融合
混合专家（MoE）模型	3B	约 30B	轻量级多模态模型，具备多模态理解能力，适用于对模型规模和计算资源要求相对较低的场景
稠密参数模型	0.3B	未提及	面向边缘与移动端，参数量小、推理快，适用于资源受限的设备和场景

百度开源文心 4.5 系列的 10 款模型（涵盖 47B、3B 的 MoE 模型及 0.3B 稠密模型），开源不仅为学术界和产业界提供了多规模、多模态的高性能模型底座，降低大模型应用门槛，还通过开放技术细节（如异构 MoE 结构、高效训练推理方案等）推动行业在多模态融合、规模效率化等关键技术上的协同创新，同时助力开发者基于不同参数规模模型快速适配边缘端、移动端到云端等多样化场景，加速大模型技术的产业化落地与生态繁荣。

总结

ERNIE-4.5-VL-28B-A3B-Paddle 百度文心 4.5 系列的多模态 MoE 大模型，以 28B 总参数与 3B 激活参数的高效设计，通过多模态异构 MoE 预训练、规模效率化基础设施及模态特定后训练三大技术创新，在跨模态理解与生成、长文本处理等领域表现卓越，部署流程便捷且适配多场景，与 DeepSeek-R1 相比，在多模态融合与实用场景落地中展现出差异化竞争力

✅多模态原生融合能力更强：ERNIE-4.5-VL-28B-A3B-Paddle 借异构 MoE 和模态隔离路由，原生支持图文识别等多模态任务，DeepSeek-R1 是单语言模型，处理多模态需额外适配，原生跨模态能力不足

✅长文本处理效率与精度更优：ERNIE-4.5-VL-28B-A3B-Paddle 131072 长上下文，在长文本场景中信息抓取与逻辑连贯性远超 DeepSeek-R1，DeepSeek-R1 相比较易遗漏信息或逻辑断裂

✅本土化部署与生态适配更完善：ERNIE-4.5-VL-28B-A3B-Paddle 基于 PaddlePaddle 深度优化，全流程工具链完善，适配国内硬件与行业场景；DeepSeek-R1 虽开源宽松，但本土化生态与场景方案覆盖不足

如果大家想和我一起感受百度开源文心4.5系列开源大模型：一起来轻松玩转文心大模型吧文心大模型免费下载体验地址：https://ai.gitcode.com/theme/1939325484087291906

1、登录GitCode文心大模型主题，选择合适的模型部署

picture.image

2、模型使用方式可以Notebook快速开发也可以openMind和克隆

picture.image

「源力觉醒 创作者计划」_百度开源文心 4.5 系列开源大模型：ERNIE-4.5-VL-28B-A3B-Paddle vs DeepSeek-R1 多维度测评分析

背景

ERNIE-4.5-VL-28B-A3B-Paddle 模型介绍

ERNIE-4.5-VL-28B-A3B-Paddle 部署体验

ERNIE-4.5-VL-28B-A3B-Paddle 对比 DeepSeek-R1

通用文本理解与生成

测试内容

结果分析

专业知识问答

测试内容

结果分析

多轮对话连贯性

测试内容

结果分析

百度开源文心4.5系列开源

总结

「源力觉醒创作者计划」_百度开源文心 4.5 系列开源大模型：ERNIE-4.5-VL-28B-A3B-Paddle vs DeepSeek-R1 多维度测评分析