全面测评 | deepseek-r1-0528 与 Gemini 2.5 Pro、Claude 4 的AI能力对比评估 - 文章 - 开发者社区

picture.image

零、前言

picture.image

最新的deepseek-r1-0528版本除了提升整体性能外，还减少了幻觉、增强了前端功能，可以让生成的网页变得更加精美，具体更新内容如下图所示👇 picture.image

也正是因为这次更新确实给力，所以引的一大批人前去使用，于是熟悉的“服务器繁忙”又重现江湖了... picture.image

近年来，大语言模型（LLM）领域的发展日新月异，OpenAI 的 GPT 系列、Anthropic 的 Claude、Google 的 Gemini，以及本土的 DeepSeek 等产品不断推陈出新，掀起了又一轮 AI 技术革命的浪潮。尤其是前端生成、逻辑推理、编程能力等维度的不断演进，使得AI正在从“聊天机器人”真正转向“超级开发助理”、“多模态智能专家”。

在这样的大背景下，DeepSeek 于 2025 年 5 月 28 日正式发布了最新版本——deepseek-r1-0528 ，在代码生成、美学感知、幻觉率控制和界面表现等方面均有显著升级。这一版本引发了广泛关注，Lethehong 也第一时间将其接入自己的AI平台，和广大用户一起深度体验、测评与对比。

今天这篇文章，将带大家全面感受 deepseek-r1-0528 与其他两大强力对手 —— Gemini-2.5-Pro-0506 和 Claude4 —— 的实际应用表现。测试项目涵盖：

前端开发
物理引擎仿真
智力题/逻辑推理
理综与数学题解答
写作创作能力

我们将逐项深入解析，输出真实反馈与评估结论。

Lethehong的系统已经集成了deepseek-r1-0528 ， 今天跟Lethehong一起来测评这个大模型。

一、操作指南

操作指导

AI平台国内直接访问地址：https://lethehong.xiaoxuzhu.cn/

在该平台上，用户可直接选择 deepseek-r1-0528，并通过输入授权码的方式免费体验。

平台还支持多模型切换，包括 GPT 系列、Claude 系列、Gemini 系列，以及 Grok、Yi、Qwen 等。

picture.image

输入指定的授权码即可。选择 deepseek-r1-0528 大模型。

picture.image

二、测试 1：俄罗斯方块

提示词：

  
写一个功能完备的俄罗斯方块，使用前端技术

deepseek-r1-0528

输入 picture.image

输出 picture.image

效果 picture.image

deepseek-r1-0528

输出分析 ：近千行完整代码，页面UI精美，逻辑严谨，包括方块控制、旋转、下落逻辑，甚至美化细节也考虑在内。
效果展示 ：界面媲美独立游戏，操作流畅。
优点：极强的界面生成能力，视觉体验优。
缺点：思考时间较长，且不易迭代修改大结构。

gemini-2.5-pro-0506

输入 picture.image

输出 picture.image

picture.image

效果 picture.image

Gemini-2.5-Pro-0506

输出分析 ：快速理解需求，输出包含 HTML/CSS/JS 的结构化代码。
调试体验 ：迭代能力优秀，根据用户反馈可快速修复 forEach 问题及“下一个方块”显示逻辑。
优点：响应快，调试方便，代码风格规范。
缺点：界面相对平实。

claude4

输入 picture.image

输出 picture.image

picture.image

效果 picture.image

Claude4

输出分析 ：一次性输出完美，完整功能覆盖，现代化 UI（渐变+玻璃质感）。
效果体验 ：代码结构专业，免调试即用。
优点：开发者水准级输出，一键可玩。
缺点：较少解释过程，难以调试或修改内部细节。

感受

界面美学：deepseek-r1-0528 > Claude4 > Gemini-2.5-Pro
代码逻辑：Claude4 = Gemini-2.5-Pro > deepseek-r1-0528
整体体验：Claude4 最佳

三、小球旋转

提示词：

  
20 个小球在旋转的 6 边形内弹跳，考虑重力，弹力，摩擦力等物理规律。 用 p5js

deepseek-r1-0528

输入 picture.image

输出 picture.image 截图，直接问ai

picture.image

第三次输出了代码。

效果 picture.image

deepseek-r1-0528

过程体验 ：生成过程复杂，多次“思考”，每次重新生成。
输出情况 ：第三次终于成功，界面较美观，功能实现尚可。
缺点：多次失败，过程繁琐。

gemini-2.5-pro-0506

输入 picture.image

输出 picture.image

picture.image

效果 picture.image

Gemini-2.5-Pro-0506

输出分析 ：结构清晰，JS/HTML 分离，逻辑健全。
效果体验 ：小球不越界，模拟效果良好。
优点：一次成功，逻辑优秀。

claude4

输入 picture.image

输出 picture.image

效果

picture.image

Claude4

表现：极快完成，界面美观，符合预期。
优点：高效准确，代码专业。

感受

小结：

准确率：Claude4 = Gemini-2.5-Pro > deepseek
美观性：Claude4 ≥ deepseek > Gemini
稳定性：Gemini > Claude4 > deepseek

四、水桶模拟器

提示词：

  
生成一个水桶模拟器，桶里面装有水，桶可以按照某一点晃动，水会做出符合物理规律的运动。使用前端技术。

deepseek-r1-0528

输入 picture.image

输出

picture.image 第三次重新生成，终于生成一个完整可运行的代码。

效果 picture.image

deepseek-r1-0528

表现：多次失败，代码长度限制，无法一次输出完整项目。
问题暴露 ：会话间无法持续代码逻辑，长项目支持不足。

gemini-2.5-pro-0506

输入 picture.image

输出 picture.image 发给ai，又重新生成，这回成功了。

效果 picture.image

Gemini-2.5-Pro-0506

表现：第二次即成功，模拟水运动逻辑符合物理规则。
优点：虽然界面一般，但功能实现优秀。

claude4

输入 picture.image

输出 picture.image

第一次生成的效果有了，就是水不明显，再优化下 picture.image

picture.image

效果

picture.image

Claude4

表现：第一次实现功能，水显示不明显，优化后效果优秀。
优点：高效开发能力，仿真真实。

感受

deepseek-r1-0528 这回完全失败。 gemini-2.5-pro-0506简单实现了，初步满足。 claude4非常好实现了需求。太棒了。

deepseek-r1-0528也暴露了一个问题，生成的代码只能是短代码，一旦代码超过一个会话，无法在下个会话中继续输出。这样商业价值就低很多了。。

gemini-2.5-pro-0506 有一个非常好的点，代码输出有工程化结构，会主动分为多个文件，这个很适合长代码项目结构化。

根据这三个编程示例，可初步得出一个测评结论：短代码ai编程能力 claude4>gemini-2.5-pro-0506 >deepseek-r1-0528

长代码编程能力

claude4>=gemini-2.5-pro-0506 >deepseek-r1-0528

功能实现：Claude4 > Gemini > deepseek
稳定性与长代码支持：Gemini > Claude4 > deepseek

五、谁养鱼？

提示词：

  
在一条街上，有 5 座房子，喷了 5 种颜色；  
每座房子里住着不同国籍的人；每个人喝不同的饮料，抽不同品牌的香烟，养不同的宠物。  
问题：谁养鱼？  
提示：英国人住红色房子、瑞典人养狗、丹麦人喝茶、绿色房子在白色房子左面、绿色房子的主人喝咖啡、抽 Pall Mall 香烟的人养鸟、黄色房子的主人抽 Dunhill 香烟、住在中间房子的人喝牛奶、 挪威人住第一间房、抽 Blends 香烟的人住在养猫人的隔壁、养马的人住抽 Dunhill 香烟的人隔壁、抽 Blue Master 的人喝啤酒、德国人抽 Prince 香烟、挪威人住蓝色房子隔壁、抽 Blends 香烟的人有一个喝水的邻居。

deepseek-r1-0528

输入 picture.image

输出 picture.image 又开始了大量的思考。

效果 picture.image 思考过于冗长，但最终得出正确答案。

gemini-2.5-pro-0506

输入 picture.image

输出 picture.image

效果 picture.image

快速推理，准确高效给出答案。

claude4

输入 picture.image

输出 picture.image

效果 picture.image 快速地得出结论，德国人养鱼。

感受

推理能力：Gemini ≥ Claude4 > deepseek
响应速度：Claude4 > Gemini > deepseek

六、解理综物理真题

2023 年理综物理真题：气体压强、温度、密度变化问题（2023年高考真题） picture.image

提示词：

  
一高压舱内气体的压强为 1.2 个大气压，温度为 17℃，密度为 1.46 kg/m³。  
  
（i）升高气体温度并释放出舱内部分气体以保持压强不变，求气体温度升至 27℃ 时舱内气体的密度；  
  
（ii）保持温度 27℃ 不变，再释放出舱内部分气体使舱内压强降至 1.0 个大气压，求舱内气体的密度。  
  
提供解题过程，并给出答案。

deepseek-r1-0528

输入 picture.image

输出 picture.image 大量的推理过程思考。。

效果 picture.image

过程啰嗦，但答案正确。

gemini-2.5-pro-0506

输入 picture.image

输出 picture.image

picture.image

效果

快速作答，答案精准，格式标准。

答案 (i)：当气体温度升至 27℃ 并保持压强不变时，舱内气体的密度约为 1.41 kg/m³ (保留三位有效数字)。

答案 (ii)：保持温度 27℃ 不变，当舱内压强降至 1.0 个大气压时，舱内气体的密度约为 1.18 kg/m³ (保留三位有效数字)。

claude4

输入 picture.image

输出 picture.image

效果

答案

(i) 气体温度升至27°C时舱内气体的密度为：1.41 kg/m³

(ii) 压强降至1.0个大气压时舱内气体的密度为：1.18 kg/m³

快速作答，答案精准，格式标准。

感受

准确性：三者皆对。
用户体验：Claude4 & Gemini 更佳。

七、考研数学真题-选择题

picture.image

提示词： picture.image 上传题目图片

  
给出解题过程，并提供答案

deepseek-r1-0528

输入 picture.image

输出 picture.image

效果 picture.image 答案正确。

gemini-2.5-pro-0506

输入 picture.image

输出 picture.image

效果 picture.image 答案正确。

claude4

输入 picture.image

输出 picture.image

效果 picture.image

答案正确。

感受

deepseek-r1-0528， gemini-2.5-pro-0506和claude4 对于考研数学真题-选择题还是能很轻松解答。

八、考研数学真题-填空题

picture.image

提示词： picture.image 上传题目图片

  
给出解题过程，并提供答案

deepseek-r1-0528

输入 picture.image

输出

picture.image

效果 picture.image

回答正确。

gemini-2.5-pro-0506

输入 picture.image

输出 picture.image

效果 picture.image

claude4

输入 picture.image

输出 picture.image

效果 picture.image

感受

deepseek-r1-0528， gemini-2.5-pro-0506和claude4 对于考研数学真题-填空题还是能很轻松解答。

九、考研数学真题-解答题

picture.image

提示词： picture.image 上传题目图片

  
给出解题过程，并提供答案

deepseek-r1-0528

输入 picture.image

输出 picture.image

又开始了大量的思考。。

效果失败了。。

deepseek 失败。。

gemini-2.5-pro-0506

输入 picture.image

输出 picture.image

效果 picture.image

Gemini 完整作答，解题步骤清晰，答案正确。

claude4

输入 picture.image

输出 picture.image

效果

这一题 Claude 4 解考研数学真题-解答题，Claude4 仅答对了三分之一。

感受

数学能力：Gemini > Claude4 > deepseek

deepseek-r1-0528 直接失败。 gemini-2.5-pro-0506 完美解答出来。 claude4 只答对了三分之一。

gemini-2.5-pro-0506 这局完胜。

对于考研数学的解题能力，初步得出测评的结论： gemini-2.5-pro-0506 >claude4>deepseek-r1-0528

十、写作能力

提示词：

  
写一篇关于夏天的高考满分作文，要求字数在800字以上。

deepseek-r1-0528

输入 picture.image

输出 picture.image

效果

picture.image

gemini-2.5-pro-0506

输入 picture.image

输出/效果 picture.image

claude4

输入 picture.image

输出 picture.image

效果 picture.image

感受

综合观察：

deepseek-r1-0528 ：文章通顺但略显AI风。
Gemini-2.5-Pro-0506 ：内容更具人情味，文笔细腻，自然。
Claude4 ：语言优雅，表达深刻，略偏学术风。

小结：

写作自然度：Gemini > Claude4 > deepseek
文学风格：Claude4 > Gemini > deepseek

十一、感受

此分析只是Lethehong个人的感受看法。

deepseek-r1-0528也暴露了一个问题，生成的代码只能是短代码，一旦代码超过一个会话，无法在下个会话中继续输出。

这样商业价值就低很多了。。

gemini-2.5-pro-0506 有一个非常好的点，代码输出有工程化结构，会主动分为多个文件，这个很适合长代码项目结构化。

| 能力维度 | Claude4 | Gemini-2.5-Pro | deepseek-r1-0528 | | --- | --- | --- | --- | | 短代码编程能力 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | | 长项目结构化能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐ | | 推理能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | | 数学能力 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | | 物理真题解析 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | | 生成美观前端 | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ | | 写作质量 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | | 稳定性 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | | 工程化结构支持 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐ |

短代码ai编程能力： claude4>gemini-2.5-pro-0506 >deepseek-r1-0528

长代码编程能力： claude4>=gemini-2.5-pro-0506 >deepseek-r1-0528

逻辑推理能力： gemini-2.5-pro-0506>=claude4 >deepseek-r1-0528

理综物理解题能力： gemini-2.5-pro-0506=claude4 >deepseek-r1-0528

考研数学真题能力： gemini-2.5-pro-0506>claude4 >deepseek-r1-0528

写作能力（gemini写出来的比较没有ai味）： gemini-2.5-pro-0506>claude4 >deepseek-r1-0528

本次测评不仅展示了不同模型在多个技术维度的差异性，也映射出未来AI应用落地的方向：

Claude4 表现出强大的“一键生成、无需调试”能力，是开发者首选。
Gemini-2.5-Pro-0506 拥有最均衡的能力，既能写代码，又能解题、写作，结构清晰。
deepseek-r1-0528 虽有一定短板，但在视觉呈现和小程序类项目上仍具优势，适合作为前端设计辅助工具。

AI未来一定是多模型协作，而不是单一主导。正如Lethehong所坚持的理念：

  
让十万人玩转AI，让AI变得简单、实用、有趣。

好用的功能太多太多，我就不在这个一一列举了，有兴趣的可以自行尝试。

有提供免费的授权码可体验～

私信Lethehong，获取体验码~ 国内可直接使用~ picture.image

我是Lethehong，目标是带十万人玩转AI，期待与您共同探索AI的无限可能！

长按识别下方二维码，备注：AI体验。。

发你免费PLUS体验码和永久免费使用码：

picture.image

回复【ai体验】,获取GPT,deepseek R1,Grok3,gemini2.5pro,

claude3.7，claude4

国内直接使用 PLUS体验码：