实测DeepSeek R1 0528，真的能掰过Claude4？ - 文章 - 开发者社区

大家好，我是子昕，一个干了10年的后端开发，现在在AI编程这条路上边冲边摸索，每天都被新技术追着跑。

DeepSeek R1 又搞了个静默升级，版本号变成了 R1-0528。

官方说是“小版本升级”，但我实测了一圈下来，这提升幅度有点超出预期了。

通过官方网站、APP 或小程序进入对话界面后，开启“深度思考”功能就能体验最新版，API 也同步更新，调用方式不变。

各路测试大神的反馈都挺一致：编程、推理、幻觉控制等核心能力都有明显提升，感觉是从“还行吧”直接跳到“有点牛”的节奏。

不得不说，专心搞技术的和只会吹水的确实不一样。

这次升级牛在哪里//

picture.image

编程能力直接起飞

LiveCodeBench 编程测试，代码准确率从 63.5% 蹦到 73.3%，直接超越 OpenAI o3 mini high，快追上 o3-high 了。现在写前端代码，响应式设计、动画效果、交互逻辑什么的基本都能一把梭哈。

推推理能力开了挂

数学竞赛 AIME 2025 准确率从 70% 飙到 87.5%，思维链推理从 12k tokens/题暴增到 23k tokens/题。

啥概念？就是这货现在想得更深了，逻辑分析能力拉满。《人类最后的考试》成绩也从 8.5% 提升到 17.7%，这进步确实有点狠。

不再瞎说八道

幻觉率降低 45-50%！以前那种胡编乱造的毛病基本治好了，输出内容靠谱了不少。

新技能解锁

Function Calling 终于来了，能连外部 API、数据库，处理复杂任务。JSON 输出也支持了，max_tokens 提升到 64k，这配置可以的。

开源福利

128k 上下文长度，685B 参数，MIT 协议商用随便整。还有蒸馏版 Qwen3-8B，数学性能比原版高 10%，性价比挺香。

编码实测：老规矩，跑酷网站见真章//

继续用我那个经典的跑酷网站案例来测试，看看这次 R1 能整出什么花样。

picture.image

一键生成的效果让我眼前一亮。

视频分享页：

picture.image

教程页：

picture.image

个人中心：

picture.image

看过我之前测试 Claude4 Opus 的朋友应该能感受到区别。

说实话，从前端代码质量和 UI 设计来看，DeepSeek R1 已经超过 Claude 3.7！某些地方甚至觉得比 Claude4 Opus 的审美还要好一些：

picture.image

不过单一案例说明不了问题，所以我又测了个经典的贪吃蛇游戏。Prompt 很简单：实现一个贪吃蛇游戏。

第一次直接翻车，页面不完整，游戏启动不了：

picture.image

让它修复了一下。

picture.image

哎？等等，我突然发现一个有意思的事情——之前 DeepSeek 开启深度思考不是每四个小时才能用一次吗？现在好像没限制了？我连续用了 4 次都正常，这是悄悄放开了？

看下修复后的效果：

picture.image

布局方面还是有点小问题，页面下半部分显示不全，但功能基本正常了。UI 整体还算不错。

个人体验总结

测试下来，我觉得 DeepSeek R1 在前端代码能力和 UI 审美上基本可以和 Claude4 平起平坐了。但在功能考虑的全面性上还有差距。

比如跑酷网站案例，Claude4 还实现了关键词搜索视频、视频上传功能，甚至能点开详情页播放视频。而 DeepSeek R1 目前只有基本的页面展示。

贪吃蛇的功能丰富度也没有 Claude4 那么完善：

picture.image

说句心里话，我之前对 DeepSeek 不算特别感冒，日常写作编码基本都是 Claude 的忠实用户。但这次 R1 的表现确实让我刮目相看。

不是那种营销炒作出来的惊艳，而是实打实用下来的感受。

能感觉到这帮做技术的人是真的在认真打磨产品，不搞花里胡哨的发布会，不玩概念包装，就是闷头把东西做好。

这种务实的态度让我看到了国产 AI 的希望。不是要跟谁死磕，而是真正在技术上有所突破。有时候，默默耕耘比大声吆喝更有说服力。

当然，在功能完整性、生态建设这些方面还需要时间积累。但至少现在，我会认真考虑把 DeepSeek 加入日常开发工具链了。

这就是技术的魅力——用实力说话，让产品自己证明价值。

点个关注呗，我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验～

「点赞、转发、在看」
和大家一起看