实测DeepSeek R1 0528,真的能掰过Claude4?

大模型数据库机器学习

大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。

DeepSeek R1 又搞了个静默升级,版本号变成了 R1-0528。

官方说是“小版本升级”,但我实测了一圈下来,这提升幅度有点超出预期了。

通过官方网站、APP 或小程序进入对话界面后,开启“深度思考”功能就能体验最新版,API 也同步更新,调用方式不变。

各路测试大神的反馈都挺一致:编程、推理、幻觉控制等核心能力都有明显提升,感觉是从“还行吧”直接跳到“有点牛”的节奏。

不得不说,专心搞技术的和只会吹水的确实不一样。

这次升级牛在哪里//

picture.image

  1. 编程能力直接起飞

LiveCodeBench 编程测试,代码准确率从 63.5% 蹦到 73.3%,直接超越 OpenAI o3 mini high,快追上 o3-high 了。现在写前端代码,响应式设计、动画效果、交互逻辑什么的基本都能一把梭哈。

  1. 推推理能力开了挂

数学竞赛 AIME 2025 准确率从 70% 飙到 87.5%,思维链推理从 12k tokens/题暴增到 23k tokens/题。

啥概念?就是这货现在想得更深了,逻辑分析能力拉满。《人类最后的考试》成绩也从 8.5% 提升到 17.7%,这进步确实有点狠。

  1. 不再瞎说八道

幻觉率降低 45-50%!以前那种胡编乱造的毛病基本治好了,输出内容靠谱了不少。

  1. 新技能解锁

Function Calling 终于来了,能连外部 API、数据库,处理复杂任务。JSON 输出也支持了,max_tokens 提升到 64k,这配置可以的。

  1. 开源福利

128k 上下文长度,685B 参数,MIT 协议商用随便整。还有蒸馏版 Qwen3-8B,数学性能比原版高 10%,性价比挺香。

编码实测:老规矩,跑酷网站见真章//

继续用我那个经典的跑酷网站案例来测试,看看这次 R1 能整出什么花样。

picture.image

一键生成的效果让我眼前一亮。

视频分享页:

picture.image

教程页:

picture.image

个人中心:

picture.image

看过我之前测试 Claude4 Opus 的朋友应该能感受到区别。

说实话,从前端代码质量和 UI 设计来看,DeepSeek R1 已经超过 Claude 3.7!某些地方甚至觉得比 Claude4 Opus 的审美还要好一些:

picture.image

不过单一案例说明不了问题,所以我又测了个经典的贪吃蛇游戏。Prompt 很简单:实现一个贪吃蛇游戏。

第一次直接翻车,页面不完整,游戏启动不了:

picture.image

让它修复了一下。

picture.image

哎?等等,我突然发现一个有意思的事情——之前 DeepSeek 开启深度思考不是每四个小时才能用一次吗?现在好像没限制了?我连续用了 4 次都正常,这是悄悄放开了?

看下修复后的效果:

picture.image

布局方面还是有点小问题,页面下半部分显示不全,但功能基本正常了。UI 整体还算不错。

个人体验总结

测试下来,我觉得 DeepSeek R1 在前端代码能力和 UI 审美上基本可以和 Claude4 平起平坐了。但在功能考虑的全面性上还有差距。

比如跑酷网站案例,Claude4 还实现了关键词搜索视频、视频上传功能,甚至能点开详情页播放视频。而 DeepSeek R1 目前只有基本的页面展示。

贪吃蛇的功能丰富度也没有 Claude4 那么完善:

picture.image

说句心里话,我之前对 DeepSeek 不算特别感冒,日常写作编码基本都是 Claude 的忠实用户。但这次 R1 的表现确实让我刮目相看。

不是那种营销炒作出来的惊艳,而是实打实用下来的感受。

能感觉到这帮做技术的人是真的在认真打磨产品,不搞花里胡哨的发布会,不玩概念包装,就是闷头把东西做好。

这种务实的态度让我看到了国产 AI 的希望。不是要跟谁死磕,而是真正在技术上有所突破。有时候,默默耕耘比大声吆喝更有说服力。

当然,在功能完整性、生态建设这些方面还需要时间积累。但至少现在,我会认真考虑把 DeepSeek 加入日常开发工具链了。

这就是技术的魅力——用实力说话,让产品自己证明价值。


点个关注呗,我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验~

「点赞、转发、在看」
和大家一起看

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论