中国版的o1来了!DeepSeek-R1-Lite媲美o1-preview,还原完整COT推理过程!

大模型向量数据库机器学习

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

好了,Deep Seek 发布了新 R1 Light 模型,今天我们来聊聊它,他们声称这个模型释放了超级推理能力,推理过程包含大量反思和验证,思维链长度可达数万字。

官方说,该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并且,因为 OpenAI 的 o1 模型并没有展示推理过程,而这个模型提供了原始的推理过程,它可以帮助我们更好地理解这些模型如何进行推理,甚至可能改善我们与这些模型的互动方式。

全面提升的推理性能

DeepSeek-R1-Lite 预览版模型在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,均取得了卓越的成绩,大幅超越了 GPT-4o 等知名模型。

下表为 DeepSeek-R1-Lite 在各项相关评测中的得分结果:

picture.image

深度思考的效果与潜力

DeepSeek-R1-Lite 的推理过程长,并且包含了大量的反思和验证。下图展示了模型在数学竞赛上的得分与测试所允许思考的长度紧密相关。

picture.image

红色实线展示了模型所能达到的准确率与所给定的推理长度呈正相关;

相比传统的多次采样+投票(Majority Voting),模型思维链长度增加展现出了更高的效率。

我记得以前有一个问题:“ 如果正六边形的短对角线是64,那么它的长对角线是多少? ” 很少有模型能答对,像GPT-4o这些都答不对。

而这次 ...

picture.image

你可以看到上面是它的全局思维链展开过程(可上下滑动)

picture.image

真的 ... 看他的思考过程我感觉挺有趣的,充满了验证和思辨。

在最终的给出答案的环节中我发现了他有几次的对比核对的情况,一方面用更简单的解释,一方面来比较结果是否真的正确。

picture.image

看过网上一些关于推理 LLM 的视频,感觉这确实是未来的发展方向之一,未来几年,投资重点将集中在这里。

我又问了:前40个质数和的后4位是多少?正确的应该是:3087。

picture.image

因为前40个质数和刚好是4位数即3087,

Deppseek在第1次计算得到这个正确的数字后猜测了一下我的意图:

我问的是“后4位“。

他觉得也许是自己算错了, 真实的数字很可能 多于4位,

所以用户才 问后四位 , 所以他决定它采用分组相加的方式再次验证了一遍:

picture.image

通过分组相加的方式它最终验证自己的结果是对的。

picture.image

然而他最后还是采取了确保万无一失的方式

搜索一下网络上的资料再一次确认最终的结果为:3087。

真的 ... 给人一种交给他办事很安心的感觉。

与此同时另一边 ...

这是Gpt-4o的解答:

picture.image

不理想的 ...

也许你在一些需要复杂确定性的事件上可以考虑开启这个R1按钮了:DeepSeek ,深度思考 - 探索未至之境。

picture.image

DeepSeek 官方说:

“ 深度思考 ” 模式专门针对数学、代码等各类复杂逻辑推理问题而设计,相比于普通的简单问题,能够提供更加全面、清晰、思路严谨的优质解答,充分展现出较长思维链的更多优势。

而且目前

DeepSeek-R1-Lite 目前仍处于迭代开发阶段: “ 精简版+预览版 ”

所使用的也是一个较小的基座模型,无法完全释放长思维链的潜力。

之后,正式版 DeepSeek-R1 模型将完全开源,DeepSeek 官方 将公开技术报告,并部署 API 服务。

是的,竞争越多,我们获得 AGI 的速度就越快。

以前一篇文章写到的 “ 一直以来,国外的网友对国内的Qwen系列和DeepSeek系列模型表现出浓厚的兴趣。”

picture.image

大家对于Deepseek这次的发布也纷纷点赞:

picture.image

网友们也讨论了o1/R1这种模式和sonnet的区别和特点, 软件工程师们往往更喜欢Claude。

picture.image

我试过了,在某些任务的编码方面,它似乎仍然比o1-preview差,但我认为它的数学能力更好,希望OpenAl现在能释放o1-full。

picture.image

实时透明的思维过程非常重要!我们可以看到它的思考过程,这真是令人惊叹。

picture.image

其他一些观点不一的评价:

DeepSeek为何能快速复制o1的效果:

picture.image

母语模型,如果都按中文的基准来测试,o1也没有那么好,R1 在中文任务中表现的比英文更好,R1的评估基准可能是是中文的基准:

picture.image

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

参考链接:
[1] https://api-docs.deepseek.com/zh-cn/news/news1120

[2] https://www.youtube.com/watch?v=ozx\_I55tqok&t=275s

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

picture.image

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论