对之前关于国产大模型的观点道歉

大模型向量数据库机器学习
曾经博主本人一直认为国产大模型不纯粹,无非是看到热点和风口,以此来获得投资,快速变现。但是DeepSeek彻底改变了本人的观点,理由是它不仅开源了模型,还公开了论文,让人除了验证结果,还能重现方法。


国人实现了从跟跑到“弯道”领先的跨越式进步。可能还是有很多人不同意这一观点,依旧认为得益于大量的显卡资源和开源大模型,“创新”性应用到中文语言环境下,得以超越开源大模型的中文推理能力。没错,不能说“很多”,但依然还是有厂商在干类似的事情,以此来达到“国产”目的,标榜“自主”。


今天的道歉,算是开了一个头,顺带给自己挖一个“坑”。后续会通过一系列博文,来详细说说,为何要道歉。当然,今天也不是要“水”一篇,至少要让“小白”理解大语言模型是如何出来的。

GPTpicture.image

 虽然ChatGPT背后是OpenAI,但他们并没有开源大模型,要使用只能通过他们提供的服务(即API),才能验证结果。从公开的信息,以了解他们对大模型的训练过程,简单的归纳如下图:

picture.image

LLAMApicture.image

LLAMA的背后是Meta,即原来的Facebook。它对于大语言模型的贡献,相当于Google之于安卓。因为开源大模型后,无数的厂商都能站在它的肩膀上,实现“结果”的起飞。而LLAMA本身的训练过程,和GPT还是有差距的,从流程图对比看:

picture.image

对比picture.image

从两者对比来看,GPT的核心步骤是PPO(Proximal Policy Optimization),而LLAMA因为没有这个过程,只能利用DPO(Direct Preference Optimization),多次循环来逼近GPT的效果。


我们知道大模型的向量非常多,迭代次数是指数复杂度,而过程越多,所消耗的时间,显卡(核心和内存)就越多。简单说就是成本越高。

DeepSeek picture.image

再来看一下DeepSeek v3 R1的流程图,其中核心的贡献是纯RL(Reinforcement Learning)。

picture.image

RL的方法对其他的AI算法来说就太平常了,但是DeepSeek用GRPO算法,让它化腐朽为神奇,让人拍案叫绝。所以,它才得以用别人1/10的资源训练到和他们一样的效果。这太炸裂了,彻底让灯塔国的高端AI芯片的封锁失去了意义,而英伟达的股价也因为这个爆炸性的发布,短时大跌。

总结:

DeepSeek的R1和R1-Zero模型的开源和GRPO论文的公布,让博主由衷的看到国产大模型的新希望,再也不是基于国外大厂的大模型的基数上“自主”可控了。所以,道歉是必须的。并且此次事件标志着一个新时代的开启,因为同时DeepSeek对于开源大模型的“蒸馏”,让qwen,llama3等都可以跟GPT正面PK。OpenAI如果没有后手,必将迎来它的没落。

如果你对AI制作感兴趣,欢迎一键三连。有任何问题,可以扫码添加好友。

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型解决方案白皮书——智能巡检场景全流程落地指南
当前,智能巡检行业面临着来自供给端同质化竞争的难题和需求端个性化需求、泛化场景管理的新兴诉求,智能巡检企业如何构建差异化壁垒?如何提升产品附加值?如何以更低的创新成本、更高的创新效率响应用户不断升级的需求? 大模型提供了唯一的解决方案——凭借其强大的自然语言处理、图像理解与生成能力,以及对海量数据的学习和推理优势,大模型能够高效率、低成本开发出即好用又好玩的新产品,并实现品牌差异化,这成为突破智能巡检行业发展瓶颈、重构竞争格局的核心驱动力。 本白皮书介绍了豆包大模型携手火山方舟,为智能巡检行业带来的全新解
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论