对之前关于国产大模型的观点道歉

大模型向量数据库机器学习
曾经博主本人一直认为国产大模型不纯粹,无非是看到热点和风口,以此来获得投资,快速变现。但是DeepSeek彻底改变了本人的观点,理由是它不仅开源了模型,还公开了论文,让人除了验证结果,还能重现方法。


国人实现了从跟跑到“弯道”领先的跨越式进步。可能还是有很多人不同意这一观点,依旧认为得益于大量的显卡资源和开源大模型,“创新”性应用到中文语言环境下,得以超越开源大模型的中文推理能力。没错,不能说“很多”,但依然还是有厂商在干类似的事情,以此来达到“国产”目的,标榜“自主”。


今天的道歉,算是开了一个头,顺带给自己挖一个“坑”。后续会通过一系列博文,来详细说说,为何要道歉。当然,今天也不是要“水”一篇,至少要让“小白”理解大语言模型是如何出来的。

GPTpicture.image

 虽然ChatGPT背后是OpenAI,但他们并没有开源大模型,要使用只能通过他们提供的服务(即API),才能验证结果。从公开的信息,以了解他们对大模型的训练过程,简单的归纳如下图:

picture.image

LLAMApicture.image

LLAMA的背后是Meta,即原来的Facebook。它对于大语言模型的贡献,相当于Google之于安卓。因为开源大模型后,无数的厂商都能站在它的肩膀上,实现“结果”的起飞。而LLAMA本身的训练过程,和GPT还是有差距的,从流程图对比看:

picture.image

对比picture.image

从两者对比来看,GPT的核心步骤是PPO(Proximal Policy Optimization),而LLAMA因为没有这个过程,只能利用DPO(Direct Preference Optimization),多次循环来逼近GPT的效果。


我们知道大模型的向量非常多,迭代次数是指数复杂度,而过程越多,所消耗的时间,显卡(核心和内存)就越多。简单说就是成本越高。

DeepSeek picture.image

再来看一下DeepSeek v3 R1的流程图,其中核心的贡献是纯RL(Reinforcement Learning)。

picture.image

RL的方法对其他的AI算法来说就太平常了,但是DeepSeek用GRPO算法,让它化腐朽为神奇,让人拍案叫绝。所以,它才得以用别人1/10的资源训练到和他们一样的效果。这太炸裂了,彻底让灯塔国的高端AI芯片的封锁失去了意义,而英伟达的股价也因为这个爆炸性的发布,短时大跌。

总结:

DeepSeek的R1和R1-Zero模型的开源和GRPO论文的公布,让博主由衷的看到国产大模型的新希望,再也不是基于国外大厂的大模型的基数上“自主”可控了。所以,道歉是必须的。并且此次事件标志着一个新时代的开启,因为同时DeepSeek对于开源大模型的“蒸馏”,让qwen,llama3等都可以跟GPT正面PK。OpenAI如果没有后手,必将迎来它的没落。

如果你对AI制作感兴趣,欢迎一键三连。有任何问题,可以扫码添加好友。

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论