曾经博主本人一直认为国产大模型不纯粹,无非是看到热点和风口,以此来获得投资,快速变现。但是DeepSeek彻底改变了本人的观点,理由是它不仅开源了模型,还公开了论文,让人除了验证结果,还能重现方法。
国人实现了从跟跑到“弯道”领先的跨越式进步。可能还是有很多人不同意这一观点,依旧认为得益于大量的显卡资源和开源大模型,“创新”性应用到中文语言环境下,得以超越开源大模型的中文推理能力。没错,不能说“很多”,但依然还是有厂商在干类似的事情,以此来达到“国产”目的,标榜“自主”。
今天的道歉,算是开了一个头,顺带给自己挖一个“坑”。后续会通过一系列博文,来详细说说,为何要道歉。当然,今天也不是要“水”一篇,至少要让“小白”理解大语言模型是如何出来的。
GPT
虽然ChatGPT背后是OpenAI,但他们并没有开源大模型,要使用只能通过他们提供的服务(即API),才能验证结果。从公开的信息,以了解他们对大模型的训练过程,简单的归纳如下图:
LLAMA
LLAMA的背后是Meta,即原来的Facebook。它对于大语言模型的贡献,相当于Google之于安卓。因为开源大模型后,无数的厂商都能站在它的肩膀上,实现“结果”的起飞。而LLAMA本身的训练过程,和GPT还是有差距的,从流程图对比看:
对比
从两者对比来看,GPT的核心步骤是PPO(Proximal Policy Optimization),而LLAMA因为没有这个过程,只能利用DPO(Direct Preference Optimization),多次循环来逼近GPT的效果。
我们知道大模型的向量非常多,迭代次数是指数复杂度,而过程越多,所消耗的时间,显卡(核心和内存)就越多。简单说就是成本越高。
DeepSeek
再来看一下DeepSeek v3 R1的流程图,其中核心的贡献是纯RL(Reinforcement Learning)。
RL的方法对其他的AI算法来说就太平常了,但是DeepSeek用GRPO算法,让它化腐朽为神奇,让人拍案叫绝。所以,它才得以用别人1/10的资源训练到和他们一样的效果。这太炸裂了,彻底让灯塔国的高端AI芯片的封锁失去了意义,而英伟达的股价也因为这个爆炸性的发布,短时大跌。
总结:
DeepSeek的R1和R1-Zero模型的开源和GRPO论文的公布,让博主由衷的看到国产大模型的新希望,再也不是基于国外大厂的大模型的基数上“自主”可控了。所以,道歉是必须的。并且此次事件标志着一个新时代的开启,因为同时DeepSeek对于开源大模型的“蒸馏”,让qwen,llama3等都可以跟GPT正面PK。OpenAI如果没有后手,必将迎来它的没落。
如果你对AI制作感兴趣,欢迎一键三连。有任何问题,可以扫码添加好友。