对之前关于国产大模型的观点道歉 - 文章 - 开发者社区

曾经博主本人一直认为国产大模型不纯粹，无非是看到热点和风口，以此来获得投资，快速变现。但是DeepSeek彻底改变了本人的观点，理由是它不仅开源了模型，还公开了论文，让人除了验证结果，还能重现方法。


国人实现了从跟跑到“弯道”领先的跨越式进步。可能还是有很多人不同意这一观点，依旧认为得益于大量的显卡资源和开源大模型，“创新”性应用到中文语言环境下，得以超越开源大模型的中文推理能力。没错，不能说“很多”，但依然还是有厂商在干类似的事情，以此来达到“国产”目的，标榜“自主”。


今天的道歉，算是开了一个头，顺带给自己挖一个“坑”。后续会通过一系列博文，来详细说说，为何要道歉。当然，今天也不是要“水”一篇，至少要让“小白”理解大语言模型是如何出来的。

GPT picture.image

 虽然ChatGPT背后是OpenAI，但他们并没有开源大模型，要使用只能通过他们提供的服务（即API），才能验证结果。从公开的信息，以了解他们对大模型的训练过程，简单的归纳如下图：

picture.image

LLAMA picture.image

LLAMA的背后是Meta，即原来的Facebook。它对于大语言模型的贡献，相当于Google之于安卓。因为开源大模型后，无数的厂商都能站在它的肩膀上，实现“结果”的起飞。而LLAMA本身的训练过程，和GPT还是有差距的，从流程图对比看：

picture.image

对比 picture.image

从两者对比来看，GPT的核心步骤是PPO(Proximal Policy Optimization)，而LLAMA因为没有这个过程，只能利用DPO(Direct Preference Optimization)，多次循环来逼近GPT的效果。


我们知道大模型的向量非常多，迭代次数是指数复杂度，而过程越多，所消耗的时间，显卡（核心和内存）就越多。简单说就是成本越高。

DeepSeek picture.image

再来看一下DeepSeek v3 R1的流程图，其中核心的贡献是纯RL(Reinforcement Learning)。

picture.image

RL的方法对其他的AI算法来说就太平常了，但是DeepSeek用GRPO算法，让它化腐朽为神奇，让人拍案叫绝。所以，它才得以用别人1/10的资源训练到和他们一样的效果。这太炸裂了，彻底让灯塔国的高端AI芯片的封锁失去了意义，而英伟达的股价也因为这个爆炸性的发布，短时大跌。

总结：

DeepSeek的R1和R1-Zero模型的开源和GRPO论文的公布，让博主由衷的看到国产大模型的新希望，再也不是基于国外大厂的大模型的基数上“自主”可控了。所以，道歉是必须的。并且此次事件标志着一个新时代的开启，因为同时DeepSeek对于开源大模型的“蒸馏”，让qwen，llama3等都可以跟GPT正面PK。OpenAI如果没有后手，必将迎来它的没落。

如果你对AI制作感兴趣，欢迎一键三连。有任何问题，可以扫码添加好友。

picture.image