赛圈大佬包大人出书了!推荐一本大模型从业者必备的高质量干货书籍:《百面大模型》,面试、学习、查漏补缺全都安排上了,强烈安利!
老粉可能观察到,最近原创文章署名,已经从包包闭关修炼变成了包包修炼完毕,先说一下这段时间干啥了吧。投入大量时间写了一本书,《百面大模型》(羊驼书),现已出版。
这本书核心目标是解决大模型从业者面试过程中的八股文难题,但也不局限于此,这本书也是一本QA形式的知识点合集,适合用来查漏补缺。
为什么写这本书?
写这本书的初心,其实不仅限于大模型本身。在几年前做这个公众号时候,我写过一篇文章,《班车日更80天,我收获了什么》,讲述了自己在上班通勤期间每天1500字输出内容的一段经历。在文章中提出了一个观点是,人需要建立一个自己定义的客观正反馈系统。
我举个例子,比如你是职场打工人,就一定能体会到这种感觉。
自己干的好不好,他是一个第三方评价者的一言堂相对评级。你们干得都很好,不好意思,公司对绩效和资源强制正态分配,我还得编个理由说服你接受。
在这样的环境下,你会发现很多人为了适应生存,做事的唯一动机和目标变成去讨好评价者,把自己的正反馈寄托在讨好别人身上,患得患失。如果一个人长期在被无法客观评价这种环境下,会出现两种典型的负面心态。
第一,自我怀疑,被别人负面的评价定义了自己。言外之意,评价者组织语言PUA你,让你接受这一切,你其实做得很好,有人说你还不够好。
第二,对抗心态。觉得体系里的评价者,做事的动机都有偏。走向另一个极端,除了自己都是傻叉,变得固执傲慢和封闭。
客观地认识自己和认识世界,在这个充满目的性的世界,是有阻碍的。解决这个问题的方法,是建立非标的正反馈体系,认同价值观的多元。
参次多态,乃是幸福本源。这是我特别喜欢的王小波的最喜欢的一句话,写书建立一个自己定义客观的正反馈系统的手段之一。比如博客文章的阅读数,书籍的销量,leaderboard的分数,做的AI应用的用户数,这些都是自己可以定义客观的正反馈系统的手段之一。都能给一个人充足的幸福和自信。
换言之,生存之余,要给这个残酷世界一点输出,去寻找马斯洛需求层次里更高级的东西。
以上,解答了自己为什么立项要写这本书,下面作为一个大模型从业者的视角来看,写这本的充分和必要性。
在国内的大模型元年——2023年,我们就定下选题基调,并于23年底正式开始写作,其首要目标就是提供一个基础知识、细节原理和宝贵经验相结合的大模型技术宝典,从而让人人都能深入了解和学习大模型的基础原理,无论对于领域相关人士查找和深入理解相关知识,还是对于领域外人士快速了解大模型的原理,都是大有帮助的。
老粉都知道,我之前在知乎上写过很多深度学习的trick,也就是前大模型时代自然语言处理研发基础知识和进阶技巧。
大模型引领技术革新的早期,我也投身于大模型研发工作,追赶技术潮流。由于大语言模型这一领域人才众多,不断有非常强力的新鲜血液加入,相关的研究成果也日新月异。
难得的是,在这一年多的时间里,我们持续跟进业界的前沿进展,包括最新的DeepSeek R1相关的内容都有涵盖,写书过程中,将个人的研发经验、前沿论文与开源社区认知做到了有机结合,最终写成这样一本高质量、内容涵盖大模型全流程技术基础的书籍。
形式上,我们采用了面向大模型工程师求职者经常遇到的近百道面试题的形式组织全书,行文方面考虑了来自不同背景读者的知识基础,图文并茂,细节翔实,真正考虑到了读者可能提出的问题,并在重难点前后提供了详细的铺垫与解释。
可以给大家看一些部分内容,诚意满满。
大模型训练中各种并行方式。
FlashAttention,io优化的高效Attention。
vllm的核心创新之一,PagedAttention原理。
还有些很好玩的题目,为什么大模型训练中都不用Dropout了?
等等很多~!
本书有幸得到了从事不同方向的众多资深人士和业内多位专家朋友的联袂推荐,他们当中有学术界德高望重的ACL Fellow,有热衷于开源工具建设的核心贡献人如OpenRLHF和LLamaFactory作者,有强化学习时代的畅销书“花书”作者,有大模型infra领域的专家,有坚持原创、热衷于技术“图解”的布道者,也有许多致力于知识分享的公众号运营者。在仔细阅读本书之后,他们分别从各自的专业角度提出建议,并进一步提升了本书的综合质量和严谨性。作为一本涵盖大模型的基础原理、训练调优和实践应用等各个方面知识点的书籍,本书作者在写作时着重考虑读者的接受程度,有侧重点地深挖原理,并认真请教专家的意见,力求将每一位读者带入大模型的知识宝库。
希望通过阅读这本书,对大模型感兴趣的新人能够打好基础、助力快速上手,而大模型从业者中的每一环都能够温故而知新,大家携手共进,促进国产大模型的进一步蓬勃发展。
欢迎扫下面的二维码支持一下!
另外,公众号粉丝送3本签名版,可以点击下面的链接抽奖!