大模型强化学习都需要知道什么?

技术

硕士阶段的方向是强化学习,毕业后加入大厂做强化学习在游戏中的应用,已经有两年多了。这两年赶上了大厂很不好的光景, 晋升被卡,涨薪变慢,真的是一言难尽 。也算是openAI给饭吃,最近大火的大模型里用到了强化学习。因此想要尝试跳槽,换一份大模型方向的工作,做RLHF或者LLM-agents。

在boss上挂完简历,发现来聊的hr或者猎头倒是不少,可能是因为学历还有大厂光环暂时还有点作用。可是实际聊下来一圈以后, 发现很多LLM岗位还是需要过往有NLP的经验 ,这个倒也是符合预期。对于阿里系(拆分后各个事业群独立招聘)、 字节、百度等大厂,或者百川智能、360等比较头部有名气的中小公司 ,或许也能给到面试机会,但是在面试过程中一旦涉及到LLM具体的项目经验,像我这种完全空白的人来说只能尴尬地说没做过,背过的一些八股文也只能勉强应付。

面试一圈下来, 拿了百度、美团、滴滴、快手这几家偏业务的算法岗位offer ,但是跟大模型没啥关系,基本上都是各家业务的核心算法岗。感觉他们可能是因为这两年刚毕业一批人,空出一些hc,因为我这种强化学习背景的,只能说是业务算法的一个探索方向,不算是核心解决方案。大模型方向的offer,只拿到两个,打算选择其中一家。虽然现在大环境仍然不算好,跳槽有风险,尤其是创业公司, 但是在大厂里温水煮青蛙也是困境 。搏一搏,单车变摩托。

下面是面试过程中记录的一些 关于大模型、强化学习的问题 ,仅供参考。

  1. PPO算法中使用GAE的好处以及参数γ和λ的作用是什么?
  2. PPO算法和DQN算法的区别是什么?
  3. 有哪些PPO算法的调参经验?
  4. 在线强化学习和离线强化学习在技术和应用场景上有什么区别?
  5. 强化学习和大模型之间的关联是什么?
  6. 如何评估大模型中数据集的质量?
  7. 目前国内一般选择基于哪些基座模型继续训练?
  8. 国内做大模型的主要工作是哪几个部分?
  9. 除了数据之外,还有哪些方向的工作可以进一步优化大模型的效果?
  10. 大语言模型是怎么输出的,观察过输出的概率值吗?
  11. 关于微调的方法有哪些?
  12. 如果让你训练一个模型,基座,数据,finetune的方法怎么选?
  13. 怎么解决大语言模型的幻觉问题,RLHF可以吗?
  14. 是否看好国内做基座模型工作的前景,为什么?
  15. 为什么模型越大,貌似更多地具备AGI的能力?这背后的逻辑是什么?
  16. 介绍下对transformer的了解,网络结构相比于lstm有什么不同?
  17. transformer里用到的正则化方法有哪些?
  18. chatgpt训练过程中,奖励模型有更新吗?
  19. chatgpt强化学习训练阶段还有什么改进的空间和思路吗?
  20. 直接用训练reward model的数据精调模型,而不用强化学习,是否可行?为什么?
  21. 了解bert和gpt网络结构的细节及其差异吗?
  22. 假如reward model不太准,怎么办?
  23. 有做过大模型训练的实践吗,有哪些收获或者感悟?

坦白讲,这些问题对于有过大模型项目经验的人来说应该问题不大, 尤其是有NLP背景的 。但是如果目前工作内容和大模型无关,想要比较好的回答出上述问题还是有难度的。要准备好八股文,要对前沿的方向有了解,而且最好自己跑过 大模型的训练,包括微调和对齐

交流群:点击“联系 作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

如何更高效的学习搜广推?

用大模型LLM进行异构知识融合构建推荐系统

如何更好地继续预训练(Continue PreTraining)

CIKM'23 | 统一的搜索推荐冷启动基础模型

长按关注,更多精彩

点个在看你最好看

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论