一份来自白玉京同学的大厂-强化学习-面试经验,已上岸蚂蚁金服

技术

picture.image

前言

一直都是机器学习、数据挖掘的算法面经,本期为大家带来“白玉京”同学的强化学习面经分享,目前“白玉京”同学已经收获了蚂蚁金服的强化学习方向offer,希望面经对大家能有帮助,希望能够帮助到想要在DRL上找工作的各位同学。

picture.image

介绍

岗位 :部门蚂蚁金服用户增长算法

关于部门

  1. 驱动战略级用户增长和营销业务。我们负责支付宝用户增长以及数字营销算法,通过AI驱动的“增长黑客”支撑蚂蚁亿级用户/商家,提升数字生活服务市场份额。建立公司级中台能力,支持蚂蚁金服双十一、双十二以及新春活动等关键场景。持续深耕大规模机器学习、推荐、ROI优化等算法方向,打造Techfin技术先锋。
  2. “简单、开放、分享”的技术文化氛围。干得了亿级项目,写得了开源,发得了顶会论文。我们有MIT TR35、ACM亚洲金牌、硅谷海龟、阿里星、阿里天池冠军,也有蚂蚁/阿里10年+老兵手把手经验传承。
  3. 创造公司级价值,实战输出技术干货。在深度学习、强化学习、图学习、迁移学习等多个方向持续创新,团队内部同学累计在ACL、NIPS、AAAI、IJCAI、CIKM等国际顶会合计发表过十几篇文章。在蚂蚁未来的业务赋能及整体底盘升级项目上,强势出道。

岗位介绍

岗位名称:算法实习生 面向人群:2022届毕业生(毕业时间:2021年11月-2022年10月) 岗位要求

  1. 本科及以上学历,计算机、数学、电子工程、通信、人工智能等相关专业;
  2. 熟悉常用的机器学习算法,对算法原理及应用有较深入的理解,具备较好的工程实现能力,精通C/C++、Java、Python等其中至少一门编程语言
  3. 有数理分析方面良好的素养以及数理统计基础,有良好的数据敏感性和较强的逻辑分析能力,有良好的团队合作精神
  4. 在机器学习、数据挖掘等相关领域顶级会议或期刊上发表论文者优先

picture.image

白玉京的自我介绍

去年暑假有一份DRL实习,做生产调度相关的。本科有个数模国一,CV比赛算kaggle银牌,另一个信号比赛,前4%。毕业论文方向为GAN相关的,DRL方面知识完全靠自学,自己找论文看,以及网上找代码复现啥的。

picture.image

面试:一面

  1. 自我介绍
  2. DRL哪方面比较擅长:

model-free方面的

  1. Off-policy 和 on-policy 能直观讲述区别吗?

On-policy 就是自己玩游戏,off-policy看别人录像学习玩游戏。

  1. DQN和变种了解吗?

介绍DoubleDQN,DuelingDQN,N-step DQN,NoisyNetworks,Prioritized Experience Replay, C51,Rainbow各自的动机,想解决什么问题以及手段.

  1. DQN 是off-policy还是on-policy的?

One-step的DQN为off-policy ,介绍了一下虽然没有重要性采样,但依旧是off-policy的原因.因为behavior-policy是ξ-greedy ,目标策略是greedy的 .然后自己补充了一下multi-step的就需要IS了。然后自己补充了一下DPG做off-policy也是不需要重要性采样的,原因和DQN类似。

  1. TRPO 和PPO动机是什么?

两个都是on-policy的,通过采取最大可能的步骤来更新策略,以提高性能,同时满足新策略和旧策略允许的接近程度的特殊限制,防止步子太大,导致崩溃。然后自己补充了TRPO的三个技巧是啥,以及PPO实现有两种。

  1. DDPG你了解吗?

Off-policy的,就是DPG和DQN的结合,然后保守策略迭代,滑动平均更新。然后自己又补充了一下D4PG比DDPG的4点改进(同时和面试官说了,涉及分布式计算的,比如DDPG 这种都没有跑过模型 只是看过论文)。

  1. 模型探索不足有哪些方法提升?
  1. ξ-greedy 其中ξ稍微大一点

  2. NoisyNetworks中两种方法 :给动作加噪声 给网络参数加噪声

  3. A2C中采用的策略熵

  4. SAC中修改Q(然后自己又补充了一下SAC 中的修改和A2C加策略熵为啥有区别 以及SAC后续一篇工作怎么去调制超参alpha)。

  1. 接着问我他们一个实际碰见的问题

几分钟背景介绍,然后本质是action-state 部分pairs很少出现,但实际影响挺大的。当时第一个反应就是重要性采样去,然后说了几种重要性采样的方法。然后叫我再考虑一下,然后自己当时脑袋有点急,连MCTS,UCT,UCB都说上了。最后自己说了一下ACER论文中一个方法,他问什么是AECR,回答就是 actor-critic with experience replay然后说了一下论文怎么做重要性采样的 。然后他说了他们团队是怎么解决的。

  1. 排序算法知道哪些?

冒泡 选择 插入 快排 堆排序 归并

  1. 你说一下他们各自复杂度多少

平均情况 冒泡 选择 o(n^2) 其他几个都是o(nlogn) 问我快排最坏多少 o(n^2)

  1. 第k大的数

堆排序

  1. 问我堆排序细节,堆是怎样一个数据结构 ,各个操作复杂度
  2. 介绍了一下完全二叉树,大顶堆,小顶堆。只记得建堆o(n) ,更改重建,我瞎猜的一个o(nlogn) 运气好答对了。

注:然后面试官觉得还行 RL基础挺好的,数据结构也感觉可以,然后问我多久实习以及base是在杭州。

picture.image

面试:二面

  1. Offline RL是什么

RL交互成本太高了,完全离线去学

  1. 问我简历上的两个比赛(CV 和信号的)和之前的RL实习做了什么, 问我怎么不打RL的比赛 我说没算力,之后会考虑打RL比赛。让我介绍其中一个比赛,花了十几分钟,然后问获奖情况,中间就问问我们怎么想的,看论文复现遇到哪些问题(都是偏CV的,不做详细介绍了)。
  2. 甲乙两个踢球,甲1000次中100次 ,乙10次中1次,你会怎么安排上场?

我说数据上体现了偏差和方差,然后介绍一下数据特点。最后安排方案是 :如果我们这支球队实力大于等于对面,我会用甲,稳定。如果实力弱于对面,那我会用乙,乙方差大,可能创造奇迹。

  1. 如何判断甲乙哪个水平高

假设检验(他说完题,我就秒回答,可能这个面试官比较满意吧)

  1. 随机扔骰子 ,扔中多少点就走多少步 问会走过2020的概率多少

动态规划,2020由之前6种可能来,骰子点数为1-6 然后把这6个概率求和除6就行。然后问我能算出来嘛 。回答步长很长时,概率收敛到1/6 ,但2020 应该还是需要编程计算或者计算前几个找找规律啥的(当时没细想太多这个规律)。

picture.image

面试:三面(hr面)

  1. 约好的时间hr慢了15分钟左右,当时自己一个开个视频等,当时心里还想是不是hr故意让你等15分钟,看看你耐心......
  2. 学习动力
  3. 你时间安排
  4. 简历上比赛时间
  5. 如何提升代码能力的
  6. 复现论文,打比赛,之前的实习经历
  7. 打比赛收获最大的是什么

团队合作很重要,比单打独斗强太多了

  1. 身边你觉得最成功的人,为什么你觉得别人算成功

我舍友(asir),有一份好感情,以及一份好实习。曾经我也有一份好感情,然后hr就八卦起来了,我就说前女友是同一个导师的学妹,然后聊了一下感情啥的......然后问我之前实习为什么辞了,我回答想读博了,为什么没继续读?成绩拉胯,硕转博没转成功。

  1. 能说一个兴趣爱好,就是你从一开始不会,到后面精通的?

德州扑克,坚持复盘,学习,长期练习,多看看别人教学视频,学习GTO,本质是一个数学游戏,和hr扯到了如何面对bad bet。Hr问我学到了啥,回答,对情绪的控制,以及对非完全信息博弈的理解,感情也是非完全信息博弈,再看之前自己的操作,属实EGO,一点也不GTO。

总结

整体而言,技术面的时候,回答都比较快,有几个答案自己也拿不准,但就是没怎么想,感觉也想不出来。然后问道DRL相关的,自己除了回答面试官问题外,总喜欢去补充一点相关的东西。想要交流强化学习经验的同学,可加添加“白玉京”的微信:bsl2429339093。

picture.image

感谢“白玉京”带来的强化学习面试经验分享,也希望能够帮助到正在找实习的同学。欢迎大家关注我们的公众号:ChallengeHub,我们会在后续的文章中邀请更多“上岸”大佬,为大家提供更多不同领域的面试经验分享。

往期推荐:

一番星的大厂面试经验分享汇总

一番星汇总的大厂面试经验分享第二弹

wwwHe同学面试经验分享(下)

wwwHe同学面试经验分享(上)

picture.image

求分享

picture.image

求收藏

picture.image

求点击

picture.image

求在看

扫描下方的二维码进入ChallengeHub粉丝群,也可以添加管理员微信拉您入群。

picture.image

 与爱好AI的朋友们共同成长

picture.image

ChallengeHub粉丝群

picture.image

管理员微信

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生可观测性技术的落地实践
云原生技术和理念在近几年成为了备受关注的话题。应用通过云原生改造,变得更动态、弹性,可以更好地利用云的弹性能力。但是动态、弹性的环境也给应用以及基础设施的观测带来了更大的挑战。本次分享主要介绍了云原生社区中可观测性相关的技术和工具,以及如何使用这些工具来完成对云原生环境的观测。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论