心法利器[148] | 如何面对算法工作里的脏活

大模型向量数据库算法

心法利器

本栏目主要和大家一起讨论近期自己学习的心得和体会。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有

2024年新的文章合集已经发布,获取方式看这里:再添近20万字-CS的陋室2024年文章合集更新,更有历史文章合集,欢迎下载。

往期回顾

今天来和大家聊一下,我们该如何面对日常工作中的脏活。

我们理解的脏活

毫无疑问,日常工作中,我们总会遇到一些我们不喜欢的活,数据清洗标注、特征处理、各种业务规则调整、调参、工程开发、模型部署、配置修改等,都会是我们日常非常不喜欢的工作,我们更偏爱那些模型调优、创新而且很快有效果反馈的工作,人之常情。

但是,我们却很难避开这些工作,甚至可能占比不低,充斥着我们的整个工作流程中。

我这里给出几个方案。

  • 调整心态,理解价值。
  • 提升效率,降低占比。
  • 主动沟通,寻求合作。
  • 设定边界,避免消耗。

解决方案

调整心态,理解价值

第一点需要明白的是,脏活是任何工作中都会存在的,我们需要摆正心态,要完成一个算法工作,这里绝大部分的脏活都是必经之路。

举个例子,数据清洗,有经验的伙伴都知道,只有高质量的数据打底,模型才有可能有个不错的效果,这是必要条件,所以清洗和标注,很有意义,尽管难受,我们耐着性子做,仍旧会得到不错的结果,相反,如果数据的质量不行,粗制滥造还有一堆错误的数据,那在模型层面费多大劲,都得不到好的效果,越是对现实场景有足够的了解,越会发现,数据的问题才是制约模型触摸上限的短板。

再举个例子。工程开发,工程开发可以说是算法落地的“最后5公里”,相信对算法而言,工程工作是舒适区以外了,所以干起来都不会觉得很舒服。在很多情况,算法的工作很复杂,变化也很琐碎,专职的工程是很难深度参与的,所以这些事就是得自己做,我们要亲自把自己做的模型送上线,并不能由他人代劳。这是有价值,也有意义的。

因此,我们核心需要关心的是,理解这个事的价值,以完成任务为目的去做,明确事情的意义,你就会有动力去完成。

提升效率,降低占比

我们要有个意识,对于高度重复,或者比较简单的任务,要学会交给工具。我来举几个例子。

  • 觉得标注数据困难,我们可以把标注任务交给大模型,通过prompt的方式来给标注结果打分,在确保和人工一致率的前提下,就可以开整了。
  • 模型的部署是统一而且带自动化的,我们就可以提前准备脚本,只需要修改配置,就能部署不同的模型,此次都写还担心出错,那肯定很折磨。

把人力释放出来,把简单的活交给机器干,构造模式,降低费心工作的占比,尽可能都自动化,自然就可以从脏活中释放出来了。

某种程度,这也是一种成长,一件重复的事,你能比上次做的更快更好更轻松,那就是提升。

主动沟通,寻求合作

继续提升效率的思想,除了交给机器干,还可以交给专业的人干,例如和其他团队或者人合作,看有没有已有的东西,或者正好要做,那就可以分担,不要都闷在手里。

举个例子,例如工程化这个事,如果已经有工程同事或者其他做算法的前辈,已经搭建好,那就可以拿来做,或者学习一下自己弄,也比自己探索快很多。

设定边界,避免消耗

我们可以干脏活,但不能只干脏活,众所周知脏活不仅干起来难受,收益也不见得很多,天天标数据成长和成果肯定都受限制。

  • 我们可以通过主动和领导、前辈沟通,了解具体边界,还是要学会拒绝。
  • 定时复盘,了解脏活出现的原因,是否有意义,能不能简化,树立起这个意识。
  • 设置核心时间。一个自己主导,不被入侵的时间,能做自己想做的事,看论文、做实验等都行,避免被脏活侵扰。

小结

上面的方法说了很多,这里有个一直都绕不开的点——主动。我们不能只是被动的接受并做脏活,而是需要有意识地思考,有意识地想办法解决,并主动执行,而不能被需求,被活牵着鼻子走,事情便可以朝着自己喜欢、舒服的方向发展了。

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论