tomsheep 的个人主页 - 开发者社区

文档备案控制台登录立即注册

首页文章活动开发者计划镜像站

发布

tomsheep

文章

专栏

问答

tomsheep

RELU 只是把负数变成 0，为什么可以作为激活函数？

AI深度学习人工智能与算法

原问题：「在深度学习中，RELU作为一种激活函数，只是把输入的负数输出为0，输入的正数还是不变，这怎么看都是一种毫无意义的信息损失，为什么却在实践中广受欢迎？」这又是一个很基础、但很有意义的问题。如果你扎扎实实把这个问题想清楚，对理解深度神经网络会非常有帮助。首先，这肯定不是「一种毫无意义的信息损失」，它引入了「非线性」，从而让一个拥有单层足够多个隐藏节点的浅层网络，就能够理论上拟合任意一个函数。

238

tomsheep

PPO 有了 Reward Model 为何还要有 Critic model？

AI人工智能与算法大模型算法

这个问题还挺典型的，感觉很多人学到这里都会有这个疑问。RM 和 Critic 的功能看上去有点像，都是对「好坏」进行评估，但实际上它们各有各的用处。在你问题中（特指的 LLM 领域的 PPO 算法），你指出它们评价的「粒度」不同，但这不够本质。就像你说的，RM 也可以对单步进行奖励，Critic 也完全可以对完整 response 进行评价。实际上，这个问题要回归到一个更通用的 RL 框架中去理解