We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
开发者计划
团队号
镜像站
发布
tomsheep
文章
专栏
问答
tomsheep
RELU 只是把负数变成 0,为什么可以作为激活函数?
AI
深度学习
人工智能与算法
原问题:「在深度学习中,RELU作为一种激活函数,只是把输入的负数输出为0,输入的正数还是不变,这怎么看都是一种毫无意义的信息损失,为什么却在实践中广受欢迎?」这又是一个很基础、但很有意义的问题。如果你扎扎实实把这个问题想清楚,对理解深度神经网络会非常有帮助。首先,这肯定不是「一种毫无意义的信息损失」,它引入了「非线性」,从而让一个拥有单层足够多个隐藏节点的浅层网络,就能够理论上拟合任意一个函数。
238
0
0
0
tomsheep
PPO 有了 Reward Model 为何还要有 Critic model?
AI
人工智能与算法
大模型
算法
这个问题还挺典型的,感觉很多人学到这里都会有这个疑问。RM 和 Critic 的功能看上去有点像,都是对「好坏」进行评估,但实际上它们各有各的用处。在你问题中(特指的 LLM 领域的 PPO 算法),你指出它们评价的「粒度」不同,但这不够本质。就像你说的,RM 也可以对单步进行奖励,Critic 也完全可以对完整 response 进行评价。实际上,这个问题要回归到一个更通用的 RL 框架中去理解
11
0
0
0