文档备案控制台登录立即注册
首页
AI 大模型体验中心AI 大模型体验中心AI 大模型体验中心
动手实验室动手实验室动手实验室
Agent 评测集Agent 评测集Agent 评测集
AI 案例广场AI 案例广场AI 案例广场
火山杯大赛学习中心
社区
去发布
首页
AI 大模型体验中心AI 大模型体验中心AI 大模型体验中心
动手实验室动手实验室动手实验室
Agent 评测集Agent 评测集Agent 评测集
AI 案例广场AI 案例广场AI 案例广场
学习中心
社区
tomsheep
tomsheep
文章
专栏
问答
tomsheep
tomsheep
RELU 只是把负数变成 0,为什么可以作为激活函数?
AI深度学习人工智能与算法
原问题:「在深度学习中,RELU作为一种激活函数,只是把输入的负数输出为0,输入的正数还是不变,这怎么看都是一种毫无意义的信息损失,为什么却在实践中广受欢迎?」这又是一个很基础、但很有意义的问题。如果你扎扎实实把这个问题想清楚,对理解深度神经网络会非常有帮助。首先,这肯定不是「一种毫无意义的信息损失」,它引入了「非线性」,从而让一个拥有单层足够多个隐藏节点的浅层网络,就能够理论上拟合任意一个函数。
1502
0
0
0
tomsheep
tomsheep
PPO 有了 Reward Model 为何还要有 Critic model?
AI人工智能与算法大模型算法
这个问题还挺典型的,感觉很多人学到这里都会有这个疑问。RM 和 Critic 的功能看上去有点像,都是对「好坏」进行评估,但实际上它们各有各的用处。在你问题中(特指的 LLM 领域的 PPO 算法),你指出它们评价的「粒度」不同,但这不够本质。就像你说的,RM 也可以对单步进行奖励,Critic 也完全可以对完整 response 进行评价。实际上,这个问题要回归到一个更通用的 RL 框架中去理解
422
0
0
0