tomsheep
tomsheep
AI深度学习人工智能与算法
原问题:「在深度学习中,RELU作为一种激活函数,只是把输入的负数输出为0,输入的正数还是不变,这怎么看都是一种毫无意义的信息损失,为什么却在实践中广受欢迎?」这又是一个很基础、但很有意义的问题。如果你扎扎实实把这个问题想清楚,对理解深度神经网络会非常有帮助。首先,这肯定不是「一种毫无意义的信息损失」,它引入了「非线性」,从而让一个拥有单层足够多个隐藏节点的浅层网络,就能够理论上拟合任意一个函数。
238
0
0
0
AI人工智能与算法大模型算法
这个问题还挺典型的,感觉很多人学到这里都会有这个疑问。RM 和 Critic 的功能看上去有点像,都是对「好坏」进行评估,但实际上它们各有各的用处。在你问题中(特指的 LLM 领域的 PPO 算法),你指出它们评价的「粒度」不同,但这不够本质。就像你说的,RM 也可以对单步进行奖励,Critic 也完全可以对完整 response 进行评价。实际上,这个问题要回归到一个更通用的 RL 框架中去理解
11
0
0
0