最近,神秘大佬开源一个框架entropix, 2周不到收获2.4k star。
Entropix的核心思想是通过量化模型的不确定性,来做出更多的“思考”,从而获得更好的效果。
当大模型在预测下一个词时,模型会为每个词分配一个可能的概率。如果模型特别笃定的那个token的概率都很低,也就是不确定性很高的时候,熵越高。
很多时候,想减少模型的幻觉时,可能会将模型的采样超参数如temperature设为 0。但是这样做并不一定能提高模型不产生幻觉输出的概率,只是迫使它对相对于其他单词而言的一个单词赋予更高的概率。
但是在 Entropix 和之前google的内置cot研究 验证了,事实恰恰相反,采用贪婪解码,反而可能会让结果变得更坏。
google的研究,前不久发的推文:cot-decoding,谷歌把o1的底裤都开源了
那如何衡量结果不确定性呢?在这个google的研究中使用的是top1和top2的token概率的差值。在Entropix中用到的是entropy和varentropy,varentropy是衡量entropy的方差的,提供了一个关于跨不同token不确定性的度量。
低varentropy意味着模型的不确定性在token间是恒定的,高则意味着token间不确定性很大。
Entropix 方法中的采样过程如下,核心思想是根据模型的不确定性调整其选择策略:
- 当模型有信心(低entropy和低varentropy)时,它就会按常规进行。
- 当模型不确定(高entropy和/或高varentropy)时,它会探索替代标记或推理路径。
这种自适应方法是在模拟思维链过程,当模型不确定时,它会“更努力的思考”,从而可能产生更准确连贯的输出。