这几天Reflection-70B的瓜应该都吃过了?不过感觉还没完,这个模型发布那天,发了一个资讯推文,后来八卦懒得发了,可以去三大顶会号吃瓜。
今天Apple的5分钟短片报道了Apple Intelligence的更新,苹果产品还是玩的6,相机上融合了google搜索和openai的chat,并且后置了这些三方服务的顺序。感兴趣的可以看视频https://www.youtube.com/watch?v=uarNiSl\_uh4
今天主要的内容还是论文笔记分享,Reflection的原论文,论文标题:Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning; 代码:https://github.com/tianyi-lab/Reflection\_Tuning
大模型SFT阶段,训练集中的低质量数据通常不利于对齐效果,导致LLM输出不一致甚至误导。Reflection tunning通过LLMs的self-improving和judge来解决这个问题。
分2步,第一步对instruction进行reflection,对已有的instruction-response进行反思,得出质量更高的instruction-response
criteria = "我们希望你回答几个关于给定指令质量的问题。 \n" +
"1. 为什么这个指令不好?首先根据话题的复杂性、所需细节的程度、所需知识、指令的模糊性以及涉及的逻辑推理或问题解决来分析这个指令。 \n" +
"然后分析为什么这个答案对给定指令不好?根据有用性、相关性、准确性和细节程度来分析。 \n" +
"最后分析为什么这个糟糕的指令导致了一个糟糕的答案。 " +
"2. 根据你提供的理由,生成一个新的、完整的指令,这个指令应当复杂且难以直接回答。 " +
"确保新指令与原始指令相关但独立,即使不知道原始指令也能回答这个新指令,将新指令放在 [新指令] 你的指令 [结束] 的格式中。 " +
"3. 尽可能详细地回答新生成的指令,格式为 [新答案] 你的答案 [结束] \n"
经过第一步,虽然指令和响应都被修改了,但是修改的响应并不一定是指令的最优的结果。因此对响应在进行一步reflection的过程。模式跟上面一样的
criteria = "我们希望你回答几个关于给定指令的答案质量的问题。 \n" + \
"1. 为什么这个答案对给定指令不好?根据有用性、相关性、准确性和细节程度来分析。 \n" + \
"2. 根据你提供的理由,生成一个更好的答案,新且完整,尽可能详细,格式为 [更好答案] 你的答案 [结束] \n"
评估一下获得了比较好的效果。