爆火的Reflection 70B，了解背后的微调技术 - 文章 - 开发者社区

这几天Reflection-70B的瓜应该都吃过了？不过感觉还没完，这个模型发布那天，发了一个资讯推文，后来八卦懒得发了，可以去三大顶会号吃瓜。

今天Apple的5分钟短片报道了Apple Intelligence的更新，苹果产品还是玩的6，相机上融合了google搜索和openai的chat，并且后置了这些三方服务的顺序。感兴趣的可以看视频https://www.youtube.com/watch?v=uarNiSl\_uh4

今天主要的内容还是论文笔记分享，Reflection的原论文，论文标题：Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning; 代码：https://github.com/tianyi-lab/Reflection\_Tuning

大模型SFT阶段，训练集中的低质量数据通常不利于对齐效果，导致LLM输出不一致甚至误导。Reflection tunning通过LLMs的self-improving和judge来解决这个问题。

picture.image

分2步，第一步对instruction进行reflection，对已有的instruction-response进行反思，得出质量更高的instruction-response picture.image


        
          
criteria = "我们希望你回答几个关于给定指令质量的问题。 \n" +  
"1. 为什么这个指令不好？首先根据话题的复杂性、所需细节的程度、所需知识、指令的模糊性以及涉及的逻辑推理或问题解决来分析这个指令。 \n" +  
"然后分析为什么这个答案对给定指令不好？根据有用性、相关性、准确性和细节程度来分析。 \n" +  
"最后分析为什么这个糟糕的指令导致了一个糟糕的答案。 " +  
"2. 根据你提供的理由，生成一个新的、完整的指令，这个指令应当复杂且难以直接回答。 " +  
"确保新指令与原始指令相关但独立，即使不知道原始指令也能回答这个新指令，将新指令放在 [新指令] 你的指令 [结束] 的格式中。 " +  
"3. 尽可能详细地回答新生成的指令，格式为 [新答案] 你的答案 [结束] \n"

经过第一步，虽然指令和响应都被修改了，但是修改的响应并不一定是指令的最优的结果。因此对响应在进行一步reflection的过程。模式跟上面一样的


        
          
criteria = "我们希望你回答几个关于给定指令的答案质量的问题。 \n" + \  
           "1. 为什么这个答案对给定指令不好？根据有用性、相关性、准确性和细节程度来分析。 \n" + \  
           "2. 根据你提供的理由，生成一个更好的答案，新且完整，尽可能详细，格式为 [更好答案] 你的答案 [结束] \n"

评估一下获得了比较好的效果。 picture.image