prompt修改几个字,将claude 2.1的长上下文评测得分提高70%

火山方舟向量数据库大模型

“ 全网都是google gemini的消息;另外一部分热点就是不使用transformers结构的模型Mamba;最后一部分热点就是苹果ml研究团队开源的专门针对苹果芯片的mlx框架,昨天还提供了一个转的llama。地址都分别放下面,提供给感兴趣的小伙伴;


        
          
Gemini:  
blog: https://blog.google/technology/ai/google-gemini-ai/  
Tech report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf  
  
Mamba:  
https://github.com/state-spaces/mamba  
https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf  
https://huggingface.co/havenhq/mamba-chat  
  
MLX:  
https://github.com/ml-explore/mlx  
https://huggingface.co/mlx-llama/Llama-2-7b-chat-mlx  

      

“ 今天的推文是关于claude今天的博客


        
          
https://www.anthropic.com/index/claude-2-1-prompting  

      

这个博客有个背景,X上一个老哥分别对GPT4-turbo和claude 2.1的长上下文知识检索能力的测试。


        
          
https://twitter.com/GregKamradt  

      

第一个是claude的测试: 【绿色越多越好,红色越少越好】picture.image


        
          
发现:  
* 在20万个token(接近470页)的情况下,Claude 2.1能够在某些文档深度上回忆事实  
* 文档的顶部和底部位置的事实几乎完全准确地被回忆起来  
* 文档顶部位置的事实的回忆性能不如底部(类似于GPT-4)  
* 从大约90,000个token开始,文档底部的回忆性能开始变得越来越差  
* 低上下文长度的性能不能保证  
  
过程概述:  
* 使用Paul Graham的文章作为“背景”标记。有218篇文章,很容易达到20万个标记(必要时重复使用文章)  
* 在文档的不同深度处随机放置一个陈述。使用的事实是:“在旧金山做的最好的事情就是在一个阳光明媚的日子里吃个三明治,坐在多洛雷斯公园。”  
* 只使用提供的上下文要求Claude 2.1回答这个问题  
* 使用@LangChainAI评估Claude 2.1的答案与GPT-4进行比较  
* 在0%(文档顶部)和100%(文档底部)之间进行35次文档深度和35次上下文长度(1K标记> 20万个标记)的重复操作(sigmoid分布)  
  
备注:  
* 回忆量很重要-当模型任务涉及多个事实检索或进行合成推理步骤时,性能可能会下降  
* 更改提示、问题、待检索事实和背景上下文将影响性能  
* Anthropic团队联系并提供了重复此测试所需的信用。他们还提供了最大化性能的提示建议。重要的是澄清,他们的参与仅限于后勤支持。结果的完整性和独立性得到了保持,确保发现反映了我的无偏评估,并不受他们支持的影响。  
* 此测试花费了约1016美元用于API调用(每百万个token8美元)  

      

第二个是最新的GPT4-128k的测试 【绿色越多越好,红色越少越好】picture.image


        
          
发现:  
* GPT-4的召回表现在73K个标记以上开始下降  
* 当要召回的事实放置在文档深度的7%-50%之间时,低召回表现与之相关  
* 如果事实在文档开头,无论上下文长度如何,都会被召回  
  
SO:  
* 没有保证-不能保证检索到您的事实。不要将它们的假设嵌入到您的应用程序中  
* 更少的上下文=更高的准确性-这是众所周知的,但是如果可能,减少发送到GPT-4的上下文量以增加其召回能力  
* 位置很重要-也是众所周知的,但是在文档的开头和第二半部分放置事实似乎更容易召回  
  
过程概述:  
同上  
  
笔记:  
* 尽管我认为这将是方向性正确的,但需要进行更多测试才能更好地了解GPT4的能力  
* 更换提示会有不同的结果  
* 进行了大量上下文长度的2次测试以揭示更多性能  
* 此测试花费了约200美元进行API调用(128K输入标记的单个调用成本为1.28美元)  
* 感谢@charles_irl提供了支持,并提供了出色的下一步措施。  

      

接下来是claude的回应:

他们配的首图如下,主要强调的是Claude 2.1可以很好地记住其200k的上下文窗口中的信息,并给出具体的原因picture.image

他们发现prompt对模型影响很大,通过简单的修改prompt,通过在回答开头添加句子“这是上下文中最相关的句子:”,相同的评估中取得了明显更好的结果。这足以将claude 2.1的得分从27%提高到原始评估的98%。

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论