prompt修改几个字，将claude 2.1的长上下文评测得分提高70% - 文章 - 开发者社区

“ 全网都是google gemini的消息；另外一部分热点就是不使用transformers结构的模型Mamba；最后一部分热点就是苹果ml研究团队开源的专门针对苹果芯片的mlx框架，昨天还提供了一个转的llama。地址都分别放下面，提供给感兴趣的小伙伴;


        
          
Gemini:  
blog: https://blog.google/technology/ai/google-gemini-ai/  
Tech report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf  
  
Mamba:  
https://github.com/state-spaces/mamba  
https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf  
https://huggingface.co/havenhq/mamba-chat  
  
MLX:  
https://github.com/ml-explore/mlx  
https://huggingface.co/mlx-llama/Llama-2-7b-chat-mlx

“ 今天的推文是关于claude今天的博客


        
          
https://www.anthropic.com/index/claude-2-1-prompting

这个博客有个背景，X上一个老哥分别对GPT4-turbo和claude 2.1的长上下文知识检索能力的测试。


        
          
https://twitter.com/GregKamradt

第一个是claude的测试：【绿色越多越好，红色越少越好】 picture.image


        
          
发现：  
* 在20万个token（接近470页）的情况下，Claude 2.1能够在某些文档深度上回忆事实  
* 文档的顶部和底部位置的事实几乎完全准确地被回忆起来  
* 文档顶部位置的事实的回忆性能不如底部（类似于GPT-4）  
* 从大约90,000个token开始，文档底部的回忆性能开始变得越来越差  
* 低上下文长度的性能不能保证  
  
过程概述：  
* 使用Paul Graham的文章作为“背景”标记。有218篇文章，很容易达到20万个标记（必要时重复使用文章）  
* 在文档的不同深度处随机放置一个陈述。使用的事实是：“在旧金山做的最好的事情就是在一个阳光明媚的日子里吃个三明治，坐在多洛雷斯公园。”  
* 只使用提供的上下文要求Claude 2.1回答这个问题  
* 使用@LangChainAI评估Claude 2.1的答案与GPT-4进行比较  
* 在0％（文档顶部）和100％（文档底部）之间进行35次文档深度和35次上下文长度（1K标记> 20万个标记）的重复操作（sigmoid分布）  
  
备注：  
* 回忆量很重要-当模型任务涉及多个事实检索或进行合成推理步骤时，性能可能会下降  
* 更改提示、问题、待检索事实和背景上下文将影响性能  
* Anthropic团队联系并提供了重复此测试所需的信用。他们还提供了最大化性能的提示建议。重要的是澄清，他们的参与仅限于后勤支持。结果的完整性和独立性得到了保持，确保发现反映了我的无偏评估，并不受他们支持的影响。  
* 此测试花费了约1016美元用于API调用（每百万个token8美元）

第二个是最新的GPT4-128k的测试【绿色越多越好，红色越少越好】 picture.image


        
          
发现：  
* GPT-4的召回表现在73K个标记以上开始下降  
* 当要召回的事实放置在文档深度的7％-50％之间时，低召回表现与之相关  
* 如果事实在文档开头，无论上下文长度如何，都会被召回  
  
SO：  
* 没有保证-不能保证检索到您的事实。不要将它们的假设嵌入到您的应用程序中  
* 更少的上下文=更高的准确性-这是众所周知的，但是如果可能，减少发送到GPT-4的上下文量以增加其召回能力  
* 位置很重要-也是众所周知的，但是在文档的开头和第二半部分放置事实似乎更容易召回  
  
过程概述：  
同上  
  
笔记：  
* 尽管我认为这将是方向性正确的，但需要进行更多测试才能更好地了解GPT4的能力  
* 更换提示会有不同的结果  
* 进行了大量上下文长度的2次测试以揭示更多性能  
* 此测试花费了约200美元进行API调用（128K输入标记的单个调用成本为1.28美元）  
* 感谢@charles_irl提供了支持，并提供了出色的下一步措施。

接下来是claude的回应：

他们配的首图如下，主要强调的是Claude 2.1可以很好地记住其200k的上下文窗口中的信息，并给出具体的原因 picture.image

他们发现prompt对模型影响很大，通过简单的修改prompt，通过在回答开头添加句子“这是上下文中最相关的句子：”，相同的评估中取得了明显更好的结果。这足以将claude 2.1的得分从27％提高到原始评估的98％。

picture.image