internlm2大模型开源:7B、20B 开源领先水平

智能体验与创作增长营销数据库管理服务

        
          
https://github.com/InternLM/InternLM/blob/main/README_zh-CN.md  
https://huggingface.co/internlm  

      

picture.image

  • 有效支持20万字超长上下文:模型在 20 万字长输入中几乎完美地实现长文“大海捞针”,而且在 LongBench 和 L-Eval 等长文任务中的表现也达到开源模型中的领先水平。 可以通过 LMDeploy 尝试20万字超长上下文推理。
  • 综合性能全面提升:各能力维度相比上一代模型全面进步,在推理、数学、代码、对话体验、指令遵循和创意写作等方面的能力提升尤为显著,综合性能达到同量级开源模型的领先水平,在重点能力评测上 InternLM2-Chat-20B 能比肩甚至超越 ChatGPT (GPT-3.5)。
  • 代码解释器与数据分析:在配合代码解释器(code-interpreter)的条件下,InternLM2-Chat-20B 在 GSM8K 和 MATH 上可以达到和 GPT-4 相仿的水平。基于在数理和工具方面强大的基础能力,InternLM2-Chat 提供了实用的数据分析能力。
  • 工具调用能力整体升级:基于更强和更具有泛化性的指令理解、工具筛选与结果反思等能力,新版模型可以更可靠地支持复杂智能体的搭建,支持对工具进行有效的多轮调用,完成较复杂的任务。可以查看更多样例。

性能

客观评测

DatasetBaichuan2-7B-ChatMistral-7B-Instruct-v0.2Qwen-7B-ChatInternLM2-Chat-7BChatGLM3-6BBaichuan2-13B-ChatMixtral-8x7B-Instruct-v0.1Qwen-14B-ChatInternLM2-Chat-20B
MMLU50.159.257.163.758.056.670.366.765.1
CMMLU53.442.057.963.057.854.850.668.165.1
AGIEval35.334.539.747.244.240.041.746.550.3
C-Eval53.942.459.860.859.156.354.071.563.0
TrivialQA37.635.046.150.838.140.357.754.553.9
NaturalQuestions12.88.118.624.114.012.722.522.925.9
C378.566.984.491.579.384.482.191.593.5
CMRC8.15.614.663.843.227.85.313.050.4
WinoGrande49.950.854.265.861.750.960.955.774.8
BBH35.946.545.561.256.042.557.355.868.3
GSM-8K32.448.344.170.753.856.071.757.779.6
Math5.78.612.023.020.44.322.527.631.9
HumanEval17.735.436.059.852.419.537.840.967.1
MBPP37.725.733.951.455.640.940.930.065.8
  • MBPP性能使用的是MBPP(Sanitized)版本数据集

主观评测

  • 我们评测了InternLM2-Chat在AlpacaEval 2.0 上的性能,结果表明InternLM2-Chat在AlpacaEval上已经超过了 Claude 2, GPT-4(0613) 和 Gemini Pro.
Model NameWin RateLength
GPT-4 Turbo50.00%2049
GPT-423.58%1365
GPT-4 031422.07%1371
Mistral Medium21.86%1500
XwinLM 70b V0.121.81%1775
InternLM2 Chat 20B21.75%2373
Mixtral 8x7B v0.118.26%1465
Claude 217.19%1069
Gemini Pro16.85%1315
GPT-4 061315.76%1140
Claude 2.115.73%1096
  • 性能数据截止2024-01-17

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论