internlm2大模型开源：7B、20B 开源领先水平 - 文章 - 开发者社区


        
          
https://github.com/InternLM/InternLM/blob/main/README_zh-CN.md  
https://huggingface.co/internlm

picture.image

有效支持20万字超长上下文：模型在 20 万字长输入中几乎完美地实现长文“大海捞针”，而且在 LongBench 和 L-Eval 等长文任务中的表现也达到开源模型中的领先水平。可以通过 LMDeploy 尝试20万字超长上下文推理。
综合性能全面提升：各能力维度相比上一代模型全面进步，在推理、数学、代码、对话体验、指令遵循和创意写作等方面的能力提升尤为显著，综合性能达到同量级开源模型的领先水平，在重点能力评测上 InternLM2-Chat-20B 能比肩甚至超越 ChatGPT （GPT-3.5）。
代码解释器与数据分析：在配合代码解释器（code-interpreter）的条件下，InternLM2-Chat-20B 在 GSM8K 和 MATH 上可以达到和 GPT-4 相仿的水平。基于在数理和工具方面强大的基础能力，InternLM2-Chat 提供了实用的数据分析能力。
工具调用能力整体升级：基于更强和更具有泛化性的指令理解、工具筛选与结果反思等能力，新版模型可以更可靠地支持复杂智能体的搭建，支持对工具进行有效的多轮调用，完成较复杂的任务。可以查看更多样例。

性能

客观评测

Dataset	Baichuan2-7B-Chat	Mistral-7B-Instruct-v0.2	Qwen-7B-Chat	InternLM2-Chat-7B	ChatGLM3-6B	Baichuan2-13B-Chat	Mixtral-8x7B-Instruct-v0.1	Qwen-14B-Chat	InternLM2-Chat-20B
MMLU	50.1	59.2	57.1	63.7	58.0	56.6	70.3	66.7	65.1
CMMLU	53.4	42.0	57.9	63.0	57.8	54.8	50.6	68.1	65.1
AGIEval	35.3	34.5	39.7	47.2	44.2	40.0	41.7	46.5	50.3
C-Eval	53.9	42.4	59.8	60.8	59.1	56.3	54.0	71.5	63.0
TrivialQA	37.6	35.0	46.1	50.8	38.1	40.3	57.7	54.5	53.9
NaturalQuestions	12.8	8.1	18.6	24.1	14.0	12.7	22.5	22.9	25.9
C3	78.5	66.9	84.4	91.5	79.3	84.4	82.1	91.5	93.5
CMRC	8.1	5.6	14.6	63.8	43.2	27.8	5.3	13.0	50.4
WinoGrande	49.9	50.8	54.2	65.8	61.7	50.9	60.9	55.7	74.8
BBH	35.9	46.5	45.5	61.2	56.0	42.5	57.3	55.8	68.3
GSM-8K	32.4	48.3	44.1	70.7	53.8	56.0	71.7	57.7	79.6
Math	5.7	8.6	12.0	23.0	20.4	4.3	22.5	27.6	31.9
HumanEval	17.7	35.4	36.0	59.8	52.4	19.5	37.8	40.9	67.1
MBPP	37.7	25.7	33.9	51.4	55.6	40.9	40.9	30.0	65.8

主观评测

我们评测了InternLM2-Chat在AlpacaEval 2.0 上的性能，结果表明InternLM2-Chat在AlpacaEval上已经超过了 Claude 2, GPT-4(0613) 和 Gemini Pro.