文档备案控制台登录立即注册

首页文章活动开发者计划镜像站

发布

InternLM-2.5 (7b)：这款新模型在基准测试中胜过 Qwen-2 和 Llama-3！（邢道荣：吹牛！）

技术

Aitrainee | 公众号：AI进修生

🌟新发布的 InternLM-2.5 7b（书生）具有 1M 代币上下文限制，声称击败了 Qwen-2、Llama-3、Claude、DeepSeek 和其他开源LLMs，本文对其进行测试。

https://huggingface.co/internlm/internlm-xcomposer2d5-7b

Hi，这里是Aitrainee，欢迎阅读本期新文章。

近几天，InternLM 2.5 模型发布了。拥有70亿参数，特别适合实际应用场景。模型声称其推理能力出色，能超过Llama 3和Gemma 29b，非常令人印象深刻。

picture.image

更棒的是，它具有较长的上下文窗口，可以在1百万的上下文中找到关键内容，在长上下文任务中表现优异，如 LongBench。

picture.image

据说，这是首个拥有1百万上下文窗口的非微调模型，非常酷。此外，模型在工具使用方面也表现出色，这对使用多种工具（如网页搜索）来说很有帮助。

picture.image

在基准测试中，InternLM 2.5 在 MMU 基准测试中击败了同类所有模型，并在 CMMlu 基准测试中接近 Llama 370b。

此外，在 BBH 基准测试中，它击败了除 Llama 370b 以外的所有模型，Llama 370b 的参数量是其10倍。

在数学基准测试中，它得分60.7，远高于其他模型。而在 GSM 8K 基准测试中，它也超过了除了 Gemma 2 和 Llama 370b 之外的所有模型。

picture.image

总的来说，虽然它在基准测试中表现优异，但我对这些测试持怀疑态度，所以我会自己试用一下。

现在，这个模型已经在 Hugging Face 和大多数平台上可用，还有一个 Hugging Face 空间供大家试用。

picture.image

接下来，我会用一系列问题来测试它，这些问题包括简单的语言任务和编程任务。

picture.image

第一个问题是："与描述高大植物的词押韵的数字是什么？" 答案应该是"三"，因为与"树"（tree）押韵，或者"九"，因为与"藤"（vine）押韵。

模型回答了"树"这个词，但没有给出数字。经过再次提示后，模型给出了正确答案，因此这题算通过。

picture.image

第二个问题是："我有两个苹果，然后又买了两个。我用其中两个烤了一个派，吃掉一半派后，还剩多少苹果？" 答案应该是"两个"。模型未能正确回答，因此这题未通过。

picture.image

第三个问题是："萨莉是一个女孩，她有三个兄弟，每个兄弟都有相同的两个姐妹。萨莉有几个姐妹？" 答案应该是"一个"。模型也未能正确回答，因此这题未通过。

picture.image

第四个问题是："如果一个正六边形的短对角线是64，那么它的长对角线是多少？" 答案应该是"73.9"。模型同样未能正确回答，这题未通过。

picture.image

接下来的问题是编程任务。第一个任务是："创建一个带有按钮的 HTML 页面，当点击按钮时会爆炸出彩纸。可以使用 CSS 和 JS。" 模型生成了代码，但运行结果不正确，这题未通过。

picture.image

第二个任务是："编写一个 Python 函数，打印接下来的20个闰年。" 模型生成的代码正确运行，这题通过。

picture.image

第三个任务是："生成一个蝴蝶的 SVG 代码。" 模型生成的代码只显示两个框，没有其他内容，这题未通过。

picture.image

第四个任务是："编写一个 AI 公司主页的 HTML 页面，界面现代且简约，带有动画。" 生成的代码正确显示，这题通过。

picture.image

第五个任务是："用 Python 编写在终端运行的生命游戏。" 模型生成的代码未能按预期运行，这题未通过。

picture.image

picture.image

最终结果显示，模型仅通过了三个测试。我认为它并不比 Qwen 2 更好，可能在某些特定任务上表现较佳，但总体上没有带来新的突破。

picture.image

我认为目前很多基准测试结果被人为优化，很多公司特意训练模型以在基准测试中取得好成绩，而在实际应用中却表现不佳。

picture.image

总的来说，InternLM 2.5 可能适合某些特定任务，特别是编程，因为它的1百万上下文窗口非常适合这类任务。

视频教程

https://www.youtube.com/watch?v=\_BJNpTS07K0

知音难求，自我修炼亦艰

抓住前沿技术的机遇，与我们一起成为创新的超级个体

（把握AIGC时代的个人力量）

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

picture.image

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

银行业新一代标签体系白皮书

从入门到进阶：深度解析银行业标签体系与应用

相关产品

推荐阅读

MCP从理论到实战，别再和Function Calling搞混了！建议收藏(附实战案例)

构建自己的 Word2Vec 模型

一文读懂大模型领域基础概念

86K Star！又一款内网穿透利器，开源免费，小白友好

千问又开源新模型: Qwen3-235B-A22B-Instruct-2507

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论