InternLM-2.5 (7b):这款新模型在基准测试中胜过 Qwen-2 和 Llama-3!(邢道荣:吹牛!)

技术

Aitrainee | 公众号:AI进修生

🌟新发布的 InternLM-2.5 7b( 书生 )具有 1M 代币上下文限制,声称击败了 Qwen-2、Llama-3、Claude、DeepSeek 和其他开源LLMs,本文对其进行测试。

https://huggingface.co/internlm/internlm-xcomposer2d5-7b

Hi,这里是Aitrainee,欢迎阅读本期新文章。

近几天,InternLM 2.5 模型发布了。拥有70亿参数,特别适合实际应用场景。模型声称其推理能力出色,能超过Llama 3和Gemma 29b,非常令人印象深刻。

picture.image

更棒的是,它具有较长的上下文窗口,可以在1百万的上下文中找到关键内容,在长上下文任务中表现优异,如 LongBench。

picture.image

据说,这是首个拥有1百万上下文窗口的非微调模型,非常酷。此外,模型在工具使用方面也表现出色,这对使用多种工具(如网页搜索)来说很有帮助。

picture.image

在基准测试中,InternLM 2.5 在 MMU 基准测试中击败了同类所有模型,并在 CMMlu 基准测试中接近 Llama 370b。

此外,在 BBH 基准测试中,它击败了除 Llama 370b 以外的所有模型,Llama 370b 的参数量是其10倍。

在数学基准测试中,它得分60.7,远高于其他模型。而在 GSM 8K 基准测试中,它也超过了除了 Gemma 2 和 Llama 370b 之外的所有模型。

picture.image

总的来说,虽然它在基准测试中表现优异,但我对这些测试持怀疑态度,所以我会自己试用一下。

现在,这个模型已经在 Hugging Face 和大多数平台上可用,还有一个 Hugging Face 空间供大家试用。

picture.image

接下来,我会用一系列问题来测试它,这些问题包括简单的语言任务和编程任务。

picture.image

第一个问题是:"与描述高大植物的词押韵的数字是什么?" 答案应该是"三",因为与"树"(tree)押韵,或者"九",因为与"藤"(vine)押韵。

模型回答了"树"这个词,但没有给出数字。经过再次提示后,模型给出了正确答案,因此这题算通过。

picture.image

第二个问题是:"我有两个苹果,然后又买了两个。我用其中两个烤了一个派,吃掉一半派后,还剩多少苹果?" 答案应该是"两个"。模型未能正确回答,因此这题未通过。

picture.image

第三个问题是:"萨莉是一个女孩,她有三个兄弟,每个兄弟都有相同的两个姐妹。萨莉有几个姐妹?" 答案应该是"一个"。模型也未能正确回答,因此这题未通过。

picture.image

第四个问题是:"如果一个正六边形的短对角线是64,那么它的长对角线是多少?" 答案应该是"73.9"。模型同样未能正确回答,这题未通过。

picture.image

接下来的问题是编程任务。第一个任务是:"创建一个带有按钮的 HTML 页面,当点击按钮时会爆炸出彩纸。可以使用 CSS 和 JS。" 模型生成了代码,但运行结果不正确,这题未通过。

picture.image

第二个任务是:"编写一个 Python 函数,打印接下来的20个闰年。" 模型生成的代码正确运行,这题通过。

picture.image

第三个任务是:"生成一个蝴蝶的 SVG 代码。" 模型生成的代码只显示两个框,没有其他内容,这题未通过。

picture.image

第四个任务是:"编写一个 AI 公司主页的 HTML 页面,界面现代且简约,带有动画。" 生成的代码正确显示,这题通过。

picture.image

第五个任务是:"用 Python 编写在终端运行的生命游戏。" 模型生成的代码未能按预期运行,这题未通过。

picture.image

picture.image

最终结果显示,模型仅通过了三个测试。我认为它并不比 Qwen 2 更好,可能在某些特定任务上表现较佳,但总体上没有带来新的突破。

picture.image

我认为目前很多基准测试结果被人为优化,很多公司特意训练模型以在基准测试中取得好成绩,而在实际应用中却表现不佳。

picture.image

总的来说,InternLM 2.5 可能适合某些特定任务,特别是编程,因为它的1百万上下文窗口非常适合这类任务。

视频教程

https://www.youtube.com/watch?v=\_BJNpTS07K0

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

picture.image

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎边缘渲染的探索与实践 | 第 11 期边缘云主题Meetup
《火山引擎边缘渲染的探索与实践》黄旭能|火山引擎边缘渲染产品经理
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论