Aitrainee | 公众号:AI进修生
🌟新发布的 InternLM-2.5 7b( 书生 )具有 1M 代币上下文限制,声称击败了 Qwen-2、Llama-3、Claude、DeepSeek 和其他开源LLMs,本文对其进行测试。
https://huggingface.co/internlm/internlm-xcomposer2d5-7b
Hi,这里是Aitrainee,欢迎阅读本期新文章。
近几天,InternLM 2.5 模型发布了。拥有70亿参数,特别适合实际应用场景。模型声称其推理能力出色,能超过Llama 3和Gemma 29b,非常令人印象深刻。
更棒的是,它具有较长的上下文窗口,可以在1百万的上下文中找到关键内容,在长上下文任务中表现优异,如 LongBench。
据说,这是首个拥有1百万上下文窗口的非微调模型,非常酷。此外,模型在工具使用方面也表现出色,这对使用多种工具(如网页搜索)来说很有帮助。
在基准测试中,InternLM 2.5 在 MMU 基准测试中击败了同类所有模型,并在 CMMlu 基准测试中接近 Llama 370b。
此外,在 BBH 基准测试中,它击败了除 Llama 370b 以外的所有模型,Llama 370b 的参数量是其10倍。
在数学基准测试中,它得分60.7,远高于其他模型。而在 GSM 8K 基准测试中,它也超过了除了 Gemma 2 和 Llama 370b 之外的所有模型。
总的来说,虽然它在基准测试中表现优异,但我对这些测试持怀疑态度,所以我会自己试用一下。
现在,这个模型已经在 Hugging Face 和大多数平台上可用,还有一个 Hugging Face 空间供大家试用。
接下来,我会用一系列问题来测试它,这些问题包括简单的语言任务和编程任务。
第一个问题是:"与描述高大植物的词押韵的数字是什么?" 答案应该是"三",因为与"树"(tree)押韵,或者"九",因为与"藤"(vine)押韵。
模型回答了"树"这个词,但没有给出数字。经过再次提示后,模型给出了正确答案,因此这题算通过。
第二个问题是:"我有两个苹果,然后又买了两个。我用其中两个烤了一个派,吃掉一半派后,还剩多少苹果?" 答案应该是"两个"。模型未能正确回答,因此这题未通过。
第三个问题是:"萨莉是一个女孩,她有三个兄弟,每个兄弟都有相同的两个姐妹。萨莉有几个姐妹?" 答案应该是"一个"。模型也未能正确回答,因此这题未通过。
第四个问题是:"如果一个正六边形的短对角线是64,那么它的长对角线是多少?" 答案应该是"73.9"。模型同样未能正确回答,这题未通过。
接下来的问题是编程任务。第一个任务是:"创建一个带有按钮的 HTML 页面,当点击按钮时会爆炸出彩纸。可以使用 CSS 和 JS。" 模型生成了代码,但运行结果不正确,这题未通过。
第二个任务是:"编写一个 Python 函数,打印接下来的20个闰年。" 模型生成的代码正确运行,这题通过。
第三个任务是:"生成一个蝴蝶的 SVG 代码。" 模型生成的代码只显示两个框,没有其他内容,这题未通过。
第四个任务是:"编写一个 AI 公司主页的 HTML 页面,界面现代且简约,带有动画。" 生成的代码正确显示,这题通过。
第五个任务是:"用 Python 编写在终端运行的生命游戏。" 模型生成的代码未能按预期运行,这题未通过。
最终结果显示,模型仅通过了三个测试。我认为它并不比 Qwen 2 更好,可能在某些特定任务上表现较佳,但总体上没有带来新的突破。
我认为目前很多基准测试结果被人为优化,很多公司特意训练模型以在基准测试中取得好成绩,而在实际应用中却表现不佳。
总的来说,InternLM 2.5 可能适合某些特定任务,特别是编程,因为它的1百万上下文窗口非常适合这类任务。
视频教程
https://www.youtube.com/watch?v=\_BJNpTS07K0
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~