CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)

技术

Aitrainee | 公众号:AI进修生

🌟介绍基于 GLM4-9B 的新 CodeGeeX4-ALL-9B 编码模型,该模型据称在编码方面击败了 DeepSeek Coder V2、Qwen2、Llama3 和其他模型,同时体积更小;它还在各种编码任务中击败了 Qwen-2、DeepSeek Coder、Codestral;本文将对其进行测试。

https://github.com/THUDM/CodeGeeX4

Hi,这里是Aitrainee,欢迎阅读本期新文章。

今天我们要介绍一款新模型,名为 CodeGX 4-9B。是的,我知道这个名字有点复杂,所以我们就叫它 CodeG 吧。

picture.image

这款模型是专门为编程任务训练的,基于之前的 GLM 4-9b 模型,GLM 4-9b 是同一家公司推出的一款很酷的模型。这款新模型只有 90 亿个参数,因此在本地设备上运行非常方便。

picture.image

官方称这是 CodeGX4 系列最新的开源模型,是一个多语言代码生成模型,持续在 GLM 4-9b 基础上训练,大大提升了代码生成能力。

它支持全面的功能,如代码补全和生成、代码解释器、网络搜索、函数调用、仓库级别代码问答,覆盖软件开发的各种场景。

官方还声称这是目前少于 100 亿参数中最强的代码生成模型,甚至超过了许多更大的通用模型,在推理速度和模型性能之间达到了最佳平衡。确实很酷。

picture.image

此外,它还支持 128k 的上下文限制,也很不错。接下来我们看看基准测试。在 HumanEval 基准测试中,它超过了 CodeT5、DeepSeek Coder 和 LLaMA 3-70b 等模型,这些模型的参数几乎是它的两倍。

在 MBPP 基准测试中,它稍稍落后于其他模型,但考虑到其规模,表现仍然不错。

在 NCB 基准测试中,表现与 MBPP 基准测试类似,LCB 也是如此,但在人类评估中,它超越了 DeepSeek Coder 33b 模型。Kruxy Val 的测试结果也相似。

picture.image

我不明白为什么基准测试中没有提到 Qwen 和 DeepSeek Coder V2,这让我对这些基准测试的怀疑越来越大,似乎公司不想让我们知道比它表现更好的模型。

picture.image

总之,在 BigCode Bench 中,它在同等规模的模型中表现最好,但如果仔细看,DeepSeek Coder V2 的表现更好,虽然其参数略大一点。在 Needle in a Haystack 评估中,这个模型表现也相当不错。

picture.image

▲ 图片标题CodeGeeX4-ALL-9B 在 BigCodeBench 的 complete 和 instruct 任务中获得 48.9 和 40.4 得分,这是模型中得分最高的少于 200 亿个参数。

picture.image

▲ 在测试代码推理、理解和执行能力的基准CRUXEval中,CodeGeeX4-ALL-9B凭借其COT(思维链)能力取得了骄人的成绩。

picture.image

▲ 此外,在“大海捞针”(NIAH)评估中,CodeGeeX4-ALL-9B模型展示了其在高达128K的上下文中检索代码的能力,在所有Python脚本中实现了100%的检索准确率。

该模型在 Hugging Face 上可用,但在 LLaMA 上尚未推出,我认为未来几天应该会推出。还有一个 Hugging Face 的页面,可以用来试用它。

这就是我将用来进行测试的方法,看看它是否如基准测试所说的那样表现出色。我将用这些问题来评估它,和我测试其他模型的方法一样,这些问题从简单的语言任务到编程任务不等。

picture.image

picture.image

第一个问题是“与描述高大的植物的单词押韵的数字是什么?”答案应该是“3”,因为它与“tree”押韵,或者“9”,因为它与“vine”押韵。我们发送看看答案是否正确。

picture.image

好的,答案正确,这是一次通过。

下一个问题是“我有两个苹果,然后我又买了两个,我用其中两个苹果烤了一个派,吃掉了一半派后,我还剩几个苹果?”答案应该是两个。发送看看。好的,答案不正确,这次失败。

picture.image

下一个问题是“萨莉是一个女孩,她有三个兄弟,每个兄弟都有两个妹妹,萨莉有几个妹妹?”答案应该是一个。我们看看它是否能答对。好的,答案不正确,这次也失败了。

picture.image

下一个问题是“如果一个正六边形的短对角线是 64,它的长对角线是多少?”答案应该是 73.9。我们看看它是否能答对。好的,答案不正确,这次也失败了。

picture.image

接下来的问题是关于编程的,这是它的强项。第一个问题是“ 创建一个带有按钮的 HTML 页面,当你点击它时会爆炸出彩纸,你可以使用 CSS 和 JS。”

我们发送提示,看看能否生成代码。好的,生成了代码,我们运行看看。好的,它显示了按钮,但点击后没有任何反应,不知道是什么问题,这次失败了。

picture.image

下一个问题是“编写一个打印未来 20 个闰年的 Python 函数,只回复函数部分。 ”我们发送看看。 好的,生成了代码,我们运行看看。 好的,代码正常工作,打印了年份,这次通过。

picture.image

下一个问题是“生成蝴蝶的 SVG 代码。”我们发送看看。好的,生成了代码,我们运行看看。好的,这看起来完全不像蝴蝶,倒是有点像小UFO,不管怎样,这次失败。

picture.image

下一个问题是“编写一个 AI 公司的 HTML 着陆页,这个页面需要现代且简约的界面,并带有动画效果。 ”我们看看它能生成什么。 好的,生成了代码,我们运行看看。 好的,虽然没有什么特别之处,但它写出了东西并生成了页面,基于我的善意,这次通过。

picture.image

最后一个问题是“编写一个在终端上运行的 Python 生命游戏。”我知道这不会工作,但我们还是看看。好的,生成了代码,我们运行看看。好的,不如预期的那样工作。

picture.image

这是最终的评分图表,我不知道该怎么评价这个模型。

picture.image

它并没有什么特别之处,只在三个测试中通过,如果不是我在第八个问题上给了善意分数,它的评分会更低。

我不明白为什么要做这个模型,虽然说它是一个编程模型,但它的表现和 53 这样的通用语言模型差不多。 我不知道该怎么说,你应该使用 DeepSeek Coder V2 Qwen 2,因为它们的表现真的更好。 总之,你可以来群里交流想法。

视频教程

https://www.youtube.com/watch?v=m1lvHFC2jvg

参考链接:
[github] https://github.com/THUDM/CodeGeeX4

[hugging face] codegeex4-all-9b

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

picture.image

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
如何利用云原生构建 AIGC 业务基石
AIGC即AI Generated Content,是指利用人工智能技术来生成内容,AIGC也被认为是继UGC、PGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的分支。而 AIGC 业务的部署也面临着异构资源管理、机器学习流程管理等问题,本次分享将和大家分享如何使用云原生技术构建 AIGC 业务。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论