CodeGeeX4-ALL-9B：新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ？（全面测试） - 文章 - 开发者社区

Aitrainee | 公众号：AI进修生

🌟介绍基于 GLM4-9B 的新 CodeGeeX4-ALL-9B 编码模型，该模型据称在编码方面击败了 DeepSeek Coder V2、Qwen2、Llama3 和其他模型，同时体积更小；它还在各种编码任务中击败了 Qwen-2、DeepSeek Coder、Codestral；本文将对其进行测试。

https://github.com/THUDM/CodeGeeX4

Hi，这里是Aitrainee，欢迎阅读本期新文章。

今天我们要介绍一款新模型，名为 CodeGX 4-9B。是的，我知道这个名字有点复杂，所以我们就叫它 CodeG 吧。

picture.image

这款模型是专门为编程任务训练的，基于之前的 GLM 4-9b 模型，GLM 4-9b 是同一家公司推出的一款很酷的模型。这款新模型只有 90 亿个参数，因此在本地设备上运行非常方便。

picture.image

官方称这是 CodeGX4 系列最新的开源模型，是一个多语言代码生成模型，持续在 GLM 4-9b 基础上训练，大大提升了代码生成能力。

它支持全面的功能，如代码补全和生成、代码解释器、网络搜索、函数调用、仓库级别代码问答，覆盖软件开发的各种场景。

官方还声称这是目前少于 100 亿参数中最强的代码生成模型，甚至超过了许多更大的通用模型，在推理速度和模型性能之间达到了最佳平衡。确实很酷。

picture.image

此外，它还支持 128k 的上下文限制，也很不错。接下来我们看看基准测试。在 HumanEval 基准测试中，它超过了 CodeT5、DeepSeek Coder 和 LLaMA 3-70b 等模型，这些模型的参数几乎是它的两倍。

在 MBPP 基准测试中，它稍稍落后于其他模型，但考虑到其规模，表现仍然不错。

在 NCB 基准测试中，表现与 MBPP 基准测试类似，LCB 也是如此，但在人类评估中，它超越了 DeepSeek Coder 33b 模型。Kruxy Val 的测试结果也相似。

picture.image

我不明白为什么基准测试中没有提到 Qwen 和 DeepSeek Coder V2，这让我对这些基准测试的怀疑越来越大，似乎公司不想让我们知道比它表现更好的模型。

picture.image

总之，在 BigCode Bench 中，它在同等规模的模型中表现最好，但如果仔细看，DeepSeek Coder V2 的表现更好，虽然其参数略大一点。在 Needle in a Haystack 评估中，这个模型表现也相当不错。

picture.image

▲ 图片标题CodeGeeX4-ALL-9B 在 BigCodeBench 的 complete 和 instruct 任务中获得 48.9 和 40.4 得分，这是模型中得分最高的少于 200 亿个参数。

picture.image

▲ 在测试代码推理、理解和执行能力的基准CRUXEval中，CodeGeeX4-ALL-9B凭借其COT（思维链）能力取得了骄人的成绩。

picture.image

▲ 此外，在“大海捞针”（NIAH）评估中，CodeGeeX4-ALL-9B模型展示了其在高达128K的上下文中检索代码的能力，在所有Python脚本中实现了100%的检索准确率。

该模型在 Hugging Face 上可用，但在 LLaMA 上尚未推出，我认为未来几天应该会推出。还有一个 Hugging Face 的页面，可以用来试用它。

这就是我将用来进行测试的方法，看看它是否如基准测试所说的那样表现出色。我将用这些问题来评估它，和我测试其他模型的方法一样，这些问题从简单的语言任务到编程任务不等。

picture.image

第一个问题是“与描述高大的植物的单词押韵的数字是什么？”答案应该是“3”，因为它与“tree”押韵，或者“9”，因为它与“vine”押韵。我们发送看看答案是否正确。

picture.image

好的，答案正确，这是一次通过。

下一个问题是“我有两个苹果，然后我又买了两个，我用其中两个苹果烤了一个派，吃掉了一半派后，我还剩几个苹果？”答案应该是两个。发送看看。好的，答案不正确，这次失败。

picture.image

下一个问题是“萨莉是一个女孩，她有三个兄弟，每个兄弟都有两个妹妹，萨莉有几个妹妹？”答案应该是一个。我们看看它是否能答对。好的，答案不正确，这次也失败了。

picture.image

下一个问题是“如果一个正六边形的短对角线是 64，它的长对角线是多少？”答案应该是 73.9。我们看看它是否能答对。好的，答案不正确，这次也失败了。

picture.image

接下来的问题是关于编程的，这是它的强项。第一个问题是“ 创建一个带有按钮的 HTML 页面，当你点击它时会爆炸出彩纸，你可以使用 CSS 和 JS。”

我们发送提示，看看能否生成代码。好的，生成了代码，我们运行看看。好的，它显示了按钮，但点击后没有任何反应，不知道是什么问题，这次失败了。

picture.image

下一个问题是“编写一个打印未来 20 个闰年的 Python 函数，只回复函数部分。 ”我们发送看看。好的，生成了代码，我们运行看看。好的，代码正常工作，打印了年份，这次通过。

picture.image

下一个问题是“生成蝴蝶的 SVG 代码。”我们发送看看。好的，生成了代码，我们运行看看。好的，这看起来完全不像蝴蝶，倒是有点像小UFO，不管怎样，这次失败。

picture.image

下一个问题是“编写一个 AI 公司的 HTML 着陆页，这个页面需要现代且简约的界面，并带有动画效果。 ”我们看看它能生成什么。好的，生成了代码，我们运行看看。好的，虽然没有什么特别之处，但它写出了东西并生成了页面，基于我的善意，这次通过。

picture.image

最后一个问题是“编写一个在终端上运行的 Python 生命游戏。”我知道这不会工作，但我们还是看看。好的，生成了代码，我们运行看看。好的，不如预期的那样工作。

picture.image

这是最终的评分图表，我不知道该怎么评价这个模型。

picture.image

它并没有什么特别之处，只在三个测试中通过，如果不是我在第八个问题上给了善意分数，它的评分会更低。

我不明白为什么要做这个模型，虽然说它是一个编程模型，但它的表现和 53 这样的通用语言模型差不多。我不知道该怎么说，你应该使用 DeepSeek Coder V2 Qwen 2，因为它们的表现真的更好。总之，你可以来群里交流想法。

视频教程

https://www.youtube.com/watch?v=m1lvHFC2jvg

参考链接：
[github] https://github.com/THUDM/CodeGeeX4

[hugging face] codegeex4-all-9b

知音难求，自我修炼亦艰

抓住前沿技术的机遇，与我们一起成为创新的超级个体

（把握AIGC时代的个人力量）

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

picture.image