文档备案控制台登录立即注册

首页文章活动镜像站

发布

当Claude3.5 遇上 Gemini 2，这个免费的AI编程竞技场炸了。

大模型向量数据库云存储

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

今天，我在X上刷到一个有意思的消息。

有人用Gemini 2.0 Flash担任WebDev领域的裁判，在LMSys的竞技场里评判各大模型的编程能力。

# 让Gemini 2当裁判，看Claude3.5和GPT-4如何过招

说起LMSys，这可是AI界的"拳击台"。所有的模型提供商都会把自己的模型和API提交给他们测试，就像运动员参加奥运会一样。而我们这些普通用户，就是观众，可以给不同模型的表现投票打分。

前段时间LMSys刚推出了Copilot Arena（这是一个用于 Cursor AI 和 Copilot 等工具的新型 AI 助手比较平台），让Claude 3.5、GPT-4O这些顶级模型同台竞技。这就像是举办了一场AI界的"编程世界杯"。而现在，他们又搞了个新活 - WebDev Arena。

很久以前，大家都在用各种benchmark来比较模型，

如果你是一名人工智能爱好者，你可能遇到过这样的事情：

picture.image

…或者这个：

picture.image

但你有多少次真正看到他们的表现进行比较呢？

是啊，光看分数，哪有真刀真枪干一场来得痛快？

现在，WebArena的出现，终于让我们有了一个能真正检验AI编程能力的"决斗场"。

picture.image

这个界面看起来很简单,但它可能会彻底改变我们评估AI编程能力的方式。

什么是WebArena?

简单来说，WebArena就是一个专门用来测试AI在网页开发领域能力的竞技场。它不是传统的那种只看分数的benchmark，而是让AI真刀真枪地写代码、做项目。

你可以在这里让不同的AI模型同台竞技，看看谁能更好地完成web开发任务。比如:

复刻知名产品界面
开发小型应用
解决实际编程问题
优化已有代码

最关键的是，这里的每一场"对决"都是实时的、可交互的。你能清楚地看到AI是如何一步步解决问题的。

WebArena更注重过程。它就像一个真实的编程竞技场:

对于同一个编程挑战。他可以交互式评测：可以跟AI实时互动, 给出反馈（迭代提问）。

这种方式让评测变得更有意义, 也更接近真实的开发场景。

实战体验

这个平台完全免费，连注册都不用。界面也设计得很简洁 - 左边一个侧边栏放着"New Chat"和"Battle"按钮，中间是分成两半的代码展示区，底部是输入框。你想测试什么就写什么，完全没有限制。

picture.image

我第一时间进行了测试。

随手出了一个任务: 创建一个简单的。。。

不，是个较复杂的东西：

picture.image

AI SaaS网站。

结果让我眼前一亮。右边这个AI完成的还很不错。

# 当Claude3.5遇上Gemini 2，AI编程比赛变得像看拳击一样精彩

玩玩WebArena，亲自"试驾"，选择最适合的AI助手：

picture.image

Claude无敌了，大比分领先，不过前两天发布的Gemini 2.0 Flash竟然没有Gemini-Exp-1206厉害，本来还打算用Gemini 2.0 Flash + Cline 来测试的，现在只能等后面发布Gemini 2.0 Pro了。

阿里的Qwen2.5-Coder-32B-Instruct 917.78 32B的模型，也上了榜。这个以前也写过文章说过。那么他也确实不错。看看阿里后续还有没有专门编码领域的更强模型。

公开、透明的竞争环境,会促使各家不断改进自己的模型。

我相信,随着更多开发者的参与, WebArena会变得越来越完善。它可能会:

支持更多开发场景
引入更多评判维度
提供更详细的分析报告
形成活跃的开发者社区

写在最后

作为一个经常和各种AI打交道的人, WebArena的评测还是挺有意义的。

而且通过这种方式，我们终于可以抛开那些华而不实的宣传，用实打实的代码说话。想想看，当你需要一个AI编程助手的时候，与其看那些marketing文案，直接来这儿实测不是更靠谱吗？

更重要的是，这种公开透明的竞争环境，会倒逼各家不断提升自己的模型。就像体育比赛一样，竞争才是进步的最大动力。

最后，WebArena 在博客上演示了可以在用WebArena执行的各种任务：https://webarena.dev/

picture.image

🌟 知音难求，自我修炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

参考链接：
[1] https://web.lmarena.ai/leaderboard

[2] https://tereza-tizkova.medium.com/which-llm-is-really-the-best-3920b5af2ae6

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

字节跳动 XR 技术的探索与实践

火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人，为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践，揭秘现代炫酷的视觉效果背后的技术实现。

相关产品

推荐阅读

Qwen3模型架构、训练方法梳理

热点追踪+精准解读——火山引擎 AI 域名推荐上线！

一个记忆库，N 个 AI 助手用！mem0 OpenMemory MCP 打通 Cursor/Claude/Windsurf ~

玩转 MCP 第二弹｜一文教你用 Trae 实现网页自动化测试

Agent 还能这么玩？扣子空间的100种打开方式

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论