当Claude3.5 遇上 Gemini 2,这个免费的AI编程竞技场炸了。

大模型向量数据库云存储

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

今天,我在X上刷到一个有意思的消息。

有人用Gemini 2.0 Flash担任WebDev领域的裁判,在LMSys的竞技场里评判各大模型的编程能力。

# 让Gemini 2当裁判,看Claude3.5和GPT-4如何过招

说起LMSys,这可是AI界的"拳击台"。所有的模型提供商都会把自己的模型和API提交给他们测试,就像运动员参加奥运会一样。而我们这些普通用户,就是观众,可以给不同模型的表现投票打分。

前段时间LMSys刚推出了Copilot Arena(这是一个用于 Cursor AI 和 Copilot 等工具的新型 AI 助手比较平台),让Claude 3.5、GPT-4O这些顶级模型同台竞技。这就像是举办了一场AI界的"编程世界杯"。而现在,他们又搞了个新活 - WebDev Arena。

很久以前,大家都在用各种benchmark来比较模型,

如果你是一名人工智能爱好者,你可能遇到过这样的事情:

picture.image

…或者这个:

picture.image

但你有多少次真正看到他们的表现进行比较呢?

是啊,光看分数,哪有真刀真枪干一场来得痛快?

现在,WebArena的出现,终于让我们有了一个能真正检验AI编程能力的"决斗场"。

picture.image

这个界面看起来很简单,但它可能会彻底改变我们评估AI编程能力的方式。

什么是WebArena?

简单来说,WebArena就是一个专门用来测试AI在网页开发领域能力的竞技场。它不是传统的那种只看分数的benchmark,而是让AI真刀真枪地写代码、做项目。

你可以在这里让不同的AI模型同台竞技,看看谁能更好地完成web开发任务。比如:

  • 复刻知名产品界面

  • 开发小型应用

  • 解决实际编程问题

  • 优化已有代码

最关键的是,这里的每一场"对决"都是实时的、可交互的。你能清楚地看到AI是如何一步步解决问题的。

WebArena更注重过程。它就像一个真实的编程竞技场:

对于同一个编程挑战。他可以交互式评测:可以跟AI实时互动, 给出反馈(迭代提问)。

这种方式让评测变得更有意义, 也更接近真实的开发场景。

实战体验

这个平台完全免费,连注册都不用。界面也设计得很简洁 - 左边一个侧边栏放着"New Chat"和"Battle"按钮,中间是分成两半的代码展示区,底部是输入框。你想测试什么就写什么,完全没有限制。

picture.image

我第一时间进行了测试。

随手出了一个任务: 创建一个简单的。。。

不,是个较复杂的东西:

picture.image

AI SaaS网站。

结果让我眼前一亮。右边这个AI完成的还很不错。

# 当Claude3.5遇上Gemini 2,AI编程比赛变得像看拳击一样精彩

玩玩WebArena,亲自"试驾",选择最适合的AI助手:

picture.image

Claude无敌了,大比分领先,不过前两天发布的Gemini 2.0 Flash竟然没有Gemini-Exp-1206厉害,本来还打算用Gemini 2.0 Flash + Cline 来测试的,现在只能等后面发布Gemini 2.0 Pro了。

阿里的Qwen2.5-Coder-32B-Instruct 917.78 32B的模型,也上了榜。这个以前也写过文章说过。那么他也确实不错。看看阿里后续还有没有专门编码领域的更强模型。

公开、透明的竞争环境,会促使各家不断改进自己的模型。

我相信,随着更多开发者的参与, WebArena会变得越来越完善。它可能会:

  • 支持更多开发场景

  • 引入更多评判维度

  • 提供更详细的分析报告

  • 形成活跃的开发者社区

写在最后

作为一个经常和各种AI打交道的人, WebArena的评测还是挺有意义的。

而且通过这种方式,我们终于可以抛开那些华而不实的宣传,用实打实的代码说话。想想看,当你需要一个AI编程助手的时候,与其看那些marketing文案,直接来这儿实测不是更靠谱吗?

更重要的是,这种公开透明的竞争环境,会倒逼各家不断提升自己的模型。就像体育比赛一样,竞争才是进步的最大动力。

最后,WebArena 在博客上演示了 可以在用WebArena执行的各种任务:https://webarena.dev/

picture.image

🌟 知音难求,自我修炼亦艰, 抓住前沿技术的机遇,与我们一起成为创新的超级个体 (把握AIGC时代的个人力量)。

参考链接:
[1] https://web.lmarena.ai/leaderboard

[2] https://tereza-tizkova.medium.com/which-llm-is-really-the-best-3920b5af2ae6

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论