🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
今天,我在X上刷到一个有意思的消息。
有人用Gemini 2.0 Flash担任WebDev领域的裁判,在LMSys的竞技场里评判各大模型的编程能力。
# 让Gemini 2当裁判,看Claude3.5和GPT-4如何过招
说起LMSys,这可是AI界的"拳击台"。所有的模型提供商都会把自己的模型和API提交给他们测试,就像运动员参加奥运会一样。而我们这些普通用户,就是观众,可以给不同模型的表现投票打分。
前段时间LMSys刚推出了Copilot Arena(这是一个用于 Cursor AI 和 Copilot 等工具的新型 AI 助手比较平台),让Claude 3.5、GPT-4O这些顶级模型同台竞技。这就像是举办了一场AI界的"编程世界杯"。而现在,他们又搞了个新活 - WebDev Arena。
很久以前,大家都在用各种benchmark来比较模型,
如果你是一名人工智能爱好者,你可能遇到过这样的事情:
…或者这个:
但你有多少次真正看到他们的表现进行比较呢?
是啊,光看分数,哪有真刀真枪干一场来得痛快?
现在,WebArena的出现,终于让我们有了一个能真正检验AI编程能力的"决斗场"。
这个界面看起来很简单,但它可能会彻底改变我们评估AI编程能力的方式。
什么是WebArena?
简单来说,WebArena就是一个专门用来测试AI在网页开发领域能力的竞技场。它不是传统的那种只看分数的benchmark,而是让AI真刀真枪地写代码、做项目。
你可以在这里让不同的AI模型同台竞技,看看谁能更好地完成web开发任务。比如:
-
复刻知名产品界面
-
开发小型应用
-
解决实际编程问题
-
优化已有代码
最关键的是,这里的每一场"对决"都是实时的、可交互的。你能清楚地看到AI是如何一步步解决问题的。
WebArena更注重过程。它就像一个真实的编程竞技场:
对于同一个编程挑战。他可以交互式评测:可以跟AI实时互动, 给出反馈(迭代提问)。
这种方式让评测变得更有意义, 也更接近真实的开发场景。
实战体验
这个平台完全免费,连注册都不用。界面也设计得很简洁 - 左边一个侧边栏放着"New Chat"和"Battle"按钮,中间是分成两半的代码展示区,底部是输入框。你想测试什么就写什么,完全没有限制。
我第一时间进行了测试。
随手出了一个任务: 创建一个简单的。。。
不,是个较复杂的东西:
AI SaaS网站。
结果让我眼前一亮。右边这个AI完成的还很不错。
# 当Claude3.5遇上Gemini 2,AI编程比赛变得像看拳击一样精彩
玩玩WebArena,亲自"试驾",选择最适合的AI助手:
Claude无敌了,大比分领先,不过前两天发布的Gemini 2.0 Flash竟然没有Gemini-Exp-1206厉害,本来还打算用Gemini 2.0 Flash + Cline 来测试的,现在只能等后面发布Gemini 2.0 Pro了。
阿里的Qwen2.5-Coder-32B-Instruct 917.78 32B的模型,也上了榜。这个以前也写过文章说过。那么他也确实不错。看看阿里后续还有没有专门编码领域的更强模型。
公开、透明的竞争环境,会促使各家不断改进自己的模型。
我相信,随着更多开发者的参与, WebArena会变得越来越完善。它可能会:
-
支持更多开发场景
-
引入更多评判维度
-
提供更详细的分析报告
-
形成活跃的开发者社区
写在最后
作为一个经常和各种AI打交道的人, WebArena的评测还是挺有意义的。
而且通过这种方式,我们终于可以抛开那些华而不实的宣传,用实打实的代码说话。想想看,当你需要一个AI编程助手的时候,与其看那些marketing文案,直接来这儿实测不是更靠谱吗?
更重要的是,这种公开透明的竞争环境,会倒逼各家不断提升自己的模型。就像体育比赛一样,竞争才是进步的最大动力。
最后,WebArena 在博客上演示了 可以在用WebArena执行的各种任务:https://webarena.dev/
🌟 知音难求,自我修炼亦艰, 抓住前沿技术的机遇,与我们一起成为创新的超级个体 (把握AIGC时代的个人力量)。
参考链接:
[1] https://web.lmarena.ai/leaderboard
[2] https://tereza-tizkova.medium.com/which-llm-is-really-the-best-3920b5af2ae6