🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
Google 闪电战,Gemini 2.5 Flash 杀入 LMArena 榜单,直追 GPT-4.5 和 Grok-3。
LMArena 排行榜迎来新玩家:Google 最新发布的 Gemini 2.5 Flash 。
战绩:
排名直接冲到并列第二, 跟 GPT 4.5 Preview 和 Grok-3 这些顶级模型打成平手。
- 硬核实力不俗: 在困难提示词 (Hard Prompts)、编码 (Coding) 和长查询 (Longer Query) 这三个硬骨头领域,直接拿到 并列第一 。
- 全面能打: 在所有评测类别里都排进了 前四 。
- 性价比是王道: 官方说法是针对速度和可扩展性优化过的轻量设计,但社区投票显示它在硬核任务上表现惊人。更关键的是,价格比它大哥 Gemini 2.5 Pro 便宜 5-10 倍 。
LMArena 还专门放了张图,显示 Gemini 2.5 Flash 在 性价比曲线 上表现突出。
LMArena 的新 Beta UI 网站 (
beta.lmarena.ai
) 上已经可以同时测试 Gemini 2.5 Flash 和 Pro 了。
-
有人称赞它 “ 快如闪电,锐如刀锋 (blazing fast and razor sharp) ”,在硬核任务上表现出色,价格还低,是可扩展 AI 工作流的“ 绝妙组合 (chef’s kiss combo) ”。
网友Nathan Lambert 开头就点赞:“谷歌可以啊,把昨天刚出的 O4-mini 都放进来了!不像有些公司只跟自己比。”
有人火力全开喷 OpenAI:“OpenAI 最近的图表真让人火大,想方设法藏着掖着,就是不想让人知道还有别的选择吧。”
“虽然没一个 SOTA,但这价格几乎是 o4-mini 的十分之一,厉害了。Flash 系列改名叫 Nano 更合适。”
“确实没打过 o4-mini,但看在价格份上,也说得过去。”
总之,大家对 Google 的坦诚表示肯定,但也觉得对比信息还可以更全,同时对性价比很关注。
Google 详解 Gemini 2.5 Flash:不光快和省,还能让你控制它“想多少”。
Google Cloud 官宣了 Gemini 2.5 Flash 的预览版上线(通过 Gemini API 在 Google AI Studio 和 Vertex AI 可用),并详细拆解了这款新模型的“杀手锏”。
Flash 2.5 不只是 2.0 的简单升级,核心变化是引入了“思考 (Thinking)”能力,而且是 Google 首个完全混合推理 (fully hybrid reasoning) 模型。
啥叫“思考模型”?
- 跟之前拿到 prompt 就直接输出不一样,2.5 Flash 能先 “想一想” 。
- 这个“思考”过程能帮它更好地理解你的要求,把复杂任务拆解开,规划好怎么回答。
- 对于需要多步推理的复杂问题(比如解数学题、分析研究问题),先“想一想”能让答案更准、更全面。
此外,可以看到,与 Flash 2.0 相比,2.5提升了不少。
Google 上图了:Gemini 性价比曲线,Flash 2.5 稳坐 C 位。
醒目的蓝线——“帕累托前沿 (Pareto Frontier)”:
- 这条线代表了当前市场上 性价比的极限 。线上的点,意味着在同等价格下性能最好,或者在同等性能下价格最低。
帕累托前沿,几乎完全被 Google 的 Gemini 模型家族霸占了。从低端的 2.0 Flash-Lite,到中端的 2.0 Flash-001,再到最新的 2.5 Flash 和旗舰的 2.5 Pro,全都在这条线上。
思考多少,你说了算。
Google 知道不同场景对质量、成本、延迟的要求不一样,所以给开发者提供了 “思考预算 (thinking budget)” 这个精细控制的开关。
- 你可以设置一个 token 上限,告诉模型“最多想这么多”。预算越高,模型就能思考得更深入,质量可能就更好。
- 但注意:这只是个 上限 。模型很聪明,会根据任务的复杂度自己判断需要想多少,不会没事儿就用满预算瞎想。
- 想追求极致的低成本和低延迟?直接把 思考预算设为 0 。即使这样,性能也比之前的 2.0 Flash 有提升。
- 预算范围:0 到 24576 tokens (对于 2.5 Flash)。可以通过 API 参数或 AI Studio / Vertex AI 里的滑块来设置。
看看下面的例子,告诉你啥情况模型默认会想多少:
- 低思考量: “西班牙语的谢谢怎么说?” / “加拿大有几个省?”
- 中等思考量: “掷两个骰子,和为 7 的概率是多少?” / “给我排个健身房打球和上班都不冲突的时间表…”
- 高思考量: 复杂的物理题(悬臂梁弯曲应力计算) / 复杂的编程题(写个解析电子表格公式的函数,还得处理依赖、优先级、循环检测)。
现在就能上手:
- 2.5 Flash 预览版已在 Gemini API (Google AI Studio / Vertex AI) 和 Gemini App 的下拉菜单中提供。
- 官方鼓励大家多试试 thinking_budget 参数,看看这种可控推理能力能不能帮你解决更复杂的问题。
还附上了 Python 代码示例:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
Google 最后表示,会持续改进 2.5 Flash,在正式版 (GA) 发布前还会有更多更新。目标是让开发者用最低的成本、最快的速度,解决更复杂的问题。
网友实测:Gemini 2.5 Flash 吊打 OpenAI 模型,复杂编程任务“手到擒来”?
网友 RameshR (rezmeram) 搞了个测试:让 AI 写一个 包含物理模拟的 Galton Board (弹珠盘) HTML 文件 。要求多,比如单文件、特定尺寸、用 2D 物理引擎、全宽障碍物、有物理隔断的收集箱、特定颜色、还得能演示正态分布…
结果:
Gemini 2.5 Flash: 用了 5 步迭代 搞定了。
- OpenAI 的模型 (o4-mini, o4-mini-high, o3): 哥们儿试了 半小时直接放弃 ,没跑出来。
RameshR 的结论: Gemini 2.5 Flash 在处理这种合并了多种复杂要求的任务时,理解能力和出码效率明显更强。他甚至贴出了 Prompt,鼓励大家自己去试试对比。
小插曲: 他也提了一句,虽然 Prompt 里写了“正态分布”,但技术上准确说是“二项分布”,AI 后端可能没太纠结这个细节。
Google 这款“闪电版”Gemini 2.5 Flash,不仅在性能上直逼顶级模型,而且价格优势明显,主打一个性价比。这对需要大规模部署 AI 的开发者来说,是个好消息。
以上。
One More Thing
MCP相关实践:
MCP是什么:Windsurf Wave3:MCP协议让AI直接读取控制台错误,自动化网页调试不用复制粘贴了!Tab智能跳转、Turbo模式。
MCP怎么配置、报错解决:Windows下MCP报错的救星来了,1分钟教你完美解决Cursor配置问题。
MCP实践:Cursor + MCP:效率狂飙!一键克隆网站、自动调试错误,社区:每个人都在谈论MCP!
最新MCP托管平台:让Cursor秒变数据库专家,一键对接Github,开发效率暴增!
Blender + MCP 从入门到实践:安装、配置、插件、渲染与快捷键一文搞定!
比Playwright更高效!BrowserTools MCP 让Cursor直接控制当前浏览器,AI调试+SEO审计效率狂飙!
手把手教你配置BrowserTools MCP,Windows 和 Mac全流程,关键命令别忽略。
2分钟构建自己的MCP服务器,从算数到 Firecrawl MCP(手动挡 + AI档)
太简单了!Cline官方定义MCP开发流程,聊天式开发,让MCP搭建不再复杂。
本号知识星球(汇集了ALL订阅频道合集和其他):
星球里可获取更多AI实践:
🌟 知音难求,自我修 炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
参考链接:
[1] https://x.com/sundarpichai/status/1913012939931464078
点这里👇关注我,记得标星哦~