人工智能领域正在经历前所未有的快速变革,全球各大科技公司纷纷推出新一代大型语言模型。谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 Sonnet 凭借各自突出的推理和编码能力,成为全世界关注的焦点。
听说 Gemini 2.5 Pro 和Claude 3.7 在理科方面也很强大,物理,数学方面特别强,达到了985/211的硕士级别。
Lethehong的AI平台已经集成了 claude-3-7-sonnet+Gemini 2.5 Pro ,今天跟Lethehong一起来实战测评下。
操作指导
输入授权码即可。
提示词
2023 年理综物理真题
Gemini 2.5 Pro 和Claude 3.7 使用同一套提示词
一高压舱内气体的压强为 1.2 个大气压,温度为 17℃,密度为 1.46 kg/m³。
(i)升高气体温度并释放出舱内部分气体以保持压强不变,求气体温度升至 27℃ 时舱内气体的密度;
(ii)保持温度 27℃ 不变,再释放出舱内部分气体使舱内压强降至 1.0 个大气压,求舱内气体的密度。
提供解题过程,并给出答案。
Gemini 2.5 Pro的理科能力
多模态处理能力
Gemini 2.5 Pro 是一款多模态模型,能够处理文本、图像、音频和视频等多种输入形式。这使得它在处理包含图表、公式等多种信息形式的理科问题时,能够进行有效的理解和分析。
数学和物理能力
在数学领域,Gemini 2.5 Pro 在 AIME 2024 数学竞赛中取得了 92.0% 的准确率,显示出其在高中至大学初级数学问题上的强大解题能力。在物理领域,Gemini 2.5 Pro 在 GPOA 基准测试中得分为 84.0%,表现出色。
长文本处理能力
Gemini 2.5 Pro 配备了 100 万 token 的上下文窗口,未来版本将支持 200 万 token 的上下文窗口。这使得模型能够处理非常长的文本内容,并记住更多的上下文信息,对于需要长文本处理或保持上下文连贯性的任务至关重要。
总结答案:
(i)当气体温度升至 27℃ 且压强保持 1.2 atm 不变时,舱内气体的密度约为 1.41 kg/m³。
(ii)当温度保持 27℃ 不变且压强降至 1.0 atm 时,舱内气体的密度约为 1.18 kg/m³。
Claude 3.7 Sonnet 的理科能力
扩展思维模式
Claude 3.7 Sonnet 引入了“扩展思维”模式,使模型能够在回答前进行逐步推理,显著提高了在复杂任务(如数学问题、物理问题和多步编码挑战)上的表现。
数学和物理能力
在数学领域,Claude 3.7 Sonnet 在 MATH 500 测试中取得了 96.2% 的准确率,在 AIME 2024 数学竞赛中准确率为 80.0%。在物理领域,Claude 3.7 Sonnet 在研究生水平的物理问答中准确率达到 96.5%。
编程能力
Claude 3.7 Sonnet 在 SWE-bench 编程基准测试中得分为 70.3%,在实际编码测试中,Claude 3.7 Sonnet 能够生成高质量的代码,甚至可以在一次尝试中完成复杂的编码任务。
答案 (i) 当压强保持1.2个大气压不变,温度从17°C升高到27°C时,舱内气体的密度为1.41 kg/m³。
(ii) 当温度保持27°C不变,压强从1.2个大气压降至1.0个大气压时,舱内气体的密度为1.18 kg/m³。
总结
与 985/211 高校硕士水平的对比
在理论知识掌握和问题解决能力方面,Gemini 2.5 Pro 和 Claude 3.7 Sonnet 表现出色,能够准确理解和应用复杂的数学和物理概念,解决高难度的问题。然而,在创新和科研能力方面,这些模型仍存在一定差距,主要依赖于已有的数据和知识进行推理,尚未具备人类研究者在创新思维和科研方法上的能力。
选择题
提示词
上传题目图片
给出解题过程,并提供答案
Gemini 2.5 Pro的理科能力分析
数学能力
Gemini 2.5 Pro在数学领域表现出色,尤其在标准化测试中取得了优异成绩。例如,在AIME 2025的测试中,单次尝试准确率达到86.7%,显示出其在高中至大学初级数学问题上的强大解题能力。
物理能力
在物理领域,Gemini 2.5 Pro也展现了卓越的理解和应用能力。在2023年理综物理真题的测试中,模型能够准确解答复杂的物理问题,显示出其在物理概念理解和应用方面的深度。
多模态处理能力
Gemini 2.5 Pro支持多种输入形式,包括文本、图像、音频和视频,具备强大的多模态处理能力。这使得模型在处理包含图表、公式等多种信息形式的理科问题时,能够进行有效的理解和分析。
答案是对的。
Claude 3.7 Sonnet 的理科能力分析
数学推理能力
Claude 3.7 Sonnet在数学推理方面表现出色,尤其在复杂的微积分和代数问题上,能够进行深入的分析和准确的解答。在微积分问题的解决中,Claude 3.7 Sonnet的成功率达到85.74%,显示出其在高等数学领域的强大能力。
物理知识掌握
在物理领域,Claude 3.7 Sonnet同样展现了深厚的知识储备和应用能力。在放射肿瘤学物理等专业领域的测试中,Claude 3.7 Sonnet表现出专家级的水平,能够准确解答复杂的专业问题。
控制工程能力
在控制工程领域的测试中,Claude 3.7 Sonnet表现优异,能够解决本科水平的控制问题,显示出其在工程数学和系统分析方面的能力。
答案也是对的。
总结
与985/211高校硕士水平的对比
理论知识掌握
Gemini 2.5 Pro和Claude 3.7 Sonnet在数学和物理等理科领域的理论知识掌握程度,与985/211高校硕士研究生相当,能够准确理解和应用复杂的理论概念。
问题解决能力
在解决复杂理科问题方面,这两款模型展现出高度的准确性和推理能力,能够独立完成高难度的数学和物理问题解答,表现出与高水平硕士研究生相当的能力。
创新与研究能力
尽管Gemini 2.5 Pro和Claude 3.7 Sonnet在知识掌握和问题解决方面表现出色,但在创新和科研能力方面,仍存在一定差距。目前,这些模型主要依赖于已有的数据和知识进行推理,尚未具备人类研究者在创新思维和科研方法上的能力。
填空题
提示词
上传题目图片
给出解题过程,并提供答案
Gemini 2.5 Pro
因为是国外的大模型,所以有时会默认用英文回答,可以要求:用中文显示
答案是对的。
Claude 3.7
答案是对的。
总结
Gemini 2.5 Pro 和Claude 3.7 解 考研数学真题-填空题 都答对了。这局不相上下。
解答题
提示词
上传题目图片
给出解题过程,并提供答案
Gemini 2.5 Pro
答案正确。
Claude 3.7
第1小点答对了。 第2小点和第 3小点答错了。
总结
Gemini 2.5 Pro 解 考研数学真题-解答题 都答对了。 Claude 3.7 解 考研数学真题-解答题 ,只答对了三分之一。
这局Gemini 2.5 Pro完胜。
教育辅助工具
Gemini 2.5 Pro和Claude 3.7 Sonnet可作为强大的教育辅助工具,帮助学生理解复杂的理科概念,提供个性化的学习支持,提升学习效率。
科研助手
在科研领域,这些模型可辅助研究人员进行文献综述、数据分析和初步的理论推导,提升科研工作的效率和质量。
工程应用
在工程实践中,Gemini 2.5 Pro和Claude 3.7 Sonnet可用于辅助设计、系统分析和问题诊断,提升工程项目的执行效率和准确性。
Claude 3.7 对于理综物理真题,考研数学真题,题目难度简单,中等的,可以很顺利解答出来。难度大一点的,就没办法了。
Gemini 2.5 Pro 在理综物理真题,考研数学真题的解题过程中,确实让人眼前一亮。题目难度简单,中等的,可以很顺利解答出来。难度大的,也能轻松解答出来。
总结: 对于理科方面的解答,特别是理综物理真题,考研数学真题的,强烈推荐大模型:Gemini 2.5 Pro
综上所述,谷歌的Gemini 2.5 Pro和Anthropic的Claude 3.7 Sonnet在数学和物理等理科领域展现出与中国985/211高校硕士研究生相当的能力,特别在理论知识掌握和问题解决方面表现突出。然而,在创新和科研能力方面,仍需进一步发展。随着技术的不断进步,未来这些大型语言模型有望在更多领域发挥更大的作用,成为人类学习、科研和工程实践的重要助手。
好用的功能太多太多,我就不在这个一一列举了,有兴趣的可以自行尝试。
有提供免费的授权码可体验~
有提供免费的授权码可体验~
有提供免费的授权码可体验~
私信Lethehong,获取体验码~ 国内可直接使用~
我是Lethehong,目标是带十万人玩转AI,期待与您共同探索AI的无限可能!****
长按识别下方二维码,备注:AI体验。。
发你免费PLUS体验码和永久免费使用码:
回复gpt,获取GPT和deepseek R1 国内直接使用地址: