Gemini 5 Pro vs Claude 7：国内考生如何直接利用这两款工具提升理综物理和考研数学成绩 - 文章 - 开发者社区

picture.image

零、前言

picture.image

人工智能领域正在经历前所未有的快速变革，全球各大科技公司纷纷推出新一代大型语言模型。谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 Sonnet 凭借各自突出的推理和编码能力，成为全世界关注的焦点。

听说 Gemini 2.5 Pro 和Claude 3.7 在理科方面也很强大，物理，数学方面特别强，达到了985/211的硕士级别。

Lethehong的AI平台已经集成了 claude-3-7-sonnet+Gemini 2.5 Pro ，今天跟Lethehong一起来实战测评下。

一、操作指南

操作指导

ChatGPT 4o国内直接访问地址：https://lethehong.xiaoxuzhu.cn/![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/6edacc7199874c6fba017ea943b7aa00~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1780158856&x-signature=JfqdHZruFMJQQ0TVRDIYBYrlvQE%3D)

输入授权码即可。

picture.image

二、解理综物理真题

提示词

2023 年理综物理真题

picture.image

Gemini 2.5 Pro 和Claude 3.7 使用同一套提示词

  
一高压舱内气体的压强为 1.2 个大气压，温度为 17℃，密度为 1.46 kg/m³。  
  
（i）升高气体温度并释放出舱内部分气体以保持压强不变，求气体温度升至 27℃ 时舱内气体的密度；  
  
（ii）保持温度 27℃ 不变，再释放出舱内部分气体使舱内压强降至 1.0 个大气压，求舱内气体的密度。  
  
提供解题过程，并给出答案。

Gemini 2.5 Pro的理科能力

多模态处理能力

Gemini 2.5 Pro 是一款多模态模型，能够处理文本、图像、音频和视频等多种输入形式。这使得它在处理包含图表、公式等多种信息形式的理科问题时，能够进行有效的理解和分析。

数学和物理能力

在数学领域，Gemini 2.5 Pro 在 AIME 2024 数学竞赛中取得了 92.0% 的准确率，显示出其在高中至大学初级数学问题上的强大解题能力。在物理领域，Gemini 2.5 Pro 在 GPOA 基准测试中得分为 84.0%，表现出色。

长文本处理能力

Gemini 2.5 Pro 配备了 100 万 token 的上下文窗口，未来版本将支持 200 万 token 的上下文窗口。这使得模型能够处理非常长的文本内容，并记住更多的上下文信息，对于需要长文本处理或保持上下文连贯性的任务至关重要。

picture.image

picture.image 总结答案:

（i）当气体温度升至 27℃ 且压强保持 1.2 atm 不变时，舱内气体的密度约为 1.41 kg/m³。

（ii）当温度保持 27℃ 不变且压强降至 1.0 atm 时，舱内气体的密度约为 1.18 kg/m³。

Claude 3.7 Sonnet 的理科能力

扩展思维模式

Claude 3.7 Sonnet 引入了“扩展思维”模式，使模型能够在回答前进行逐步推理，显著提高了在复杂任务（如数学问题、物理问题和多步编码挑战）上的表现。

数学和物理能力

在数学领域，Claude 3.7 Sonnet 在 MATH 500 测试中取得了 96.2% 的准确率，在 AIME 2024 数学竞赛中准确率为 80.0%。在物理领域，Claude 3.7 Sonnet 在研究生水平的物理问答中准确率达到 96.5%。

编程能力

Claude 3.7 Sonnet 在 SWE-bench 编程基准测试中得分为 70.3%，在实际编码测试中，Claude 3.7 Sonnet 能够生成高质量的代码，甚至可以在一次尝试中完成复杂的编码任务。

picture.image 答案 (i) 当压强保持1.2个大气压不变，温度从17°C升高到27°C时，舱内气体的密度为1.41 kg/m³。

(ii) 当温度保持27°C不变，压强从1.2个大气压降至1.0个大气压时，舱内气体的密度为1.18 kg/m³。

总结

与 985/211 高校硕士水平的对比

在理论知识掌握和问题解决能力方面，Gemini 2.5 Pro 和 Claude 3.7 Sonnet 表现出色，能够准确理解和应用复杂的数学和物理概念，解决高难度的问题。然而，在创新和科研能力方面，这些模型仍存在一定差距，主要依赖于已有的数据和知识进行推理，尚未具备人类研究者在创新思维和科研方法上的能力。

三、考研数学真题

picture.image

选择题

picture.image

提示词

上传题目图片

  
给出解题过程，并提供答案

Gemini 2.5 Pro的理科能力分析

数学能力

Gemini 2.5 Pro在数学领域表现出色，尤其在标准化测试中取得了优异成绩。例如，在AIME 2025的测试中，单次尝试准确率达到86.7%，显示出其在高中至大学初级数学问题上的强大解题能力。

物理能力

在物理领域，Gemini 2.5 Pro也展现了卓越的理解和应用能力。在2023年理综物理真题的测试中，模型能够准确解答复杂的物理问题，显示出其在物理概念理解和应用方面的深度。

多模态处理能力

Gemini 2.5 Pro支持多种输入形式，包括文本、图像、音频和视频，具备强大的多模态处理能力。这使得模型在处理包含图表、公式等多种信息形式的理科问题时，能够进行有效的理解和分析。

picture.image

答案是对的。

Claude 3.7 Sonnet 的理科能力分析

数学推理能力

Claude 3.7 Sonnet在数学推理方面表现出色，尤其在复杂的微积分和代数问题上，能够进行深入的分析和准确的解答。在微积分问题的解决中，Claude 3.7 Sonnet的成功率达到85.74%，显示出其在高等数学领域的强大能力。

物理知识掌握

在物理领域，Claude 3.7 Sonnet同样展现了深厚的知识储备和应用能力。在放射肿瘤学物理等专业领域的测试中，Claude 3.7 Sonnet表现出专家级的水平，能够准确解答复杂的专业问题。

控制工程能力

在控制工程领域的测试中，Claude 3.7 Sonnet表现优异，能够解决本科水平的控制问题，显示出其在工程数学和系统分析方面的能力。

picture.image

答案也是对的。

总结

与985/211高校硕士水平的对比

理论知识掌握

Gemini 2.5 Pro和Claude 3.7 Sonnet在数学和物理等理科领域的理论知识掌握程度，与985/211高校硕士研究生相当，能够准确理解和应用复杂的理论概念。

问题解决能力

在解决复杂理科问题方面，这两款模型展现出高度的准确性和推理能力，能够独立完成高难度的数学和物理问题解答，表现出与高水平硕士研究生相当的能力。

创新与研究能力

尽管Gemini 2.5 Pro和Claude 3.7 Sonnet在知识掌握和问题解决方面表现出色，但在创新和科研能力方面，仍存在一定差距。目前，这些模型主要依赖于已有的数据和知识进行推理，尚未具备人类研究者在创新思维和科研方法上的能力。

填空题

picture.image

提示词

上传题目图片

  
给出解题过程，并提供答案

Gemini 2.5 Pro

picture.image

因为是国外的大模型，所以有时会默认用英文回答，可以要求：用中文显示 picture.image

picture.image 答案是对的。

Claude 3.7

picture.image 答案是对的。

总结

Gemini 2.5 Pro 和Claude 3.7 解 考研数学真题-填空题 都答对了。这局不相上下。

解答题

picture.image

提示词

picture.image 上传题目图片

  
给出解题过程，并提供答案

Gemini 2.5 Pro

picture.image 答案正确。

Claude 3.7

picture.image 第1小点答对了。第2小点和第 3小点答错了。

总结

Gemini 2.5 Pro 解 考研数学真题-解答题 都答对了。 Claude 3.7 解 考研数学真题-解答题 ，只答对了三分之一。

这局Gemini 2.5 Pro完胜。

四、感受

现实意义与应用前景

教育辅助工具

Gemini 2.5 Pro和Claude 3.7 Sonnet可作为强大的教育辅助工具，帮助学生理解复杂的理科概念，提供个性化的学习支持，提升学习效率。

科研助手

在科研领域，这些模型可辅助研究人员进行文献综述、数据分析和初步的理论推导，提升科研工作的效率和质量。

工程应用

在工程实践中，Gemini 2.5 Pro和Claude 3.7 Sonnet可用于辅助设计、系统分析和问题诊断，提升工程项目的执行效率和准确性。

Claude 3.7 对于理综物理真题，考研数学真题，题目难度简单，中等的，可以很顺利解答出来。难度大一点的，就没办法了。

Gemini 2.5 Pro 在理综物理真题，考研数学真题的解题过程中，确实让人眼前一亮。题目难度简单，中等的，可以很顺利解答出来。难度大的，也能轻松解答出来。

总结： 对于理科方面的解答，特别是理综物理真题，考研数学真题的，强烈推荐大模型：Gemini 2.5 Pro

综上所述，谷歌的Gemini 2.5 Pro和Anthropic的Claude 3.7 Sonnet在数学和物理等理科领域展现出与中国985/211高校硕士研究生相当的能力，特别在理论知识掌握和问题解决方面表现突出。然而，在创新和科研能力方面，仍需进一步发展。随着技术的不断进步，未来这些大型语言模型有望在更多领域发挥更大的作用，成为人类学习、科研和工程实践的重要助手。

好用的功能太多太多，我就不在这个一一列举了，有兴趣的可以自行尝试。

有提供免费的授权码可体验～

私信Lethehong，获取体验码~ 国内可直接使用~ picture.image

我是Lethehong，目标是带十万人玩转AI，期待与您共同探索AI的无限可能！****

长按识别下方二维码，备注：AI体验。。

发你免费PLUS体验码和永久免费使用码：

picture.image

回复gpt,获取GPT和deepseek R1 国内直接使用地址：