北京时间周五凌晨,Anthropic 发布了全球最强大的 AI 大模型——Claude 4,为代码生成、高级推理以及 AI 智能体设立了全新的标杆。
虚竹哥没有第一时间更文,我有更重要的使命要做 :让国内的小伙伴们能第一时间真真正正体验使用到Claude 4最新版本。
Lethehong的系统已经集成了 Claude 4大模型(Claude Sonnet 4版本), 今天跟Lethehong一起来测评这个大模型。
操作指导
输入购买的授权码即可。 选择 claude-4大模型
Claude 4 是 Anthropic 推出的最新一代混合架构模型,旨在解决更复杂、更长时程的任务场景,并在性能与稳定性之间取得优异平衡。作为 Claude Sonnet 3.7 的一次重磅升级,Claude 4 不仅在代码生成和推理能力方面大幅跃进,更在工具集成、记忆力、指令遵循等维度实现质的飞跃。
其最大亮点之一是采用了先进的混合架构,支持“快速响应模式”与“扩展思维模式”双模式运行,使其能够在轻量任务与深度思考之间灵活切换,成为全能型 AI 模型的佼佼者。此番发布引发广泛关注,仅上线数小时即冲上 X 平台 trending 榜单第二,显示出开发者和科技爱好者对其期待之高。
此次深夜发布在全球范围内引发广泛关注,Claude 4 已跃居 X 平台 trending 榜单第二位,迅速成为热门话题。甚至有网友在 Cursor 中已经开始使用 Claude 4,并表示编程体验前所未有的顺畅。
Claude 一口气发布了这段时间积累的一系列新产品——
- 代码生成能力增强:Claude 4 在代码生成领域的表现已可比肩乃至超越 Codex 和 Gemini 等知名模型,能够准确理解复杂代码结构并高效完成任务,实现包括但不限于算法构建、前端组件设计、API 封装、跨语言重构等一系列编程任务。
- 多步逻辑推理优化:在自然语言处理与逻辑推理方面,Claude 4 展现出前所未有的连贯性和条理性,能够清晰展开长篇推理链条,支持多条件判断与分步执行,适用于政策分析、科研论文草拟、法律文件审阅等场景。
- 多模态思维策略:模型可自动评估任务复杂度并选择最优策略,在简单任务中快速响应,在复杂任务中主动进入深度思考模式,展现出高度类人认知能力。
工具使用与扩展思维(测试版)
- 灵活调用工具:在处理问题过程中,Claude 4 可实时调用工具(如网络搜索、计算模块、数据库检索器等),确保回答基于最新信息与最优策略。
- 并行工具使用机制:模型可在同一任务中并行调用多个工具,协调处理复杂流程,广泛应用于市场分析、多维图表生成、金融建模等场景。
- 自动工具链学习:在企业部署中,Claude 4 能够学习并优化企业内部的工具链使用逻辑,实现自动调用脚本、填表、数据更新等常规任务的无人化运行。
增强的记忆与指令遵循能力
- 长期记忆架构优化:支持长达数小时甚至数天的任务连续性,在不丢失上下文的前提下,持续开展推理、创作、分析等复杂任务。
- 指令精准度提升:模型在接受自然语言指令后能精准理解复杂嵌套结构,避免传统模型常见的误解、遗漏等问题。
- 上下文学习与演化:在开发者授权下,Claude 4 能持续学习用户操作偏好与逻辑习惯,从而逐步构建用户专属的知识库。
Claude Code:开发者的得力助手
-
IDE 原生集成:模型与 VS Code、JetBrains 等主流开发环境深度融合,可在编辑器中直接查看、修改、测试代码,大幅提升编程效率。
-
自动化流程支持:通过 GitHub Actions 等平台,Claude 可自动执行测试、部署等 DevOps 流程,形成端到端的智能开发闭环。
-
Git 智能交互:模型支持拉取请求生成、提交信息编写、分支管理、合并冲突解决等一系列 Git 操作,实现人机协作式版本控制。
-
模块化代码生成:用户可通过自然语言请求自动生成插件模块、API 接口、数据结构定义等标准化组件,节省大量开发时间。
-
新的 API 能力
-
代码执行 API:通过新增的代码执行功能,开发者可以直接调用模型进行远程代码运行、调试、输出等操作,构建更强大的智能体系统。
-
MCP 模型协议接入:新版本引入 Model Context Protocol,可让 Claude 4 更容易与企业数据库、SaaS 服务、云平台打通,提升系统联通性。
-
文件 API 能力:通过文件 API,模型可访问本地或云端文件系统,执行批量文档处理、数据预清洗、图表生成等任务。
-
缓存机制:支持一小时提示词缓存,有效减少上下文丢失,提升模型连贯性和响应速度。
什么人能在官网用上这次的新模型?
当前 Claude 4 对 Pro、Max、Team、Enterprise 用户开放,定价维持不变:
- Pro 版:200/年。
- Max 版:$100+/月,提供更大配额。
- Team 版:$30/人·月,至少 5 人起订。
- Enterprise 版:定制方案,含 SSO、审计、SCIM 等。
通过 Anthropic API、Amazon Bedrock 和 Google Vertex AI 均可调用 Claude 4。具体价格为:
- Opus 4:75(输出)每百万 tokens。
- Sonnet 4:15(输出)每百万 tokens。
Claude 4 被称为 Anthropic 迄今为止最强大的模型,也是全球最顶尖的编码模型。
编程能力的全面提升
- 跨文件编辑能力 :模型能够识别项目结构,在多个文件之间同步修改,减少遗漏。
- 复杂指令执行 :更精准地解析多条件、分步骤的请求。
- 长时间任务保持 :具备强大的上下文记忆能力,适合执行耗时较长的流程。
- 逻辑完整性增强 :在多步推理中,出现跳步或模板化回答的情况大幅减少。
实际应用中的卓越表现
- SWE-bench 和 Terminal-bench 测试 :Claude 4 分别以 72.5% 和 43.2% 的得分领先,全面超越了 OpenAI 刚发布的编程智能体 Codex-1 和最强推理模型 o3。
- 长时间稳定运行 :即便是在需要高度专注并执行数千步骤的长时间任务中,Claude 4 也能保持持续稳定的表现,连续工作数小时。
即便是在需要高度专注并执行数千步骤的长时间任务中,Claude 4 也能保持持续稳定的表现,连续工作数小时。Claude 4 的发布极大拓展了 AI 智能体的能力边界,为众多前沿智能体产品提供了强有力的技术支撑:
- Cursor:Claude 4 在编码能力上已达到业界顶尖水平,尤其在理解复杂代码库方面实现了突破性进展。
- Replit:面对跨多个文件的复杂更改任务,Claude 4 的精度显著提升,表现出了出色的稳定性。
- Block:在其「goose」智能体中,Claude 4 是首个在代码编辑和调试过程中,既能提升代码质量,又能保持完整性能和高可靠性的模型。
- Rakuten:Claude 4 成功完成了一项严苛的开源代码重构任务,在长达 7 小时的独立运行过程中始终保持稳定表现。
- Cognition:Claude 4 善于处理其他模型难以解决的复杂问题,成功完成了多个先前模型未能完成的关键任务。
在 Claude Sonnet 3.7 已具备行业领先性能的基础上,Claude Sonnet 4 又取得了显著进步:
- SWE-bench 测试:Sonnet 4 取得了高达 72.7% 的优异成绩,展现出极强的编码能力。
- 性能与效率的高度平衡:在内部和外部的实际应用中,Sonnet 4 实现了性能与效率的高度平衡,具备更强的可控性和适应性。
这意味着,Anthropic 正式加入了 2025 年推理模型大战!
2025 年被称为推理模型元年,Claude 4 正是该趋势的集大成者之一。其创新点不仅在于推理深度,更在于实时信息融合能力——模型能在思考过程中调用网络工具查找资料并更新答案,模拟类人“边查边想”的过程。
这种认知方式已成为 AI 智能体核心范式,从 OpenAI 的 o 系列、Google Gemini 到 DeepSeek-R1,Claude 4 凭借“推理即行动”理念构建出独具一格的认知路径。
自去年 12 月 OpenAI 推出 o 系列模型,正式打响推理大战的第一枪后,谷歌紧随其后发布了 Gemini 2.5 Pro,并引入实验性的“深度思考”功能;接着 DeepSeek-R1 也以其强劲性能和极高性价比迅速占领了市场。
如今,AI 的使用方式已发生深刻变革。
这一次,Anthropic 通过将工具使用深度融合进推理过程,为推理模型大战带来了颠覆性的创新。
与传统先收集信息、再分析判断的流程不同,Claude 4 采用了同步研究与推理的方式,更贴近人类的认知模式。
在推理过程中,Claude 4 可以暂停思考、实时查找信息,并将新获得的数据融入到当前的分析中,带来了更加自然、高效的交互体验。
Anthropic 显著减少了模型在完成任务时走捷径或利用漏洞的行为。
在最新发布的 Claude 4 系列模型中,Anthropic 显著减少了模型在完成任务时走捷径或利用漏洞的行为。与之前的 Sonnet 3.7 相比,这两款新模型在此类行为的发生概率上降低了 65% 。
这种改进使得 Claude 4 在执行复杂任务时更加可靠,避免了因追求快速完成任务而牺牲质量的情况。例如,在长时间运行的任务中,模型能够坚持按照既定流程执行,而不是寻找捷径。
在记忆能力方面,Claude 4 也取得了显著提升。当开发者授予 Claude 访问本地文件的权限时,模型能够提取并保存关键信息,保持任务的连续性,并随着时间的推移积累隐性知识 。这使得 Claude 4 在处理需要长期记忆和上下文理解的任务时表现更加出色。
一个显著的例子是,Claude 4 在玩《宝可梦 红》时,能够创建并使用“导航指南”来增强游戏体验 。与之前的版本相比,Claude 4 能够在游戏中持续进行 24 小时,而不是之前的 45 分钟,这显示了其在长期任务中的稳定性和记忆能力的提升。
此外,Claude 4 引入了“思考摘要”功能,通过一个较小的模型来简化冗长的思考过程。这项功能在约 5% 的情况下启用,因为大多数思考过程本身已经足够简洁、能够完整呈现 。
这些改进使得 Claude 4 在处理复杂、长时间运行的任务时表现更加稳定和可靠,进一步巩固了其作为全球领先编码模型的地位。
- 减少走捷径行为:Claude 4 相较 3.7 模型在“投机取巧”行为发生率降低 65%,提升任务执行质量。
- 深度任务执行力:即便数千步流程执行也不崩溃,如玩《宝可梦 红》时 Claude 可连续执行 24 小时,远超旧版本的 45 分钟。
- 新增“思考摘要”:自动为冗长思考过程生成摘要,在保留逻辑链的同时节省 token 和计算资源。
动作迅速的网友们已经开始实际测试。
例如,使用 Claude 4 构建一个 CRM 仪表板仅用了 30 秒,速度之快令人震惊。
连续 7 小时不间断编程,标志着 AI 大模型能力发展历程中的一个重要分水岭。只需一个提示,一次交互,Claude 4 就能构建出一个可运行的浏览器智能体,涵盖 API 和前端。
网友惊叹:太不可思议了,我从未见过这样的场面!另一位获得内测资格的用户表示:Claude 4在写作和编辑方面表现非常出色,编码能力则与Gemini 2.5不相上下。
例如,它能够一次性构建出一个完整的俄罗斯方块游戏。
为什么是历时17天重登王位呢,因为 5月6号谷歌gemini 2.5pro plus大模型发布,claude3.7 占据的王位被gemini获得。没想到短短的时间,Claude 4 横空出世,凭借雄厚的实力,重登王位。
从用户体验到模型架构,从推理能力到工具整合,Claude 4 无疑是当前最具变革性的生成式 AI 之一。在 AI 进入多模态、可交互、持久性新时代之际,Claude 4 的发布代表着一场从“生成文本”向“理解世界并行动”的转型。它不仅是一款强大的工具,更是一位值得信赖的虚拟协作伙伴。
Claude 4 不仅再次刷新了我们对 AI 大模型能力的认知,更让人切身感受到:未来已来,智能体不再是想象中的助手,而是随时可用的“得力伙伴”。无论是跨文件协同优化、长流程记忆衔接,还是即刻响应与深度思考的无缝切换,都彰显了 Anthropic 对“人机共创”理念的深刻洞察。现在,就让我们见证 AI 智能如何在更多场景中掀起新一轮生产力飞跃!
好用的功能太多太多,我就不在这个一一列举了,有兴趣的可以自行尝试。
有提供免费的授权码可体验~
有提供免费的授权码可体验~
有提供免费的授权码可体验~
私信Lethehong,获取体验码~ 国内可直接使用~
我是Lethehong,目标是带十万人玩转AI,期待与您共同探索AI的无限可能!
长按识别下方二维码,备注:AI体验。。
发你免费PLUS体验码和永久免费使用码:
回复【ai体验】,获取GPT,deepseek R1,Grok3,gemini2.5pro,claude3.7,claude4
国内直接使用 PLUS体验码: