文档备案控制台登录立即注册
首页
AI 大模型体验中心AI 大模型体验中心AI 大模型体验中心
动手实验室动手实验室动手实验室
Agent 评测集Agent 评测集Agent 评测集
AI 案例广场AI 案例广场AI 案例广场
火山杯大赛学习中心
社区
去发布
首页
AI 大模型体验中心AI 大模型体验中心AI 大模型体验中心
动手实验室动手实验室动手实验室
Agent 评测集Agent 评测集Agent 评测集
AI 案例广场AI 案例广场AI 案例广场
学习中心
社区
翻身AI挖掘机
翻身AI挖掘机
文章
专栏
问答
翻身AI挖掘机
翻身AI挖掘机
思维链不可尽信:大模型推理过程的剖析
大模型AI生态
大型语言模型(LLMs)展现出了强大的思维链(CoT)推理能力,这不仅提升了其解决复杂任务的准确性,还为AI安全带来了新的可能——通过监测模型的CoT来洞悉其意图和推理过程。然而,这一监测方法的有效性,完全取决于CoT能否真实地反映模型的实际推理。论文《Reasoning Models Don’t Always Say What They Think》深入探讨了这一关键问题,对当前最先进的推理模型
70
0
0
0
翻身AI挖掘机
翻身AI挖掘机
大模型能力评估体系
AI生态AI解决方案AI生态
随着人工智能技术的飞速发展,大模型已成为当前科技领域的焦点。据中国科学技术信息研究所的数据,国内具有超过10亿参数规模的模型已达79个,声势浩大的"百模大战"持续上演。在这样的背景下,如何科学、客观地评估大模型的能力,成为了学术界和产业界共同关注的问题。本文将深入介绍全球主流的大模型评估体系、标准机构和评测方法,帮助读者理解大模型评估的科学原理。大模型评估不仅是技术层面的需求,更关系到商业决策和公
297
0
0
0
翻身AI挖掘机
翻身AI挖掘机
走进大模型智能体的奇妙世界
大模型AI解决方案AI生态
在人工智能飞速发展的今天,"大模型智能体"这个词汇正逐渐走入公众视野。无论是科技新闻还是日常应用,我们都能感受到它带来的变革。但对于大多数人来说,这个概念仍然显得有些神秘和复杂。本文将以通俗易懂的语言揭开大模型智能体的神秘面纱,带您了解这项改变世界的技术。大模型智能体,简单来说,就是一种能够感知环境、进行决策并执行动作的智能计算实体。它就像是一个数字世界中的"智能助手",不仅能理解我们的指令,还能
43
0
0
0
翻身AI挖掘机
翻身AI挖掘机
一行代码,让我的SFT模型泛化能力飙升,效果堪比PPO
AIAI解决方案人工智能文字识别
最近在使用  做模型微调,除了常规的SFT(监督微调),也花了不少时间折腾DPO、PPO这类强化学习算法。大家普遍的体感是,RLHF(尤其是PPO)调出来的模型,在遵循指令和泛化能力上,确实比单纯的SFT要强一个档次,但它的训练成本和不稳定性也是出了名的“劝退”。每次看着那不稳定的奖励曲线和漫长的训练时间,我都在想:难道就没有一种方法,能让我们用SFT的成本,达到接近RL的泛化效果吗?直到我读到了
48
0
0
0
翻身AI挖掘机
翻身AI挖掘机
AI Agent的“记忆力”与“工具箱”
AIAgent
AI Agent作为人工智能领域的前沿方向,正逐步从概念走向实际应用。不同于传统的问答系统,AI Agent具备自主思考、规划、执行并与外部环境交互的能力,其应用场景涵盖代码生成、科学研究、客户服务及自动化办公等多个领域。然而,要使这些AI Agent真正发挥潜力,仅依靠大型语言模型(LLM)的强大能力是不足的。一个关键且常被忽视的环节是“上下文工程”(Context Engineering)。上
79
0
0
0
翻身AI挖掘机
翻身AI挖掘机
TraeSolo手搓古文教学系统
AIAI解决方案行业趋势最佳实践
作为一名算法工程师,我的日常更多是在和数据、模型权重、训练管线打交道。很多时候,我们手里虽然有调优好的模型,但要真正把它变成一个端到端、用户可用的产品,中间隔着一道厚厚的“工程墙”——前端交互、后端并发、鉴权逻辑、数据库设计……这些繁琐的业务代码,往往会消磨掉我们验证 Idea 的热情。最近为了验证一个“AI+传统文化”的垂直场景,我需要构建一套“古文智能教学与评估系统”。核心逻辑很简单:大模型做
32
0
0
0