翻身AI挖掘机的个人主页 - 开发者社区

翻身AI挖掘机

文章

专栏

问答

翻身AI挖掘机

思维链不可尽信：大模型推理过程的剖析

大模型AI生态

大型语言模型（LLMs）展现出了强大的思维链（CoT）推理能力，这不仅提升了其解决复杂任务的准确性，还为AI安全带来了新的可能——通过监测模型的CoT来洞悉其意图和推理过程。然而，这一监测方法的有效性，完全取决于CoT能否真实地反映模型的实际推理。论文《Reasoning Models Don’t Always Say What They Think》深入探讨了这一关键问题，对当前最先进的推理模型

翻身AI挖掘机

大模型能力评估体系

AI生态AI解决方案AI生态

随着人工智能技术的飞速发展，大模型已成为当前科技领域的焦点。据中国科学技术信息研究所的数据，国内具有超过10亿参数规模的模型已达79个，声势浩大的"百模大战"持续上演。在这样的背景下，如何科学、客观地评估大模型的能力，成为了学术界和产业界共同关注的问题。本文将深入介绍全球主流的大模型评估体系、标准机构和评测方法，帮助读者理解大模型评估的科学原理。大模型评估不仅是技术层面的需求，更关系到商业决策和公

翻身AI挖掘机

走进大模型智能体的奇妙世界

大模型AI解决方案AI生态

在人工智能飞速发展的今天，"大模型智能体"这个词汇正逐渐走入公众视野。无论是科技新闻还是日常应用，我们都能感受到它带来的变革。但对于大多数人来说，这个概念仍然显得有些神秘和复杂。本文将以通俗易懂的语言揭开大模型智能体的神秘面纱，带您了解这项改变世界的技术。大模型智能体，简单来说，就是一种能够感知环境、进行决策并执行动作的智能计算实体。它就像是一个数字世界中的"智能助手"，不仅能理解我们的指令，还能

翻身AI挖掘机

一行代码，让我的SFT模型泛化能力飙升，效果堪比PPO

AIAI解决方案人工智能文字识别

最近在使用做模型微调，除了常规的SFT（监督微调），也花了不少时间折腾DPO、PPO这类强化学习算法。大家普遍的体感是，RLHF（尤其是PPO）调出来的模型，在遵循指令和泛化能力上，确实比单纯的SFT要强一个档次，但它的训练成本和不稳定性也是出了名的“劝退”。每次看着那不稳定的奖励曲线和漫长的训练时间，我都在想：难道就没有一种方法，能让我们用SFT的成本，达到接近RL的泛化效果吗？直到我读到了

翻身AI挖掘机

AI Agent的“记忆力”与“工具箱”

AIAgent

AI Agent作为人工智能领域的前沿方向，正逐步从概念走向实际应用。不同于传统的问答系统，AI Agent具备自主思考、规划、执行并与外部环境交互的能力，其应用场景涵盖代码生成、科学研究、客户服务及自动化办公等多个领域。然而，要使这些AI Agent真正发挥潜力，仅依靠大型语言模型（LLM）的强大能力是不足的。一个关键且常被忽视的环节是“上下文工程”（Context Engineering）。上

翻身AI挖掘机

TraeSolo手搓古文教学系统

AIAI解决方案行业趋势最佳实践

作为一名算法工程师，我的日常更多是在和数据、模型权重、训练管线打交道。很多时候，我们手里虽然有调优好的模型，但要真正把它变成一个端到端、用户可用的产品，中间隔着一道厚厚的“工程墙”——前端交互、后端并发、鉴权逻辑、数据库设计……这些繁琐的业务代码，往往会消磨掉我们验证 Idea 的热情。最近为了验证一个“AI+传统文化”的垂直场景，我需要构建一套“古文智能教学与评估系统”。核心逻辑很简单：大模型做