提示工程在大模型日趋强大的今天显得越来越重要,最终Agent的表现的核心秘密在于提示词的设计。近日,YC在其播客栏目《Lightcone》里分享了他们从与数百大模型创业公司中学到的先进提示工程实践。
以下是本次访谈的核心内容:
一、核心原则:像管理员工一样设计提示
- 角色定义清晰化
- 开篇明确定义AI角色(如“你是一名客服经理”),用分点列举具体职责
- 示例:ParaHelp的6页提示文档首段明确任务边界
完整版本:https://parahelp.com/blog/prompt-design
- 任务拆解步骤化
- 复杂任务分解为编号步骤(如“步骤1:分析问题→步骤2:调用工具”)
- 提供高层计划框架,避免AI偏离方向
- 输出格式标准化
- 强制规定输出结构(如XML/JSON标签),便于系统集成
- 关键技巧:XML标签能显著提升模型遵循率(因训练数据含大量XML)
二、进阶技巧:元提示工程(Metaprompting)
- 提示自我进化
- 让大模型优化自身提示:输入失败案例,要求“基于此改进提示”
- 应用 提示折叠(Prompt Folding) :动态生成场景化子提示
- 案例驱动优化
- 注入高难度示例(如N+1数据库查询漏洞)指导复杂任务
- 比抽象规则更有效,类似编程的 测试驱动开发(TDD)
- 三层提示架构
| 层级 | 作用 | 案例 | | --- | --- | --- | | 系统提示 | 公司级通用逻辑(核心IP) | ParaHelp客服审核框架 | | 开发者提示 | 客户定制逻辑(业务流差异) | Perplexity特殊需求注入 | | 用户提示 | 终端用户指令 | Replit的“生成带XX功能的网站” |
三、企业级实践:从调试到落地
- 构建“逃生舱”机制
- 强制模型在信息不足时停止猜测(例:“如无法确认,请要求补充信息”)
- YC内部方案:设置debug_info字段收集模型“投诉”,生成开发者待办清单
- 评估集(Evals)是护城河
- 真实场景测试集>提示本身(ParaHelp公开提示但保密评估集)
- 核心能力 :深入垂直领域(如农机保修决策),构建专属评估案例
- 模型个性适配
- Claude :人性化强,易引导(适合客服场景)
- Llama :需精确指令,但可控性高(适合工程场景)
- 大模型蒸馏 :用GPT-4优化提示,部署到小模型降延迟
四、创业者必知:向前部署工程师(FDE)模式
- 创始人即首席提示工程师
-
Giger ML:靠现场调优赢得Zepeto大单
-
Happy Robot:3个月签下物流巨头7位数合同
-
亲自深入客户场景(如坐班客服中心),将观察转化为提示规则
-
成功案例 :
- 用demo加速成交
- 首次会议→定制提示→二次会议展示→当场签约
- 差异化关键:解决行业特定5%-10%的“魔鬼细节”
行业隐喻与趋势
- “1995年的编程” :工具链不成熟,但创新空间巨大
- “管理员工” :需明确任务边界、提供思考框架、允许“求助”
- “制造业改善” :一线执行者(AI)参与流程优化
关键结论:
提示工程=20%技术+80%领域知识 ,成功企业需深耕垂直场景,将用户工作流转化为提示语言。
公众号回复“进群”入群讨论。