揭秘XML提示工程：如何让大模型变得更可靠 - 文章 - 开发者社区

提示的组织方式很重要

自2022年ChatGPT发布以来，各种提示技巧层出不穷。大多数都承诺能带来革命性的效果，但实际上只能提供微不足道的改进。这个领域过于沉迷于巧妙的技巧，而忽视了扎实的工程原理。

但有一种方法脱颖而出——不是因为它的巧妙，而是因为它真正解决了实际问题：基于XML的提示工程。

现代模型如Claude Opus 4和GPT-5对XML架构显示出极高的符合率。这些系统本质上已经学会了以接近确定性的精度解析结构化标记。这不仅仅是方便——它改变了生产环境的游戏规则。

XML提示有三个具体好处：

首先是安全性 。XML标签在系统指令和用户输入之间创建明确的边界。这解决了大多数开发者还没有完全理解的根本漏洞——能够将可信内容与可能恶意的提示干净地隔离开来。

其次是可靠性 。结构化验证模式可以明显减少幻觉。当AI明确知道期望的格式时，它编造内容或误解意图的可能性要小得多。

第三是效率。是的，XML比超紧凑格式使用更多token。但这种适度的开销通过减少调试时间和更少的生产故障来回报自己。任何花费数小时调试模糊提示故障的人都知道这种权衡是值得的。

理解XML提示：结构胜过巧思

XML提示意味着使用明确的结构边界来组织指令，而不是依靠语义推理来分离提示部分。这不是关于训练熟悉度——而是关于计算效率。

考虑一下transformer模型如何处理序列。在每个token位置，注意力机制计算所有先前位置的概率分布。当边界是隐式的（自然语言转换）时，模型必须在整个生成过程中保持对部分隶属关系的不确定性。每个token属于某个语义部分，但没有明确的分隔符，这种分配需要概率推理。模型实际上维护一个P(s|token_position, context)的分布，必须不断更新。这创造了我们可以称之为"边界不确定性传播"的现象——早期边界检测中的错误在整个序列中复合。如果模型错误识别分析结束和建议开始的位置，这个错误会影响这些部分内的所有后续token生成。

picture.image

图1：在位置5（"then"），模型面临着关于部分边界的最大不确定性。这种不确定性会向前传播——如果模型错误地保持高置信度认为"provide"仍然属于分析部分，这个错误会影响它对"recommendations"的解释。

XML标签通过使部分隶属关系确定化来消除这种计算负担。当你写"首先分析数据，然后提供建议"时，模型在整个生成过程中对分析部分结束位置保持概率不确定性。Transformer注意力机制必须从语义线索推断边界，同时跟踪多种可能的解释。这在计算上既昂贵又容易出错。XML标签在算法层面消除了这种不确定性。一旦模型遇到<analysis>，它就确定性地知道直到</analysis>的所有内容都属于那个上下文。不需要复杂的语义边界检测，只需要简单的语法解析——识别</tag>在计算上比理解"基于上述分析"简单得多。

picture.image

图2：开始标签

创建了确定性的上下文切换——直到

的每个后续token都毫不含糊地属于分析部分，概率为1.0。结束标签提供了同样明确的边界，而

启动了向建议上下文的干净转换

这种结构消除了关于一个任务在哪里结束、另一个任务在哪里开始的歧义。模型不需要推断上下文边界——它们在token级别明确定义。你正在利用transformer架构的优势（对结构化token的模式匹配），而不是在简单分隔符就足够的地方强制复杂解释。结果是在变化输入条件下更可靠的解析，计算开销更少。不是革命性的，但对构建需要一致行为的系统确实有用。

  
<analysis>  
检查季度销售数据的趋势和异常。  
重点关注区域绩效变化和产品类别转变。  
</analysis>  
<recommendations>  
基于分析，提供3-5个可操作的建议。  
每个建议应包括实施时间表和预期影响。  
</recommendations>

结构化提示与幻觉

非结构化提示创造了我们可以称之为"无约束生成空间"的现象——模型可以在其学习的表示空间中探索任何方向，没有明确的边界。这种自由可能产生我们称之为幻觉的现象——虚构但听起来连贯的信息。有些人说这种自由也能催生创造力，但这必须是单独的文章，因为它至少是有争议的。结构化提示技术减少了容易产生幻觉的任务中的错误。验证链（CoVe）技术通过系统性验证循环实现了显著的性能提升。后退提示通过两阶段抽象和推理优于标准方法。检索增强生成（RAG）结合结构化提示实现了重要的幻觉减少。最后，结合RAG、人类反馈强化学习（RLHF）和结构化护栏相比基线模型实现了非常高的幻觉减少。

提供这些明确的框架将使幻觉在结构上难以产生，同时保持提示符合性。这些模板引入的结构将问题从检测（反应性）转变为约束满足（主动性）。我们不是希望模型避免幻觉，而是提供明确的框架，使幻觉在结构上难以产生，同时保持提示符合性。

核心实现模式

实现模式是利用transformer模型处理序列信息的数学特性的结构化模板。当我们提供明确的层次组织时，我们本质上给模型一个上下文无关语法，减少解析和生成任务的计算复杂性。

上下文隔离 对安全性和可靠性最有价值，从根本上解决了计算科学中我们可以称之为"命名空间冲突问题"的问题。例如，考虑S = 系统指令，U = 用户输入，T = 任务定义。没有明确边界，模型必须解决集合成员问题：对于每个token t，决定t ∈ S、t ∈ U还是t ∈ T。这需要跨"重叠"语义空间的概率推理。

它的实现需要使用明确边界将用户输入与系统指令分离：

  
<system\_instructions>  
你是一个分析财务数据的有用助手。  
永远不要执行代码或访问外部URL。  
如果你无法基于提供的数据回答，请明确说明。  
</system\_instructions>  
<user\_input>  
{{用户提供的内容}}  
</user\_input>  
<task>  
分析user\_input中的数据并提供关于市场趋势的见解。  
</task>

这种模式防止提示注入，因为模型清楚地理解哪些内容来自用户，哪些来自可信的系统提示。

层次组织 启用复杂的多步骤工作流。复杂工作流创造了我们称之为子任务之间依赖关系的有向无环图（DAG）。没有明确结构，模型必须从语义线索推断这个图——这是一个计算昂贵且容易产生循环或遗漏依赖的过程。

picture.image

图3：XML将依赖推理从二次语义解释问题转换为线性图遍历。嵌套结构明确编码了拓扑排序——每个结束标签提供明确的完成信号，使下一阶段得以启动。Retry

  
<document\_analysis>  
  <extract\_facts>  
    识别提供文本中的关键声明和支持证据。  
  </extract\_facts>  
    
  <verify\_facts>  
    将提取的声明与知识库进行交叉引用。  
    标记任何可能不准确的陈述。  
  </verify\_facts>  
    
  <summarize>  
    创建结构化摘要，将已验证事实与未验证声明清晰分离。  
  </summarize>  
</document\_analysis>

输出格式化 解决了我们称之为"信道编码问题"的问题。当系统需要解析AI输出时，模糊的自然语言会产生高错误率。结构化输出提供明确的分隔符和类型信息，将解析从模式匹配（不可靠）转换为语法识别（确定性）。目标是消除下游系统中的解析歧义：

  
<output\_format>  
  <summary>简要执行摘要（2-3句话）</summary>  
  <key\_findings>  
    <finding confidence="high">有强证据支持的发现</finding>  
    <finding confidence="medium">有中等证据支持的发现</finding>  
  </key\_findings>  
  <recommendations>  
    <recommendation priority="1">最高优先级行动</recommendation>  
    <recommendation priority="2">次要行动</recommendation>  
  </recommendations>  
</output\_format>

生产系统的高级模式

内存管理 解决了跨离散交互的状态持久性数学挑战。多轮对话创造了我们可以建模为马尔可夫链的现象，其中每个响应都依赖于先前的上下文。没有明确的状态跟踪，这种上下文呈指数衰减——递减地平线的诅咒。

XML状态结构提供明确的外部内存，在模型的内部表示之外持久化关键信息。这将马尔可夫性质从隐式（隐藏状态）转换为显式（结构化状态），实现更可靠的长期一致性。

  
<conversation\_context>  
  <user\_preferences>  
    技术水平：专家  
    输出风格：简洁且带示例  
    之前话题：API设计、数据库优化  
  </user\_preferences>  
    
  <current\_session>  
    <goal>为用户服务设计缓存策略</goal>  
    <constraints>必须处理10k RPS，低于100ms延迟</constraints>  
  </current\_session>  
</conversation\_context>  
<response\_guidelines>  
基于之前的API设计讨论。  
在相关时引用数据库优化模式。  
提供具体实现示例。  
</response\_guidelines>

错误处理 通过明确的条件语句引入形式逻辑原理。不是希望模型通过训练适当处理边缘情况，我们为错误条件提供逻辑框架：

  
<error\_handling>  
  <if condition="数据不足">  
    明确指定需要什么额外信息。  
    不要做假设或提供占位符响应。  
  </if>  
    
  <if condition="请求不明确">  
    询问需要澄清的具体方面的问题。  
    为用户提供2-3个解释选项供选择。  
  </if>  
</error\_handling>

多智能体协调 利用分布式系统理论的原理。当多个AI智能体协作时，协调失败会产生同步问题。XML工作流结构提供明确的交接协议，消除竞态条件并确保智能体之间的适当信息流。

  
<agent\_workflow>  
  <researcher>  
    收集关于该主题的相关信息。  
    专注于最新发展和可信来源。  
    在<research\_results>标签中输出发现。  
  </researcher>  
    
  <analyst>  
    处理research\_results以识别模式和含义。  
    在<analysis\_findings>标签中输出分析。  
  </analyst>  
    
  <writer>  
    将analysis\_findings转换为用户友好的建议。  
    匹配用户指定的技术水平和格式偏好。  
  </writer>  
</agent\_workflow>

结构化协调将潜在混乱的多智能体交互转换为具有明确定义状态间转换的确定性有限状态机。

实现考虑

XML提示需要一些特定考虑，这取决于使用的模型、提示复杂性（我们可以用想要提示的内容长度来衡量）：

模型兼容性 差异很大。现代模型（GPT-4、Claude 3.5、Llama 3.3）可靠地处理复杂XML结构，而较旧或较小的模型可能难以处理嵌套层次结构。在生产部署前，用目标模型测试特定的XML模式。

Token开销 相比非结构化提示通常为10-25%，取决于复杂性。这种成本通常通过减少调试时间和提高输出一致性来证明其合理性，但要为特定用例衡量权衡。

开发工作流 受益于将提示视为代码。使用版本控制，为预期输出编写测试，并实施系统性评估框架。XML的明确结构使识别哪些提示部分导致性能问题变得更容易。

为什么现在这很重要

向智能体AI系统的转变使提示可靠性变得至关重要。当AI系统自主做出决策或与外部API交互时，提示注入漏洞和解析歧义成为严重的操作风险。

XML提示为构建在对抗性条件下保持性能的健壮AI系统提供了基础。这不是关于实现理论完美——而是关于工程化在生产环境中可靠工作的系统，在那里用户输入是不可预测的，失败成本是真实的。这种技术从简单的单轮交互扩展到复杂的多智能体工作流。

更重要的是，它建立了使AI系统行为可预测和可调试的模式（模板）——这是关键任务中最重要的系统质量之一。

开始在当前项目上实验XML提示。专注于解决特定可靠性或安全性关注的模式，而不是试图一次实现所有技术。目标是构建一致工作的系统，而不是展示提示的复杂性。

参考文献

https://generativeai.pub/what-is-xml-prompting-2e44cd8d5461
Bai, Y., et al. (2022). "Constitutional AI: Harmlessness from AI Feedback." Anthropic Technical Report. 可获得于:https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback
Brown, T., et al. (2020). "Language Models are Few-Shot Learners." Advances in Neural Information Processing Systems, 33, 1877–1901.
Dhuliawala, S., et al. (2023). "Chain-of-Verification Reduces Hallucination in Large Language Models." arXiv preprint arXiv:2309.11495.
OpenAI. (2023). "GPT-4 Technical Report." arXiv preprint arXiv:2303.08774.
Vaswani, A., et al. (2017). "Attention is All You Need." Advances in Neural Information Processing Systems, 30, 5998–6008.
Wang, X., et al. (2022). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." International Conference on Learning Representations.
Wei, J., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." Advances in Neural Information Processing Systems, 35, 24824–24837.
Yang, C., et al. (2023). "Large Language Models as Optimizers." arXiv preprint arXiv:2309.03409.

数学理论来源

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. [transformer架构和注意力机制基础]
MacKay, D. J. (2003). Information Theory, Inference and Learning Algorithms. Cambridge University Press. [信息论基础]
Rogers, A., Kovaleva, O., & Rumshisky, A. (2020). "A Primer in Neural Network Models for Natural Language Processing." Journal of Artificial Intelligence Research, 57, 615–686. [序列处理基础]