Lemur：训练语言模型成为更好的coding agents - 文章 - 开发者社区

一、前言

picture.image

人工智能最近取得了惊人的进展，像GPT-3、PaLM和ChatGPT这样的大型语言模型展示了在自然对话中具有显著人类能力的能力。然而，仅仅在闲聊方面表现出色是不够的-我们渴望开发能够有效地作为有能力的自主代理在世界中行动的AI系统。这需要不仅理解语言，还能执行基于多样化环境的复杂动作的模型。香港大学研究人员的一篇新论文arxiv介绍了Lemur和Lemur-Chat，这是开源的（Github）语言模型，旨在实现对话和编码能力的和谐平衡。这种协同的融合使模型能够无缝地遵循自由形式的指令、利用工具、根据反馈进行适应，并在文本、技术甚至模拟物理环境中更有效地作为代理操作。

二、从语言模型到语言代理的演变

为了使人工智能系统从像ChatGPT这样的会话机器人发展成为可以完成任务的完整代理，它们需要掌握三个关键能力——人类交互、推理和规划。现代语言模型在前两个维度上通过其自然语言技能展现出了显著的进展。然而，在混乱的现实环境中进行规划和执行行动也需要具备技术背景的基础。人类可以流畅地（有时是流畅的）将自然交流与符号编程语言相结合，以协调复杂场景中的目标和精度。我们在自由流畅的自然语言中讨论目标，但在需要复杂规划和精确执行时依靠像Python这样的语言。人工智能代理也需要有效地利用这两种能力。不幸的是，大多数现有的语言模型追求语言或编码的独占性，而不是协同作用。像LLaMA和Claude这样的流行会话模型更喜欢文本预训练，而以编码为重点的替代方案如Codex则限制了自然界面。这妨碍了它们作为代理的多功能性。研究人员确定了这一差距，并强调了统一自然语言和编程语言能力的重要性。他们介绍了Lemur作为尝试在单个开源语言模型中平衡这两种力量的努力。

三、统一了语言和代码预训练

Lemur以LLaMA-2为基础，这是一个来自Anthropic的开源对话式LLM。该基础模型在大规模的900亿token数据集上进行了额外的预训练，其中自然语言和代码的比例为10:1。这显著提高了其编码能力，同时仍然保持了语言流畅性。预训练语料库包括来自维基百科、新闻、网页和书籍的多样化文本数据。对于编程内容，它包括来自代码库（如GitHub）的Python、SQL、Bash和其他脚本。严格的去重确保了高质量的数据。这种预训练方案产生了Lemur——一种比现有替代方案更平衡地掌握自然语言和编程语言的LLM。

四、指令调整优化了遵循指令的能力

在对Lemur进行预训练之后，研究人员通过指令调整进一步优化了其遵循指令的能力。这种技术训练模型有效地执行自由书面或口头语言中的指令。指令调整从各种来源编译了300,000个示例，包括众包人类对话、ChatGPT对话、由GPT-4解决的推理任务以及通过指导ChatGPT生成的编程解决方案。在这个多领域的教学数据上进行微调，结果得到了更强大的遵循指令代理Lemur-Chat，可以进行复杂的基于语言的控制。

五、结果：语言和代码基准测试

对8个语言和编码基准测试的全面评估证实了与专门的替代方案相比，Lemur在两个领域中的更平衡的掌握能力。在文本和编码测试中，Lemur整体上超过了纯粹专注于语言的LLaMA-2，超过了4.3%。关键是，尽管Codex专注于编码，Lemur整体上也超过了Anthropic的编码中心化LLM，超过了1.9%。这证明了Lemur如何在不过度依赖一个领域的情况下取得有效的平衡。这种协调使其能够处理需要流利语言和精确程序控制的多样化任务。 Lemur-Chat通过额外的14.8%进一步改进了Lemur，展示了对代理能力进行指令调整的好处。

六、agents测试证实了在不同环境中的多功能性

虽然经典基准测试提供了洞见，但研究人员开发了更现实的代理测试来评估模型能力。这些测试涵盖了各种场景，需要推理、工具使用、调试、反馈处理和探索未知环境。 Lemur-Chat在13项代理评估中表现出色，优于专门的对话（LLaMA）和编码（Codex）对手。主要发现：工具使用：Lemur-Chat利用Python解释器和维基百科提高了推理能力，优于其他模型。

调试：它最好地利用错误消息来修复和完善代码。
反馈处理：当给予自然语言建议时，Lemur-Chat改进最大。
探索：该模型在模拟网络安全、浏览网页和家庭导航等需要逐步探索的挑战中超越了其他替代品。

持续的多功能性突显了Lemur作为通用agents的潜力，擅长于高级推理、低级程序控制和处理混乱的现实环境。

七、缩小开源和专有软件之间的差距

Lemur-Chat在大多数基准测试中与GPT-3.5等商业模型相匹敌甚至超越了它们的性能。这缩小了开源和专有代理之间的差距。研究人员将Lemur的平衡语言编码基础归功于其在各种代理挑战中的灵活性。他们认为，解锁这种多功能性需要将自然语言和编程语言的掌握统一到一个模型中。通过开源Lemur和Lemur-Chat，团队旨在促进对能力强大的多用途代理的更多研究。代码的可用性还允许根据专业用例进行定制增强。

八、语言代理研究的未来道路

该研究为训练更具能力的现实世界人工智能代理提供了宝贵的见解。研究结果显示，先在混合文本和编程数据上进行预训练，然后进行多领域指令调优的有效性。 Lemur提供了一个开源平台，用于开发将流畅的人类对话与精确的技术控制相结合的助手。这种内聚性反映了人类如何将自然语言和符号语言结合起来进行复杂协调。借助像Lemur这样的平台，从会话机器人向能干的通才代理的演变可以加速。然而，仍然有很大的改进空间。然而，通过共享基于混合语言编码基础的最佳训练范式，这项研究为前进的道路点亮了明灯。最终的愿景是能够理解自由形式的自然语言指令，推理出适当的回应，计划上下文感知的行动，并在各种不可预测的环境中可靠地执行它们的人工智能代理。Lemur使这个目标更近了一步。