基于LLM的游戏Agents的概念架构,包括六个核心功能组件: 感知、记忆、思考、角色扮演、行动和学习 。
LLMGAs框架
感知(Perception)
感知模块类似于Agent的感官器官,负责从多模态领域(包括文本、视觉、声音、触觉等)中感知输入。高效的感知功能对于游戏Agent来说至关重要,因为它们需要准确捕捉游戏状态信息以进行决策。对于文本游戏,LLMs可以直接处理自然语言描述的游戏环境。对于视频游戏,Agent可以通过内部API访问符号状态变量,或者使用外部视觉编码器将视觉信息转换为文本观察,或者利用多模态LLMs(MLLMs)直接感知视觉观察。
感知模块的思维导图
记忆(Memory)
记忆模块作为Agent的外部存储,保存了Agent过去的观察、思考、行动和技能,Agent可以从中检索关键信息以制定策略和决策。记忆可以分为情景记忆、高级语义记忆和程序记忆。检索机制用于从积累的记忆记录中筛选出最相关的记忆以供Agent使用。
记忆模块的思维导图
思考(Thinking)
思考是分析和整合信息的认知过程。两种主要的思考方法:推理和规划。推理涉及使用演绎、归纳和溯因来概括观察结果、得出结论和推断解释。规划则是将复杂任务分解为更简单、可执行的子任务集合。
思考模块的思维导图
角色扮演(Role-playing)
角色扮演使Agent能够在游戏中扮演不同的角色,产生符合角色特性的可信对话和行为。通过直接插入角色身份的自然语言描述或使用基于角色档案构建的虚构经验,可以增强LLMAs的角色扮演性能。
行动(Action)
行动模块将语言描述的决策转化为游戏环境中可执行的行动,使Agent能够有效地与游戏元素进行交互和操作。对于需要操作控制的游戏,需要一个翻译模块将高级行动转换为低级行动。
学习(Learning)
LLMGAs的学习过程涉及根据游戏环境中的经验反馈来提高其认知和游戏能力。学习方法可以分为上下文反馈学习、监督式微调和强化学习。这些方法使Agent能够通过与环境的互动来改进策略和行为,从而获得知识和技能。
学习模块的思维导图
根据主要特征将现有的LLMGAs研究分为 六个游戏类别 :
六种游戏类别的描述
现有LLMGAs之间的比较与分类,FT表示微调
冒险游戏 (Adventure Games)
冒险游戏通常通过故事情节或任务推进,可以分为基于文本的冒险游戏和视频冒险游戏。文本冒险游戏依赖于自然语言处理,而视频冒险游戏则需要更复杂的感知和决策能力。
通信游戏 (Communication Games)
这类游戏侧重于玩家间的交流、谈判、推理和欺骗。游戏如狼人杀和外交游戏要求玩家通过言语互动来推断他人意图并隐藏自己的目的。
竞争游戏 (Competition Games)
竞争游戏通过规则严格的挑战来测试玩家的技能和策略。 这些游戏通常作为评估LLMGAs推理和规划能力的基准。
合作游戏 (Cooperation Games)
合作游戏强调玩家之间的协作,共同完成任务。这类游戏可以进一步细分为合作烹饪、家庭合作任务和合作制作与探索。
模拟游戏 (Simulation Games)
模拟游戏提供了现实世界事件的模拟环境,允许玩家在开放式的游戏环境中体验和决策。这包括人类和社会模拟、文明模拟以及具身模拟。
制作与探索游戏 (Crafting & Exploration Games)
这类游戏通常提供开放世界环境,玩家可以收集资源、制作物品并探索广阔的环境,鼓励创造力和发现。
在代表性游戏Agents中使用的评估指标
A Survey on Large Language Model-Based Game Agents
https://arxiv.org/pdf/2404.02039.pdf
https://github.com/git-disl/awesome-LLM-game-agent-papers
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。