一文总结基于大语言模型的自动代理(AI Agent)现状:AI Agent统一框架,Agent能力获取策略、AI Agent种类和当前已有的AI Agent模型总结
自主代理(Autonomous Agents)是指能够自主决策和执行任务的计算机程序或系统。这些代理具备一定程度的自主性,可以根据其内部的规则、算法、数据和感知环境中的信息来做出决策,而不必依赖外部人类指令。大语言模型强大的能力让大家看到基于LLM的AI Agent的潜力。OpenAI的Safety团队的负责人Lilian WengAI Agent也认为AI Agent是使LLM转为通用问题解决方案的途径之一(参考:https://www.datalearner.com/blog/1051689842100145 )。中国人民大学高瓴人工智能学院在2023年8月份曾经发表过一篇关于AI Agent的综述文章,2023年9月初,这篇综述有了新的更新。本文总结一下最新的AI Agent的综述内容。

AI Agent的统一框架
这篇综述首先为AI Agent设计了一个统一的框架,将当前大多数的AI Agent都纳入到这个框架下。
具体来说,AI Agent框架的整体结构如下图所示:

AI Agent由一个配置模块、一个记忆模块、一个规划模块和一个行动模块组成。配置模块的目的是确定代理的角色。记忆和规划模块将代理置于动态环境中,使其能够回顾过去的行为并规划未来的行动。行动模块负责将代理的决策转化为具体的输出。在这些模块中,配置模块影响记忆和规划模块,而这三个模块共同影响行动模块。接下来,我们详细介绍这些模块。
一、配置模块
配置模块的目标是定义代理的身份和个性。与普通语言模型不同,自主代理往往需要扮演某种特定角色才能完成任务。配置模块明确了代理所扮演角色的相关信息,以指导其行为方式。
研究中通常包含的配置信息有:基础信息(如年龄、性别等)、心理信息(如性格特点等)、社会信息(如与其他代理的关系等)。生成配置信息的方法主要有:手工配置法直接人工指定代理个性;语言模型生成法使用语言模型自动生成配置;数据对齐法从真实数据集中学习配置。
配置模块设计的重要性在于它影响了代理的记忆、规划和行动方式。合理的配置可以让代理产生更符合预期角色的行为。例如在多代理协作中,不同角色的配置会明确各自的分工,有利于任务协同;在社会演化模拟中,代理配置反映真实人群特征,可以得到更可信的模拟结果。
总之,配置模块奠定了代理行为的基础。手工配置可以灵活定义代理个性,语言模型生成可以大规模自动生成配置,数据对齐可以准确捕捉真实人群特征。各种方法可以相结合使用,为不同目的生成理想的代理配置。
二、记忆模块
记忆模块存储代理过去的经历,为未来行动提供参考。它模拟人类记忆,支持代理在动态环境中积累经验、发展自我。
从结构上看,一般分为统一记忆结构和混合记忆结构。前者只保留最近经历,后者额外包含长期记忆。从格式上看,记忆可用自然语言描述,也可以编码为向量、知识库等格式。记忆模块还定义了读写反思等操作接口。
记忆模块的设计对代理的持续学习和行为一致性至关重要。读取相关记忆可提高行动效率;存储重要经历可支持长期推理;反思可以归纳更抽象的见解。混合记忆结构融合短期和长期记忆的优势,编码记忆可提高检索效率。
总之,记忆模块赋予代理累积经验的能力。设计时应考虑记忆overfitting和hallucination问题,以保证 recall 的质量。同时定义合理的操作接口,支持代理流畅地读写和利用记忆。这有助于代理在复杂动态环境中更智能地感知、学习和规划。
三、规划模块
规划模块将复杂任务分解为多个简单步骤,类似人类的思考过程。这可以明确代理解决问题的逻辑,使其行为更合理可解释。
无反馈规划一次性生成完整方案;有反馈规划允许逐步优化方案。两者各有优势。无反馈规划简单直接,但更适合简单任务;有反馈规划可以处理更复杂的长时间规划,但需要定义反馈通道。
反馈可以来自环境、人类或模型。环境反馈评估行动影响;人类反馈指导代理符合期望;模型反馈预测潜在问题。合理使用各类反馈可以弥补语言模型自己的局限,产生更高质量的规划。
规划模块让代理获得解决复杂问题的能力。无反馈规划可快速生成初步方案;有反馈规划更适合动态调整。研究中也集成外部规划器获得先进的搜索算法。规划模块与记忆模块相互协同,使代理在连续任务中表现出更强的逻辑推理与长期思考能力。
四、行动模块
行动模块将代理的决策转化为具体输出,直接作用于环境。它由行动目标、行动生成和行动空间三部分组成。

目标包括完成任务、交流沟通等。生成方式包括依据记忆和遵循规划等。行动空间则包括利用外部工具(如API和模型)或语言模型自身知识。
行动影响包括改变环境、更新自身状态、触发新行动等。合理的行动目标和生成策略可以让代理主动积极;提供丰富的行动空间可以应对更多情况。
总之,行动模块赋予代理实际影响环境的能力。行动的目标明确方向,生成方式保证质量,空间范围决定适应性。与其他模块协同,行动模块使代理能够展现出目标导向的主动性,并基于积累