LLM-Co框架：为智能体协作而生（Evaluating Multi-Agent Coordination Abilities in Large Language Models）

论文题目：Evaluating Multi-Agent Coordination Abilities in Large Language Models

论文链接：https://arxiv.org/pdf/2310.03903

多智能体系统中的大型语言模型：协作能力探索

在人工智能领域，构建能够与人类及其他系统协作的智能体是一个备受关注的课题。大型语言模型（Large Language Models，LLMs）以其卓越的自然语言理解和生成能力，成为该课题中的一股新兴力量。今天，我们来探讨一项新研究，该研究评估了采用LLMs的智能体在不同协作场景下的表现，并提出了一个专为LLMs设计的协作框架——LLM-Coordination（LLM-Co）。

LLM-Co框架：为智能体协作而生

LLM-Co框架的设计初衷是让LLMs能够更好地参与到多智能体的协调游戏中去。研究者们通过在三个不同的游戏环境中测试LLMs的协作能力，来评估该框架的有效性。评估分为五个方面：

理论心智（Theory of Mind）：测试智能体是否能够理解合作伙伴的意图。
情境推理（Contextual Reasoning）：评估智能体根据当前环境制定合理行动的能力。
持续协作（Sustained Cooperation）：观察智能体在长期任务中与合作伙伴的协作能力。
对合作伙伴的稳健性（Robustness to Partners）：考量智能体能否与不同的、未知的合作伙伴进行有效协作。
明确协助（Explicit Assistance）：测试智能体是否能在必要时刻主动提供帮助。

实验结果：LLMs在协作中的潜力

实验结果显示，LLMs在理解合作伙伴意图和基于情境做出推理方面表现出色。这是构建能够理解复杂社会互动的智能体的关键。在长期任务中，LLMs表现出的协作能力和对不同合作伙伴的适应性都优于传统的强化学习方法。

特别值得一提的是，在Overcooked-AI基准测试中，研究者引入了新的布局来评估智能体的明确协助能力。智能体需要在完成任务的同时，判断是否需要牺牲自己的时间来帮助合作伙伴。LLMs在这一测试中展现了出色的协助能力。

近年来，大型语言模型（LLM）在处理复杂情境中的问题解决和任务执行方面表现出色。这些模型不仅能进行高级推理，甚至在某种程度上展现出对心理理论（即认知他人心理状态的能力）的理解。

本文将介绍一项新的研究，它探索了大型语言模型在需要多代理协作的任务中的推理能力。我们追求的是让代理能够预测伙伴的行为（心理理论）、在共享环境中作出推断（情境推理）、执行持续的计划（持续协调），并能适应新的合作伙伴（合作伙伴的鲁棒性）。此外，代理在协作过程中应能主动提供显式帮助。

评估LLM的多智能体协作能力

为了测试LLM在多代理协作中的表现，我们选用了三个不同的协作游戏。首先是“Collab Escape”游戏，要求两个智能体配合逃脱对手的追捕。其次是“Collab Capture”，在这个迷宫游戏中，两个智能体需要合作追捕一个目标。最后是“Overcooked”游戏，玩家需要合作烹饪和传递洋葱汤。

为了使LLM能理解和参与这些游戏，我们引入了LLM-Coordination框架（简称LLM-Co框架），它为LLM提供了必要的状态信息和可行动作，同时将模型输出转换为实时行动。

评估工作分为两个部分。首先，我们测试了LLM的心理理论和情境推理能力，这是协作所需的基础技能。我们设计了LLM-ToM-Reasoning测试集来评估模型在这些方面的表现，并发现GPT-4的得分明显优于其他LLM，接近人类水平。

接下来，我们专注于GPT-4的持续协调能力，并将其与基于强化学习的方法进行比较。此外，我们还测试了LLM-Co代理在与人类玩家协作时的表现。结果表明，LLM-Co代理在与AI或人类玩家的合作中都取得了与强化学习基线相当甚至更好的成绩，并且能够通过自然语言清晰解释其动作。

显式协助：LLM-Co代理的新挑战

我们在“Overcooked”环境中引入了新的布局，强迫代理必须互相协助才能完成任务。研究发现，尽管LLM-Co代理能够找到正确的协助策略，但它们需要通过自然语言提示来关注需要帮助的情况。在这些新布局上的实验进一步验证了LLM-Co代理在理解游戏共同收益性质和行动推理方面的能力。

多智能体协调：纯粹的合作与策略性互助

纯协调博弈的新实验场：Overcooked-AI环境

在探索多智能体系统的合作策略时，我们不得不提Overcooked-AI环境。这个环境提供了一个创新的平台，让两个智能体可以在一个互连迷宫中执行任务，比如捕捉对手或者协助伙伴。这是一个考验智能体协作与战略规划能力的理想环境。

协作逃脱：代理人的逃生与牺牲

在受到《Dead-by-Daylight》启发的协作逃脱游戏中，两个智能体必须在敌人的追捕下逃出迷宫。这个过程中不仅需要智谋和勇气，还需要代理人们相互牺牲与支持。这种环境测试了智能体的同步行动能力，以及如何在危机时刻为团队利益做出选择。

Overcooked: 智能体互助的新挑战

我们的研究重点在于评估智能体在识别并把握帮助合作伙伴的机会上的表现。通过在Overcooked环境中引入新的元素和布局，我们设定了一系列需要智能体放下自己任务，转而支援伙伴的场景。

Gated Delivery：门控递送中的相互依赖

在我们设计的Gated Delivery环境中，双方代理需要互相协助才能成功完成送餐任务。由于门的存在使得送餐区域的通行受限，代理人需要在正确的时机打开门，以便另一方代理顺利通过。这个环境考验了智能体之间的默契和即时反应能力。

Locked：当合作成为唯一出路

Locked环境模拟了现实生活中的协作场景，当一方代理被困时，另一方代理必须选择牺牲自己的时间来救助伙伴。这种设计强调了智能体之间的团队协作和战略牺牲的重要性。

LLM-Coordination Framework：语言模型在多智能体协调中的运用

我们的框架通过将游戏情景转化为文本目标，并以此来引导智能体的行为。智能体需要在每个回合中根据环境的状态和伙伴的行动来决定自己的最佳行动。LLM操作在一个中等级别的动作空间内，需要从一系列的可行动作中做出选择，并由动作管理器转化为具体的执行策略。

具体是：

在每个回合中，LLM接收到由环境程序获取的当前状态描述（D(S))和玩家状态(S)。由于LLM在基于网格的推理和导航方面存在困难，我们在状态描述中提供了从代理到每个感兴趣位置的相对距离。除了玩家特定变量外，其他重要的状态变量也以自然语言描述的形式包含在内。最后，代理会收到其伙伴的库存和相对位置信息，以便考虑他们的意图。提供给LLM的状态信息与强化学习代理以向量形式接收的信息等效。
LLM操作在一个中等级别的动作空间，由基于动词的动作（如"pick"、“place”、"move"等）组成。它被提供了一组可行动作Mf供选择，以便更容易进行推理。可行动作集合的决定基于玩家的库存和位置可达性。
LLM利用信息 ?G, D i , S, M f ? 来评估情况，并从提供的集合Mf中生成一个动作m。然后，我们使用动作管理器根据使用的动词和提及的位置来解释动作。动作管理器生成执行中等级别动作所需的低级动作。在接下来的实验中，我们将使用LLM-Coordination框架的LLM Agents称为LLM-Co Agents。

在这里插入图片描述

实验结果

本文还描述了关于LLM在协同能力方面的实验和结果，重点关注了五个方面：心理理论（Theory Of Mind）、情境推理（Situated Reasoning）、持续协调（Sustained Coordination）、对合作伙伴的稳健性（Robustness to Partners）和明确协助（Explicit Assistance）。我们手动注释了测试集中问题的地面真实答案，并确保在交叉验证过程中实现了100%的人工成功率。

实验结果应该不错，有兴趣的读者可以去看看。

完结！