基于官方资料与研究综述，梳理 MultiAgent 的演进、协作形态、底层关键技术、设计原则，以及到 2026 年 4 月已收束出的现实判断

先把结论讲明白#

如果这篇文章只留一句话，我会这么说：

MultiAgent 不是“多开几个模型实例”，也不是“把三个终端一起跑”。它更像是在组织一套可分工、可协作、可治理的智能系统。

这篇稿子不打算只从 CodeAgent 视角聊这个话题。

我这次更想把它横着讲清楚：

它为什么在 2024 到 2026 重新变热
它到底有哪些主流技术路线
哪些场景真的适合多 Agent，哪些只是想象很美
今天谈 MultiAgent，到底应该抓哪些原则，警惕哪些坑

资料基线
这篇文章主要基于 Anthropic、OpenAI、Google、Microsoft、MCP 官方文档、IJCAI 和 OpenReview 的资料来写。
我会尽量把判断写成“资料事实 + 基于资料的归纳”，而不是凭印象喊口号。

为什么现在必须重新看 MultiAgent#

严格说，MultiAgent 根本不新。

多智能体系统本来就是传统 MAS（Multi-Agent Systems，多智能体系统）和分布式人工智能里的老题目。IJCAI 2024 的综述和 OpenReview 2024 的综述都已经把这条历史线梳理得很完整。所以今天重新看 MultiAgent，不是因为这个词突然被发明出来了，而是因为问题的重心变了。

以前大家讨论 AI，核心问题更像是：模型够不够聪明，回答够不够像人，补全够不够快。

但到了 2024 到 2026，这个问题开始不够用了。越来越多真实任务卡住的，不是模型会不会说，而是一个单体 Agent 根本不适合同时承担这么多事：它既要理解目标，又要调工具、跨系统、维持长上下文、处理异步反馈、自己给自己验收，最后还要保证别失控。换句话说，瓶颈正在从“模型能力”迁移到“系统组织能力”。

如果把这件事翻成人话，其实很像下面这个场面：

你让一个 Agent 一个人同时干 PM、开发、测试、值班同学和 reviewer 的活。它前一秒在读需求，下一秒要去查资料、调工具、改代码、跑测试、写总结，中途还得处理新插进来的反馈和越来越长的上下文。它不是不聪明，而是你把太多原本就该分开的职责，一股脑塞给了一个执行单元。

这时候系统开始出问题，真的不奇怪。奇怪的是，过去我们居然经常默认这套做法应该成立。

这才是今天必须重新看 MultiAgent 的真正原因。

不是因为“多几个 Agent 看起来更高级”，而是因为很多任务已经开始逼着我们承认：单 Agent 不是万能执行单元，很多时候它只是一个被过度期待的总包工头。

Anthropic 在 2024 年 12 月 19 日发布的《Building Effective AI Agents》和 OpenAI 在 2025 年 3 月 11 日发布的《New tools for building agents》其实都在释放同一个信号：Agent 已经不只是聊天技巧，而是在进入真正的系统工程阶段。到了这个阶段，问题就自然会升级成：

任务怎么拆
上下文怎么分
谁来执行，谁来验收
长任务怎么恢复
出问题时怎么追踪、怎么治理

一旦问题变成这样，MultiAgent 就不再是“要不要追新概念”，而是“有没有必要重新设计系统组织方式”。

再往下看，Anthropic 在 2025 年 6 月 13 日公开的 multi-agent research system 把这个转折讲得特别直接：多 Agent 真正成立，不是因为它让模型突然更聪明了，而是因为它让系统终于能把广度探索、并行检索、跨上下文压缩这些单 Agent 很难同时做好的事情拆开处理。这是一个很关键的信号，它说明 MultiAgent 的价值开始从“概念想象”变成“在某些任务里确实更合适的结构”。

与此同时，企业侧的诉求也在变。ServiceNow、Workday 和 Microsoft Azure AI Foundry 这些材料背后讲的根本不是“多 agent 很酷”，而是另一件更现实的事：企业已经不满足于一个会回答问题的助手，它们要的是一套能跨角色、跨系统、跨流程协作，还能被管理、被问责、被治理的智能流程层。

这时候再看 MCP 和 A2A，你会发现它们的重要性也不是“又多了两个名词”，而是行业终于开始认真补基础设施了。MCP 的起点更偏 agent <-> tool / resource，A2A 更偏 remote agent service <-> remote agent service。而且到 2026 年，MCP 自己也已经开始往 UI、任务和 agent communication 延展。这不代表标准已经统一，但至少说明大家已经意识到：如果继续每家都写私有胶水代码，MultiAgent 很难真的长成产业能力。

最后，真正让我觉得这个方向必须重看的，不是热度，而是冷水。OpenReview 在 2025 年发布的《Why Do Multiagent Systems Fail?》和《Why Do Multi-Agent LLM Systems Fail?》很重要，因为它们把话题从“MultiAgent 能干什么”往前推了一步，开始问“MultiAgent 为什么经常干砸”。这意味着行业已经不只是沉迷想象力，开始进入更像工程学的阶段了：要讨论 specification、coordination、verification、observability 和治理。

一句话判断
今天重新看 MultiAgent，不是为了追热词，而是因为 AI 系统真正难的部分，正在从“让模型回答”变成“让一套智能系统长期协作而不失控”。
这波热度当然有 hype，但它背后对应的问题也确实比以前更真了。

先别把所有 MultiAgent 混成一个词#

今天很多文章的问题，不是资料少，而是把完全不同的东西都叫成了 MultiAgent。读者一眼看过去，会觉得这些词都认识，但根本不知道差别在哪里。

如果你也有过这种感觉: 一会儿看到它像“团队协作”，一会儿又像“工作流编排”，再往后又突然变成“协议互通”或者“自治网络”，那多半不是你没看懂，而是很多文章确实把不同层面的问题混着写了。

如果要把这件事讲明白，我觉得不能先扔术语，得先回答三个更人话的问题：

谁在指挥？ 是不是有一个总协调者统一拆任务、分配工作、汇总结果？
任务怎么流？ 是按固定步骤接力推进，还是多个 Agent 同时展开，再回到一起？
Agent 靠什么协作？ 是互相发消息、围着共享状态工作，还是干脆各自独立协商？

只要这三个问题想清楚，很多看起来很玄的名词就会突然变得很好懂。

先别急着记术语
先拿这三个问题去压一遍任何一个系统：

谁在指挥

任务怎么流

Agent 靠什么协作

能回答这三句，再去看它叫 team、swarm、workflow 还是 committee，基本就不太容易被名字带跑。

还有一句最好先讲死：这三个问题是三个观察维度，不是一棵只能选一条分支的分类树。

一个系统完全可能同时满足这几句：

控制上是中心化的
任务组织上是 orchestrator-worker
状态上围着 shared state 工作
运行时又靠 event-driven 往前推

很多文章写乱，就是因为前面刚把维度分开，后面又把不同维度的答案重新揉成一团。

先看“谁在指挥”#

最粗的一刀，其实是看控制拓扑，也就是谁在掌控全局。

中心化编排#

这类系统有一个明显的主脑，或者至少有一个主控制流。

人话一点，就是：

有一个总负责人知道目标是什么
它决定把任务拆给谁
它决定什么时候继续、什么时候停止
最后也是它来汇总结果

这类系统更像“项目经理带专项同事”。

现在公开的一手工业案例，大多数都偏这一类。比如 Anthropic 的 multi-agent research system，本质就是 orchestrator-worker。好处是清楚、好 debug、好加护栏；坏处是主协调者容易变瓶颈。

中心化编排拓扑示意图

去中心化协作#

这类系统没有单一主控，多个 Agent 更像平等节点。

人话一点，就是：

没有一个“总经理”永远说了算
每个 Agent 会根据局部信息和能力做决定
它们之间更像协作网络，而不是上下级关系

这类系统更像“多个独立团队临时联合干活”。

AgentNet 这类研究很看重这条路，因为中心化天然有单点瓶颈、扩展性问题和隐私边界问题。但它的工程难度也更高：路由怎么收敛、冲突怎么解决、谁来背责任，这些都更难。

去中心化协作拓扑示意图

再看“任务怎么流”#

在“谁指挥”之外，第二个关键问题是：主任务到底按什么路径往前推进。

这里读者最容易混淆的一点是：任务怎么流，不等于 Agent 之间怎么说话。很多系统表面上看上去很热闹，好像到处都在消息乱飞，但真正决定系统骨架的，往往还是主任务到底怎么推进。

这里先只看两种最常见的主路径：

一种是有人拆题、派工、回收结果
一种是按固定步骤接力推进

像 committee、blackboard、async messaging 这些，不是主路径本身，更像协作和收敛机制，我放到下一节单独讲。

监督者 / Orchestrator-Worker#

这是今天最容易落地，也最常见的一种。

它的基本逻辑是：

一个 supervisor 先理解总任务
把任务拆成多个子问题
分给不同 worker
最后再把结果收回来整合

它最像什么？最像一个总协调者带一组专项执行者，也最像现实团队里的“项目经理 + 专项同事”。

它适合什么？

Research
宽搜型信息处理
可以明显拆成几个子问题的大任务

它的主要好处是：

责任边界清楚
上下文容易隔离
结果更容易汇总

它的主要坏处是：

supervisor 很容易变成瓶颈
一旦主脑判断错了，整串任务都会跟着偏
如果拆分本身不合理，worker 再努力也没用

流水线 / Graph Workflow#

这一类不要想成“大家在开会”，要想成“大家在接力”。

它的逻辑是：

第一个 Agent 做完第一步
结果交给第二个 Agent
第二个做完再交给第三个
整条链像流程图一样往前走

它最像什么？最像审批流、生产流水线或者一个可回放、可恢复的任务图。

它适合什么？

企业流程
长任务 orchestration
需要断点恢复、回放、人工插手的场景

为什么很多团队喜欢它？

可预测
好观察
好恢复
适合合规和人工接管

它的主要坏处是：

前面一环歪了，后面全会跟着歪
流程过于僵硬时，不适合探索型任务
图越来越复杂后，维护成本会上升得很快

最后看“Agent 靠什么协作 / 收敛”#

前面两节讲的是“谁在带队”和“主任务怎么走”。但真实系统真正容易写乱的，往往是第三件事：Agent 彼此到底靠什么交换信息、共享中间结果、收敛结论。

这一层才是很多文章最喜欢一股脑混成 swarm、committee、blackboard、async、peer-to-peer 的地方。它们也不是互斥的，很多系统会同时出现两三种。

MultiAgent 常见协作形态对照图

评审 / 辩论 / Committee#

这一类的核心不是“分工执行”，而是“多视角交叉判断”。

它的逻辑是：

多个 Agent 对同一问题独立思考
它们互相批评、投票，或者由一个 judge 汇总
最终不是看谁先说，而是看谁更站得住

它最像什么？最像作者、评审、元评审者组成的小型评审会，或者同一份方案被不同角色交叉 review。

它适合什么？

高不确定性推理
方案评审
红队、安全、judge 类任务

它的主要价值是：

不是更快，而是更稳
当你不希望单个 Agent 一路自洽到底时，这类机制特别有用

它的主要坏处是：

很贵
很耗 Token
很容易出现“多数人一起错”

Multi-LLM Debate 就提醒过，辩论不一定天然带来更好答案，它也可能收敛成多数意见，甚至放大共同误区。

共享状态 / Blackboard#

这一类最容易被写糊。

它不是“Agent 之间一直互相聊天”，而是多个 Agent 围着同一个共享工作区工作。

它的逻辑是：

大家不是直接互相来回传话
而是把中间结果写进共享状态
其他 Agent 再根据共享状态决定下一步动作

它最像什么？最像多人围着同一块白板工作，或者围着同一份不断更新的任务面板工作。

它适合什么？

需要回放、审计、断点恢复的系统
长任务 orchestration
需要明确状态流转的系统

为什么这类模式重要？

很多长任务系统真正需要的，不是 endless chat，而是一个可追踪、可恢复、可审计的状态空间
LangGraph 的 StateGraph 就很适合拿来理解这一点

它的主要坏处是：

状态 schema 很难设计
并发更新容易冲突
reducer 和状态合并逻辑一复杂，系统会越来越像状态机地狱

事件驱动 / Asynchronous Messaging#

这一类更接近真实分布式系统。

它的逻辑是：

Agent 不一定同步轮流说话
谁收到事件、谁满足条件，谁就开始干活
任务可以异步推进，不必所有人都等同一个时钟

它最像什么？最像消息队列、工单系统或者事件总线。

它适合什么？

多系统集成
长任务
企业级 runtime

为什么这类模式值钱？

弹性更强
更适合跨系统
更适合异步长任务

AutoGen Core 对这一层就讲得很清楚，它的底层更偏 actor model 和异步消息，不是单纯的多轮聊天。

它的主要坏处是：

调试明显更难
重试、幂等、状态一致性、事件顺序都会变成真问题
业务链一长之后，很容易出现“事情在跑，但没人能一眼看懂现在跑到哪了”

对等 / Peer-to-Peer / Decentralized#

这是最容易让人脑补出“智能体社会”的一类。

它的逻辑是：

没有固定主控
多个 Agent 按能力和局部信息自己协商
网络结构本身会影响协作效果

它最像什么？最像多个独立组织共同完成一件事，而不是一个团队内部排班。

它适合什么？

跨组织协作
强隐私边界场景
没有谁愿意把全部控制权交给中心节点的系统

为什么它吸引人？

理论上更可扩展
更适合跨组织和隐私边界
不容易形成单点瓶颈

它的主要坏处是：

最难治理
谁可信、谁说了算、怎么防串谋、怎么防死循环、怎么保证收敛，全是硬问题

所以这类路线很值得关注，但至少从今天公开的一手工业材料看，它更像前沿方向，不像默认起点。

两个最近很值得看的案例#

如果这一节要讲，我觉得就别再讲词义了，直接看案例。

因为今天真正有信息量的，不是 Agent Team 和 Agent Swarm 这两个词本身，而是：最近最有信息量的公开案例，到底把多 Agent 做成了什么样子。

我会抓两个案例。

案例一：Claude Code `Agent Teams`#

这是最近最典型的“把多 Agent 做成团队协作产品”的例子。

根据 Claude Code 官方文档，Agent Teams 目前还是 experimental，但它已经把很多过去只停留在 demo 里的东西做成了明确机制：

一个 team lead 负责整体协调
多个 teammates 作为独立 session 并行工作
团队围着 shared task list 推进
队员之间可以通过 mailbox 直接通信
每个 agent 都有自己的上下文窗口，可以单独被打断、重定向和继续执行

这套设计为什么值得看？因为它把多 Agent 最现实的一类需求做出来了：不是让一群 Agent 一起“思考”，而是让它们像一个真实小组一样分工干活。

如果再看 Anthropic 在 2026 年 2 月 5 日发布的《Building a C compiler with a team of parallel Claudes》，这个方向会更清楚。那篇文章最有价值的不是“很多 agent 一起写编译器”这个噱头，而是它把工程上真正难的东西暴露出来了：

多个 agent 并行时，怎么避免撞车
谁来锁任务，谁来合并结果
怎么让 review agent 和实现 agent 分开
怎么靠测试和 harness 保证团队没有一起跑偏

所以 Claude Code Agent Teams 这个案例真正说明的是：

MultiAgent 的一个重要方向，不是继续强化单个超级 Agent，而是把任务所有权、并行执行、review 和回收结果做成团队闭环。

案例二：Kimi K2.5 的 `Agent Swarm` 研究预览#

如果说 Claude Code 代表的是“把团队协作产品化”，那 Kimi K2.5 更像另一条线：把大规模动态拆分和集群协作能力往模型侧和 runtime 侧推。

按 Kimi K2.5 技术报告里的描述，这条线最值得看的，不是名字，而是它背后的协作原理：

不是先把角色和 workflow 全部写死
而是围绕大目标，动态决定还要不要继续拆
把并行探索规模直接拉到最多 100 个 sub-agents、1500 个协同步骤
同时保留一个可训练的 orchestrator，负责拆解、调度和回收子任务结果

这其实是在做一件很明确的事：把“任务怎么拆、拆到多细、哪些支线该并行”从人工预设流程，往系统自己的调度能力上推。

所以 Kimi 这条线真正想推的，不只是“多起几个 agent”，而是：

让系统自己决定该不该继续拆
让并行探索规模大幅上去
让长链路任务不再只能靠人工预先写死 workflow
但同时，又不是完全放弃协调者，而是把协调本身也做成可训练能力

所以这个案例真正值钱的地方，不是 Swarm 这个词够不够帅，而是它把另一种多 Agent 方向讲得很具体：

MultiAgent 不一定只是在 UI 层做团队协作，也可以在模型和 runtime 层把动态拆解、并行扩张、长链路协同本身推到更大规模。

如果想看它的原始技术描述，可以直接看 Kimi K2.5 技术报告和 Moonshot 平台的 Agent Support 文档。

这两个案例合在一起，说明了什么#

如果把这两个案例放在一起看，我觉得最值得讲的，不是“谁才代表真正的 Team 或 Swarm”，而是它们在不同层面回答同一个问题：

Claude Code 更像把“组织形态”显性化，让 lead、teammates、task ownership、mailbox 这些关系直接长在产品交互里
Kimi K2.5 更像把“动态拆解和并行扩张”往模型与 runtime 内部推，把拆题和调度本身做成系统能力

前者更强调可见的团队协作界面。

后者更强调更深一层的调度与扩张能力。

所以这两个案例不是在争一个标准答案，而是在不同层面推进 MultiAgent：

一个把组织关系做得更清楚
一个把并行协同做得更大

Agent Team 与 Agent Swarm 的对照图

这一节真正该记住的
看 Claude Code Agent Teams，重点看它怎么解决分工、review、任务回收和并行开发。
看 Kimi K2.5，重点看它怎么把动态拆分、并行协同和长链路执行做大。
这两个案例真正说明的，不是两个词是什么意思，而是多 Agent 现在正在往哪两边长。

如果不想只看开发者工具，还有这些公开产品也值得看#

如果只盯着 Claude Code 和 Kimi，视野还是太窄了。公开产品里，至少还有下面几类很值得看，而且它们各自代表的问题完全不同。

Microsoft Agent Framework 1.0，2026 年 4 月 3 日这个例子最适合看“多 agent 编排开始从实验框架走向生产 SDK”。它把 multi-agent orchestration、跨运行时互通和稳定 API 一起推到 1.0，说明这条线已经不再只是研究玩具。
Oracle Fusion Agentic Applications，2026 年 3 月 24 日这个例子最适合看“多 Agent 开始直接长进企业业务软件本体”。它强调的是由一组有不同职责和决策权限的 agent team 去持续推进业务目标，而不是只做一个外挂式助手。
IBM watsonx Orchestrate 的 Multi-agent Orchestration 当前产品页这个例子最适合看“多 Agent 已经被做成正式可卖的企业编排层”。它把 supervisor、router、planner、workflow styles 和治理放在同一个产品能力里，讲得非常直接。
NVIDIA Multi-Agent Warehouse AI Command Layer，2026 年 1 月 9 日这个例子最适合看“MultiAgent 不只发生在聊天窗口，也会进入物理世界的运营系统”。它把仓储里的设备、人员、安全、预测、文档理解拉进同一个 command layer，很适合说明多 agent 为什么会长到真实业务系统里。
Kimi K2.5，2026 年 1 月这个例子最适合看“模型侧怎么把 cluster 协作和动态拆解往更大规模推”。它代表的不是传统工作流编排，而是更底层的 agent cluster 能力。
Anthropic《Building a C compiler with a team of parallel Claudes》，2026 年 2 月 5 日这个例子最适合看“多 Agent 公开案例里，真正难的是怎么组织团队而不是怎么凑人数”。它把并行开发、review、测试、任务锁定和结果回收写得非常具体。
Oracle AI Agents for Supply Chain，2026 年 2 月 10 日这个例子最适合看“多 Agent 怎么进入高约束、强流程、跨职能的企业场景”。它不是在讲一个抽象 agent，而是在讲供应链计划、采购、制造、物流这些角色怎么被 agent 化。

把这些形态压成一张表#

如果只想先建立一个最小判断框架，可以先记这张速查表。

这张表是速查表，不是严格 taxonomy
它故意把最常见的“长相”压在一起，里面同时混了控制拓扑、任务组织方式和协作 / 通信机制。
目的不是给所有 MultiAgent 系统一刀切地贴标签，而是帮读者先认长相。真要设计系统，还是得回到前面那三个问题分别判断。

形态	最像什么	适合什么	主要代价
监督者 / Orchestrator-Worker	项目经理带专项同事	Research、宽搜型复杂任务	supervisor 瓶颈、单点失效
流水线 / Graph Workflow	审批流、接力链	企业流程、长任务	前序错误级联、灵活性弱
评审 / 辩论 / Committee	评审会	高不确定性推理、红队、方案评审	成本高、容易多数谬误
共享状态 / Blackboard	围着同一块白板工作	可回放、可恢复、可审计系统	状态设计和并发复杂
事件驱动 / Async	消息队列、事件总线	多系统集成、异步 runtime	调试、重试、幂等困难
对等 / 去中心化	多个独立组织协作	跨组织、强隐私边界场景	治理、收敛、信任最难

这张表背后不是我自己拍脑袋分的，而是综合了 IJCAI 2024 survey、Anthropic 的 industrial case、AutoGen、LangChain/LangGraph 文档、Multi-LLM Debate 和 AgentNet 这些资料。

更有意思的是，不同来源之间其实有明显分歧。

工业界更偏中心化，因为更好 debug，更好加护栏。
研究界更愿意推去中心化，因为中心化天然有单点瓶颈和隐私边界问题。
一部分综述会把今天很多系统都算作 MultiAgent；但《Large Language Models Miss the Multi-agent Mark》这类研究会提醒你：很多现在被叫作 multi-agent 的系统，本质上更像“多个 LLM 角色一起干活”，还没到传统多智能体理论里那种高度自治、彼此持续互动、还会被环境实时反馈牵着走的程度。

一个现实判断
今天工业界主流公开案例，仍然明显偏中心化监督者和工作流编排。
去中心化很重要，但至少从公开的一手生产经验来看，它还不是主流落地方向。

底层关键技术：别把 Workflow、Memory、MCP、A2A 写成一团#

很多讨论一到这里就开始堆词：

skill
memory
shared state
orchestration
event bus
MCP
A2A

最后读完只剩一种感觉：好像什么都重要，但又不知道它们到底是不是同一层。

如果你以前读 agent 文章时经常在这一段开始掉线，这很正常。因为从这里往后，大家最容易把“能力”“记忆”“编排”“消息流”和“跨系统协议”全写成一锅粥。

问题往往不在于资料不够，而在于这些词其实在回答完全不同的问题：

skill 回答的是“这个 Agent 被封装成擅长哪类任务”
workflow 回答的是“任务怎么往前走”
memory 回答的是“系统怎么记住东西”
MCP 回答的是“Agent 怎么接工具和资源”，而且到 2026 年已经开始往 UI 和部分边界能力延展
A2A 回答的是“独立 Agent 服务怎么跨边界互通”

它们本来就不是同类东西，硬写在一层当然会乱。

前面那张表是帮读者先认长相，这一节开始才进入更严格的系统分层。

你可以把这里想成在拆一台机器：

先看它有没有手脚
再看它记不记事
再看谁在调度
再看消息怎么流
最后才看不同系统之间怎么接线

这么看，后面那五层会顺很多。

我更建议把 MultiAgent 的底层技术拆成五层。

层级	它真正回答什么问题	常见内容
执行与能力层	单个 Agent 到底能做什么	reasoning、tool calling、Skills、MCP、检索、代码执行、外部 API
上下文与状态层	Agent 靠什么维持连续性	session、memory、shared state、artifact、summary
编排与协作层	多个 Agent 以什么组织方式分工	centralized / decentralized topology、supervisor、workflow、committee
通信与任务层	工作怎么在节点之间流转	mailbox、direct messaging、broadcast、event bus、handoff、task lifecycle
跨系统互通与服务边界层	独立 Agent 服务跨边界怎么接起来	A2A、认证、发现、版本兼容、service boundary

MultiAgent 底层关键技术五层结构图

这一节不要按名词背
真正有用的读法不是把这五层硬记下来，而是每次碰到一个词，先问它到底在回答哪类问题：

单个 Agent 的能力问题

状态怎么维持的问题

多 Agent 怎么分工的问题

工作怎么流转的问题

独立服务怎么跨边界互通的问题

层级一分开，很多原本看起来缠在一起的讨论会立刻清楚很多。

第 1 层：执行与能力层#

这一层最容易理解，它回答的是：

单个 Agent 到底能做什么。

比如：

会不会推理
会不会调工具
有没有相关 Skill
能不能通过 MCP 接工具和资源
能不能查知识库
能不能跑代码
能不能调外部 API

如果没有这一层，后面所有“多 Agent 协作”都没意义，因为连单个节点能干什么都不成立。

所以这层更像每个 Agent 的“手脚”和“工具箱”。

第 2 层：上下文与状态层#

这一层回答的是：

系统靠什么维持连续性。

这里最容易混淆三个词：

memory
shared state
artifact

但它们其实不是一回事。

memory 更像记忆。比如系统记得这个用户之前问过什么、上一次推理得出了什么中间结论。
shared state 更像当前局势面板。比如现在工单状态是 high-priority，退款检查已经完成，权限检查还没完成。
artifact 更像阶段性产物。比如一份摘要、一张表、一段 JSON 结果、一版中间报告。

如果把它们翻成人话：

memory 是“记住过什么”
state 是“现在局面是什么”
artifact 是“已经产出了什么”

这三者一混，系统设计就会开始发虚。

第 3 层：编排与协作层#

这一层回答的是：

多个 Agent 怎么分工。

也就是前面刚讲过的那些组织方式：

centralized / decentralized topology
supervisor-worker
workflow
committee

这里有两个特别容易放错层的词，需要单独讲一句：

blackboard 是“状态层 + 协作层”的交叉物。共享状态本身在第 2 层，围着共享状态怎么分工才属于第 3 层。
async / event-driven 更接近第 4 层，因为它描述的是消息和任务怎么流，不是谁带队。

这一层说的不是工具，不是协议，也不等于所有运行时机制，而是“组织结构”。

如果把 MultiAgent 比作一个团队，这一层回答的就是：

谁带队
谁做什么
谁和谁协作
出问题时谁兜底

这一层决定的是角色划分和控制拓扑，不回答独立 Agent 服务跨边界怎么接起来；那是下一层的问题。

第 4 层：通信与任务层#

这一层回答的是：

工作在节点之间怎么移动。

比如：

一条消息直接发给某个 Agent
写进 shared task list 或 task store
广播给一组订阅者
发到 event bus，等订阅者异步接手
handoff 给更合适的 Agent
建一个 task，再持续更新它的状态

这一层更像系统里的“任务流转机制”。

前面讲的 async messaging，基本就落在这一层。它和 workflow 紧挨着，但不是一回事。

为什么很多人会把它和 workflow 混掉？因为它们确实紧挨着。但区别很重要：

workflow 更像流程图
communication / task layer 更像流程图里的线、消息和任务状态

一个系统可以有 workflow，但用 very simple direct message。一个系统也可以没有固定 workflow，却靠 event bus 和 task lifecycle 协作。

第 5 层：跨系统互通与服务边界层#

这一层回答的是：

独立 Agent 服务跨系统、跨团队、跨框架怎么接起来。

A2A 在这一层更关键，因为它主要解决的是：

一个 Agent 服务怎么把任务交给另一个 Agent 服务
怎么持续跟踪任务状态
怎么交换结果和中间产物

这一层真正关心的是这些问题：

这个服务是谁
它暴露哪些能力
怎么发现它
怎么认证和授权
怎么保证版本兼容

更关键的是，不是所有 MultiAgent 都必须上这一层的标准协议。

Google 的 ADK 文档就明确区分 local sub-agents 和 remote agents。如果你的系统主要是本地子代理、共享内存、低延迟内部协作，那跨系统互通这层根本不一定需要很重的标准化。到了真的存在独立 Agent 服务、跨团队边界、跨框架边界时，A2A 这类协议才会开始变得值钱。

本地子代理与远程 Agent 服务边界示意图

最容易误写的一句
不要把跨系统互通这一层理解成“所有多 Agent 系统都必须上标准协议”。很多系统在本地 runtime 里就能协作得很好，只有真的跨服务、跨团队、跨框架时，这一层的成本和价值才会同时变高。

设计原则：真正难的不是“多开几个 Agent”#

如果把 Anthropic、Microsoft、OpenReview 的 failure taxonomy 和 Why Do Multi-Agent LLM Systems Fail? 放在一起看，比较稳的原则大概有七条。

如果只把这七条原则写成一句话一句话，它们确实很容易发虚。更有用的方式，是把它们放回几个反复出现的工程矛盾里看。

因为真正折磨人的，从来不是 demo 里那种“它能不能跑起来”，而是另一类很现实的问题：它明明跑起来了，为什么老是在奇怪的地方翻车，而且翻车后还没人说得清到底是哪一层先歪了。

做系统评审时，至少先连问四句

为什么不是单 Agent 或简单 workflow

谁拿什么上下文和工具

谁负责独立验收

长任务失败后怎么恢复

如果这四句答不出来，系统大概率还没准备好进生产。

MultiAgent 生产护栏与治理重点示意图

第一组：不是“能拆就拆”，而是“拆了以后有没有净收益”#

第一条原则其实最重要：

先证明单 Agent 或简单 workflow 不够，再上 MultiAgent。

这句话听起来保守，但它其实是在帮系统省掉大量伪复杂度。

很多团队一上来就想加更多 Agent，本质上是把“任务定义不清、工具接入混乱、验证链不完整”这些更底层的问题，伪装成“需要更多角色”。结果不是系统更强，而是混乱被复制了更多份。

这组原则真正对应的是两个判断：

当前任务到底有没有明显的可拆分收益？
拆完之后，职责是不是更清楚了，而不是更模糊了？

所以这组里有两条常常要一起看：

先证明单 Agent 或简单 workflow 不够
职责分离比堆数量更重要

真正值钱的拆法，通常不是“从 1 个 Agent 变成 8 个 Agent”，而是把原来混在一起的几种责任拆开，比如：

规划和执行分开
执行和验收分开
对外沟通和内部分析分开

如果拆完之后，每个 Agent 还是在做一团混合职责，那它只是从“一个大黑盒”变成了“三个小黑盒”。

第二组：不是“上下文越多越好”，而是“上下文和工具都要做减法”#

很多 MultiAgent 系统看上去像是因为模型不够强才翻车，实际上更常见的原因是：

每个 Agent 拿到的上下文太杂
工具挂得太多
同类能力重叠太严重

所以第二组原则，核心其实是“减法”：

上下文要最小高信号，不要做全量广播
工具和 Agent 都不是越多越好，过多会互相干扰

这两条放在一起看，意思就很清楚了：

一个 Agent 不应该因为“也许有用”就被塞进全部历史、全部规则、全部工具。真正稳的系统，通常会把上下文裁成任务需要的最小集合，把工具裁成角色需要的最小集合。

否则就会出现两种非常典型的故障：

上下文噪声过高，模型抓不住真正权威的信息
工具过载，模型在一堆相似能力里来回试错，最后反而更慢、更乱、更贵

这类问题在单 Agent 里已经常见，到了 MultiAgent 里只会被放大。

第三组：不是“能跑完就行”，而是“谁来证明它真的做对了”#

很多多 Agent 系统的危险，不在执行，而在验收。

如果一个系统里：

负责做事的 Agent 自己判断自己有没有做好
负责写结果的 Agent 自己决定结果够不够可信
负责调用工具的 Agent 自己解释工具输出有没有问题

那它很容易一路自洽到底。

所以第三组原则是：

验收权最好和执行权分开
可观测性必须内建，而且不能只看日志

这两条之所以经常要放在一起，是因为它们本质上都在回答一个问题：

系统拿什么来反驳自己。

执行权和验收权分开，解决的是“不要让同一个脑回路从头判到尾”。

可观测性内建，解决的是“即使它做错了，人能不能看见它到底错在哪”。

Reflection 很有用，但它不等于独立验收
很多团队会把 Reflection 当成万能纠错机制，比如让 agent 在完成后再自我复盘一轮、再挑一轮自己的漏洞。
这当然有价值，但它解决的更像“同一个执行链能不能自我修正一点”，不是“系统有没有独立的证明机制”。
如果执行者、反思者、总结者本质上还是同一条脑回路，那它仍然可能一路自洽到底，只是自洽得更认真了一点。

evaluation 真正回答的是“怎么证明它做对了”
到了多 Agent 系统里，evaluation 不该再只是“最后看起来像不像对”。
更稳的 evaluation 往往至少要落到这些东西里：

end-state checks：最终状态到底有没有达到目标

constraint checks：有没有触碰明确禁止的边界

regression checks：有没有把原本正常的链路带坏

judge / reviewer：有没有独立于执行链的审查视角

trace-based review：出了问题时，能不能顺着轨迹定位是哪一层先歪了

换句话说，Reflection 更像过程内自检，evaluation 才是系统级验收。

而且今天讲 observability，已经不能再只理解成：

有没有日志
有没有 trace id
有没有耗时指标

更关键的其实是：

有没有看得懂的任务轨迹
有没有中间状态
有没有失败分类
有没有办法知道是 spec 错了、路由错了、工具错了，还是验收错了

否则系统一复杂，最后就只剩一句“它又跑偏了”，但没人知道到底哪里偏了。

第四组：不是“能 demo 出来”，而是“能不能长期跑而不失控”#

到了生产环境，很多问题就不再是“这次能不能跑通”，而是：

跑到一半挂了怎么办
升级部署时断了怎么办
长任务能不能从中间恢复
权限和边界出了问题谁负责

所以最后一组原则是：

长任务系统必须支持持久化、检查点和恢复

这条看起来像运行时细节，但它其实很核心。因为一旦进入多 Agent 长任务，错误不再只是“一次答错”，而会变成：

状态错着往后传
子任务错着继续扩散
中途失败后全部从头再来
系统越来越贵，但没有越来越稳

这也是为什么很多公开的一手经验最后都会落到同一个方向：MultiAgent 不是玩一次性的编排炫技，而是要把状态、恢复、治理和失败隔离都做成长期机制。

这些原则到底在防什么#

如果把这些原则压回 failure taxonomy，它们大概在防四类大坑：

原则组	主要在防什么
先证明单 Agent 不够；职责分离优先于堆数量	规格层失败、组织层失败
上下文做减法；工具和 Agent 不要过载	协调层失败、工具生态失败
验收权分离；可观测性内建	验证层失败、可观测性失败
持久化、检查点、恢复	运行时失败、安全与治理失败

失败类型	最常见表现
规格层失败	角色定义模糊、目标不清、完成条件缺失
组织层失败	任务拆分差、边界不清、delegate 错位
协调层失败	多个 Agent 冲突、状态不同步、异步级联错误
验证层失败	没有独立验收，只看过程，不看结果
运行时失败	长任务错误累积、恢复困难、部署打断运行中任务
可观测性失败	trace 太长找不到问题，只能靠猜
工具生态失败	工具过多、能力重叠、schema 和 description 不清
安全与治理失败	权限失控、隐私泄露、跨 Agent collusion、缺少问责

我很喜欢这类 failure taxonomy 的原因就在这儿：

它逼着我们承认一件事：MultiAgent 的难点从来不只是“让它们协作起来”，而是“让它们在现实系统里长期不失控”。

到 2026 年 4 月，再看 MultiAgent：真正收束出的几件事#

把最近 3 到 6 个月的一手资料放在一起看，至少有五个判断已经比较稳定。

如果前面信息密度有点高，这一节可以直接当复盘看。这里不再重新讲术语，只讲到 2026 年 4 月，哪些判断已经比较能站住。

第一，它先收束成“有组织的执行系统”，不是“更多聊天角色”#

最近半年最有代表性的公开材料，其实已经把方向讲得很清楚了。

Anthropic 在 2026 年 2 月 5 日发布的《Building a C compiler with a team of parallel Claudes》讲得很具体：真正难的不是多开几个 session，而是任务怎么锁、结果怎么合、review 怎么插进去、harness 和测试怎么兜底。另一边，模型侧也已经开始把更大规模的动态拆分和并行调度往前推，像 K2.5 技术报告里展示的，就是让 orchestrator 去动态拆任务、回收结果，而不是先把流程全写死。

这几条线合在一起，其实已经很说明问题了：

MultiAgent 到今天先成熟的，不是“大家一起聊”，而是“有人负责任务组织，有人负责并行执行，有机制负责把结果收回来”。

第二，它先收束成“长任务 runtime”，不是“一次性 prompt 技巧”#

最近 3 到 6 个月里，最明显的变化之一，就是大家已经不再把 agent 当成一次性会话了。

Anthropic 在 2025 年 11 月 26 日写 long-running harnesses，核心就是怎么跨上下文窗口持续推进任务；OpenAI 现在的文档里也把 background mode、conversation state 这些能力直接做成平台原语。

这背后其实说明了同一件事：

真正可用的 MultiAgent，已经越来越像一个长任务 runtime。

它必须解决的，不再只是“这次能不能答出来”，而是：

任务跑很久怎么办
中途断了怎么办
上下文滚太长怎么办
哪些信息该进 memory，哪些该进 state，哪些该落成 artifact

也就是说，前面文章里讲的那套分层，到这里已经不是写作框架，而是产品现实了。

第三，它先收束成“可验收、可追踪、可恢复”，不是“能跑完就算赢”#

如果只看最近一两个月的官方文档，这个信号已经非常强。

OpenAI 现在把 Agent evals、trace grading、Agent Builder 放在一条线上讲；Microsoft 则在 2026 年 3 月 28 日更新的 Foundry tracing 文档里，直接把 multi-agent observability 往 OpenTelemetry 语义约定上推。

这说明什么？

说明行业已经不再把“agent 跑起来了”当成终点，而是开始把下面这些问题当成一等问题：

最终结果到底做没做对
哪一步先歪了
是路由错了，还是工具错了，还是验收错了
出问题之后能不能从中间恢复，而不是整条链重跑

所以今天真正拉开差距的，已经不是“谁的 prompt 更玄”，而是：

谁的系统能被看见，能被验收，能被恢复。

第四，它先收束成“边界协议化”，但不是“一个协议统一世界”#

到 2026 年，这一层真正发生的变化，是 agent 的边界开始被正式协议化。

Anthropic 在 2025 年 12 月 9 日把 MCP 捐给 Agentic AI Foundation，已经说明它不再只是某一家公司的私有约定；MCP 在 2026 年 1 月 26 日把 MCP Apps 变成官方扩展，说明它开始覆盖 UI 和交互能力；2026 年 3 月 9 日的 roadmap 又把 agent communication、enterprise readiness 这些问题摆上主线。

如果把这些变化压成一句话，就是：

过去大家是在写胶水代码接边界，现在大家开始认真把边界本身做成协议。

但这不等于会出现一个“一统天下”的协议。到今天为止，更像是：

能力接入是一层边界
UI / 人机交互是一层边界
远程 agent / 服务互通又是另一层边界

所以真正收束出的，不是“大一统”，而是“分层协议化”。

第五，它没有收束成“多 Agent 默认更强”#

这一点反而是最近的官方文档里越来越诚实的地方。

OpenAI 最新的 evaluation best practices 已经直接写了：是否使用 multi-agent architecture，应该由 evals 驱动。也就是说，多 Agent 不是默认答案，而是结构选择。

这和前面讲过的案例也一致。并行开发、review、任务拆分边界清楚的工作，很适合团队式多 Agent；复杂长任务、宽搜索、动态拆解收益很高的工作，也确实能从更大规模的并行协同里获益。

但没有任何一条严肃的一手材料在认真说：“从现在开始，所有高级 agent 都必须 multi-agent。”

所以到 2026 年 4 月，更稳的总结其实不是“MultiAgent 已经证明自己一定是未来”，而是：

MultiAgent 已经证明自己在某些任务形态下非常值钱，但它依然是一种结构优势，不是默认信仰。

这一节最后只记一句
到 2026 年 4 月，MultiAgent 真正收束出的，不是一个更响的新名词，而是一套更像工程系统的共识：有组织、有状态、可验收、可恢复、边界清楚，而且只在真正值得拆的时候才去拆。

MultiAgent：协作形态、关键技术与现实判断

先把结论讲明白#

为什么现在必须重新看 MultiAgent#

先别把所有 MultiAgent 混成一个词#

先看“谁在指挥”#

中心化编排#

去中心化协作#

再看“任务怎么流”#

监督者 / Orchestrator-Worker#

Example：CodeAgent SubAgent 怎么像一个监督者系统

流水线 / Graph Workflow#

Example：企业报销为什么更像流水线，不像开会

最后看“Agent 靠什么协作 / 收敛”#

评审 / 辩论 / Committee#

Example：一份并购分析报告怎么用 Committee 做交叉判断

共享状态 / Blackboard#

Example：复杂客服工单为什么更适合共享状态

事件驱动 / Asynchronous Messaging#

Example：生产事故响应为什么更能体现事件驱动

对等 / Peer-to-Peer / Decentralized#

Example：多机器人仓储协同为什么更能体现去中心化

两个最近很值得看的案例#

案例一：Claude Code Agent Teams#

案例二：Kimi K2.5 的 Agent Swarm 研究预览#

这两个案例合在一起，说明了什么#

如果不想只看开发者工具，还有这些公开产品也值得看#

把这些形态压成一张表#

底层关键技术：别把 Workflow、Memory、MCP、A2A 写成一团#

第 1 层：执行与能力层#

Example：一个支付故障处理 Agent，怎么同时用上这一层的几种能力

第 2 层：上下文与状态层#

Example：同一张工单里，memory、state、artifact 到底分别是什么

第 3 层：编排与协作层#

Example：同一个问题，编排层的设计为什么会完全改变系统行为

第 4 层：通信与任务层#

Example：通信与任务层关心的是‘活怎么流’，不是‘谁负责什么’

第 5 层：跨系统互通与服务边界层#

Example：什么时候问题已经进入‘跨系统互通与服务边界层’

设计原则：真正难的不是“多开几个 Agent”#

第一组：不是“能拆就拆”，而是“拆了以后有没有净收益”#

第二组：不是“上下文越多越好”，而是“上下文和工具都要做减法”#

第三组：不是“能跑完就行”，而是“谁来证明它真的做对了”#

第四组：不是“能 demo 出来”，而是“能不能长期跑而不失控”#

这些原则到底在防什么#

到 2026 年 4 月，再看 MultiAgent：真正收束出的几件事#

第一，它先收束成“有组织的执行系统”，不是“更多聊天角色”#

第二，它先收束成“长任务 runtime”，不是“一次性 prompt 技巧”#

第三，它先收束成“可验收、可追踪、可恢复”，不是“能跑完就算赢”#

第四，它先收束成“边界协议化”，但不是“一个协议统一世界”#

第五，它没有收束成“多 Agent 默认更强”#

延伸阅读#

官方工程与协议#

综述与失败分析#

案例一：Claude Code `Agent Teams`#

案例二：Kimi K2.5 的 `Agent Swarm` 研究预览#