基于《MultiAgent：协作形态、关键技术与现实判断》改写的一版更细的标准讲稿，适合直接口播展开

我今天不想先给大家下定义#

如果今天让我讲 MultiAgent，我大概率不会先放定义，也不会上来先讲一页分类框架。

因为我觉得那样很容易把人讲跑。

很多同学其实不是没见过这个词。问题不在于没听过，而在于越听越乱。你看过几篇文章之后，会发现它一会儿像团队协作，一会儿像工作流编排，一会儿又像协议互通，再往后甚至会突然开始聊自治网络、智能体社会、去中心化协商。

最后的感觉通常不是“我懂了”，而是“我好像每个词都见过，但我还是不知道它到底在解决什么问题”。

所以如果今天是做一场正式分享，我更愿意先从一个大家都能秒懂的画面讲起。

想象一下，你让一个 Agent 一个人同时干 PM、开发、测试、值班同学和 reviewer 的活。它前一秒还在读需求，下一秒要去查资料、调工具、改代码、跑测试、写总结，中间还得处理新插进来的反馈和越来越长的上下文。

这时候系统开始出问题，其实一点都不奇怪。

奇怪的是，过去我们居然经常默认这套做法应该成立。

所以我今天真正想讲的，不是“MultiAgent 这个词有多新”，而是另一件更现实的事：

为什么单 Agent 开始不够用，以及 MultiAgent 到底在解决什么问题。

如果想看资料密集版
如果想对照阅读原始资料版，可以看《MultiAgent：协作形态、关键技术与现实判断》。
这篇是更细的标准讲稿，适合 40 到 60 分钟展开。

为什么这个问题现在必须重讲#

先讲第一件事：MultiAgent 根本不新。

传统 MAS，也就是 Multi-Agent Systems，多智能体系统，其实是老题目。分布式人工智能也不是今天才有。严格说，这个方向的历史比很多现在讨论 Agent 的文章要早得多。

那为什么到 2024 到 2026，这个词又重新热起来了？

我觉得真正的原因不是“这个词被重新发明了”，而是问题重心变了。

以前大家讨论 AI，更像是在问：

模型够不够聪明
回答像不像人
补全快不快
它写出的代码顺不顺手

但到了这两年，这套问法开始不够用了。

越来越多真实任务卡住的，不是模型会不会说，而是一个单体 Agent 根本不适合同时承担这么多责任。它既要理解目标，又要调工具、跨系统、维持长上下文、处理中断、自己给自己验收，最后还要保证别失控。

这时候你会发现，瓶颈已经不只是“模型能力够不够”，而是另一件事：

系统组织能力够不够。

这句话很重要，因为它决定了后面的很多讨论为什么会出现。

如果瓶颈在模型能力，那思路通常是：

换更强的模型
换更大的上下文
调更好的提示词

但如果瓶颈开始迁移到系统组织能力，那问题就会自然变成：

任务怎么拆
上下文怎么分
谁负责执行
谁负责验收
长任务怎么恢复
出问题时怎么追踪

也就是说，问题已经慢慢从“让模型回答”变成“让系统长期把事做完，而且别失控”。

我觉得这就是今天必须重新讲 MultiAgent 的根本原因。

我会先帮大家把一个误解打掉#

很多人一提 MultiAgent，就会脑补成一种很酷的场面：

屏幕上开了很多对话框，一群 Agent 像开会一样轮流发言，最后好像就比单个 Agent 更聪明。

这个画面不能说完全错，但它很容易把大家带偏。

因为今天工业界主流公开案例真正值钱的，不是“大家一起聊天”，而是：

有人负责组织任务
有人负责并行执行
有机制负责回收结果
有护栏负责限制失控
有长任务运行机制负责恢复

换句话说，MultiAgent 到今天先成熟的，不是“更多聊天角色”，而是“更有组织的执行系统”。

这也是为什么我不太喜欢一上来就讨论“它到底算不算群体协作”“它到底算不算真正的多智能体”。

这些问题当然可以讨论，但如果开场就卡在这里，反而会错过真正更现实的那一层：

为什么越来越多任务已经开始逼着我们承认，单 Agent 不是万能执行单元。

先别记术语，先记三个问题#

如果要把 MultiAgent 讲明白，我觉得最有用的方式不是背分类框架，而是先记住三个问题：

谁在指挥？
任务怎么流？
Agent 靠什么协作？

这三个问题特别重要，因为它们不是一棵只能单选的分类树，而是三个观察维度。

这一点非常关键。

一个系统完全可能同时满足下面几句：

控制上是中心化的
主任务按“主脑拆题、下面分头执行”的方式推进
中间结果围着共享状态收敛
运行时又靠事件触发往前推进

如果不把这些维度拆开，很多文章就会写成一种很奇怪的状态：

前面在讲控制拓扑，后面突然开始讲协作介质，再往后又拐到协议互通，读者自然会感觉“每个词都认识，但合在一起不知道在说什么”。

所以后面如果你们只记住一句方法论，我希望是这句：

看任何一个 MultiAgent 系统，先别急着问它叫什么，先问它这三个问题。

如果只讲主流落地，我会先讲两种骨架#

第一种骨架是中心化编排。

这种系统更像“项目经理带专项同事”。

有一个主脑，或者至少有一个明显的主控制流。它知道目标是什么，知道该把任务拆给谁，也知道什么时候继续、什么时候该停下来收结果。

这类系统为什么今天最常见？

因为它现实。

它好排查问题，好加护栏，也比较容易做责任边界。今天公开的一手工业案例，大多数都偏这一类。像 Anthropic 的 multi-agent research system，本质上就很接近“一个主脑拆题、下面分头执行”。

当然，它也有缺点。

比如主协调者容易变瓶颈。一旦主脑判断错了，整串任务都会跟着偏。而且如果拆分本身不合理，下面的 worker 再努力也没什么用。

但即便如此，它依然是今天最容易落地的一类。

第二种骨架是固定主路径的流程推进。

这种系统更像接力赛，不像开会。

前一个节点做完，结果交给下一个节点，整条链像流程图一样往前走。企业为什么特别喜欢这种模式？因为它可预测、可回放、可恢复，也容易人工接管。

比如报销审批、复杂工单、审计流程、风控复核，这些场景天然就适合这种固定流程。因为每一步相对稳定，完成条件也比较清楚。

如果把这两种骨架压成一句话，就是：

今天工业界主流公开案例，更多是在解决“怎么让系统有组织地执行”，而不是“怎么造一个智能体社会”。

去中心化当然重要，而且学术上也很有意思。但至少到 2026 年 4 月，从公开生产经验来看，它还不是默认起点。

这里我要停一下，讲一个大家最容易混淆的点#

很多同学听到这里，会自然把“任务怎么流”和“Agent 之间怎么说话”混在一起。

但它们不是一回事。

任务怎么流，指的是主任务的推进骨架。

Agent 之间怎么说话，指的是中间结果怎么传、怎么共享、怎么收敛。

很多系统表面上看起来很热闹，到处都在发消息，但真正决定它骨架的，还是主任务到底怎么推进，以及结果怎么收敛。

所以如果再往下讲，我会把常见协作方式拆成几类，让大家看到它们到底分别在回答什么问题。

真正常见的协作方式，我会这样讲#

第一种是“主脑拆题、下面分头做事”。

它最像主脑拆题，下面的人分头做事。很适合宽搜型任务、research、复杂问题拆子问题。

第二种是“固定流程接力”。

它最像固定步骤接力推进。适合企业流程、长任务、需要断点恢复和人工接管的场景。

第三种是“评审团模式”。

它不是为了更快，而是为了更稳。几个 Agent 对同一个问题独立判断，再交给一个 judge 或 reviewer 汇总。很适合高不确定性推理、方案评审、红队、安全分析。

第四种是“共享白板模式”。

这个词特别容易被写糊。它不是“大家一直在聊天”，而是大家围着同一个共享状态空间工作。更像多人围着一块白板，或者围着同一份持续更新的任务面板。

第五种是“异步事件驱动”。

它更像消息总线。谁收到事件，谁满足条件，谁就开始干活。真正流动的不是长对话，而是 task、message、event 和状态变化。

第六种是“对等协作”或“去中心化”。

它更像多个独立组织协商，没有一个永远在线的总指挥。这个方向很迷人，但工程上也最难，因为它会立刻逼出信任、收敛、冲突解决这些真问题。

如果学生问我：“老师，这么多模式到底该怎么记？”

我会说，不要硬背词。

你只要先问清楚三件事：

有没有总指挥
主任务怎么推进
中间结果靠什么收敛

能回答这三句，后面的名字就只是标签。

如果要讲例子，我一定会讲一个大家能代入的 Bug 场景#

比如一个在线 SaaS 后台刚改完 RBAC 模型，结果线上出现了一个故障：

被邀请加入团队的新用户，点击邀请链接后会卡在 loading，永远进不去团队。

如果让一个大 Agent 从头查到尾，它通常会把前端、后端、鉴权、邮件链接、数据库状态全部塞进一个上下文里。最后不是漏掉关键线索，就是顺手改出一串副作用。

但如果我们按“一个主脑拆题、下面分头执行”去理解，就会很清楚：

主 Agent 先判断这是一个“邀请链路失效”问题
一个 subagent 看前端邀请页和 network trace
一个 subagent 看后端验签、token 解码和成员落库逻辑
一个 subagent 看最近和 RBAC / auth / invitation 相关的提交

最后再由主 Agent 汇总：

前端到底卡在哪个请求
后端权限逻辑到底哪一步变了
最近哪次提交最可疑

这个例子的重点不是“多叫几个 Agent 名字”，而是：

主 Agent 不再把所有细节都自己啃完
每个 subagent 只拿解决当前子问题需要的上下文
最后的判断和交付仍然回到主 Agent 手里

这就是为什么这种模式在 CodeAgent 场景里特别有说服力。

不是因为写代码天然需要很多 Agent，而是因为某些问题天然就需要拆视角、拆上下文、拆验证责任。

如果只挑两个公开案例，我会讲这两个#

第一个案例是 Claude Code 的 Agent Teams。

我觉得它很有代表性，因为它不是在演示“一群 Agent 一起思考”，而是在把多 Agent 做成一个真实的小组。

你会看到：

有 team lead
有并行工作的 teammates
有 shared task list
有 mailbox
每个 Agent 还有自己的上下文窗口

这个案例最值得看的地方，不是“Agent 数量变多了”，而是任务所有权、并行执行、review 和结果回收开始长成一个团队闭环。

如果再结合 Anthropic 那篇“用一组并行 Claudes 写 C 编译器”的文章去看，会更清楚。

那篇文章真正有信息量的地方不是“很多 Agent 一起写编译器”这个噱头，而是它暴露了工程上真正难的东西：

多个 Agent 并行时，怎么避免撞车
谁来锁任务，谁来合并结果
怎么让 review agent 和实现 agent 分开
怎么靠 harness 和测试保证整组 Agent 没有一起跑偏

所以 Claude Code 这个案例最后告诉我们的，不是“Agent 多就更强”，而是：

多 Agent 一个非常现实的方向，是把任务所有权、并行开发、review 和结果回收做成团队闭环。

第二个案例是 Kimi K2.5 里提到的 Agent Swarm 研究预览。

它代表的是另一条线：不是先把角色和流程全部写死，而是围绕大目标动态决定还要不要继续拆，能不能继续并行扩张。

它最有价值的地方也不是名字，而是它在回答另一个问题：

任务拆到多细、哪些支线该并行，这件事能不能越来越多地交给系统自己决定。

从这个角度看，这两个案例其实不是在争一个标准答案，而是在不同层面推进同一件事：

Claude Code 更像把组织关系做清楚
Kimi K2.5 更像把并行协同做大

一个在把“团队长什么样”做实。

一个在把“系统能扩张到什么规模”往前推。

真正难的不是名字，而是底层几层东西总被写成一锅粥#

很多人读 agent 文章，读到这里就会开始掉线。

原因很简单：大家特别喜欢把“能力”“记忆”“编排”“消息流”和“跨系统协议”混成一锅讲。

如果我在讲座里讲这一段，我会把它讲得非常简单。

你可以把一个 MultiAgent 系统想成一台机器，然后按五层去拆。

第一层，看它有没有手脚。

也就是单个 Agent 到底会不会推理、会不会调工具、能不能查知识、能不能跑代码、能不能接外部 API。没有这一层，后面所有“多 Agent 协作”都没意义，因为连单个节点能做什么都不成立。

第二层，看它记不记事。

也就是长期记忆、当前状态和中间产物这些东西怎么分。哪些属于长期记忆，哪些属于当前局势，哪些属于已经产出的中间结果。

这里我通常会举一个工单例子。

比如“企业客户被重复扣费，同时管理员账号登不上去”。

那长期记忆可能是：

这个客户过去 30 天报过两次支付异常
这个工作区上周刚做过 RBAC 迁移

当前共享状态可能是：

severity = high
billing_check = done
auth_check = pending

中间产物可能是：

一份重复扣费分析摘要
一段给客户的临时说明草稿
一份待人工确认的退款建议单

一旦把这三者拆开，系统设计就会稳很多。

第三层，看谁在调度。

也就是多个 Agent 到底按什么组织方式分工，是一个主协调者带队，还是固定流程接力，还是评审团式交叉判断。

第四层，看消息怎么流。

也就是任务、消息、事件到底怎么在节点之间移动。很多人会把这层和固定流程混掉，但它们不是一回事。

一个系统可以有固定流程，但只靠很简单的点对点消息协作。

一个系统也可以没有固定流程，却靠事件总线和任务状态推进。

第五层，看不同系统之间怎么接线。

也就是当一个 Agent 服务要跨团队、跨系统、跨框架协作时，边界怎么定义，认证怎么做，状态怎么追踪，协议怎么互通。

这也是为什么我会单独把 A2A 这类协议放在这一层，而不会和 MCP、固定流程、长期记忆这些东西混在一起讲。

如果把这五层记住，后面很多原本缠成一团的讨论会突然清楚很多。

讲到这里，我一定会开始泼一点冷水#

因为如果只讲能力、形态、案例，这场讲座很容易听起来特别热血，好像只要把 Agent 多开几个，世界就会自动变好。

但真实工程里，真正折磨人的不是“它能不能跑起来”，而是：

它明明跑起来了，为什么老在奇怪的地方翻车
翻车之后，为什么没人知道到底是哪一层先歪了
明明看起来很聪明，为什么上线以后还是容易自洽地做错事

所以我会把设计原则压成四句很现实的话。

第一，先证明单 Agent 不够，再上 MultiAgent。

这句话听起来保守，但它其实是在帮系统省掉大量伪复杂度。很多团队一上来就想加更多 Agent，本质上是把“任务定义不清、工具接入混乱、验证链不完整”这些更底层的问题，伪装成“需要更多角色”。

第二，上下文和工具都要做减法。

一个 Agent 不应该因为“也许有用”就被塞进全部历史、全部规则、全部工具。真正稳的系统，通常会把上下文裁成任务需要的最小集合，把工具裁成角色需要的最小集合。

第三，执行权和验收权最好分开。

这是很多系统最容易翻车的一点。如果负责做事的 Agent 自己判断自己有没有做好，负责写结果的 Agent 自己决定结果够不够可信，那它就很容易一路自洽到底。

第四，长任务必须考虑持久化、检查点和恢复。

不然系统只会越来越贵，不会越来越稳。因为一旦进入多 Agent 长任务，错误不再只是“一次答错”，而会变成状态错着往后传、子任务错着继续扩散、中途失败后全部从头再来。

这四句听起来不花哨，但它们几乎决定了一个系统最后是不是 demo 玩具。

如果学生问，为什么现在大家突然开始重视验收、轨迹和可观测性#

我会说，因为行业已经开始从“能跑”转向“能证明”。

这两年一个很明显的变化就是，大家不再把“Agent 跑起来了”当成终点，而开始把下面这些问题当成一等问题：

最终结果到底做没做对
哪一步先歪了
是路由错了，还是工具错了，还是验收错了
出问题之后能不能从中间恢复，而不是整条链重跑

所以今天真正拉开差距的，已经不是“谁的提示词更玄”，而是：

谁的系统能被看见，能被验收，能被恢复。

这一点特别值得在分享里讲清楚，因为它跟很多人想象中的“AI 工程”很不一样。

很多人以为这件事的核心竞争力是提示词。

但越到后面你越会发现，真正的差距往往在长任务运行机制、任务轨迹、验收机制、护栏和恢复能力这些地方。

到 2026 年 4 月，我觉得比较稳的结论只有这几条#

如果前面讲了很多细节，最后我一定会把结论收回来。

我觉得到 2026 年 4 月，比较能站住的判断有五个。

第一，MultiAgent 先收束成“有组织的执行系统”，不是“更多聊天角色”。

第二，它先收束成“长任务运行系统”，不是“一次性提示词技巧”。

第三，它先收束成“可验收、可追踪、可恢复”，不是“能跑完就算赢”。

第四，它开始走向“边界协议化”，但这不等于会有一个协议统一世界。

第五，它从来没有收束成“多 Agent 默认更强”。

最后这一句我会反复强调：

MultiAgent 是结构优势，不是默认信仰。

它只在真正值得拆、拆完职责更清楚、验收和恢复机制更完整的时候，才会比单 Agent 更值钱。

如果今天只能带走一句话#

如果这场讲座最后只能留一句话，我会留这句：

MultiAgent 不是多开几个模型实例，而是在组织一套可分工、可协作、可验收、可恢复的智能执行系统。

再说得更人话一点：

它不是为了让系统看起来更热闹，而是为了别再让一个 Agent 一个人去同时干五六个人的活。

如果我来收尾，我会这样结束#

我会说，今天大家回去之后，不一定非要立刻做一个 MultiAgent 系统。

更重要的是，先把看问题的方式换掉。

下次你再看到一个 agent 产品、一个研究 demo、或者一篇很花哨的介绍文章，先不要问它名字帅不帅，也不要先问它算不算真正的群体协作。

先问三件事：

谁在指挥？
任务怎么流？
它靠什么协作和收敛？

然后再问一句更狠的：

这件事如果不用 MultiAgent，真的不行吗？

如果这几句都答得出来，那你大概率就不容易被概念带着跑。

这也是我觉得今天讲 MultiAgent 最重要的价值。

不是把大家讲成术语专家，而是把大家训练成能判断结构的人。

讲稿：怎么把 MultiAgent 讲明白

我今天不想先给大家下定义#

为什么这个问题现在必须重讲#

我会先帮大家把一个误解打掉#

先别记术语，先记三个问题#

如果只讲主流落地，我会先讲两种骨架#

这里我要停一下，讲一个大家最容易混淆的点#

真正常见的协作方式，我会这样讲#

如果要讲例子，我一定会讲一个大家能代入的 Bug 场景#

如果只挑两个公开案例，我会讲这两个#

真正难的不是名字，而是底层几层东西总被写成一锅粥#

讲到这里，我一定会开始泼一点冷水#

如果学生问，为什么现在大家突然开始重视验收、轨迹和可观测性#

到 2026 年 4 月，我觉得比较稳的结论只有这几条#

如果今天只能带走一句话#

如果我来收尾，我会这样结束#