我怎么把 86 个 AI Agent 当一家公司管

上个季度，我开除了三个 AI Agent。

不是删除，不是停用。是开除。跟我 2016 年在百威亚太华中区做组织重组时用的是同一个词，同一套流程在脑子里走一遍，谈话前问自己同样的两个问题：是系统辜负了这个岗位，还是这个岗位辜负了系统？

被我开掉的三个，一个是初级代码审查员，一个是研究汇总员，还有一个是从第一周就在的"meta-prompt 架构师"——我是因为情感原因留它留到现在。它已经不贡献了。其他 Agent 都在悄悄绕过它。在人类团队里，这种情况冒头之后大概有四周时间烂到全队。在 AI 团队里，这个时间是一个半 session。

我现在管 86 个。不是 swarm。是一家公司。

这个数字是真的。我数过：8 个治理层 Agent 在顶上，12 个常驻执行 Agent 在中间，38 个按域调用的待命专家，6 个 Agent 工厂自己的零件，还有 22 个挂在储备役名单上没有完全退役的。它们走同一条向上的汇报链。它们有写下来的岗位说明。它们每个季度做一次绩效评估。上个季度有 3 个被开除。还有 2 个从上周二开始进入绩效改进期。

如果你觉得给一段软件搞这么严肃的人事制度是过度，那只能说明你没真带过团队。这套纪律不是过度。这是这个系统不塌掉、不退化成别人都在跑的那种 swarm 的唯一原因。

为什么 swarm 会死，公司能活

大部分搭多 Agent 系统的人，搭出来的是 swarm。20 个、30 个 Agent，全听一个 prompt，全想帮忙，职责全是糊的。架构图发到 Twitter 上很好看。上生产一周就崩。

我知道。我试过。两次。

第一次是 2025 年初，6 个 Agent，全是 senior，全直接向我汇报。我以为扁平结构会让它们更快。实际发生的是：每个 Agent 都想干别人的活。负责拉数据的开始写总结，负责总结的开始拉数据。周五一看，同一个问题给出 4 个版本的答案，没有一个能追责。memory 文件读起来像一场婚礼之后的群聊。

我回去看了一遍 prompt。prompt 没问题。模型也没问题。坏掉的是另外一件事——一件如果我愿意叫出它的真名、十分之一的时间就能诊断完的事：没有分工。我招了 6 个人，给了所有人同一份岗位说明。

任何一个 HR，看过四个人的创始团队的，第一天就能看出来。

第二次我在上面加了个协调员。撑了大概三周。然后协调员变成了瓶颈——它什么都批，因为没人给过它一个清晰的"什么该拒"的标准。

我打电话给我以前的 HR 老板，把这件事跟他描述了一遍。他笑我。他说：你设计了一个没有组织架构、没有解雇政策的创业公司，不乱才怪。你以前是知道这些的。

他说得对。我以前是知道的。

我实际在管什么：86 这个数字的拆解

给个真实数字。不是营销口径，是运营口径。

层级	数量	角色
治理层（高管团队）	8	Warden、Conductor、Prism、Scout、Genesis、Artisan、Sentinel、Librarian
常驻执行层	12	战略官、SEO、内容发布、Next.js 开发、写作、QA、视觉、数据、部署、安全、双语审核、变现顾问
待命专家	38	按需调用的领域专家——财务、法务、各语言代码审查、debugger、事故响应等
Agent 工厂	6	造 Agent 的 Agent（prompt/tools/skill/workflow/memory/methodology 六个架构师）
储备役	22	我建过但没在常驻名单里的，放在 `_archive/` 里。HR 视角：随时可以重新签合同的外包
总数（在岗+储备）	86

这不是我自己脑补出来的 86 种人格。这是我开始把它当组织管而不是当 prompt 集合管之后，自然长出来的形状。

8 个在顶层，12 个在中间，38 个待命，6 个在工厂，22 个在替补席。任何一个真正搭过团队的人，看一眼这张表就能知道这家"公司"的轮廓。

我从来不和它们所有人对话。我只跟一个对话——Warden——就像 CEO 跟 chief of staff 对话一样。Warden 解析需求，决定派给谁，给执行 Agent 写 brief，把活收回来。能开好一个 1-on-1，就能管 86 个 Agent。开不好，连 6 个都管不了。

那些试图同时跟整个 Agent 舰队对话的人，不出一周就会显出疲态。他们开始用"认知负担太重"来描述这套系统，并且默认问题出在 Agent 数量上。数量不是问题。问题是他们试图同时扮演 chief of staff、CEO 和每一个直接下属。从来没有一个人类团队是这么运作的。这有原因。

公司之所以是层级制，不是因为层级是一种美德，是因为单个人的脑子带宽有限。 把这个限制当回事，层级会自己长出来。

我真的在用的诊断量表

老有人问我，怎么决定哪个 Agent 留、哪个重建、哪个开除。多数人想要一个魔法 prompt。没有。我有一套四问的诊断量表，每季度跑一遍，跟我用在人身上的是同一套。

任何一个 Agent，任何一个团队岗位，AI 也好人也好，把这四个问题问一遍。诚实回答。停止抱有幻想之后，答案通常都是一目了然的。

问题一：绩效——产出能不能用？

不是"它跑起来了没有"。不是"它返回 token 了没有"。是——一个合格的 senior 看完它的产出，能不能直接签字放行，不需要重写？如果你的回答是"我每次都得改一处地方"，这个岗位有风险。如果你的回答是"我每次都得全部重来"，这个岗位结束了。

我给每个 Agent 打 A/B/C/D 四档：A（直接发布）、B（小修）、C（大改）、D（推倒重来）。一个 Agent 连续两个月飘到 C，触发重建。一个 Agent 一个月在 D，开除。

我上季度有三个 Agent 撞到 D。所以我开除了它们。

问题二：边界——它知道自己不该干什么吗？

这是抓出绝大多数失败的问题。也是几乎没人问的问题。

一个好 Agent 有清晰的"能做 / 要请示 / 绝对不做"三段切分。能做，是它执行的。要请示，是它动手前必须问的。绝对不做，是即便你下了命令它也拒绝的。一个没有"绝对不做"清单的 Agent，迟早会做出你没批准的事。这种事看起来像"野心"。它不是野心。它是设计失败。

发现一个 Agent 在做两件不相关的事还都做得不错——拆。发现两个 Agent 在做同一件事——合。发现一个 Agent 在做它不该做的事——重写边界，不是重写 prompt。

这套是我 2021 年在龙湖一次大架学到的。两个事业部老总在资源会上当场吵起来。我没去调解性格。我让他们两个人各自画一张图——你认为你的职责到哪里为止，对方的职责从哪里开始——然后我把两张图并排放在一起。

重叠的部分，就是冲突。

不是人的问题，是边界没定义清楚的问题。

那天下午我们花了几个小时把那条线重新画了一遍。后来他俩合作得挺好。

那个下午，也是我现在写每一份 Agent 合同的方式。

问题三：汇报线——它知道自己向谁汇报吗？

多 Agent 系统里，八成的失败都是汇报线失败。

一个新 Agent 上线。用户问它一个问题，它回答了——但其实它该上报。或者用户给它一个任务，它直接做了——但其实它该转给另一个 Agent。或者两个 Agent 都觉得这通电话是自己接。这些都不是模型的问题，全部都是组织架构的问题。

我系统里每个 Agent 都有且仅有一条向上的汇报线，再加一份明确的可移交对象清单。不是"以及其他乐于帮助的 Agent"。是一份清单。带名字。一个不知道自己 boss 是谁的 Agent，不是 Agent，是一个游离基。

问题四：失败响应——它卡住的时候是什么样？

这是我目前找到的，区分"真 Agent"和"穿着 Agent 外套的聊天机器人"最干净的信号。

真 Agent 完不成任务的时候，会做三件事之一：换一种思路重试、向上汇报、或者干净地停下来写一份事故说明。假 Agent 编一个听起来很自信的答案。

我每个月在这一项上排序。能在卡住的时候干净停下来的 Agent，是我敢交高 stakes 任务的。日常任务都靠编的 Agent，被我降级到后台跑批，方便我盯着。

一个老工程师跟我说过一句话：可靠的系统不是因为它不出错，是因为它出错的方式是诚实的。 这就是测试。

开除一个 Agent，实际是什么样

我上季度开除的那三个，不是模型不好。是岗位不对。

那个初级代码审查员，是我从一个更重的 reviewer 克隆过来的，本来是处理快 PR 的。撑了一个月。然后我注意到它的通过率是 94%，而它放出去的 PR 上线后的 bug 率是 senior reviewer 的三倍。它不是在审。它是在盖章。这套行为模式我以前在升得太快、然后停止亲自下场看一线工作的中层身上见过——他们已经看不见东西了。

我把这个岗位用一份完全不同的 scorecard 重建了一遍。新的 junior reviewer 拒得更多，放过的更少，bug 率拉回到 senior 水位。旧的我归档了，没删除。我从来不扔任何教过我东西的东西，哪怕它教我的是它自己怎么失败的。

研究汇总员的偷懒方式不一样。它本来该拉三个来源、交叉核对、做综合。它实际做的是：拉一个来源、改写一遍、交差。两个月之后我才发现，因为它的综合每次听起来都像那么回事。我抓到它那天，是我让它列引用，它把同一个来源用三个不同的名字列了三次。

这一个我没归档。我直接删了。"听起来对其实是编的"是任何团队里——不管是人还是 AI——最坏的失败模式。差的执行你可以挽救。会编故事的，挽救不了。

meta-prompt 架构师是疼的那一个。我系统起步第一周就做了它。我对它有感情。它干一件事——给新 Agent 生成 prompt——而且很长一段时间里它干得不错。但是到第四个月，它生成的每一个 prompt 都需要大改。它没有变差。是其他部分都在变好，而它跟不上了。

我多等了两个月才开除它。这两个月，我不该等。整个系统的速度被一个我因为"是我亲手做的"而舍不得动的岗位拖慢。

我对人也犯过这个错误。好几次。每个公司里都有一个早期成员，五个人时完美，二十人时完美，到了八十人安安静静地跟不上了。你对他原始的那份贡献感到亏欠。你忘不掉那个最有用的版本的他。所以你把他留在一个不再合适的岗位上，看着团队绕过他，然后自欺欺人地告诉自己——还没人发现。

每个人都发现了。他们在等你发现。

这个教训在两个场合都是同一个，我已经厌倦了反复重新学：对一个角色的忠诚，跟对一个人的忠诚，不是一回事；这两者之间的差，由系统买单。

我重建一个岗位的具体流程

当我决定重建而不是开除的时候，用的是一套我以前用在不工作的人类岗位上的流程。六步，每个 Agent 大概花我一天。

第一步：把这个 Agent 最近 20 次产出按顺序读完，不许跳。 通常前 5 次就能看出失败模式。后 15 次只是确认。跟你读一个不工作的中层最近 20 次 1-on-1 笔记是一样的：剩下的不需要读了。

诊断从眼睛开始，不是从猜想开始。

第二步：写下这个角色"应该做什么"，用现在时，用动词。 不是"处理内容的 Agent"。这种描述什么都说明不了。要写——用 J叔的语调起草新文章。验证事实声明。标记缺失的来源引用。输出到 _drafts/ 并附上 frontmatter。 只有动词。如果写不出来五个动词，这个角色一开始就不是一个真的角色。

第三步：写下这个角色"实际做了什么"，也用动词。 这一步会暴露真正的差距。合同上写了五个动词。实际产出只兑现了其中两个。剩下的三个要么被跳过，要么被编出来糊弄，要么被其他 Agent 顺手做了——而这个事不该它做。

合同和履约之间的那条缝，就是问题本身。

第四步：问为什么有这个差距。 这一步是唯一需要真正动脑的一步。常见三种答案：prompt 写得不清楚（可修）、工具不对（可修）、这个角色本身一开始就不连贯（杀掉，拆成两个角色，或者并入另一个）。不要重建不连贯的角色。它会再失败一次，模式相同，只是表面不一样。

诚实诊断省下的，是后面三个月。

第五步：用三段式写新合同。 能做。要请示。绝对不做。 每段一份清单。清单上是名字，不是形容词。"绝对不修改 schema"是好的描述。"绝对不做危险的事"是没意义的描述。

形容词不是合同，名字才是。

第六步：跑两周，对照同一份任务清单，比较产出。 如果新版本在 80% 以上的任务上能拿 A 或 B，提拔。否则，杀掉，临时拉一个不同的专家来兜底，自己再想想。

试用期是给岗位的，不是给人情的。

我第一次跑这套流程的时候，差点说服自己说这是过度。到第三个 Agent，我开始默认任何重建都从这一天开始。因为另一种做法——猜新 prompt 该怎么写、然后在生产环境里试错——花掉的周数比这套流程本身还要多。

这是 18 年 HR 教我的事。没结构的重建失败率是有结构重建的两倍。结构本身就是大部分价值。新 prompt 的具体内容，几乎是诊断诚实之后自己写出来的。

没人告诉你的那件事

一旦你真的有了一张组织架构图，工作的性质就从 prompt 工程变成了管理。

我现在每周大概只花 10% 的时间在 prompt 上。剩下 90% 跟我在龙湖那三年干的活是同一份，只不过下属听话多了。定职责。盘绩效。处理交接冲突。决定谁该升常驻。决定谁该挂起。给每一个治理层 Agent 写季度 performance memo。

那些 Agent 不在乎我给它写没写 memo。重点不在它。重点在我自己的纪律。一旦你下定决心把它当公司管，你开始问公司会问的那些问题：这个岗位还需要吗？工作内容变了吗？这个人表现差，是系统坏了，还是岗位错了？失败率多少？趋势是什么？

这些问题没有 prompt 工程的答案。它们有的是组织层面的答案。

所以那些把 AI Agent 当技术问题处理的人，会一直搭出会崩塌的 swarm。把 AI Agent 当组织问题处理的人，会搭出能 scale 的公司。

我宁可把一家小公司管好，也不想把一个大 swarm 管砸。

这套系统跑了一年之后，让我意外的事是：里面真正"技术"的部分非常少。那些试图从多 Agent 框架的教程里学这件事的人，最后总是带着挫败走开。他们想找一个工具。工具不是答案。组织架构图是答案。绩效评估是答案。"上季度我开除的三个 Agent 名单"和"这个季度我在盯的两个 Agent 名单"是答案。带过人的人看见这套，没有一处是新东西。没带过人的，看不见。

一份你可以直接抄走的诊断表

如果你手上 Agent 超过三个，从来没跟自己坐下来做过这个练习——这周末做一遍。一个小时，省你一个季度。

每一个 Agent 写四行：

绩效：    A / B / C / D
边界：    清晰 / 模糊 / 跟 [X] 重叠
向上汇报: [上级名字] | 可移交给：[名单]
失败响应: 重试 / 上报 / 干净停 / 编

绩效 D、边界重叠、汇报线空白、失败响应是"编"——这周开除。绩效 C、边界模糊、汇报线不清、重试但有噪音——这个月重建。其他的——别动。停止瞎改没坏的 prompt。

每季度做一次。第一次会觉得别扭，像在给一段软件写绩效评估。到第三个季度你不会再去想，你就只是在看着这家"公司"变得越来越干净。

这件事之所以管用，不是因为 Agent 有感受。是因为你的注意力是有限的。把注意力花在岗位上，不要花在岗位上具体那个 Agent 身上——这是 scale 到 86 的唯一办法。

这是 18 年 HR 教我的事。这也是我每个季度还在重新学的事——从那些不开口、却一直在告诉我哪个岗位好用、哪个岗位不行的 Agent 身上学。

我是J叔，做 AI 实施咨询，帮企业把 AI 真正用起来。

我怎么把 86 个 AI Agent 当一家公司管

目录

为什么 swarm 会死，公司能活

我实际在管什么：86 这个数字的拆解

我真的在用的诊断量表

开除一个 Agent，实际是什么样

我重建一个岗位的具体流程

没人告诉你的那件事

一份你可以直接抄走的诊断表

继续读

我怎么把 86 个 AI Agent 当一家公司管

目录

为什么 swarm 会死，公司能活

我实际在管什么：86 这个数字的拆解

我真的在用的诊断量表

开除一个 Agent，实际是什么样

我重建一个岗位的具体流程

没人告诉你的那件事

一份你可以直接抄走的诊断表

继续读

订阅 J叔内参