判断溢价

人在回路中｜判断溢价

V09 判断溢价任务分层

本文是《人在回路中 Human in the Loop》系列第 6 篇。

AI 越便宜，动作越不值钱

第 5 篇讲到最后，已经不能再停在“AI 替代动作，不替代组织”。

这句话只是第一刀。

第二刀更难听：AI 越便宜，动作越不值钱；动作越不值钱，判断越贵。

企业负责人如果还把 AI 会议开成“哪个部门用了多少工具”“员工会不会 prompt”“今年能不能少招几个人”，这场会基本就开偏了。因为 AI 真正改变的，不是某一个动作能不能更快完成，而是动作本身开始被重新定价。

写一段文案，做一张页面，整理一份材料，回复一个客户问题，生成一段代码，过去都能算作“活”。现在这些动作越来越像水电煤：重要，但不再稀缺。它们会变得更便宜、更快、更容易外包给模型、agent、模板和自动化流程。

这不是坏事。

问题在于，一号位很容易在这里误判。

他看到动作变便宜，就以为岗位变便宜；看到 AI 能生成代码，就以为工程能力变便宜；看到 AI 能回客户，就以为客户支持变便宜；看到 AI 能写方案，就以为战略判断也变便宜。

这就是第 5 篇说的“动作替代幻觉”。

Cloudflare 的信号之所以有价值，不是因为它裁了 1100 多人这个数字本身。真正有价值的是创始人把这件事放在“重新想象内部流程、团队和角色”的层面讲，同时又说公司内部 AI 使用在三个月里增长 600% 以上，员工每天跑大量 agent sessions。

这说明问题已经不在工具层了。

当一个组织开始让 AI 大量进入工作流，企业负责人要处理的不是“谁会被替代”，而是“哪些动作已经不值得人做，哪些判断反而必须变贵”。

判断变贵，不是因为人天然高贵。

判断变贵，是因为动作变便宜之后，错误动作的数量也会变多，动作触达的范围也会变大，错误从“写错一句话”变成“错发给客户、误触生产权限、损伤账号健康、破坏信任、制造合规后果”。

过去动作贵，动作本身就是一道天然刹车。

现在动作便宜，刹车必须从动作成本里搬出来，重新装到判断、责任和裁决里。

所以第 6 篇不再问“人要不要留在回路里”。

那句话太软。

第 6 篇要问的是：当 AI 把动作价格打下来以后，你公司到底还有没有人能判断什么动作不该做、什么动作必须停、什么动作出了事谁签字。

这就是我说的判断溢价。

判断溢价不是“人更重要”

“人更重要”这句话，我不喜欢。

它太容易变成安慰剂。

员工听完觉得自己暂时不会被替代，管理者听完觉得自己很有人文关怀，老板听完觉得这篇文章姿态不错。然后回到公司，流程照旧，权限照旧，日志照旧，审批照旧，真正该重写的组织结构一个都没动。

判断溢价不是这个意思。

判断溢价指的是：在 AI 可以低成本完成大量动作之后，真正产生经营差异的，不再是“谁能把动作做出来”，而是“谁能判断哪些动作值得做、哪些动作不能做、哪些动作必须让人签字、哪些动作出了事要立刻回滚”。

这不是情绪价值，是经营价值。

一个判断之所以贵，通常不是因为它看起来高级，而是因为它有四个特征。

第一，后果不可逆。

一条内部草稿写错了，可以改。一条触达客户、达人、媒体、供应商、平台账号的动作发出去，就不是改文案的问题了。它进入真实关系，留下真实痕迹。

第二，信息不完整。

AI 很擅长在已知材料里生成答案，但企业里的大量判断不是资料题，而是缺口题：客户真实意图没说完，市场信号还不稳定，组织内部责任还没对齐，平台规则只露出一半。这个时候，判断不是算答案，而是决定在不完整信息下怎么下注。

第三，责任会外溢。

一个动作表面上属于某个岗位，出事以后却会外溢到品牌、法务、销售、客服、工程、财务和老板本人。AI 把动作做快了，不会自动把责任边界变清楚。很多公司真正危险的地方就在这里：动作跑得更快，责任还停在旧流程里。

第四，无法靠平均正确率兜底。

有些任务 95% 正确率已经很好，有些任务错 1 次就会很难看。客户退款、生产权限、舆情回应、招聘 offer、合同条款、账号触达，都不能只看平均正确率。它们要看事故半径。

所以判断溢价不是“保留人类尊严”的话术。

它是一张经营账。

动作越便宜，组织越需要把高后果、低可逆、强外溢、低容错的节点重新标红。谁能识别这些节点，谁能设计这些节点，谁能把这些节点写进岗位、流程、系统和审计里，谁才真的在 AI 时代变贵。

反过来，如果一个老板只是觉得“我自己用 AI 手搓了一个网站，所以工程师可以不要了”，这不是懂 AI。

这是把动作能力误读成组织能力。

页面能生成，不代表架构能长期演进；代码能生成，不代表上线、监控、回滚、安全和责任链都存在；客服能自动回复，不代表客户信任能自动修复。

判断溢价的起点，就是把这些东西重新分开。

HITL 不是按钮，是三权

很多人把 HITL 理解错了。

他们以为 Human-in-the-Loop 就是在 AI 输出后面加一个“确认”按钮。模型先生成，人再看一眼。看起来有人审，听起来也合规，PPT 上还可以写“关键节点人工审核”。

这只是 HITL 的皮。

IBM 对 HITL 的定义里，关键不只是“有人参与”，而是人在自动化系统的运行、监督和决策中参与，用来保证准确性、安全性、问责和伦理判断。它还把人工 override、审计轨迹和外部审查连在一起。

也就是说，HITL 从来不是一个按钮问题。

它是组织权力问题。

Wulf 团队 2025 年那篇人-AI 协作论文把位置关系拆得更细：HOOTL 是人不在回路，HOTL 是人在回路上监督，HITL 是 AI 不确定时升级给人，HITP 是人作为流程里的确定节点，HIC 是人处在指令位，HAM 是人主导、AI 增强。

这些缩写不重要。

重要的是，它们把一个粗糙问题拆开了：人到底在哪里。

第 6 篇要进一步问：人如果在，具体握着什么权。

我的答案是三权。

第一，判断权。

谁定义“什么算对”。不是谁看 AI 输出，而是谁写规则书。规则是人定的，AI 只是按规则工作。判断权一旦交给模型的“常识”，企业其实是在把组织规则外包给训练数据。

第二，责任权。

动作发出以后，谁的名字能被追溯。不是“出了事人类负责”这种空话，而是系统里有没有 actorId、approved_by、action_hash、日志、审批记录。责任如果不能反查到人，就不叫责任，只叫甩锅前的修辞。

第三，最终裁决权。

AI 通过了以后，人还能不能拦下。人不点头，动作能不能入队。出现异常时，系统是继续重试、静默失败，还是把决定权交还给人。

这三权合起来，才是判断溢价的工程形态。

判断权决定什么动作进入考虑范围。

责任权决定动作发出以后谁签字。

最终裁决权决定动作在最后一刻能不能停。

所以 HITL 不是“人审 AI”。

HITL 是：当 AI 把动作成本打下来以后，组织把判断权、责任权和最终裁决权重新放到可见、可查、可问责的位置。

如果只有按钮，没有规则书、责任链和否决硬约束，那不是人在回路中。

那是人在 PR 里。

判断权：规则书在人手里

判断权最容易被说虚。

所以这里要落到工程里看。

某个内部增长系统里，AI 做内容初审时，不是让模型凭感觉判断“这条内容好不好”“这段话能不能发”。系统里有专门的规则文件，也有规则注入服务。人的判断先被写成规则，再被注入到 AI 的上下文里，AI 在这个规则书下工作。

这件事看起来很小。

但它是判断权的分界线。

如果没有规则文件，只有一句“让 AI 自己判断是否合适”，判断权其实已经不在人手里了。它跑到模型训练数据、默认偏好和临场输出里。老板以为自己只是省掉了一份规则文档，实际省掉的是组织显式判断。

显式判断为什么重要？

因为企业里的“对”很少是自然语言里的对。

客户沟通里，什么叫不过度承诺；达人触达里，什么叫不骚扰；销售线索里，什么叫高意向；合同条款里，什么叫风险可接受；客服回复里，什么叫既安抚又不乱承诺。这些都不是模型凭常识就能稳定知道的东西。

它们是公司自己的经营判断。

过去这些判断藏在老员工脑子里，藏在主管口头经验里，藏在老板拍板的直觉里。AI 进来以后，这些判断不能继续藏着。因为 AI 不会自动知道你公司的边界，它只会把动作做出来。

所以判断溢价的第一步，不是培养更多“会用 AI 的人”。

而是把公司的判断规则从人的脑子里、群消息里、临时会议里，搬到可版本化、可调用、可复盘的地方。

规则书在人手里，AI 才能在人的规则下放大效率。

规则书不在人手里，AI 放大的就是训练数据、模板偏见和组织懒惰。

很多企业负责人会在这里犯一个很贵的错：他觉得规则文件、prompt 模板、审批口径、异常清单都是运营细节，可以交给下面的人慢慢补。

不。

这就是 AI 时代的组织设计。

如果你公司没有写清楚“什么算对”，AI 越能干，偏离得越快。模型不是故意犯错，模型只是没有收到你公司真正的判断边界。

判断权不是坐在会议室里说“我们要谨慎”。

判断权是系统真正运行时，AI 读到的规则是人写的，而且这份规则能被更新、被审计、被追责。

这就是第一种判断溢价。

责任权：要写进字段

第二权是责任权。

这也是最能看出一家公司是不是在认真做 AI 组织设计的地方。

很多公司嘴上都会说：“AI 只是工具，最终还是人负责。”

这句话太轻了。

真正的问题是：系统里能不能查到这个人。

某个内部增长系统里，高级写动作不是简单入队。每一个动作会计算 action_hash，审批表里有 approved_by、expires_at 这类字段，动作日志里也会记录 actorId。也就是说，一条动作不是“AI 发的”，也不是“运营发的”这种模糊说法，而是能回到具体审批、具体动作、具体时间和具体人。

这才叫责任权。

责任不是道德修辞，是字段级别的约束。

如果一家公司说“人对 AI 负责”，但它的系统里没有 actorId，没有审批记录，没有动作 hash，没有日志，没有回滚记录，那这句话只是对外发言时好听。真出了事，责任会变成群聊考古、口头回忆和互相甩锅。

AI 时代的责任权必须被工程化。

因为 AI 会让动作数量上升。

过去一个人一天只能发几十条消息、改几段代码、处理几份材料。现在 agent 可以批量生成、批量调用、批量整理、批量触达。动作数量一上来，靠人脑记忆和主管经验兜责任就不够了。

更麻烦的是，AI 生成的动作经常会穿过多个系统。

一个客户回复可能牵动 CRM、合同、客服、法务口径；一个代码变更可能牵动测试、部署、监控、回滚；一个营销触达可能牵动平台账号、品牌关系、销售线索和客户信任。

动作看起来只是一行输出，责任其实跨了好几层。

这时一号位必须问一个很朴素的问题：错了谁赔。

这句话不是为了找替罪羊，而是为了让组织知道每个动作背后的责任链怎么设计。

AI 能生成内容，不代表它能签字；AI 能推荐动作，不代表它能承担客户投诉；AI 能调用工具，不代表它能为权限滥用负责。

所以判断溢价的第二步，是把责任权从口号搬进字段。

审批是谁批的。

动作是谁触发的。

规则是谁改的。

异常是谁处理的。

回滚是谁批准的。

这些问题如果不能被系统回答，企业负责人就不要轻易说自己已经做了 AI 自动化。

你做的可能只是把动作交给 AI，把责任留给事故现场。

最终裁决权不是点确认

第三权，是最终裁决权。

也就是人能不能在关键时刻说“不”。

这里最容易出现伪 HITL。很多系统做一个确认弹窗，就说自己有人在回路里。可问题是：这个确认能不能真的拦住底层动作？AI 已经判定通过后，人还能不能让它停？缺少人工确认时，任务是继续入队，还是直接失败？

某个内部增长系统里，real-run 写动作必须显式传入确认 token。没有这个 token，任务不能入队。这个设计的价值不在字符串本身，而在它把最终裁决权变成了硬约束。

人不是事后看报告。

人是动作进入真实世界之前的一道门。

这和普通“人工审核”不是一回事。普通审核经常是 AI 已经推着流程往前走，人只是在旁边补一个表态。真正的最终裁决权要求底层流程承认：人不点头，AI 走不动。

Bainbridge 1983 年那篇《Ironies of Automation》到这里就变得很刺眼。

她指出自动化的讽刺之一是：越自动化的系统，越可能在异常时需要高技能的人接手；而人如果长期不在场，接手能力又会退化。换成今天的 AI 组织语言，就是：你越把人从流程里拿掉，越可能在真正需要人的时候，发现组织已经不会判断了。

所以最终裁决权不是拖慢效率。

它是在保留组织的判断肌肉。

如果所有高风险动作都默认自动跑，人只在出事后补救，组织会慢慢变成一个“平时全自动、事故时找不到人”的系统。看起来先进，其实很脆。

真正的 HITL，不是让人处理 AI 失败后的残局，而是让人在高后果节点持续拥有否决权。

这也是为什么第 6 篇要把判断溢价和 HITL 连在一起。

判断溢价不是说老板亲自审每一条内容，不是让所有流程都回到手工时代。恰恰相反，低风险、边界清楚、可回滚的动作应该自动化。否则组织会被低价值动作拖死。

但高后果、低可逆、责任外溢的动作，必须有最终裁决权。

这权力不是写在价值观里。

它要写在状态机、审批表、权限、开关、确认 token 和回滚机制里。

没有这些硬约束，老板说再多“人要在回路中”，也只是说给自己听。

三个替代幻觉

把三权讲完，再看几个外部信号，才不会被 AI 替代叙事带跑。

第一类是客服替代幻觉。

Klarna 曾经把 AI 客服讲得很猛，媒体报道里也有等效大量人工、响应时间缩短、成本节省这些数字。但到 2025 年，Fortune 引 Bloomberg 口径报道，Klarna 又重新强调真人支持质量，CEO 承认如果成本成为过于主导的评估因素，就会得到更低质量的结果。

这不是“AI 客服不行”。

更准确地说，是 AI 可以处理大量低复杂度对话，但客户支持不只是一问一答。它还包括安抚、例外判断、信任恢复、升级路径和责任承担。你可以替代动作，但不能假装信任也被替代了。

第二个是码农替代幻觉。

Replit/PocketOS 那类事故之所以刺耳，不是因为 AI 写错了一段代码，而是因为 agent 一旦碰到生产基础设施，错误就会从文本错误变成业务事故。生产权限、数据库、备份、回滚、审计，这些东西不是“会写代码”就自动拥有。

老板自己用 AI 手搓一个网站，当然会很兴奋。

这很正常。

但如果因此得出“工程师可以不要了”，那就不是懂 AI，而是不懂软件生产。页面是动作，系统是组织能力。生成代码是动作，上线后稳定运行、出事故能定位、能回滚、能恢复客户信任，才是组织能力。

第三个是软件魔法幻觉。

TechCrunch 报道 Builder.ai 进入 insolvency，同时提到它早年宣称自动化 app 开发平台，但据 WSJ 口径实际高度依赖人类工程师。这个案例的价值，不在于评价一家公司，而在于提醒一号位：软件交付从来不是“生成页面”四个字。

需求澄清、架构取舍、测试、部署、运维、客户交付、变更管理、责任链，这些都在动作背后。

AI 会让前台动作看起来更轻。

但后台承重不会自动消失。

三个幻觉背后是同一个误判：一号位以为自己替代了人，实际替代的是某个动作；他以为省掉的是成本，实际可能切掉的是质量边界、生产治理和故障恢复系统。

所以我并不反对 AI 替代低价值动作。

恰恰相反，低价值动作就该被替代。

真正危险的是，不懂组织的一号位把动作替代当成组织替代，把生成能力当成交付能力，把成本下降当成判断完成。

这种公司不是更 AI-native。

它只是把事故半径交给了更便宜的动作系统。

判断溢价怎么落到组织

最后把话收回到老板桌上。

第 6 篇不是让一号位去崇拜“判断力”。

判断力如果只停在人的脑子里，还是旧时代的玄学。AI 时代的判断溢价，必须落到组织里。

第一，先画判断流。

不要先问哪个岗位能不能裁，先问这个岗位里有哪些判断节点。哪些动作只是执行，哪些动作会改变客户关系，哪些动作会触达生产权限，哪些动作会影响现金、合规、品牌和长期信任。低判断动作可以自动化，高判断节点必须标红。

第二，画权限流。

AI 能调用什么工具，能碰哪些数据，能写哪些系统，能不能触达外部客户，能不能进入生产环境，能不能发真实消息。这些不是 IT 小题，是一号位要签字的经营边界。

第三，画异常流。

AI 出错以后，谁发现，谁暂停，谁接管，谁回滚，谁通知客户，谁复盘，谁改规则。如果异常流没画，自动化越多，组织越容易在事故里失语。

第四，画责任流。

每个关键动作背后有没有具名 owner。审批是谁，规则是谁，触发是谁，放行是谁，复盘是谁。没有责任流的 AI 自动化，最后一定会把组织推向“大家都参与了，但无人负责”的灰区。

这四条流合起来，就是判断溢价的组织落点。

它不是一门培训课，也不是一份 AI 使用规范。

它是一套组织重写动作。

最简单的会议动作，是让每个业务负责人带一张表进来：本月被 AI 替代的动作有哪些，本月必须保留人工判断的节点有哪些，本月发生过哪些异常，本月哪一条规则被改过。四列填不出来，就说明公司还没有在管理判断溢价，只是在统计 AI 使用热闹，也还没有把经营责任真正接回桌面和预算里了。

如果一个企业负责人真的想把 AI 用进公司，不要只问员工会不会用工具。你要问：公司里哪些判断正在升值，哪些动作正在贬值，哪些岗位要从“动作执行者”变成“判断节点负责人”，哪些流程要从“人肉推进”变成“AI 推进 + 人类裁决”。

这才是第 6 篇要给第 7 篇留下的口子。

判断溢价不能靠老板一个人承担。

它需要一种新角色把客户现场、业务判断、工程实现和责任链接起来。这个角色不只是工程师，也不只是销售，不只是交付，也不只是项目经理。

它更接近 FDE。

下一篇就讲这个。

FDE 为什么不是“工程师 + 销售”的拼盘，而是 AI 时代判断溢价的组织载体。

因为当动作越来越便宜，公司真正缺的不是更多动作。

公司缺的是能把动作放进正确责任链里的人。

判断溢价

目录

判断溢价

AI 越便宜，动作越不值钱

判断溢价不是“人更重要”

HITL 不是按钮，是三权

判断权：规则书在人手里

责任权：要写进字段

最终裁决权不是点确认

三个替代幻觉

判断溢价怎么落到组织

继续读

继续读

如果这篇文章说中了你的组织问题，可以先做一次诊断。

招人看走眼？

判断溢价

目录

继续读

如果这篇文章说中了你的组织问题，可以先做一次诊断。

招人看走眼？

订阅 J叔内参