判断溢价


本文是《人在回路中 Human in the Loop》系列第 6 篇。
AI 越便宜,动作越不值钱
第 5 篇讲到最后,已经不能再停在“AI 替代动作,不替代组织”。
这句话只是第一刀。
第二刀更难听:AI 越便宜,动作越不值钱;动作越不值钱,判断越贵。
企业负责人如果还把 AI 会议开成“哪个部门用了多少工具”“员工会不会 prompt”“今年能不能少招几个人”,这场会基本就开偏了。因为 AI 真正改变的,不是某一个动作能不能更快完成,而是动作本身开始被重新定价。
写一段文案,做一张页面,整理一份材料,回复一个客户问题,生成一段代码,过去都能算作“活”。现在这些动作越来越像水电煤:重要,但不再稀缺。它们会变得更便宜、更快、更容易外包给模型、agent、模板和自动化流程。
这不是坏事。
问题在于,一号位很容易在这里误判。
他看到动作变便宜,就以为岗位变便宜;看到 AI 能生成代码,就以为工程能力变便宜;看到 AI 能回客户,就以为客户支持变便宜;看到 AI 能写方案,就以为战略判断也变便宜。
这就是第 5 篇说的“动作替代幻觉”。
Cloudflare 的信号之所以有价值,不是因为它裁了 1100 多人这个数字本身。真正有价值的是创始人把这件事放在“重新想象内部流程、团队和角色”的层面讲,同时又说公司内部 AI 使用在三个月里增长 600% 以上,员工每天跑大量 agent sessions。
这说明问题已经不在工具层了。
当一个组织开始让 AI 大量进入工作流,企业负责人要处理的不是“谁会被替代”,而是“哪些动作已经不值得人做,哪些判断反而必须变贵”。
判断变贵,不是因为人天然高贵。
判断变贵,是因为动作变便宜之后,错误动作的数量也会变多,动作触达的范围也会变大,错误从“写错一句话”变成“错发给客户、误触生产权限、损伤账号健康、破坏信任、制造合规后果”。
过去动作贵,动作本身就是一道天然刹车。
现在动作便宜,刹车必须从动作成本里搬出来,重新装到判断、责任和裁决里。
所以第 6 篇不再问“人要不要留在回路里”。
那句话太软。
第 6 篇要问的是:当 AI 把动作价格打下来以后,你公司到底还有没有人能判断什么动作不该做、什么动作必须停、什么动作出了事谁签字。
这就是我说的判断溢价。
判断溢价不是“人更重要”
“人更重要”这句话,我不喜欢。
它太容易变成安慰剂。
员工听完觉得自己暂时不会被替代,管理者听完觉得自己很有人文关怀,老板听完觉得这篇文章姿态不错。然后回到公司,流程照旧,权限照旧,日志照旧,审批照旧,真正该重写的组织结构一个都没动。
判断溢价不是这个意思。
判断溢价指的是:在 AI 可以低成本完成大量动作之后,真正产生经营差异的,不再是“谁能把动作做出来”,而是“谁能判断哪些动作值得做、哪些动作不能做、哪些动作必须让人签字、哪些动作出了事要立刻回滚”。
这不是情绪价值,是经营价值。
一个判断之所以贵,通常不是因为它看起来高级,而是因为它有四个特征。
第一,后果不可逆。
一条内部草稿写错了,可以改。一条触达客户、达人、媒体、供应商、平台账号的动作发出去,就不是改文案的问题了。它进入真实关系,留下真实痕迹。
第二,信息不完整。
AI 很擅长在已知材料里生成答案,但企业里的大量判断不是资料题,而是缺口题:客户真实意图没说完,市场信号还不稳定,组织内部责任还没对齐,平台规则只露出一半。这个时候,判断不是算答案,而是决定在不完整信息下怎么下注。
第三,责任会外溢。
一个动作表面上属于某个岗位,出事以后却会外溢到品牌、法务、销售、客服、工程、财务和老板本人。AI 把动作做快了,不会自动把责任边界变清楚。很多公司真正危险的地方就在这里:动作跑得更快,责任还停在旧流程里。
第四,无法靠平均正确率兜底。
有些任务 95% 正确率已经很好,有些任务错 1 次就会很难看。客户退款、生产权限、舆情回应、招聘 offer、合同条款、账号触达,都不能只看平均正确率。它们要看事故半径。
所以判断溢价不是“保留人类尊严”的话术。
它是一张经营账。
动作越便宜,组织越需要把高后果、低可逆、强外溢、低容错的节点重新标红。谁能识别这些节点,谁能设计这些节点,谁能把这些节点写进岗位、流程、系统和审计里,谁才真的在 AI 时代变贵。
反过来,如果一个老板只是觉得“我自己用 AI 手搓了一个网站,所以工程师可以不要了”,这不是懂 AI。
这是把动作能力误读成组织能力。
页面能生成,不代表架构能长期演进;代码能生成,不代表上线、监控、回滚、安全和责任链都存在;客服能自动回复,不代表客户信任能自动修复。
判断溢价的起点,就是把这些东西重新分开。
HITL 不是按钮,是三权
很多人把 HITL 理解错了。
他们以为 Human-in-the-Loop 就是在 AI 输出后面加一个“确认”按钮。模型先生成,人再看一眼。看起来有人审,听起来也合规,PPT 上还可以写“关键节点人工审核”。
这只是 HITL 的皮。
IBM 对 HITL 的定义里,关键不只是“有人参与”,而是人在自动化系统的运行、监督和决策中参与,用来保证准确性、安全性、问责和伦理判断。它还把人工 override、审计轨迹和外部审查连在一起。
也就是说,HITL 从来不是一个按钮问题。
它是组织权力问题。
Wulf 团队 2025 年那篇人-AI 协作论文把位置关系拆得更细:HOOTL 是人不在回路,HOTL 是人在回路上监督,HITL 是 AI 不确定时升级给人,HITP 是人作为流程里的确定节点,HIC 是人处在指令位,HAM 是人主导、AI 增强。
这些缩写不重要。
重要的是,它们把一个粗糙问题拆开了:人到底在哪里。
第 6 篇要进一步问:人如果在,具体握着什么权。
我的答案是三权。
第一,判断权。
谁定义“什么算对”。不是谁看 AI 输出,而是谁写规则书。规则是人定的,AI 只是按规则工作。判断权一旦交给模型的“常识”,企业其实是在把组织规则外包给训练数据。
第二,责任权。
动作发出以后,谁的名字能被追溯。不是“出了事人类负责”这种空话,而是系统里有没有 actorId、approved_by、action_hash、日志、审批记录。责任如果不能反查到人,就不叫责任,只叫甩锅前的修辞。
第三,最终裁决权。
AI 通过了以后,人还能不能拦下。人不点头,动作能不能入队。出现异常时,系统是继续重试、静默失败,还是把决定权交还给人。
这三权合起来,才是判断溢价的工程形态。
判断权决定什么动作进入考虑范围。
责任权决定动作发出以后谁签字。
最终裁决权决定动作在最后一刻能不能停。
所以 HITL 不是“人审 AI”。
HITL 是:当 AI 把动作成本打下来以后,组织把判断权、责任权和最终裁决权重新放到可见、可查、可问责的位置。
如果只有按钮,没有规则书、责任链和否决硬约束,那不是人在回路中。
那是人在 PR 里。
判断权:规则书在人手里
判断权最容易被说虚。
所以这里要落到工程里看。
某个内部增长系统里,AI 做内容初审时,不是让模型凭感觉判断“这条内容好不好”“这段话能不能发”。系统里有专门的规则文件,也有规则注入服务。人的判断先被写成规则,再被注入到 AI 的上下文里,AI 在这个规则书下工作。
这件事看起来很小。
但它是判断权的分界线。
如果没有规则文件,只有一句“让 AI 自己判断是否合适”,判断权其实已经不在人手里了。它跑到模型训练数据、默认偏好和临场输出里。老板以为自己只是省掉了一份规则文档,实际省掉的是组织显式判断。
显式判断为什么重要?
因为企业里的“对”很少是自然语言里的对。
客户沟通里,什么叫不过度承诺;达人触达里,什么叫不骚扰;销售线索里,什么叫高意向;合同条款里,什么叫风险可接受;客服回复里,什么叫既安抚又不乱承诺。这些都不是模型凭常识就能稳定知道的东西。
它们是公司自己的经营判断。
过去这些判断藏在老员工脑子里,藏在主管口头经验里,藏在老板拍板的直觉里。AI 进来以后,这些判断不能继续藏着。因为 AI 不会自动知道你公司的边界,它只会把动作做出来。
所以判断溢价的第一步,不是培养更多“会用 AI 的人”。
而是把公司的判断规则从人的脑子里、群消息里、临时会议里,搬到可版本化、可调用、可复盘的地方。
规则书在人手里,AI 才能在人的规则下放大效率。
规则书不在人手里,AI 放大的就是训练数据、模板偏见和组织懒惰。
很多企业负责人会在这里犯一个很贵的错:他觉得规则文件、prompt 模板、审批口径、异常清单都是运营细节,可以交给下面的人慢慢补。
不。
这就是 AI 时代的组织设计。
如果你公司没有写清楚“什么算对”,AI 越能干,偏离得越快。模型不是故意犯错,模型只是没有收到你公司真正的判断边界。
判断权不是坐在会议室里说“我们要谨慎”。
判断权是系统真正运行时,AI 读到的规则是人写的,而且这份规则能被更新、被审计、被追责。
这就是第一种判断溢价。
责任权:要写进字段
第二权是责任权。
这也是最能看出一家公司是不是在认真做 AI 组织设计的地方。
很多公司嘴上都会说:“AI 只是工具,最终还是人负责。”
这句话太轻了。
真正的问题是:系统里能不能查到这个人。
某个内部增长系统里,高级写动作不是简单入队。每一个动作会计算 action_hash,审批表里有 approved_by、expires_at 这类字段,动作日志里也会记录 actorId。也就是说,一条动作不是“AI 发的”,也不是“运营发的”这种模糊说法,而是能回到具体审批、具体动作、具体时间和具体人。
这才叫责任权。
责任不是道德修辞,是字段级别的约束。
如果一家公司说“人对 AI 负责”,但它的系统里没有 actorId,没有审批记录,没有动作 hash,没有日志,没有回滚记录,那这句话只是对外发言时好听。真出了事,责任会变成群聊考古、口头回忆和互相甩锅。
AI 时代的责任权必须被工程化。
因为 AI 会让动作数量上升。
过去一个人一天只能发几十条消息、改几段代码、处理几份材料。现在 agent 可以批量生成、批量调用、批量整理、批量触达。动作数量一上来,靠人脑记忆和主管经验兜责任就不够了。
更麻烦的是,AI 生成的动作经常会穿过多个系统。
一个客户回复可能牵动 CRM、合同、客服、法务口径;一个代码变更可能牵动测试、部署、监控、回滚;一个营销触达可能牵动平台账号、品牌关系、销售线索和客户信任。
动作看起来只是一行输出,责任其实跨了好几层。
这时一号位必须问一个很朴素的问题:错了谁赔。
这句话不是为了找替罪羊,而是为了让组织知道每个动作背后的责任链怎么设计。
AI 能生成内容,不代表它能签字;AI 能推荐动作,不代表它能承担客户投诉;AI 能调用工具,不代表它能为权限滥用负责。
所以判断溢价的第二步,是把责任权从口号搬进字段。
审批是谁批的。
动作是谁触发的。
规则是谁改的。
异常是谁处理的。
回滚是谁批准的。
这些问题如果不能被系统回答,企业负责人就不要轻易说自己已经做了 AI 自动化。
你做的可能只是把动作交给 AI,把责任留给事故现场。
最终裁决权不是点确认
第三权,是最终裁决权。
也就是人能不能在关键时刻说“不”。
这里最容易出现伪 HITL。很多系统做一个确认弹窗,就说自己有人在回路里。可问题是:这个确认能不能真的拦住底层动作?AI 已经判定通过后,人还能不能让它停?缺少人工确认时,任务是继续入队,还是直接失败?
某个内部增长系统里,real-run 写动作必须显式传入确认 token。没有这个 token,任务不能入队。这个设计的价值不在字符串本身,而在它把最终裁决权变成了硬约束。
人不是事后看报告。
人是动作进入真实世界之前的一道门。
这和普通“人工审核”不是一回事。普通审核经常是 AI 已经推着流程往前走,人只是在旁边补一个表态。真正的最终裁决权要求底层流程承认:人不点头,AI 走不动。
Bainbridge 1983 年那篇《Ironies of Automation》到这里就变得很刺眼。
她指出自动化的讽刺之一是:越自动化的系统,越可能在异常时需要高技能的人接手;而人如果长期不在场,接手能力又会退化。换成今天的 AI 组织语言,就是:你越把人从流程里拿掉,越可能在真正需要人的时候,发现组织已经不会判断了。
所以最终裁决权不是拖慢效率。
它是在保留组织的判断肌肉。
如果所有高风险动作都默认自动跑,人只在出事后补救,组织会慢慢变成一个“平时全自动、事故时找不到人”的系统。看起来先进,其实很脆。
真正的 HITL,不是让人处理 AI 失败后的残局,而是让人在高后果节点持续拥有否决权。
这也是为什么第 6 篇要把判断溢价和 HITL 连在一起。
判断溢价不是说老板亲自审每一条内容,不是让所有流程都回到手工时代。恰恰相反,低风险、边界清楚、可回滚的动作应该自动化。否则组织会被低价值动作拖死。
但高后果、低可逆、责任外溢的动作,必须有最终裁决权。
这权力不是写在价值观里。
它要写在状态机、审批表、权限、开关、确认 token 和回滚机制里。
没有这些硬约束,老板说再多“人要在回路中”,也只是说给自己听。
三个替代幻觉
把三权讲完,再看几个外部信号,才不会被 AI 替代叙事带跑。
第一类是客服替代幻觉。
Klarna 曾经把 AI 客服讲得很猛,媒体报道里也有等效大量人工、响应时间缩短、成本节省这些数字。但到 2025 年,Fortune 引 Bloomberg 口径报道,Klarna 又重新强调真人支持质量,CEO 承认如果成本成为过于主导的评估因素,就会得到更低质量的结果。
这不是“AI 客服不行”。
更准确地说,是 AI 可以处理大量低复杂度对话,但客户支持不只是一问一答。它还包括安抚、例外判断、信任恢复、升级路径和责任承担。你可以替代动作,但不能假装信任也被替代了。
第二个是码农替代幻觉。
Replit/PocketOS 那类事故之所以刺耳,不是因为 AI 写错了一段代码,而是因为 agent 一旦碰到生产基础设施,错误就会从文本错误变成业务事故。生产权限、数据库、备份、回滚、审计,这些东西不是“会写代码”就自动拥有。
老板自己用 AI 手搓一个网站,当然会很兴奋。
这很正常。
但如果因此得出“工程师可以不要了”,那就不是懂 AI,而是不懂软件生产。页面是动作,系统是组织能力。生成代码是动作,上线后稳定运行、出事故能定位、能回滚、能恢复客户信任,才是组织能力。
第三个是软件魔法幻觉。
TechCrunch 报道 Builder.ai 进入 insolvency,同时提到它早年宣称自动化 app 开发平台,但据 WSJ 口径实际高度依赖人类工程师。这个案例的价值,不在于评价一家公司,而在于提醒一号位:软件交付从来不是“生成页面”四个字。
需求澄清、架构取舍、测试、部署、运维、客户交付、变更管理、责任链,这些都在动作背后。
AI 会让前台动作看起来更轻。
但后台承重不会自动消失。
三个幻觉背后是同一个误判:一号位以为自己替代了人,实际替代的是某个动作;他以为省掉的是成本,实际可能切掉的是质量边界、生产治理和故障恢复系统。
所以我并不反对 AI 替代低价值动作。
恰恰相反,低价值动作就该被替代。
真正危险的是,不懂组织的一号位把动作替代当成组织替代,把生成能力当成交付能力,把成本下降当成判断完成。
这种公司不是更 AI-native。
它只是把事故半径交给了更便宜的动作系统。
判断溢价怎么落到组织
最后把话收回到老板桌上。
第 6 篇不是让一号位去崇拜“判断力”。
判断力如果只停在人的脑子里,还是旧时代的玄学。AI 时代的判断溢价,必须落到组织里。
第一,先画判断流。
不要先问哪个岗位能不能裁,先问这个岗位里有哪些判断节点。哪些动作只是执行,哪些动作会改变客户关系,哪些动作会触达生产权限,哪些动作会影响现金、合规、品牌和长期信任。低判断动作可以自动化,高判断节点必须标红。
第二,画权限流。
AI 能调用什么工具,能碰哪些数据,能写哪些系统,能不能触达外部客户,能不能进入生产环境,能不能发真实消息。这些不是 IT 小题,是一号位要签字的经营边界。
第三,画异常流。
AI 出错以后,谁发现,谁暂停,谁接管,谁回滚,谁通知客户,谁复盘,谁改规则。如果异常流没画,自动化越多,组织越容易在事故里失语。
第四,画责任流。
每个关键动作背后有没有具名 owner。审批是谁,规则是谁,触发是谁,放行是谁,复盘是谁。没有责任流的 AI 自动化,最后一定会把组织推向“大家都参与了,但无人负责”的灰区。
这四条流合起来,就是判断溢价的组织落点。
它不是一门培训课,也不是一份 AI 使用规范。
它是一套组织重写动作。
最简单的会议动作,是让每个业务负责人带一张表进来:本月被 AI 替代的动作有哪些,本月必须保留人工判断的节点有哪些,本月发生过哪些异常,本月哪一条规则被改过。四列填不出来,就说明公司还没有在管理判断溢价,只是在统计 AI 使用热闹,也还没有把经营责任真正接回桌面和预算里了。
如果一个企业负责人真的想把 AI 用进公司,不要只问员工会不会用工具。你要问:公司里哪些判断正在升值,哪些动作正在贬值,哪些岗位要从“动作执行者”变成“判断节点负责人”,哪些流程要从“人肉推进”变成“AI 推进 + 人类裁决”。
这才是第 6 篇要给第 7 篇留下的口子。
判断溢价不能靠老板一个人承担。
它需要一种新角色把客户现场、业务判断、工程实现和责任链接起来。这个角色不只是工程师,也不只是销售,不只是交付,也不只是项目经理。
它更接近 FDE。
下一篇就讲这个。
FDE 为什么不是“工程师 + 销售”的拼盘,而是 AI 时代判断溢价的组织载体。
因为当动作越来越便宜,公司真正缺的不是更多动作。
公司缺的是能把动作放进正确责任链里的人。
继续读
- 上一篇:AI 替代动作,不替代组织
- 系列入口:人在回路中:Human in the Loop
- 下一篇:FDE 不是工程师,是组织接口
