为了账号安全,请及时绑定邮箱和手机立即绑定

零容忍场景里,AI 产品经理到底在管什么

AI模型的准确率飙到90%,工业现场的第一反应却不是欢呼,而是追问:剩下那一成出了岔子怎么办?本文深入拆解高风险AI项目中产品经理的真正主战场——不在模型精度上死磕,而在防错体系上筑墙。从预警工单的三重关卡到冷启动数据的隐性金矿,逐一揭示如何在不容有失的领域,把模型的不确定性转化为可确定的交付结果。

不久前,一位做工业软件的老友跟我小聚,聊起他们新上线的排放异常预警系统。模型准确率做到了九成,老板在周会上颇为得意。结果环保局来人调研,听完汇报只抛出一个问题:剩下那一成判错了,责任归谁?

他一时答不上来。

这一个问句,几乎击穿了所有高风险AI项目的软肋。尤其像工业环保监测这类场景——排放数据一旦判错,牵扯的早已不是用户体验好坏的问题,而是停产整顿、天价罚单,甚至具体到某个人要被追责。在这种语境下,跟人说"准确率九成"毫无说服力,对方根本不在意那九成对了多少,只盯着那一成错了谁来收场。

而收场这件事,模型自身做不了。能扛住的,只有产品经理。

我做了四年产品,近两年重心放在AI方向,越来越深切地感受到:在不容闪失的场景中,产品经理真正要守的不是模型能不能做到百分百精准——那是算法工程师的职责——而是当模型犯错时,整条业务流程能不能稳稳兜住。模型天生带着不确定性,但交付给客户的产品必须可靠可信赖。这二者之间的那堵防火墙,正是产品经理的核心阵地。

以下是我反复思量、与数位工业领域同行深入碰撞后整理出的几点体会。未必全对,拣思路比较成熟的几条展开。

先搞明白:并非所有输出都值得同等力度的防错投入

我见过太多AI项目,一上来就企图给每一个输出都套上保险绳,结果系统臃肿迟缓、成本飙升,最终根本推不动。

症结在于没有区分轻重缓急。

内部知识问答答偏了,用户换个问法就好,代价几乎为零。但排放超标的处置建议中,模型漏掉了"先断电"这一关键步骤,工人照做就可能酿成安全事故。这两种错误,岂能等量齐观?

所以第一件事不是赶着建模型,而是跟业务方逐条梳理:这个输出一旦出错后果如何?最坏能坏到什么地步?最终决策由人来拍板还是机器自主执行?

(我发现不少AI产品经理倾向于跳过这类工作,觉得这是业务侧的事,自己应该专注提示词工程或检索优化。但恰恰是这一步的缺失,使得后续所有防护措施都建在了流沙之上。)

梳理完毕,取舍标准自然就出来了。有些输出直接触发设备动作、派发工单、决定放行或拦截——这类错误的代价极其沉重,必须重点设防。有些仅作参考、后续还需人工复核——适度拦截即可。有些纯粹是供人翻阅的日报摘要——用户自会辨别,过度防护反而是添乱。

好钢要用在刀刃上,而非平均铺开。

质检绝非简单的对错二选一,而是多级关卡、各守一段

以预警触发抢修工单这条链路来说。从一个异常信号被捕捉到,到工单最终送到维修人员手上,中间要经过好几道关卡,每道关盯的东西完全不同。

第一道关由机器在毫秒级完成,成本极低。它不判断内容对不对,只核验数据能不能用:必填字段齐不齐全、设备编号格式规不规范、工单中的备件编号在仓库系统能不能查到、优先级是否在合法取值范围内。这道关主要拦截的是模型信息不足时自己乱填的低级错误——这类问题出得最多。

第二道关需要调用模型,负责审查内容合不合理。比如故障归因指向3号机组的主轴承故障,但抢修步骤里写的却是更换2号机组的轴承——设备编号明显对不上号。这种逻辑冲突,纯靠规则很难全面兜住,必须借助另一个模型对整张工单做语义层面的理解。再比如,合规文件明确规定特定操作前必须断电,但生成的步骤中缺少断电环节,这也需要通过语义比对来识别。

最后一道关由人工把控。涉及人身安全、动火作业、吊装作业等特种操作,或核心产线停机的关键决策——必须由真人审核签字。这道关成本最高,所以只留给风险最大、最不能出差错的少数工单。

三道关卡并不是重复劳动。代码读不懂语义矛盾,模型分不清"某条规程是法律强制要求",而人也不可能逐条筛查海量工单的格式问题。缺任何一道,风险都会从对应的缺口渗透出去。

产品经理的核心职责,就是把这几道关卡的先后顺序、各类工单的流转路径,画成一张清晰明了的流程图。

还有一个极易被忽视的细节。

质检环节的输出,不应该只是一个冷冰冰的"不通过"标记。我见过一个团队在这儿栽了跟头:质检系统只返回"通过/不通过",结果每次不通过,人都得自己去倒查具体错在哪儿。引入了检查机制,人员负担反而加重了。

这不叫防错,这叫人为制造新瓶颈。

正确的做法是让质检输出一份明细报告:标明具体哪个字段有问题、问题属于什么类型、违反了哪条规定、模型判断的置信度是多少。这份报告可以回传给系统自动修正后重新提交审核,人只需处理机器搞不定的疑难杂症。

有几件事,产品经理最好别伸手

说完该做的,再说不该碰的。这部分我甚至觉得比前面更重要,因为AI产品经理最容易在这儿摔跤——刚读完几篇技术文章,就觉得自己什么都摸透了。

最典型的就是微调。一提到模型不够准,总有人脱口而出:"要不微调一下?"

在检索场景下,大多数时候真不需要微调,产品经理更不该是拍这个板的人。

微调是把知识固化进模型权重里。但如果你做的是检索,知识是在使用时实时查询、实时注入的,压根不需要固化。无论是报告生成还是异常归因,核心都在于理解检索到的文档、按照模板输出——把知识库做扎实、把提示语写到位,就足够了。真的到了输出格式极为复杂、提示语怎么调都跑偏,或者专业术语模型根本识别不了、检索也注不进去的那一步,才该考虑微调。但到底到了那一步没有、怎么调、用多少数据调,那是工程师的判断,不是产品经理该强行干预的领域。

我那位做了十几年工业自动化的朋友有句话,我一直记着:产品经理最危险的那一刻,就是他觉得自己完全懂了的那一刻。

还有一个地方产品经理经常搞混——预警这一步到底该用什么工具。

一提预警,很多人张嘴就是"大模型行不行""能不能上通义千问"。这是把两件不同的事搅到一块了。

预警处理的是传感器输出的一串数字:温度、压力、流量、浓度。判断这堆数字有没有异常,用的是异常检测、分类那类模型,根本不是语言模型该管的事。冷启动时没有标注数据,可以先上无监督学习,让模型自己摸索正常模式,出现偏差就报警;等标注数据攒够了,再换成能区分异常类型、甚至给出概率的有监督模型。

大模型在哪一步出场?在后半段——利用检索到的历史案例和故障手册,去解释原因、组织抢修步骤、把工单结构化。前半段是发现数字异常,后半段才是用自然语言把事情讲清楚。两个阶段用的完全是两套工具。

产品经理不需要会调这些模型,但必须能分清这条路径上每一步该用哪类技术。分不清,需求文档里就会出现"用大模型做预警"这种让工程师哭笑不得的表述。

那工单到底要不要每张都人工审核?

不一定。看两个维度:风险高低和系统成熟度。

关于风险,有一条是技术无法逾越的。特种设备、危化品、动火作业等领域,国内法规明确规定必须人工审核,这不是产品设计层面可以选择的。这条红线,任何技术理由都不可跨越。产品经理能做的是正视它、老老实实将其纳入流程,而不是琢磨怎么绕过去。

系统成熟度这个维度,倒是可以逐步调整。新系统刚上线时,让所有工单都走人工审核——这不是不信任模型,而是因为此时每一张被人修改过的工单,都是质检模型最宝贵的学习素材。等某一类工单的质检准确率稳定了,再把这一类放开,转为自动派发。人工审核就这样一步步后退,最终只保留高风险的那几类。

所以"要不要人审"不是一次性的决定,而是一条动态移动的边界。产品经理的任务,是设计这条边界如何移动、依据什么指标移动、移动时保留什么兜底手段。

兜底这一点,在抢修场景中尤为要紧。抢修是跟时间赛跑的,如果质检环节把流程卡死、工单半天出不来,那就是好心办坏事。所以当质检不通过时,不能让工单堵在那儿,必须预留一条快速转交人工的通道——宁可让人来接手,也不能让整条链路停滞。

防错与效率,在这里天然是矛盾的。怎么取舍没有标准答案,取决于那台设备故障到底有多紧急。

别被"置信度"这个词唬住

一谈质检就绕不开置信度,可这个词一冒出来,不少人就犯怵。其实它特别直白好懂。

想象一位经验丰富的老师傅站在设备旁边盯着,心里默默打分:一切正常,十分,放心;感觉有点不对劲,六分,继续观察;几乎笃定要出事了,九分,赶紧叫人。置信度,就是让模型学会像这位老师傅一样打分,输出一个0到1之间的数值。

不同模型的算法各有差异,这不重要。重要的是工程上有一条铁律:只看某个时间点的分数高低,没有意义。

噪声、偶发波动,都可能让某一瞬间的分数突然蹿高。真正该触发报警的,是一段时间内这个分数稳步攀升——比如此刻0.6,下一刻0.7,再下一刻0.8,连续几次都维持在高位。如果偶尔跳一下就报警,现场工人很快会被误报磨得麻木,等到真出事了,反而没人当回事。

漏报会酿成事故,误报会让人丧失对系统的信任。怎么平衡这两头,取决于设备有多关键:核心设备宁可误报也不能漏报,边缘设备则必须压住误报,避免天天干扰生产秩序。

阈值到底定在哪个位置,说到底不是技术问题,而是业务问题。把业务的轻重缓急,翻译成模型里的那个阈值——这恰恰是产品经理该担的活。

冷启动没那么可怕,数据也许就在你手边

工业AI常常卡在这个节点上:起步时没有标注数据。不少团队就堵在这儿,觉得没有数据就无法训练,迟迟迈不开步子。

但实际上数据往往就在手边,只是没被当成数据来看待。

维修工单就是最典型的例子。每张工单都记录着:什么时间、哪台设备、出了什么故障。这等于天然标注了"异常发生在何时、属于哪一类"。用故障时间往前倒推几个小时,那段传感器数据就是异常样本;选取设备平稳运行、没有故障记录的时段,就是正常样本。冷启动所需的数据,这么一拼就有了。

不过有个坑得提醒:过去没报警,不代表过去没有异常,可能只是当时没人察觉。所以从历史数据里挖出来的"正常样本"不能全信,最好请一位经验丰富的老师傅再过一遍筛。标注这一关,机器替代不了人。

行业里有一种相当聪明的做法:先用不需要标注的无监督模型把系统搭起来,它每报一次警,就派人到现场确认一次,确认结果又成为新的标注数据;攒够了,再升级成更精准的模型。系统就这样边运行边为自己积累教材,越用越准。

产品经理在这件事上能发挥的作用,是梳理清楚公司手里到底积压了哪些"看着不像数据、其实是数据"的东西。工单、停机记录、巡检台账——这些往往比重新采集一批数据,价值大得多。

最后

写到这里回过头看,有一个结论其实挺反直觉:在容不得闪失的场景里,产品经理花在模型本身上的精力,反而应该是最少的。

模型准不准,那是工程师的战场。产品经理真正要守住的,是模型外围的那一圈——哪些输出值得设防,设防到什么力度,由谁来兜底,那条人工审核的边界如何随系统成熟逐步外移,还有哪些事自己根本不该伸手。把这些想透彻,比把准确率硬抠高两个百分点,对项目落地的意义大得多。

这一整套思路,没有哪一条是从论文里直接搬来的。它一半在车间里,一半在规程中,还有一半,在那个出了事要承担责任的人身上。

所以我也未必敢说上面这些一定都对。只是把自己琢磨过、跟人争论过的几点列出来。

留一个问题给你:你手上那个AI项目,如果模型明天就错一次,谁会第一个察觉?察觉之后,是系统自己消化了,还是得等一个人加班来救场?如果这两个问题答不上来——那可能真不是模型不够好的问题。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消