为了账号安全,请及时绑定邮箱和手机立即绑定

OpenAI科学家Noam Brown重磅发声:当前AI评测体系正在系统性误导行业

近日,OpenAI核心研究员、o1模型关键贡献者Noam Brown发表长文《大规模推理计算的启示》,对整个AI行业的性能评估范式提出根本性质疑。其核心观点直指要害:当下所有主流AI排行榜提供的分数,几乎都是“没有单位的数字”——缺乏推理成本参照,因而不具备可比性,甚至具有严重误导性。


一、GPT-5.5的“罗生门”:基准测试 vs 真实体验为何背道而驰?

2026年4月23日,GPT-5.5发布。官方基准测试显示其性能仅小幅超越GPT-5.4,社区普遍评价“进步有限”。然而,数小时后画风突变:

  • 波兰数学家仅用一条提示词,11分钟内让GPT-5.5构建出代数几何可视化工具;
  • Ruby on Rails创始人DHH直言,用过5.5后再切回Claude Opus 4.7,“如同穿越回石器时代”。

同一模型,为何评测与体验天差地别?

答案在于“推理预算”的隐形差异
GPT-5.5 Pro的API定价(5/30美元每百万token)仅为GPT-5.4 Pro(30/180美元)的1/6。这意味着在相同成本下,5.5可消耗6倍于5.4的计算资源进行深度推理。

这好比考试:A考生限时30分钟,B考生有3小时——若仅比较最终得分就断言“水平相当”,无异于荒谬。

Brown展示的关键对比图揭示真相:

  • 传统视角(左图):横轴为模型版本,5.5仅略优于5.4;
  • 成本视角(右图):横轴为token消耗量,5.5性能曲线大幅领先。

性能对比图

更触目惊心的是MRCR v2长上下文测试:GPT-5.5得分74.0%,而5.4仅36.6%——性能翻倍,却因评测维度缺失而被埋没


二、“无横轴的评测”正在制造集体幻觉

当前主流基准测试存在三大致命缺陷:

  1. 分数饱和失效
    MMLU等榜单上,顶尖模型得分全部挤在88%以上,微小差异实为统计噪声,无法反映真实能力差距。

  2. 成本黑洞
    ARC-AGI榜单中,OpenAI o3模型单题推理成本高达3万美元,而NVARC团队用0.2美元的小模型取得24%准确率。三万倍的成本差距下,“排名”已失去意义

  3. 忽略推理时长变量
    所有评测默认模型在“固定思考时间”下作答,但前沿模型(如GPT-5.5、Claude扩展思考、Gemini深度思考)的核心优势恰恰在于通过延长推理时间换取更高准确率

Brown尖锐指出
“当模型能力成为推理计算量的函数时,一个没有横坐标的基准分数,就如同没有单位的物理量——它什么也无法说明。”


三、推理计算:从o1革命到行业标配

这一问题的凸显,源于Noam Brown本人推动的技术范式转移:

  • 2024年:o1模型首次将“用推理时间换准确率”理念产品化;
  • 2026年:所有头部模型均内置多链并行推理能力,“思考深度”成为新竞争维度

研究证实:模型越强大,其性能随推理时长的增长曲线越平缓(高原期延迟)。这意味着:

  • 弱模型思考2分钟即达上限;
  • 强模型思考2小时仍持续进化。

当前评测仅捕捉冰山一角,真正的能力深水区因成本过高而无人探索
正如Brown所言:“我们可能根本不知道大模型的能力极限,因为测不起。”


四、重建评测体系的三大支柱

为终结行业乱象,Brown提出系统性解决方案:

  1. 强制披露推理预算
    实验室发布模型时,必须注明基准分数对应的计算成本(如token量、美元花费),或提供性能-成本曲线

  2. 推行预算约束评测
    基准测试应设定明确资源上限(如“单题≤10美元”),或像ARC-AGI一样追踪实际消耗。

  3. 安全评估纳入成本维度
    国家级攻击者可能为单任务投入千万美元推理预算。安全测试需模拟从1美元到1000万美元的全谱系风险表现,并建立外推预测模型。

理想中的安全报告
横轴=推理预算(1$ → 10M$),纵轴=危险能力指数,形成动态风险热力图。


五、超级智能:一道待解的计算题

Brown的终极洞见指向一个颠覆性认知:
人工超级智能(ASI)或许并非架构突破的产物,而是“足够资金+足够时间”的必然结果

  • 当前3万美元/题的推理已展现惊人能力;
  • 若投入1亿甚至10亿美元呢?
  • 让AI持续运行一年,消耗数亿美元预算,其积累的认知深度或远超人类个体一生。

“ASI可能不是某个瞬间的质变,而是一条随成本延伸的能力曲线。”


结语:迎接二维智能时代

AI评测正从“一维分数”迈入“二维坐标系”:

  • 纵轴:任务性能
  • 横轴:推理成本(美元/token/时间)

同一模型在5美元与5000美元预算下,可能展现出跨代际的能力鸿沟。而这张能力地图的99%疆域,仍是未勘探的处女地。

2026年,全球AI基础设施投资将逼近7000亿美元。这笔巨资购买的不仅是更大模型,更是更深的思考、更广的探索、更持久的智能涌现

谁能率先掌握“成本-性能”二维评估框架,谁就能在通往超级智能的决赛中看清真实比分

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消