首页手记 OpenAI科学家Noam...

OpenAI科学家Noam Brown重磅发声：当前AI评测体系正在系统性误导行业

标签：

人工智能资讯

近日，OpenAI核心研究员、o1模型关键贡献者Noam Brown发表长文《大规模推理计算的启示》，对整个AI行业的性能评估范式提出根本性质疑。其核心观点直指要害：当下所有主流AI排行榜提供的分数，几乎都是“没有单位的数字”——缺乏推理成本参照，因而不具备可比性，甚至具有严重误导性。

一、GPT-5.5的“罗生门”：基准测试 vs 真实体验为何背道而驰？

2026年4月23日，GPT-5.5发布。官方基准测试显示其性能仅小幅超越GPT-5.4，社区普遍评价“进步有限”。然而，数小时后画风突变：

波兰数学家仅用一条提示词，11分钟内让GPT-5.5构建出代数几何可视化工具；
Ruby on Rails创始人DHH直言，用过5.5后再切回Claude Opus 4.7，“如同穿越回石器时代”。

同一模型，为何评测与体验天差地别？

答案在于“推理预算”的隐形差异。
GPT-5.5 Pro的API定价（5/30美元每百万token）仅为GPT-5.4 Pro（30/180美元）的1/6。这意味着在相同成本下，5.5可消耗6倍于5.4的计算资源进行深度推理。

这好比考试：A考生限时30分钟，B考生有3小时——若仅比较最终得分就断言“水平相当”，无异于荒谬。

Brown展示的关键对比图揭示真相：

传统视角（左图）：横轴为模型版本，5.5仅略优于5.4；
成本视角（右图）：横轴为token消耗量，5.5性能曲线大幅领先。

更触目惊心的是MRCR v2长上下文测试：GPT-5.5得分74.0%，而5.4仅36.6%——性能翻倍，却因评测维度缺失而被埋没。

二、“无横轴的评测”正在制造集体幻觉

当前主流基准测试存在三大致命缺陷：

分数饱和失效
MMLU等榜单上，顶尖模型得分全部挤在88%以上，微小差异实为统计噪声，无法反映真实能力差距。
成本黑洞
ARC-AGI榜单中，OpenAI o3模型单题推理成本高达3万美元，而NVARC团队用0.2美元的小模型取得24%准确率。三万倍的成本差距下，“排名”已失去意义。
忽略推理时长变量
所有评测默认模型在“固定思考时间”下作答，但前沿模型（如GPT-5.5、Claude扩展思考、Gemini深度思考）的核心优势恰恰在于通过延长推理时间换取更高准确率。

Brown尖锐指出：
“当模型能力成为推理计算量的函数时，一个没有横坐标的基准分数，就如同没有单位的物理量——它什么也无法说明。”

三、推理计算：从o1革命到行业标配

这一问题的凸显，源于Noam Brown本人推动的技术范式转移：

2024年：o1模型首次将“用推理时间换准确率”理念产品化；
2026年：所有头部模型均内置多链并行推理能力，“思考深度”成为新竞争维度。

研究证实：模型越强大，其性能随推理时长的增长曲线越平缓（高原期延迟）。这意味着：

弱模型思考2分钟即达上限；
强模型思考2小时仍持续进化。

当前评测仅捕捉冰山一角，真正的能力深水区因成本过高而无人探索。
正如Brown所言：“我们可能根本不知道大模型的能力极限，因为测不起。”

四、重建评测体系的三大支柱

为终结行业乱象，Brown提出系统性解决方案：

强制披露推理预算
实验室发布模型时，必须注明基准分数对应的计算成本（如token量、美元花费），或提供性能-成本曲线。
推行预算约束评测
基准测试应设定明确资源上限（如“单题≤10美元”），或像ARC-AGI一样追踪实际消耗。
安全评估纳入成本维度
国家级攻击者可能为单任务投入千万美元推理预算。安全测试需模拟从1美元到1000万美元的全谱系风险表现，并建立外推预测模型。

理想中的安全报告：
横轴=推理预算（1$ → 10M$），纵轴=危险能力指数，形成动态风险热力图。

五、超级智能：一道待解的计算题

Brown的终极洞见指向一个颠覆性认知：
人工超级智能（ASI）或许并非架构突破的产物，而是“足够资金+足够时间”的必然结果。

当前3万美元/题的推理已展现惊人能力；
若投入1亿甚至10亿美元呢？
让AI持续运行一年，消耗数亿美元预算，其积累的认知深度或远超人类个体一生。

“ASI可能不是某个瞬间的质变，而是一条随成本延伸的能力曲线。”

结语：迎接二维智能时代

AI评测正从“一维分数”迈入“二维坐标系”：

纵轴：任务性能
横轴：推理成本（美元/token/时间）

同一模型在5美元与5000美元预算下，可能展现出跨代际的能力鸿沟。而这张能力地图的99%疆域，仍是未勘探的处女地。

2026年，全球AI基础设施投资将逼近7000亿美元。这笔巨资购买的不仅是更大模型，更是更深的思考、更广的探索、更持久的智能涌现。

谁能率先掌握“成本-性能”二维评估框架，谁就能在通往超级智能的决赛中看清真实比分。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

偶然的你

手记
篇

粉丝

10

获赞与收藏

55

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 33076 374

网络编程入门教程

20个小节 13762 259

Pandas 入门教程

25个小节 20447 393

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空