就在全球科技圈以为AI格局已定的时刻,OpenAI于3月6日凌晨突然祭出重磅炸弹——GPT-5.4。这不仅仅是一次版本迭代,更是一场针对Gemini 3.1 Pro和Claude Opus 4.6的“降维打击”。
此次更新的核心只有一个:ChatGPT终于拥有了像人类一样“原生操控电脑”的能力。 从识别UI界面到操控键鼠,再到跨软件协作,GPT-5.4将办公效率推向了前所未有的高度。更令人咋舌的是,它在推理、编程、视觉感知等所有维度上均无短板,堪称全能的“六边形战士”。
一、原生操控:AI比人类更熟练?
GPT-5.4最震撼的突破在于其原生计算机使用能力(Native Computer Use)。
不同于以往需要依赖特定插件或代码间接操作,GPT-5.4能直接“看”懂屏幕截图,通过Playwright等底层库自主控制鼠标和键盘。发邮件、填表格、排日程、跑流程,这些曾经需要人类反复点击的繁琐工作,现在模型可以独立完成。
数据不会说谎:
- OSWorld-Verified基准测试:GPT-5.4成功率高达75%,不仅远超上一代GPT-5.2的47.3%,更击败了一个月前刚登顶的Claude Opus 4.6(72.7%)以及人类平均水平(72.4%)。
- WebArena-Verified:在结合DOM与截图交互的复杂场景下,GPT-5.4以67.3%的成绩领跑。
- Online-Mind2Web:仅凭截图观察,GPT-5.4成功率飙升至92.8%,而竞品Atlas智能体模式仅为70.9%,呈现断崖式领先。
这意味着,AI操作电脑的熟练度已经正式超越人类。
二、职场通才:吊打华尔街分析师
如果说操控电脑是“硬功夫”,那么处理复杂知识工作则是GPT-5.4的“软实力”。
在涵盖美国GDP贡献最大的9个行业、44种职业的GDPval基准测试中,GPT-5.4取得了83%的胜率,直接对标顶尖人类专家。相比GPT-5.2的70.9%,这一跃升达到了12个百分点。
- 金融建模:在模拟初级投行分析师的电子表格建模测试中,GPT-5.4得分87.3%,远超GPT-5.2的68.4%。
- 文档与演示:人类用户在一项盲测中,有68%更偏好GPT-5.4生成的PPT,认为其美感更强、逻辑更清晰。
- 幻觉率大降:为了胜任实际工作,OpenAI大幅降低了模型的“胡编乱造”概率。数据显示,GPT-5.4单独声明出错的概率降低了33%,整体回复包含错误的概率降低了18%,成为OpenAI有史以来最“诚实”的模型。
三、推理与代码的完美融合
GPT-5.4的另一大杀器是“推理+编程”的合流。它完整继承了GPT-5.3-Codex的编程基因,无需在“聪明模型”和“代码模型”之间切换。
- SWE-Bench Pro:准确率高达57.7%,超越专用代码模型。
- Token效率革命:作为OpenAI迄今Token效率最高的推理模型,GPT-5.4解决相同问题所需的Token大幅减少。在
/fast模式下,生成速度提升1.5倍,且延迟更低。 - 全栈开发能力:仅需一段提示词,GPT-5.4就能从零构建复杂的Web应用。OpenAI展示的“主题公园模拟游戏”、“战棋RPG”以及“金门大桥飞行体验”三个案例,证明了其在游戏逻辑、3D渲染、UI交互及自动化测试全流程中的卓越表现。
四、技术黑科技:工具搜索与中途干预
为了让模型更实用,GPT-5.4引入了两项极具创新的功能:
-
工具搜索(Tool Search):
面对庞大的MCP工具库,GPT-5.4不再将所有工具定义加载到上下文中,而是按需自动查找并加载。在Scale的MCP Atlas基准测试中,这一机制在保持准确率不变的前提下,将Token使用量减少了47%,彻底解决了上下文爆炸的难题。 - 思考过程可干预:
在使用GPT-5.4 Thinking模式时,用户可以在模型思考过程中随时介入,调整方向或补充信息,而无需打断其思路或推翻重来。这种“人机协同”的新模式,极大地降低了多轮沟通的成本,让复杂任务的交付更加精准。
五、价格与格局:新一轮军备竞赛开启
当然,强大的能力伴随着高昂的成本。GPT-5.4的定价再创新高:
- 标准版:输入$2.5/百万token,输出$15/百万token。
- Pro版:输入$30/百万token,输出高达$180/百万token。
尽管价格不菲,但GPT-5.4在BrowseComp网络搜索测试中以89.3%的成绩反超Claude Opus 4.6,证明了其在信息整合与深度研究上的绝对统治力。
结语
GPT-5.4的发布,标志着OpenAI重新夺回了AI领域的王座。这不单是某个单项指标的突破,而是推理、编程、视觉、操控、搜索等全维度的碾压。对于广大“打工人”而言,一个能像人一样操作电脑、甚至比人更严谨高效的AI助手已经到来。
在通往AGI的道路上,OpenAI用GPT-5.4向世界宣告:真正的智能时代,才刚刚开始。
共同学习,写下你的评论
评论加载中...
作者其他优质文章