为了账号安全,请及时绑定邮箱和手机立即绑定

Cursor自研模型性能超越Opus 4.6,价格大幅下调引爆编程圈

这简直是颠覆认知啊!

Cursor推出的新模型不仅在性能上超越了Claude,价格更是直接来了个“脚踝斩”(连腰斩都算不上)。

image

众所周知,Cursor作为模型服务商,早期曾因提供Claude模型而收获了大量用户。

如今,它却自主研发出一款编程模型,并一举超越了Claude——

其最新编程模型Composer 2,不仅在能力上超越了Claude Opus 4.6,更重要的是价格大幅降低。

可以说,别人的降价是“腰斩”,而它这简直是“脚踝斩”。

image

那么问题来了,在各大厂商纷纷“涨价”的背景下,Cursor是如何做到大幅降价的呢?

(注:随着“龙虾”模型火爆全球,大模型的Token消耗量呈指数级增长,因此从年初开始,国内外云厂商和大模型公司普遍上调了价格。)

答案,Cursor也已经公布——

一种全新的强化学习方法

性能超越Opus 4.6,价格持续下探

首先介绍已在Cursor平台上线的Composer 2模型。

从“编曲家”这一名称可以推测,该模型专注于编程辅助功能。

在“龙虾”模型引发编程任务Token消耗量激增的背景下,Cursor当前的核心目标非常明确——

实现最优的性价比。

image

所谓性价比,即指“在智能水平与使用成本之间取得最佳平衡”。

在能力表现方面,Cursor官方表示:

Composer 2在我们评估的所有基准测试中均实现显著提升,涵盖Terminal-Bench 2.0和SWE-bench Multilingual等权威指标。

例如在衡量智能体终端操作能力的Terminal-Bench 2.0测试中,其性能已跃升至GPT-5.4与Claude Opus 4.6之间的水平。

image

从Composer系列的迭代历程来看,其技术演进速度正在不断加快。

image

定价方面,标准版Composer 2的输入费用为每百万tokens 0.5美元(约合人民币3.5元),输出费用为每百万tokens 2.5美元(约合人民币17.2元)。

与Claude Opus 4.6相比,其价格优势极为明显。

image

与此同时,Cursor还推出了智能水平相当但响应速度更快的变体模型——Composer 2 Fast

该默认模型的定价为每百万输入tokens 1.5美元(约合人民币10.3元),每百万输出tokens 7.5美元(约合人民币51.7元)。

相较于Claude Opus 4.6,它不仅保持了价格竞争力,更在响应速度上表现突出。

Cursor透露,实现性能与成本平衡的关键在于采用了一种新型强化学习方法

需要强调的是,该方法并非推理优化技巧,而是通过模型训练获得的核心能力。

image

引入“做笔记”强化学习方法

如果用一句话概括这种新方法,那就是:

让模型学会“为自己做会议纪要”,从而将原本难以记住的超长任务,分阶段持续推进。

Cursor 对此的描述如下:

image

虽然“自我总结的强化学习方法”这一名称听起来有些拗口,但其核心思路其实非常清晰。

该方法主要解决的是以下问题:

当前大多数 AI 编程助手虽然能够处理任务,但一旦任务变得冗长或复杂,模型的表现就会逐渐不稳定。

其根本原因众所周知:上下文容量有限

复杂的工程任务往往涉及上万行代码、数百个操作步骤,而模型的上下文窗口始终存在上限,导致许多任务难以完整执行。

为突破上下文限制,目前业界主要有两种围绕“压缩”的主流方案:

  • 进行摘要,对内容进行总结后再继续;
  • 通过滑动上下文窗口,直接丢弃较早的信息。

此外,也有一些新探索尝试在潜在空间中进行压缩,将上下文转化为向量而非文本(这种方法虽比文本压缩慢,但准确率更高)。

但无论采用哪种方式,初步观察都显示其可靠性不足,均可能导致模型遗忘关键信息,从而在推进长时间任务时效果下降。

换言之,任务越长,模型越容易偏离正轨

Cursor 的解决方案是:总结至关重要,而将这种总结能力内化为模型自身能力同样关键。

因此,他们为模型引入了一套 “自我总结”机制

模型在执行任务过程中,不是被动等待压缩,而是主动暂停,为自己撰写“阶段总结”,即所谓的“做笔记”。

具体流程大致如下:

  1. Composer 根据提示持续生成内容,直至达到预设的 token 长度触发点;
  2. 插入一个合成查询,要求模型对当前上下文进行总结;
  3. 为模型提供一定的草稿思考空间,让其构思最佳总结,并生成压缩后的上下文;
  4. Composer 使用压缩后的上下文(包含总结及对话状态,如规划状态、剩余任务、之前总结次数等)回到步骤1。

image

其中关键的一点在于,模型的自我总结能力并非通过推理技巧实现,而是通过训练获得

在强化学习过程中,总结能力被纳入奖励机制:

  • 总结得当 → 后续任务更易成功 → 获得更高奖励;
  • 总结遗漏信息 → 任务失败 → 受到惩罚。

通过这一过程,模型逐渐学会识别哪些信息值得保留,哪些可以舍弃。

具体效果可通过与传统方法的对比看出:

在一组高难度软件工程任务中,“传统摘要法”仅总结提示词就需要数千个 token,且压缩后的结果仍较长,平均需 5000+ token。

而 Composer 的提示词极为简洁,基本只需一句“请总结对话内容”,且压缩后的输出平均仅约 1000 个 token。

在相同任务上,后者的 token 使用量仅为传统方法的五分之一,且因压缩导致的错误减少了约 50%

这意味着,压缩更高效,保留的信息却更关键。

image

更令人印象深刻的是,它确实能够处理长链条任务。

Cursor 团队选取了一道曾难倒众多模型的经典难题——在 MIPS 架构上运行 Doom 游戏

我已经提供了 /app/doomgeneric/,即 Doom 的源代码。我还编写了一个特殊的 doomgeneric_img.c 文件,希望您使用它;该文件会将绘制的每一帧写入 /tmp/frame.bmp。此外,我还提供了 vm.js,它会读取名为 doomgeneric_mips 的文件并运行它。其余部分需要您自行解决……

由于该任务要求模型自行修改代码、编译调试并反复试错,许多模型在过程中往往陷入僵局。

然而,Composer 在经过 170 轮交互后,成功找到了精确的解决方案,并在此过程中将超过 10 万 token 的内容总结压缩至仅 1000 token。

image

一系列内部测试结果表明:

通过将压缩机制整合进训练循环,Composer 学会了一种显式机制,能够高效地将关键信息向后传递,从而在高难度任务中表现出更强的能力。

此前已提到 Cursor 的开发节奏很快,其研究人员已开始透露 Composer 3 的相关消息。

image

可以说,发展至今,Cursor 已成为具备双重身份的角色。其 CEO 表示:

Cursor 是一家典型的新型公司,既不是纯粹的应用程序开发商,也不是传统的模型提供商。

image

目前尚不确定该项目是否会开源。Hugging Face 的联合创始人兼 CEO 已代为表达社区期待。

image

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消