为了账号安全,请及时绑定邮箱和手机立即绑定

Idea is Cheap,铲子才值钱——从天授框架到 OpenAI RLHF Infra 的基建哲学

标签:
Html5

在AI领域,好点子从来不是稀缺资源,真正的竞争力在于将想法快速落地的能力。OpenAI研究员翁家翌用两周时间从零打造强化学习框架「天授」,又在OpenAI重构大模型后训练基础设施,其核心逻辑始终如一:造出能让团队迭代效率倍增的「铲子」。本文深度剖析了这种工程思维如何成为AI竞赛中的隐秘武器,以及为何顶级团队正在重新定义人才评估标准。

https://img1.sycdn.imooc.com//5acb3c8700013dc501600160.jpg

AI 圈有个公开的秘密:好点子从来不稀缺。你去参加任何一场学术会议,随便拉个人聊半小时,兜里都能揣走三五个”有潜力”的 idea。OpenAI 内部更是如此——翁家翌说过一句很直白的话:好主意很廉价,找人讨论就能有。

那什么才贵?答案是:把 idea 跑通的速度。更准确地说,是单位时间内能完成多少次有效迭代。

这话听着像正确的废话,但真正把它当信仰去执行的人极少。翁家翌算一个。从本科时两周撸出强化学习框架”天授”,到在 OpenAI 从零搭建大模型后训练的 RL 基础设施,他干的事情本质上只有一件:造铲子。


第一把铲子:两周写出天授

故事的起点很朴素——本科做强化学习实验,要用 RLlib。用过的人都知道那是个什么体验:几十万行代码,抽象层套抽象层,你想改个 reward shaping 的逻辑,得先花三天搞清楚它的调度器是怎么跑的。

翁家翌的反应不是忍,是推倒重来。

两周时间,一个人,写出了天授的第一版。设计哲学极其简单:保持一致性(Consistency),把 API 做到科研人员不用翻文档就能上手。没有花哨的功能堆砌,就是让你能最快速度地把想法变成可运行的实验。

这件事背后有个他很早就想明白的判断:强化学习领域的瓶颈,根本不在算法不够新。大量论文在单一环境里疯狂调参、防止模型崩溃,本质上是在用战术上的勤奋掩盖战略上的懒惰——没人愿意停下来把基础设施做对。

天授在 GitHub 上拿到了几千个 Star,成了他后来进 OpenAI 的重要敲门砖。面试官 John Schulman 看中的不是他发了几篇论文,而是他写代码的能力和开源履历。这件事本身就很说明问题:在顶级 AI Lab 的筛选标准里,”能不能造好铲子”的权重,比很多人想象的高得多。


第二把铲子:OpenAI 的后训练 RL Infra

2022 年翁家翌加入 OpenAI 的时候,ChatGPT 还没立项,”后训练”这个概念在内部都没有清晰的边界。他接手的任务是搭建大模型后训练的强化学习基础设施——听起来和做天授差不多,都是造铲子,但这把铲子的工程难度完全是另一个量级。

核心差异在哪?传统强化学习(比如打 Atari、控制机器人)的环境很复杂,模型很小。你的计算瓶颈在环境仿真,模型训练反而很快。大模型 RL 恰好反过来:环境简单得离谱——就是一个 prompt,几微秒的事——但模型的推理和训练极度昂贵,动辄几百张卡跑几个小时。

这意味着整个系统工程的优化方向要彻底翻转。小模型时代你优化环境并行度,大模型时代你要优化的是 GPU 利用率、梯度通信、checkpoint 管理、以及如何在几百张卡的集群上做到训练和推理的高效调度。以前管用的那套架构,搬过来直接就是灾难。

翁家翌在这件事上的态度和做天授时一脉相承:不凑合,该重写就重写。他提过一个观点——管代码需要高度的一致性,管公司也一样,富贵论坛app下载技术债务积累到一定程度就必须果断推倒。哪怕是成熟的 Infra,该清理就清理,不能因为”能跑”就不动。


铲子哲学的底层逻辑

为什么要如此执着于造铲子?

因为在 OpenAI 这种级别的团队里,研究员都不差。大家智商在线、idea 管够,真正拉开差距的是迭代效率。你的 Infra 每让一次实验从 8 小时缩短到 2 小时,整个团队一周就能多跑十几组实验。这个乘数效应累积下来,就是碾压级的优势。

翁家翌认同一个判断:教一个 researcher 做好 engineering,比教一个 engineer 做好 research 难得多。这话的潜台词是——好的工程能力在 AI 研究中被严重低估了。大多数团队花 80% 的精力在想 idea 和写论文上,只花 20% 在基建上。但实际上,基建质量决定了你那 80% 的精力能产生多少真实产出。

这也是为什么他在选 Offer 时放弃了 Google——不想当螺丝钉,想去一个能从零开始造铲子的地方。


给 ML Infra 团队的启示

如果你正在组建或优化一支 ML Infra 团队,翁家翌的经历至少能提供三个参考:

第一,招人要看造过什么,而不是发过什么。GitHub 履历比论文列表更能预测一个人在 Infra 岗位上的产出。

第二,不要害怕推倒重写。技术债务的利息是隐性的——它不会让你的实验报错,但会让每次迭代慢 30%。几个月下来,你和竞争对手的差距就是几十次有效实验。

第三,Infra 团队的 KPI 不应该是”搭了什么系统”,而是”研究员的单位时间迭代次数提升了多少”。铲子好不好用,挖矿的人最清楚。

AI 这波浪潮里,淘金的人挤满了河滩。但真正闷声赚钱的,永远是卖铲子的。


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消