首页手记 Idea is...

Idea is Cheap，铲子才值钱——从天授框架到 OpenAI RLHF Infra 的基建哲学

标签：

Html5

在AI领域，好点子从来不是稀缺资源，真正的竞争力在于将想法快速落地的能力。OpenAI研究员翁家翌用两周时间从零打造强化学习框架「天授」，又在OpenAI重构大模型后训练基础设施，其核心逻辑始终如一：造出能让团队迭代效率倍增的「铲子」。本文深度剖析了这种工程思维如何成为AI竞赛中的隐秘武器，以及为何顶级团队正在重新定义人才评估标准。

AI 圈有个公开的秘密：好点子从来不稀缺。你去参加任何一场学术会议，随便拉个人聊半小时，兜里都能揣走三五个”有潜力”的 idea。OpenAI 内部更是如此——翁家翌说过一句很直白的话：好主意很廉价，找人讨论就能有。

那什么才贵？答案是：把 idea 跑通的速度。更准确地说，是单位时间内能完成多少次有效迭代。

这话听着像正确的废话，但真正把它当信仰去执行的人极少。翁家翌算一个。从本科时两周撸出强化学习框架”天授”，到在 OpenAI 从零搭建大模型后训练的 RL 基础设施，他干的事情本质上只有一件：造铲子。

第一把铲子：两周写出天授

故事的起点很朴素——本科做强化学习实验，要用 RLlib。用过的人都知道那是个什么体验：几十万行代码，抽象层套抽象层，你想改个 reward shaping 的逻辑，得先花三天搞清楚它的调度器是怎么跑的。

翁家翌的反应不是忍，是推倒重来。

两周时间，一个人，写出了天授的第一版。设计哲学极其简单：保持一致性（Consistency），把 API 做到科研人员不用翻文档就能上手。没有花哨的功能堆砌，就是让你能最快速度地把想法变成可运行的实验。

这件事背后有个他很早就想明白的判断：强化学习领域的瓶颈，根本不在算法不够新。大量论文在单一环境里疯狂调参、防止模型崩溃，本质上是在用战术上的勤奋掩盖战略上的懒惰——没人愿意停下来把基础设施做对。

天授在 GitHub 上拿到了几千个 Star，成了他后来进 OpenAI 的重要敲门砖。面试官 John Schulman 看中的不是他发了几篇论文，而是他写代码的能力和开源履历。这件事本身就很说明问题：在顶级 AI Lab 的筛选标准里，”能不能造好铲子”的权重，比很多人想象的高得多。

第二把铲子：OpenAI 的后训练 RL Infra

2022 年翁家翌加入 OpenAI 的时候，ChatGPT 还没立项，”后训练”这个概念在内部都没有清晰的边界。他接手的任务是搭建大模型后训练的强化学习基础设施——听起来和做天授差不多，都是造铲子，但这把铲子的工程难度完全是另一个量级。

核心差异在哪？传统强化学习（比如打 Atari、控制机器人）的环境很复杂，模型很小。你的计算瓶颈在环境仿真，模型训练反而很快。大模型 RL 恰好反过来：环境简单得离谱——就是一个 prompt，几微秒的事——但模型的推理和训练极度昂贵，动辄几百张卡跑几个小时。

这意味着整个系统工程的优化方向要彻底翻转。小模型时代你优化环境并行度，大模型时代你要优化的是 GPU 利用率、梯度通信、checkpoint 管理、以及如何在几百张卡的集群上做到训练和推理的高效调度。以前管用的那套架构，搬过来直接就是灾难。

翁家翌在这件事上的态度和做天授时一脉相承：不凑合，该重写就重写。他提过一个观点——管代码需要高度的一致性，管公司也一样，富贵论坛app下载技术债务积累到一定程度就必须果断推倒。哪怕是成熟的 Infra，该清理就清理，不能因为”能跑”就不动。

铲子哲学的底层逻辑

为什么要如此执着于造铲子？

因为在 OpenAI 这种级别的团队里，研究员都不差。大家智商在线、idea 管够，真正拉开差距的是迭代效率。你的 Infra 每让一次实验从 8 小时缩短到 2 小时，整个团队一周就能多跑十几组实验。这个乘数效应累积下来，就是碾压级的优势。

翁家翌认同一个判断：教一个 researcher 做好 engineering，比教一个 engineer 做好 research 难得多。这话的潜台词是——好的工程能力在 AI 研究中被严重低估了。大多数团队花 80% 的精力在想 idea 和写论文上，只花 20% 在基建上。但实际上，基建质量决定了你那 80% 的精力能产生多少真实产出。

这也是为什么他在选 Offer 时放弃了 Google——不想当螺丝钉，想去一个能从零开始造铲子的地方。

给 ML Infra 团队的启示

如果你正在组建或优化一支 ML Infra 团队，翁家翌的经历至少能提供三个参考：

第一，招人要看造过什么，而不是发过什么。GitHub 履历比论文列表更能预测一个人在 Infra 岗位上的产出。

第二，不要害怕推倒重写。技术债务的利息是隐性的——它不会让你的实验报错，但会让每次迭代慢 30%。几个月下来，你和竞争对手的差距就是几十次有效实验。

第三，Infra 团队的 KPI 不应该是”搭了什么系统”，而是”研究员的单位时间迭代次数提升了多少”。铲子好不好用，挖矿的人最清楚。

AI 这波浪潮里，淘金的人挤满了河滩。但真正闷声赚钱的，永远是卖铲子的。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕数据7186066

手记
篇

粉丝

0

获赞与收藏

11

关注作者，订阅最新文章

阅读免费教程

Html5 入门教程

25个小节 63959 840

后端通用面试教程

41个小节 33036 372

网络编程入门教程

20个小节 13730 256

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Idea is Cheap，铲子才值钱——从天授框架到 OpenAI RLHF Infra 的基建哲学

第一把铲子：两周写出天授

第二把铲子：OpenAI 的后训练 RL Infra

铲子哲学的底层逻辑

给 ML Infra 团队的启示

阅读免费教程