首页手记告别“唯GPU论”：非GPU芯...

告别“唯GPU论”：非GPU芯片崛起，AI算力格局迎来十年未有之大变局

标签：

云计算深度学习算法人工智能

全球AI算力的天平，正在发生一次历史性的倾斜。

曾几何时，英伟达的GPU是通往人工智能未来的唯一门票。然而，2026年初的一系列重磅消息宣告了“单极时代”的终结：Meta被曝与谷歌签署数十亿美元协议，大规模租用TPU训练模型；OpenAI在推出GPT-5.3-Codex-Spark时，破天荒地选择了Cerebras的晶圆级芯片承担推理重任；而行业巨头英伟达更是以近三倍溢价、耗资200亿美元收购了Groq，只为获取其核心的低延迟技术。

这些动作并非孤例，而是全球算力格局加速重构的缩影。摩根大通的最新报告预测，到2027年，谷歌将部署600万至700万颗TPU，其中大部分将向Anthropic、苹果等外部客户开放。IDC与高盛的数据更是佐证了这一趋势：预计到2028年，中国非GPU服务器市场占比将逼近半壁江山；全球范围内，非GPU芯片在AI服务器中的出货占比也将从2024年的36%跃升至2027年的45%。

一场关于能效比与延迟的极致竞赛，正在取代单纯的算力堆砌，成为新的游戏规则。

一、困局与破局：GPU的“阿喀琉斯之踵”

为什么巨头们急于“去GPU化”？答案藏在物理学的瓶颈里。

传统GPU架构的核心痛点在于“存算分离”。每次计算，数据都必须在外部显存（HBM）和计算单元之间频繁搬运。这种冗长的传输路径不仅带来了高昂的能耗，更导致了难以忽视的延迟。对于需要实时响应的代码生成、对话交互等场景，这种延迟是致命的。

路透社披露，OpenAI内部已多次对英伟达芯片在Codex产品上的响应速度表示不满。压力之下，连“算力霸主”英伟达也不得不低头，通过天价收购Groq来补齐短板。Groq的创始人Jonathan Ross被誉为“TPU之父”，他创立该公司的初衷正是为了打造一款超越谷歌TPU、彻底解决数据搬运难题的芯片。

这场变局的本质，是AI竞争焦点从“算力规模”向“能效比（Token/美元）”和“低延迟”的深刻转移。没有人愿意将未来十年的基础设施，押注在一个高能耗、高延迟且系统封闭的技术路线上。

二、TPU出墙：从自用神器到公共基建

长期以来，谷歌TPU深藏于谷歌数据中心内部，是其大模型的专属引擎。但如今，这堵墙正在倒塌。

随着大模型进入规模化落地阶段，算力成本成为悬在所有公司头上的达摩克利斯之剑。谷歌第七代TPU（v7）的问世，成为了打破平衡的关键砝码。其单芯片峰值算力高达4614 TFLOPS（FP8精度），万卡集群总算力可达42.5 EFLOPS。更惊人的是，在同等算力输出下，TPU v7的功耗仅为英伟达B200的40%-50%。

依托自研的光电路交换机（OCS）技术，TPU万卡集群实现了近乎线性的加速比，彻底解决了传统GPU集群在大规模扩展时的通信效率损耗问题。在TPU上训练的Gemini 3模型霸榜各大基准测试，更是为其性能做了最强背书。

对于Anthropic、Meta等巨头而言，账算得清清楚楚：TPU能将大模型推理的综合成本拉低50%以上。“每美元产生的Token数”已取代峰值算力，成为衡量芯片商业价值的新标尺。SemiAnalysis的研究显示，采用“TPU+GPU”混合架构的Anthropic，在与英伟达的谈判中拥有了更强的议价权。

未来，“多芯片并行”将成为头部AI公司的标配。谷歌TPU已从补充路线，正式晋升为全球算力竞争的主流赛道。

三、超越TPU：“软件定义硬件”与晶圆级革命

如果说谷歌TPU是“正规军”的反击，那么Groq和Cerebras则代表了“特种部队”的奇袭。它们不满足于复刻TPU，而是探索更高阶的可能。

1. Groq：软件定义硬件的极致
Groq的TSP（Tensor Streaming Processor）芯片采用了独特的“软件定义硬件”架构。与TPU的固定数据流不同，TSP通过可重构的软硬件系统，结合大容量片上SRAM和静态调度机制，实现了数据流的确定性传输。
数据显示，在相同推理任务中，Groq的首Token延迟比TPU v7再降低20%-50%，每Token成本进一步下降10%-30%。这正是图灵奖得主David Patterson所预言的方向：“让数据离计算更近”，用架构创新消灭数据搬运的能耗。

2. Cerebras与清微智能：晶圆级与3D Chiplet的突破
为了将数据流架构的优势发挥到极致，Cerebras和国内的清微智能等企业正在推进更激进的集成方案。

晶圆级芯片（Cerebras）： 直接将数据流架构扩展至整片晶圆尺度，高密度集成数万个计算核心。实测表明，Cerebras CS-3系统的推理速度比英伟达DGX B200快21倍，而成本和功耗均降低了三分之一。
3D Chiplet（清微智能）： 通过“计算核心+3D DRAM芯粒”的垂直堆叠，构建三维立体数据流架构，在水平和垂直双维度上灵活调度数据，进一步缩短传输路径。

这些创新证明，非GPU芯片并非单一路线，而是一个百花齐放、多维演进的技术生态。

四、结语：算力新纪元的洗牌

当谷歌TPU走出围墙，当OpenAI拥抱晶圆级芯片，当英伟达被迫高价收编Groq，信号已经无比清晰：TPU及各类非GPU架构，已成为巨头们真金白银押注的主战场。

决定下一代AI天花板的，不再是简单的算力堆砌，而是由能耗、延迟、确定性共同构成的“AI能力新三角”。

对于国产芯片产业而言，这既是巨大的挑战，更是千载难逢的机遇。在GPU垄断的旧秩序下，跟随者只能分食残羹；而在多元架构爆发的新纪元，唯有坚持底层创新，走出差异化的技术路线，才有资格参与下一轮全球算力的重新洗牌。

非GPU时代的大幕已然拉开，谁能在能效与速度的平衡木上跳出最完美的舞步，谁就是下一个十年的赢家。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕姐8265434

手记
篇

粉丝

224

获赞与收藏

1070

关注作者，订阅最新文章

阅读免费教程

Python 算法入门教程

15个小节 30725 1187

算法入门教程

15个小节 33812 719

后端通用面试教程

41个小节 33076 374

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

告别“唯GPU论”：非GPU芯片崛起，AI算力格局迎来十年未有之大变局

阅读免费教程