全球AI算力的天平,正在发生一次历史性的倾斜。
曾几何时,英伟达的GPU是通往人工智能未来的唯一门票。然而,2026年初的一系列重磅消息宣告了“单极时代”的终结:Meta被曝与谷歌签署数十亿美元协议,大规模租用TPU训练模型;OpenAI在推出GPT-5.3-Codex-Spark时,破天荒地选择了Cerebras的晶圆级芯片承担推理重任;而行业巨头英伟达更是以近三倍溢价、耗资200亿美元收购了Groq,只为获取其核心的低延迟技术。
这些动作并非孤例,而是全球算力格局加速重构的缩影。摩根大通的最新报告预测,到2027年,谷歌将部署600万至700万颗TPU,其中大部分将向Anthropic、苹果等外部客户开放。IDC与高盛的数据更是佐证了这一趋势:预计到2028年,中国非GPU服务器市场占比将逼近半壁江山;全球范围内,非GPU芯片在AI服务器中的出货占比也将从2024年的36%跃升至2027年的45%。
一场关于能效比与延迟的极致竞赛,正在取代单纯的算力堆砌,成为新的游戏规则。
一、困局与破局:GPU的“阿喀琉斯之踵”为什么巨头们急于“去GPU化”?答案藏在物理学的瓶颈里。
传统GPU架构的核心痛点在于“存算分离”。每次计算,数据都必须在外部显存(HBM)和计算单元之间频繁搬运。这种冗长的传输路径不仅带来了高昂的能耗,更导致了难以忽视的延迟。对于需要实时响应的代码生成、对话交互等场景,这种延迟是致命的。
路透社披露,OpenAI内部已多次对英伟达芯片在Codex产品上的响应速度表示不满。压力之下,连“算力霸主”英伟达也不得不低头,通过天价收购Groq来补齐短板。Groq的创始人Jonathan Ross被誉为“TPU之父”,他创立该公司的初衷正是为了打造一款超越谷歌TPU、彻底解决数据搬运难题的芯片。
这场变局的本质,是AI竞争焦点从“算力规模”向“能效比(Token/美元)”和“低延迟”的深刻转移。没有人愿意将未来十年的基础设施,押注在一个高能耗、高延迟且系统封闭的技术路线上。
二、TPU出墙:从自用神器到公共基建长期以来,谷歌TPU深藏于谷歌数据中心内部,是其大模型的专属引擎。但如今,这堵墙正在倒塌。
随着大模型进入规模化落地阶段,算力成本成为悬在所有公司头上的达摩克利斯之剑。谷歌第七代TPU(v7)的问世,成为了打破平衡的关键砝码。其单芯片峰值算力高达4614 TFLOPS(FP8精度),万卡集群总算力可达42.5 EFLOPS。更惊人的是,在同等算力输出下,TPU v7的功耗仅为英伟达B200的40%-50%。
依托自研的光电路交换机(OCS)技术,TPU万卡集群实现了近乎线性的加速比,彻底解决了传统GPU集群在大规模扩展时的通信效率损耗问题。在TPU上训练的Gemini 3模型霸榜各大基准测试,更是为其性能做了最强背书。
对于Anthropic、Meta等巨头而言,账算得清清楚楚:TPU能将大模型推理的综合成本拉低50%以上。“每美元产生的Token数”已取代峰值算力,成为衡量芯片商业价值的新标尺。SemiAnalysis的研究显示,采用“TPU+GPU”混合架构的Anthropic,在与英伟达的谈判中拥有了更强的议价权。
未来,“多芯片并行”将成为头部AI公司的标配。谷歌TPU已从补充路线,正式晋升为全球算力竞争的主流赛道。
三、超越TPU:“软件定义硬件”与晶圆级革命如果说谷歌TPU是“正规军”的反击,那么Groq和Cerebras则代表了“特种部队”的奇袭。它们不满足于复刻TPU,而是探索更高阶的可能。
1. Groq:软件定义硬件的极致
Groq的TSP(Tensor Streaming Processor)芯片采用了独特的“软件定义硬件”架构。与TPU的固定数据流不同,TSP通过可重构的软硬件系统,结合大容量片上SRAM和静态调度机制,实现了数据流的确定性传输。
数据显示,在相同推理任务中,Groq的首Token延迟比TPU v7再降低20%-50%,每Token成本进一步下降10%-30%。这正是图灵奖得主David Patterson所预言的方向:“让数据离计算更近”,用架构创新消灭数据搬运的能耗。
2. Cerebras与清微智能:晶圆级与3D Chiplet的突破
为了将数据流架构的优势发挥到极致,Cerebras和国内的清微智能等企业正在推进更激进的集成方案。
- 晶圆级芯片(Cerebras): 直接将数据流架构扩展至整片晶圆尺度,高密度集成数万个计算核心。实测表明,Cerebras CS-3系统的推理速度比英伟达DGX B200快21倍,而成本和功耗均降低了三分之一。
- 3D Chiplet(清微智能): 通过“计算核心+3D DRAM芯粒”的垂直堆叠,构建三维立体数据流架构,在水平和垂直双维度上灵活调度数据,进一步缩短传输路径。
这些创新证明,非GPU芯片并非单一路线,而是一个百花齐放、多维演进的技术生态。
四、结语:算力新纪元的洗牌当谷歌TPU走出围墙,当OpenAI拥抱晶圆级芯片,当英伟达被迫高价收编Groq,信号已经无比清晰:TPU及各类非GPU架构,已成为巨头们真金白银押注的主战场。
决定下一代AI天花板的,不再是简单的算力堆砌,而是由能耗、延迟、确定性共同构成的“AI能力新三角”。
对于国产芯片产业而言,这既是巨大的挑战,更是千载难逢的机遇。在GPU垄断的旧秩序下,跟随者只能分食残羹;而在多元架构爆发的新纪元,唯有坚持底层创新,走出差异化的技术路线,才有资格参与下一轮全球算力的重新洗牌。
非GPU时代的大幕已然拉开,谁能在能效与速度的平衡木上跳出最完美的舞步,谁就是下一个十年的赢家。
共同学习,写下你的评论
评论加载中...
作者其他优质文章