深度解读:Google TPU如何冲击“英伟达帝国”?
来源:集微网 8 小时前

2025 年的AI 芯片市场正处于一个微妙的转捩点。尽管英伟达凭借其Blackwell 架构仍维持着技术和市场占有率的绝对领先地位,但Google( GOOGL-US ) TPU 的全面商业化,正使英伟达看似牢不可破的定价权开始松动。

据半导体行业研究机构SemiAnalysis 的测算,英伟达过去的最大客户Google,如今已成为其最大的对手。

‌SemiAnalysis 指出,OpenAI 仅凭「扬言采购TPU」这一筹码,就能迫使英伟达生态链做出实质让步,使其计算集群的总拥有成本(TCO)下降了约30%。

随着Anthropic 高达1GW 的TPU 采购细节曝光,Google 已正式脱离「云服务商」的标签,转型为一家直接向外部出售高性能芯片与系统的「商用芯片供应商」。

当顶级AI 实验室能够利用TPU 训练出超越GPT-4 的模型,且Google 愿意开放软体生态并提供金融杠杆时,英伟达高达75% 的毛利率神话便不再牢不可破。

Google「主动出击」:Anthropic 成关键引爆点

长期以来,Google 的TPU 犹如其搜寻演算法,是深藏不露的内部核武器。然而,SemiAnalysis 获取的供应链情报显示,这一策略已发生根本性逆转。

最直接的案例来自顶级大模型公司Anthropic。 Anthropic 已确认将部署超过100 万颗TPU,这笔交易的结构极具破坏力,揭示了Google 「混合销售」的新模式:

直接销售: 首批约40 万颗最新的TPUv7 ,将不再透过云端租赁,而是由长期合作伙伴博通( AVGO-US ) 直接出售给Anthropic,价值约100 亿美元。博通在本次交易中从幕后走向台前,成为算力转移的隐形赢家。

云端租赁: 剩余的60 万颗TPUv7 将透过Google 云进行租赁,涉及高达420 亿美元的剩余履约义务(RPO),直接支撑了Google 云近期积压订单的暴涨。

这代表,Google 不再吝啬于将最先进的算力外售。除了Anthropic,Meta( META-US ) 、SSI、xAI 等顶级AI 实验室也出现在了潜在客户名单中。

面对这一突如其来的攻势,英伟达罕见地展现出防御姿态,不得不针对「循环经济」(即投资初创公司购买自家芯片)的市场质疑发布长文辩解,凸显英伟达确实受到威胁。

成本为王:TPU 的碾压性TCO 优势

客户转向Google 的理由很纯粹:在AI 军备竞赛中,性能是入场券,但总拥有成本(TCO)决定生死。

SemiAnalysis 的模型数据显示,Google TPUv7 在成本效率上对英伟达构成碾压优势。

从Google 内部视角看,TPUv7 伺服器的TCO 比英伟达GB200 伺服器低约44%。即便加上Google 和博通的利润,Anthropic 透过GCP 使用TPU 的TCO,仍比购买GB200 低约30%。

这种成本优势并非仅靠压低芯片价格实现,更源于Google 独特的金融工程创新:透过云端平台提供财务保障。

在AI 基础设施建设中,存在一个明显的期限错配:GPU 集群的经济使用寿命通常只有4 到5 年,而数据中心场地的租赁合约则长达15 年以上。

这种时间上的不匹配,使得Fluidstack、TeraWulf 等新兴算力服务商很难获得融资。

针对这个问题,Google 利用一种「表外信贷支持」(IOU)机制来解决这一问题:如果中间商无法支付租金,Google 会介入提供财务担保,确保算力资源得以稳定运作。

这项金融工具直接打通了加密货币矿工(拥有电力与场地)与AI 算力需求之间的堵点,建立了一个低成本、独立于英伟达生态之外的基础设施体系。

Google 杀手锏:系统工程与光互连技术

如果说价格战是战术层面的对垒,那么系统工程则是Google 战略层面的护城河。

虽然单颗TPUv7 在理论峰值算力(FLOPs)上略逊于英伟达Blackwell,但Google 透过极致的系统设计抹平了差距。

TPUv7 在记忆体频宽和容量上已大幅缩小与英伟达旗舰芯片的差距,采用了更务实的设计哲学:不追求不可持续的峰值频率,而是透过更高的模型算力利用率(MFU)来提升实际产出。

更值得注意的是,Google 真正的杀手锏是其独步天下的光互连(ICI)技术。不同于英伟达依赖昂贵的NVLink 和InfiniBand/Ethernet 交换机,Google 利用自研的光路交换机(OCS)和3D Torus 拓扑结构,建构了名为ICI 的片间互连网路。

这一架构允许单个TPUv7 集群(Pod)扩展至惊人的9,216 颗芯片,远超英伟达常见的64 或72 卡集群。 OCS 允许透过软体定义网路,动态重构拓扑结构。

这代表如果某部分芯片故障,网路可以在毫秒级绕过故障点,重新「切片」成完整的3D 环面,极大地提升了集群的可用性,且光讯号在OCS 中无需进行光电转换,直接物理反射,大幅降低了功耗和延迟。

Gemini 3 和Claude 4.5 Opus 这两大全球最强模型均完全在TPU 上完成预训练,这本身就是对TPU 系统处理「尖端模型预训练」这一最高难度任务能力的终极背书。

Google拆除最后的围墙:软体生态的改变

长期以来,TPU 在外部市场的普及一直受到软体生态的限制。 Google 坚持使用自家JAX 语言,而大多数全球AI 开发者则习惯于PyTorch 与CUDA。

然而,随着商业利益的扩大,Google 开始调整策略。

SemiAnalysis 指出,Google 软体团队的绩效指标(KPI)已经从「服务内部需求」转向「开放与兼容外部生态」。官方明确表示,将全面支持PyTorch Native 在TPU 上的运行。

原本依赖低效率的Lazy Tensor 转换的方式,也被XLA 编译器直接对接PyTorch Eager Execution 模式所取代。

这代表,像Meta 这类以PyTorch 为主的公司,可以几乎无缝地将现有程式码部署到TPU 上。

同时,Google 也积极向vLLM、SGLang 等开源推理框架贡献程式码,进一步打通TPU 在开源AI 生态中的兼容性。

这一策略转变,正在逐步削弱英伟达原本牢不可破的「CUDA 护城河」。随着软体与硬体的双重进攻,矽谷AI 算力霸主之争才刚揭开序幕。

简体中文 English