OpenAI自研芯片来了,秘密研发18月,AI参与设计,明年部署,目标又是10GW
来源:36kr 9 小时前

OpenAI的自研AI芯片,真的来了。

经过长达18个月的秘密研发,这款由GPT模型“亲自”参与设计的定制芯片即将问世。10月13日,OpenAI宣布,将与芯片巨头博通(Broadcom)联手,从2026年下半年开始,陆续部署一个高达10千兆瓦(GW)的庞大计算系统。这一消息推动博通股价应声大涨近10%,OpenAI也终于正式确认了,自己在这场算力竞赛中,亲自下场造芯。

1

AI参与设计的“人类历史上最大的工业项目”

“当前的AI基础设施建设,是人类历史上最大的联合工业项目,”OpenAI的CEO萨姆·奥特曼(Sam Altman)在官方发布中说。“我们正在定义文明的下一代操作系统。”

这项价值数十亿美元的合作,不仅仅是购买芯片,而是深入到设计的核心。OpenAI设计自己的GPU,将开发强大AI模型过程中积累的经验,直接融入未来系统的底层硬件中。博通则提供其在定制芯片领域的系统能力,与OpenAI共同开发并负责部署,合作范围甚至延伸到了服务器机架和网络设备。

这次合作中最引人入胜的一点,是OpenAI把GPT模型也用在了芯片设计里。OpenAI联合创始人格雷格·布罗克曼(Greg Brockman)透露:“我们已经能够将我们自己的模型应用于设计这款芯片,这真的很酷。我们缩短了开发进度,并实现了大幅的芯片面积缩减。”

他分享了一个有趣的细节:AI模型提出的优化方案,虽然人类顶尖设计师最终也能想到,但可能需要多花一个月的时间才能完成。“我们曾面临一个交付期限,当时可以选择是停下来审查AI的优化方案,还是让它一直运行到最后。我们决定,当然是让它继续跑。”

而最后效果令OpenAI满意。这是一个对于OpenAI很关键的收获,当这个闭环一旦形成,OpenAI的迭代速度可能又将远超竞争对手,甚至进而对整个半导体设计行业(EDA)带来冲击。

2

又一个10GW,意味着什么?

萨姆·奥特曼也解释了其背后的战略意图——垂直整合,端到端。OpenAI要掌控一切环节。

“我们能够从蚀刻晶体管,一直思考和设计到你向ChatGPT提问时输出的token。通过在整个技术栈中进行优化,我们可以获得巨大的效率收益,带来性能更好、速度更快、成本更低的模型。”

而他也强调,AI需求的增长速度是这一切的基础。“每当你把模型优化10倍,需求就会增长20倍。”

这次新增的10GW,是在OpenAI与英伟达、AMD等巨头已有合作基础上的额外增加,使其总算力储备达到26GW——足以满足纽约市夏季用电高峰两倍多的需求。回顾OpenAI的算力增长轨迹更是惊人:从最初”仅有“的2兆瓦集群,到今年底的略超2千兆瓦,再到不久的将来接近30千兆瓦。OpenAI已经不会停下来了。

这一切巨大投入的背后,是一个宏大的愿景。布罗克曼以ChatGPT的演进为例,解释了为何需要如此庞大的算力。ChatGPT正从一个对话工具,转变为一个可以在幕后为你持续工作的个人代理。

“理想情况下,每个人都应该有一个代理在后台24/7为他们运行,”布罗克曼说,“但现实是,我们目前只能向Pro用户推出这类功能,因为算力是有限的。我们的目标正是要打破这种瓶颈,创造一个计算不再稀缺,智能极大丰富的世界。我们希望创造一个世界,如果你有一个想法,想去创造,你就有足够强大的计算能力在背后支持你实现它。”

3

GPT6的想象空间

Sam Altman通过一个假设性的例子说明了未来的需求潜力:"我们一次又一次学到的是,假设我们可以将GPT6推进到感觉比GPT5高30个IQ点的程度,它可以处理问题不是几个小时,而是几天、几周、几个月,无论多长时间,当我们这样做时,我们将每个token的成本降下来,每次我们能够做到这一点时产生的经济价值和某种剩余需求的数量会疯狂上升。"

他用具体的例子来说明这种增长:"你可以看到,选择一个我认为在这一点上众所周知的例子,当ChatGPT可以写一点代码时,人们实际上用它来做这件事,他们会非常痛苦地粘贴他们的代码并等待,他们会说为我做这个并把它粘贴回来,无论什么,模型你知道不能做太多但他们可以做一些事情。模型变得更好,用户体验变得更好,现在我们有Codex,Codex增长得令人难以置信地快,现在可以做几个小时的工作,在更高的能力水平上。当这成为可能时,需求增长是疯狂的。"

他预测:"也许Codex的下一个版本可以做几天的工作,在某个最好的工程师水平上,或者也许需要几个更多版本,无论如何它会到达那里。想想对此的需求将有多大,然后为每个知识工作行业做这件事。"

4

OpenAI也在逼迫硬件继续演进

博通的Charlie Kawwas也在这次发布里描绘了未来计算架构的演进路径:"当我们开始构建这些XPU时,你最多可以在800平方毫米中构建一定数量的计算。就是这样。现在,今天我们实际上正在合作,在二维空间中运送多个这些。我们谈论的下一件事是将这些堆叠到同一个芯片中。所以,现在我们实际上进入Y维度或Z维度,要考虑三维。"

但这还不是终点。"然后我们实际上也在谈论的最后一步是,现在我们将把光学引入其中,这实际上是我们刚刚宣布的,即100太字节的光学交换集成到同一个芯片中。所以这些是将使计算、集群的大小、集群的总性能和功耗达到全新水平的技术,我认为它将至少每六到十二个月持续翻倍。"

当然,实现这一愿景的道路充满挑战。布罗克曼坦言:“设计全新的芯片并在规模上交付,让整个系统端到端地工作,这是天文数字般的工作量。”

财务上的压力同样巨大。为了支付这些高达数百亿美元的算力账单,OpenAI需要在今年预计的130亿美元收入基础上,实现指数级的增长。而奥特曼的野心甚至更大,他近期向员工透露,目标是到2033年建成250GW的算力——按今天的标准,这将耗资超过10万亿美元。

一切都已经停不下来,其他模型厂商似乎还没反应过来,OpenAI已经建立起最复杂而又最充满野心的一个联盟,接下来是这些蓝图能否按时实现的挑战,以及其他巨头们如何出手加入这场空前的军备竞赛的问题了。希望全人类最终能在这个史无前例的赌注中获益吧。

简体中文 English