谷歌TPU v7的互联架构,TPU跟铜缆、光模块的比例分别是多少?

时间:2025-12-03   编辑:什么新闻

(来源:君实财经)

谷歌TPU v7的互联架构,TPU跟铜缆、光模块的比例分别是多少?

TPU 机架的设计在过去几代产品中保持了较高一致性。每个机架包含 16 个 TPU tray、16 个或 8 个主机 CPU tray(Host CPU Trays,具体数量取决于散热配置)、一台架顶式交换机(ToR Switch)、电源单元以及备用电源模块(BBUs)。

每个 TPU 托盘内置 1 块 TPU 板卡,板卡上搭载 4 个 TPU 芯片封装。每颗 Ironwood TPU 配备 4 个 OSFP 接口笼(用于 ICI 协议互联)和 1 个 CDFP PCIe 接口笼(用于连接主机 CPU)。

谷歌 TPUv7 的 ICI 扩展网络核心构建单元,是由 64 颗 TPU 组成的 4×4×4 三维环形拓扑结构(3D torus)。每个包含 64 颗 TPU 的 4×4×4 立方体单元,对应一个搭载 64 颗 TPU 的物理机架。这一维度设计具备理想适配性:64 颗 TPU 可实现全互连的电气连接,同时完全兼容物理机架的安装空间限制。

TPU 以三维环形拓扑结构实现互联,每颗 TPU 共连接 6 个相邻节点 —— 在 X、Y、Z 三个坐标轴上,每个维度各连接 2 个逻辑相邻的 TPU。

在计算托盘内部,每颗 TPU 始终通过PCB走线与另外 2 颗 TPU 相连;而根据该 TPU 在 4×4×4 立方体单元中的具体位置,剩余 4 个相邻节点的连接方式分为两种:要么通过直连铜缆,要么通过光模块。

4×4×4 立方体单元内部的互联采用铜缆传输,而单元外部的连接(包括环形拓扑中跨单元的折返连接,以及与相邻 4×4×4 立方体单元的互联)则采用光模块与OCS。如下图所示,作为三维环形拓扑网络的典型特征:位于 Z+ 面的 TPU(坐标 2,3,4)通过 800G 光模块实现折返连接,经OCS路由至 Z- 面的对应 TPU(坐标 2,3,1)。

除通过PCB连接的 2 个相邻 TPU 外,其余 4 个相邻节点的连接方式(DAC、光模块或两者组合),取决于该 TPU 在 4×4×4 立方体单元中的具体位置。

4×4×4 立方体单元内部的 TPU,其 4 个相邻节点均通过DAC互联;位于立方体表面的 TPU 采用 3 根DAC+1 个光模块的连接方案;位于立方体边缘的 TPU 采用 2 个光模块 + 2 根DAC的组合;而位于立方体角落的 TPU 则通过 1 根DAC+3 个光模块实现互联。一个简单的记忆规律是:某一 TPU 所需光模块的数量,等于其朝向立方体 “外部” 的面数。

64个TPU Rack中,需要的铜缆是80 根,PCB是64个,光模块是96个,比例分别是1:1.25、1:1和1:1.5。

根据谷歌公开规格,单个 TPU 机架搭载 64 颗 TPU 芯片,而 TPU V7 Pod 最多可包含 144 个此类机架,因此单 Pod 的 TPU 总数量为 64×144=9216 颗,形成大规模并行计算集群。

每个 TPU 机架配备 96 个光端口,144 个机架对应的总光端口数为 144×96=13824 个。这一数量与升级后的 OCS 交换机端口容量形成精准适配,明年谷歌主力采用的 300 端口 OCS 交换机中,有效端口数为 288 个,48 台该型号交换机的总有效端口数为 48×288=13824 个,恰好满足单 Pod 的光互联需求。

根据上面的章节中讲的TPU跟铜缆和光模块的比例关系,9216的TPU Pod中,需要9216 * 1.25=11520根DAC铜缆,需要9216 * 1.5=13824个光模块,这里的光模块是指1.6T光模块,这也是大家预期明年谷歌需要1000w个1.6T光模块的原因

海量资讯、精准解读,尽在新浪财经APP
上一篇:谷歌TPU产量预测:500万!每卖出50万块芯片,收入增加130亿美元!     下一篇:没有了