AI基础设施正面临一个被忽视的瓶颈:交换机。Data Center Knowledge发表的一篇评论文章指出,尽管算力芯片性能持续飙升,但网络能力的提升并未同步跟上,导致全球最先进的GPU大量时间处于闲置状态。

文章援引一项针对模型浮点运算利用率的研究数据称,在万亿参数级大模型训练中,AI实验室在Nvidia H100上仅实现了35%-40%的模型浮点运算利用率。这意味着,这些价格高昂的芯片有超过一半的时间并非在计算,而是在等待数据通过网络传输到位。网络结构已经成为制约AI系统实际能力的关键约束

这一瓶颈的根源在于,AI训练集群正从数百张GPU扩展至数千张GPU,网络挑战已从单纯的连接速率转向交换结构如何高效协调所有节点间的数据移动。文章作者Mark Rushworth指出,AI训练工作负载的带宽需求已从400 Gb/s迈向800 Gb/s1.6 Tb/s的线速也被提上近期路线图,但原始链路速度只是问题的一部分。更艰巨的工程挑战在于,如何在超大规模集群中实现低延迟、无拥塞的数据调度。

网络技术必须在2027年前达到1.6 Tb/s线速目标。若错过这一窗口期,整个生态系统将被迫寻找绕行方案。这一紧迫性正在重塑数据中心的投资结构。文章预计,网络设备在数据中心资本支出中的占比将从目前的5%-10%显著上升至2030年的15%-20%,网络已不再是配角,而是决定AI基础设施成本、能效和竞争力的首要因素。

从产业链角度看,这一趋势将直接利好高端交换机、光模块和互联芯片供应商。当昂贵的GPU因网络延迟而空转时,单纯堆砌算力已无法线性提升训练效率,优化网络架构成为释放算力潜力的前提。对于AI投资者而言,关注点正从“谁拥有最多GPU”转向“谁的网络能最有效地让GPU保持忙碌”,网络环节的价值重估或将成为AI基础设施投资的下一个重要叙事。