在法国《计算机世界》的专访中,英伟达网络副总裁Gilad Shainer深刻揭示了AI基础设施的核心变革。他指出,现代AI工厂已不再仅仅是服务器集群,而是演变为统一的“计算单元”。过去CPU是核心,如今整个数据中心和AI工厂必须协同工作,而连接所有GPU与计算芯片的网络,正是决定其能否成为超级计算机的关键。网络架构的优劣,直接决定了AI工厂的算力上限与能效表现。
随着AI负载的激增,英伟达正加速推进网络技术的代际迭代。目前,其传输模块已全面升级至1.6 Tbit/s,标志着从800G时代的跨越。Shainer强调,为了应对大模型推理中Key-Value Cache带来的海量存储需求,英伟达创新推出了面向推理的存储基础设施(CMX),并持续在光学组件与存储架构上进行垂直与水平的双重创新。这种年复一年的技术迭代,要求企业必须持续投入研发,以跟上从Scale-up到Scale-out的全方位演进。
在散热与硬件形态上,英伟达已实现100%液冷覆盖。无论是核心交换机还是可插拔模块,内部组件均通过液冷系统高效散热。针对Arista Networks近期推出的XPO模块(12.8 Tbit/s液冷),Shainer表示英伟达虽认可其设计思路,但更倾向于通过系统级优化,将液冷回路直接集成到交换机内部,而非依赖额外的连接器标准。对于可插拔模块,英伟达已具备成熟的液冷方案;而对于未来的可插拔与CPO(共封装光学)架构,英伟达更关注通过减少组件数量来提升系统可靠性。
光互联技术的突破是英伟达应对能源瓶颈的终极方案。通过投资Lumentum和Coherent等光企,英伟达正大力推动共封装光学(CPO)技术。将光学引擎直接集成到交换机ASIC芯片内部,而非置于外部模块,可将信号传输距离缩短至极限,从而将网络能耗降低5倍。这一变革不仅大幅减少了激光器、DSP等组件数量,还将数据中心故障率降低10倍,使AI工作负载的正常运行时间提升5倍。在GTC大会上,英伟达展示的Spectrum-6 SPX交换机及即将发布的量子光子产品,正是这一战略的落地成果。
关于网络协议的选择,Shainer幽默地表示英伟达同时拥有InfiniBand和Spectrum-X以太网,两者如同他的孩子般同等重要。InfiniBand凭借超低延迟优势,仍是高性能计算(HPC)和科学计算的首选;而Spectrum-X以太网则通过集成InfiniBand技术,为熟悉以太网生态的开发者提供了更低的门槛和更优的AI性能。未来,随着GPU架构Feynman的推出,NVLink也将集成CPO技术,实现跨机架的超大规模扩展,进一步最大化能效。
对于中国AI从业者而言,英伟达在光互联与液冷领域的激进布局揭示了一个明确趋势:未来的AI算力竞争,将不再单纯比拼GPU数量,而是转向对网络架构能效与系统稳定性的极致优化。中国企业在构建智算中心时,应尽早关注CPO技术与液冷基础设施的融合,以应对日益严峻的能耗限制与算力扩展需求。
