人工智能正从人类驱动转向AI与AI交互的新纪元,每年生成的令牌数量已突破1000万亿。现代代理式系统需要处理复杂的任务规划、工具调用及多步工作流,这对GPU、CPU、网络及存储提出了低延迟、高吞吐的严苛要求。为此,英伟达推出了Vera Rubin POD,这是一个由七款芯片深度协同设计、包含五类专用机架系统的AI超级计算机平台。
Vera Rubin POD基于第三代英伟达MGX机架架构,由40个机架组成,集成了1152颗Rubin GPU和60艾弗洛普斯的算力,总扩展带宽高达10 PB/s。这五类专用机架包括NVL72计算引擎、Groq 3 LPX推理加速器、Vera CPU机架、BlueField-4 STX存储机架以及Spectrum-6 SPX网络机架,它们共同构成了一个高效、节能且成本优化的数据中心集群。
核心计算单元NVIDIA Vera Rubin NVL72集成了72颗Rubin GPU和36颗Vera CPU,通过巨大的铜质NVLink骨干网连接,旨在满足AI的四大扩展定律。相比Blackwell架构,其训练性能提升4倍,推理能效提升10倍,令牌成本降低至十分之一。配合Groq 3 LPX推理加速器,系统可消除高交互性与高吞吐之间的权衡,为万亿参数模型提供低延迟、大上下文的推理能力,令牌吞吐量提升35倍。
在CPU与存储方面,Vera CPU机架采用高密度液冷设计,单机架可支撑超过2.25万个并发强化学习环境,效率是传统机架的2倍。BlueField-4 STX存储机架则引入了AI原生存储平台CMX,将KV缓存卸载至专用高带宽存储层,使令牌每秒处理量提升5倍,能效提升5倍。网络层面,Spectrum-6 SPX机架通过102.4 Tb/s的交换机和硅光集成技术,实现了机架间近乎完美的同步与低延迟连接。
第三代MGX机架架构在工程上实现了重大突破,采用单宽设计,实现了无电缆、无软管、无风扇的模块化计算与NVLink交换托盘,将组装时间从两小时缩短至五分钟。通过动态电源引导和机架级储能技术,MGX机架能有效平抑负载波动,降低峰值电流需求达25%。同时,支持45°C温水入口温度,使数据中心能利用环境空气冷却,显著降低PUE,并在相同电力预算下释放更多算力用于生成令牌。
对于中国AI从业者而言,英伟达此次推出的全栈式AI工厂解决方案,特别是其通过硬件架构创新(如液冷、动态供电)来极致提升能效比的做法,为应对算力成本高昂和电力资源紧张提供了重要参考。随着全球AI应用从训练向推理及代理式交互转型,关注此类系统级能效优化与软硬协同设计的趋势,将有助于中国企业在构建下一代AI基础设施时抢占先机。
