日本容器化数据中心领军企业Getwork(ゲットワークス)近日宣布,在位于新潟县汤泽町的“汤泽GX数据中心”成功实施了基于IBM Instana Observability系统的GPU能效优化项目。该项目于2026年1月正式投入运营,通过实时监测GPU的电力消耗、温度及利用率,结合应用代码的针对性重构,实现了单台服务器8颗GPU总功耗较峰值负荷下降约80%的显著成效。
随着高性能计算需求的爆发,单颗GPU功耗已攀升至数百瓦级别。若缺乏精细化监控,数据中心往往面临电力与冷却资源的严重浪费。Getwork公司指出,将GPU的运行状态可视化并据此优化业务逻辑,已成为现代数据中心运营的关键环节。该公司目前拥有超过300台集装箱式数据中心(含270余台20英尺及30余台40英尺规格)及3000台以上服务器的部署与运维经验,具备深厚的行业实践基础。
在正式部署前,Getwork于2025年11月至12月进行了为期两个月的实地验证。实验选取搭载NVIDIA H200 GPU的服务器作为对象,利用IBM工具实时追踪每颗GPU的温度、功耗、内存占用及运行负载。基于采集到的数据,技术团队对应用程序进行了深度优化,调整了GPU的使用策略。结果显示,在8颗GPU全速运行时的峰值功耗为5520瓦(温度75摄氏度),而优化后仅需1062瓦(温度40摄氏度),能耗降低幅度高达80%。
这一案例表明,在AI算力基础设施日益庞大的背景下,单纯依靠硬件堆叠已非长久之计,通过软件定义与智能监控挖掘能效潜力,将是未来数据中心降本增效的核心路径。对于中国正在大规模建设智算中心的行业从业者而言,如何在高功耗GPU集群中引入细粒度的可观测性工具,并建立“监控-分析-优化”的闭环机制,是提升绿色算力运营效率、应对能源成本压力的重要借鉴方向。
