强大的计算能力:搭载中兴通讯新一代的英特尔至强可扩展处理器,提供了强大的通用计算能力,为大模型训练中的各种复杂计算任务提供了坚实的基础。在GPU 配置上,可搭载 8 个 H800 NVLINK GPU 模组或 8 个 OCP OAM 8 - GPU模组,这使得服务器的计算性能和数据处理能力得到极大提升,能够轻松应对大模型训练中大规模的数据并行计算和复杂的神经网络运算。
高速网络通信:支持节点间 IB/RoCE 组网,无阻塞带宽高达4.8Tbps,这使得数据中心内部的数据传输速度极快且延迟极低。在大模型训练中,不同节点之间需要频繁地进行数据交互和通信,高速的网络通信能力可以确保数据的快速传输,避免因网络延迟而导致的训练效率下降,为大规模分布式训练提供了理想的网络环境。
出色的能效表现:采用了多种节能技术,能根据系统的实时功耗自动调节风扇的转速,以满足系统的冷却需求,避免了不必要的能源浪费。采用了GPU + CPU 双液冷技术,不仅可以大幅度降低风扇的转速,还能更有效地带走服务器运行时产生的热量,整机功耗下降幅度超过1000W。还采用了 N + N 钛金电源模块,提高了电源的转换效率,降低了能耗。这些能效优化措施使得 R6900 G5在运行大规模训练应用时,能够以更低的功耗提供强大的性能,降低了数据中心的运营成本和能源消耗。
高可靠性和稳定性:采用关键部件模块化设计,便于维护和更换,提高了系统的可维护性和可靠性。这种设计也有助于在某个部件出现故障时,快速定位和替换故障部件,减少系统停机时间,保障大模型训练的连续性。服务器还具备实时监控CPU、内存运行状态的功能,通过 IPMI2.0 接口提供带外管理,能及时发现系统中的潜在问题并进行处理,确保服务器稳定运行。