集群核心能力
千卡
规模集群
3.2T
IB 网络带宽
99.9%
可用性保障
50%
训练效率提升
高性能集群架构
InfiniBand 高速互联
采用 NVIDIA InfiniBand NDR 网络,单端口 400Gbps,实现节点间微秒级延迟通信。
- 3.2Tbps 聚合带宽
- 亚微秒级延迟
- 多轨网络拓扑
NVLink 全互联
GPU 之间通过 NVLink/NVSwitch 实现全互联,突破 PCIe 带宽瓶颈。
- 900GB/s 双向带宽
- 8 GPU 全互联
- 零拷贝通信
高性能存储
并行文件系统,PB 级存储容量,满足大规模训练数据读写需求。
- 100+ GB/s 吞吐
- 千万级 IOPS
- 多层级缓存
适用场景
大语言模型预训练
支持千亿、万亿参数大模型的分布式预训练,提供 DeepSpeed、Megatron-LM 等训练框架优化。
GPT 类模型
MOE 架构
多模态模型
模型持续训练
基于预训练模型的持续预训练和领域适配,支持增量训练和全参数微调。
领域适配
知识更新
多语言扩展
科学计算
分子动力学模拟、气象预测、计算流体力学等高性能科学计算场景。
分子模拟
气象预测
基因测序
自动驾驶训练
大规模感知模型训练、端到端自动驾驶模型训练,支持海量路测数据处理。
BEV 感知
端到端模型
数据闭环
集群规格
多种集群配置可选,支持按需定制
标准集群
适合中等规模训练
64
卡
- NVIDIA A100 / H100
- 8 节点 × 8 GPU
- InfiniBand 200G
- 200TB 并行存储
推荐
大型集群
适合大规模训练
256
卡
- NVIDIA A100 / H100
- 32 节点 × 8 GPU
- InfiniBand 400G
- 1PB 并行存储
超大规模集群
适合超大规模训练
1024
卡+
- NVIDIA H100
- 128+ 节点 × 8 GPU
- InfiniBand NDR
- 5PB+ 并行存储
技术栈支持
DeepSpeed
Megatron-LM
PyTorch FSDP
Colossal-AI
vLLM
TensorRT-LLM
NCCL
Kubernetes