方案设计

基于用户真实的Workload,提供GPU算力集群,IB组网,高性能+大容量存储,AI集群管理平台,UFM IB网络管理,NVAIE(vCS),训练框架,Transformer模型推荐,迁移学习,预训练模型,FINE-TUNING,底层NCCL通信,分布式并行架构设计等一整套解决方案设计与咨询服务。

技术服务与咨询

性能调优

如:指导安装NVIDIA-Nemo Megatron,调试训练流程卡住不动问题,排除Nemo-Megatron 出现报错问题,调试无法正常加载Checkpoint问题,解决无法正常安装DeepSpeed问题,排除C++ 无法正常编译Apex及安装Apex 后显示报错问题等

预测性维护

代建代维方案设计

按照订阅式服务模式,企业支付技术服务费,宽恒信息提供全栈硬件、软件、算法工程师、IDC运维服务。(具体细节另行协商)

企业和 IT 系统