互联网

曙光已成功携手诸多互联网行业客户,共同定义并打造具有超高运算能力,符合用户前瞻需求与行业生态版图规划的市场竞争力产品,帮助用户建立智能化与高附加值规模计算基础支撑平台,达成计算力规模化、高性能、可扩展的最佳实践。在当今AI与5G肇兴的热潮当中曙光将依旧以持续不断的创新开辟前路,推动技术社会进步,帮助以互联网客户为代表的各行各业连接更广泛多元的用户群体,优化资源配置,提升效率,赋能用户商业生态。

首页 > 行业解决方案 > 互联网 > 人工智能云计算平台解决方案

人工智能云计算平台解决方案

曙光人工智能云计算平台解决方案提供快速、稳定、弹性的GPU计算资源。同时平台集成了数据集管理、模型管理、训练等服务,支持Caffe/TensorFlow等多种深度学习框架,灵活的资源调度策略,使训练过程更加高效、弹性。极大的简化了企业构建深度学习平台的难度,提高资源使用率,降低了业务投入成本,使用户更加专注于深度学习应用本身。主要应用于深度学习训练/推理、图形图像处理以及科学计算等场景。

强大的计算能力

通过构建云GPU计算资源,具有高并行、高吞吐、低时延等特点,性能比传统架构显著提高

容器化深度学习平台

容器化学习平台实现快速环境部署及作业指派,有效降低多应用程序安装、迁移复杂度

兼顾AI和HPC计算环境

支持SLURM和K8S双调度系统,及主流计算框架,灵活的资源调度策略,使训练过程更加高效、弹性

方案架构

人工智能云计算平台解决方案.jpg

曙光人工智能云计算平台解决方案底层依托云计算的弹性资源,中层则采用XMachine高性能集群组成云GPU计算平台。计算数据、日志log和模型数据统一存储在曙光ParaStor300分布式并行存储中。并通过曙光容器化的企业级分布式深度学习平台,提供数据集管理、模型管理、训练等服务。帮助用户解决多用户组资源分配、开发环境快速搭建、应用程序灵活迁移等技术需求。该系统以主流深度学习框架为基础,支持Caffe/TensorFlow等多种深度学习框架,与Kubernetes和Docker容器技术相结合,提供实验环境、离线任务和在线服务三大功能,支持业务从模型研究、批量训练到在线预测的全流程打通,完美的满足了一站式深度学习训练与实时推理的需求,是目前具有高性价比的整体 AI 训练与推理解决方案。

方案价值

产品推荐

X795-G30
天阔X795-G30服务器是曙光基于Intel最新的Purley平台开发的一款高性能双路服务器,主要面向深度学习用户。X795-G30最大可以支持2TB LRDIMM内存,集成高性能SATA控制器,支持最多达24颗热插拔2.5吋硬盘,同时支持8颗英伟达NVLink2.0通信协议的加速器产品,如此强大的扩展性足以支撑HPC任务的运行,特别适合深度学习用户进行离线网络训练环境。
查看详情 >
ParaStor300S
ParaStor300S是曙光公司针对大数据时代的用户特点,面向海量非结构化数据存储需求而设计的一款可横向扩展的高端分布式存储系统。ParaStor300S可广泛应用于高性能计算、生物信息、气象预报、环境监测分析、地震监测、能源勘探、视频监控等领域。
查看详情 >
Gridview I(集群OS)
Gridview工业设计仿真云平台是依托“工业4.0”理念设计的全新平台。平台实现了设计、前处理、仿真、后处理中资源与数据全线统一。结合用户CAM/PDM/PLM系统,实现协同设计、仿真、制造、管理一体化解决方案,有效缩短产品设计周期,提升生产制造效率。
查看详情 >
购买咨询 售后咨询 电话咨询