咪咕公司AI域基础平台建设

项目背景

咪咕公司是中国移动面向移动互联网领域设立的,负责数字内容领域产品提供、运营、服务的一体化专业子公司,是中国移动旗下音乐、视频、阅读、游戏、动漫数字业务板块的唯一运营实体,下设咪咕音乐、咪咕视讯、咪咕数媒、咪咕互娱、咪咕动漫五个子公司。

目前,咪咕已成为国内领先的全场景品牌沉浸平台,汇聚超过1700万+首歌曲、430万条视频、1200+路音视频直播、50万+册书刊、3万+款游戏、47万集动漫画。基于如此庞大而海量的数据,咪咕承载着中国移动大部分的人工智能业务。而为了更好的开展人工智能技术的研发与应用,咪咕采购GPU服务器及相关软件用于AI域的技术平台构建。

需求简介

咪咕公司集中采购机架式GPU服务器,是为了满足咪咕公司IT资源池项目大规模数据计算要求,主要建设超大规模的人工智能线下训练平台、线上推理平台及相应的云计算平台,重点研发适用于通信行业的人脸识别、智能客服、舆情分析等AI技术和应用。根据GPU服务器的配置和管理要求,GPU服务器供应商进行有针对性舍弃和优化的服务器。

机架式GPU服务器应按照目前大型、云计算数据中心的要求,简化现场维护,并提高对远程、自动化运维管理的支持能力。

总体技术要求:

1)  满足特定业务的具体配置要求

2)  基于通用X86架构的机架式服务器,支持标准19英寸机架式安装;

3)  最优的性能功耗比;

4)  能够在18℃-30℃环境温度下长时间稳定运行;

5)  支持良好的远程监控、管理能力;

6)  支持最新的各种Linux版本,预装CentOS 7.2,具体操作系统及版本号以客户实际需求为准。

7)  配置GPU并行编程环境,安装深度学习开源工具如TensorFlow、Keras、CNTK、Caffe、MXNet、Kaldi、Torch等。

解决方案

曙光AI产品系列中的GPU服务器主要面向中高功率密度数据中心和标准19’机架,并能够实现灵活采购和部署的一类GPU服务器。

其中本次典配1和典配2采用4U8卡GPU服务器分别搭配4块V100和P40,同时还配置了双口25GE光纤网卡,支持RoCE,提高了设备信息处理的带宽,降低了信息传输中的延迟,主要面向人工智能中的深度学习使用场景。

W780-G20采用Intel极具成熟度的E5-2600 V4系列处理器,为用户的各项应用提供更好的适配性和更高的性能。本次实配两颗处理器,每处理器搭配12根内存插槽,共24根内存插槽,最大可以支持3TB ECC LRDIMM内存,集成高性能SATA控制器,支持最多达24颗热插拔2.5吋硬盘,同时支持8颗业内主流加速器产品。

对满足需求的GPU卡与本项目选用的GPU服务器进行系统稳定性测试和GPU卡性能测试,并提供相关测试方法和测试报告,有力的验证了产品的稳定性和高性能。

本次典配3和典配4采用4U4卡GPU服务器分别搭配4块P40和P4主要面向人工智能中的在线推理使用场景和视频编解码使用场景。

W580-G20采用Intel芯片组设计,系统可以提供超强的专业显卡扩展能力,配合独具特色的机箱设计,不仅保证系统在高配置下的散热和稳定,而且大大降低了机器噪音。配合上架套件,W580-G20还可以方便地转化为4U机架式服务器。

W580-G20支持双路Intel E5-2600V4系列至强处理器,使用先进的DDR4内存,大幅提高内存带宽,更加适合在线推理、视频编解码和图形渲染、多媒体编辑等处理工作。

曙光深入理解咪咕的AI应用、协助搭建AI训练模型、不断提出优化建议,分享了曙光SothisAI的技术。曙光SothisAI是专门面向深度学习的云平台, 嵌入了 caffe 和 tensorflow 等深度学习框架,同时融合了任务调度系统,结合 docker 容器技术,为用户提供深度学习计算服务, 集中了数据集管理、镜像管理、容器管理、模型管理、文件管理、任务管理和资源管理等。实现对高性能计算资源的调度分配、训练任务提交、任务管理、资源状态监控等功能。提供深度学习集群的一体化解决方案。

image.png

人工智能服务平台SothisAI

同时还搭配了曙光的集群管理软件,为咪咕AI域的构建提供全方位的工业设计、作业调度、集群监控管理等功能,方便快捷的应用软件服务,让工业设计更加简单,强大的作业调度让计算更加高效,丰富的集群配置、管理工具,让集群管理更加简化。集群运行状态精细化展现,集群异常状况及时告警,让系统隐患防患于未然。系统直观展示各类软硬件资源的运行状况,准确快速地定位设备故障源,保障各种 IT 设备的安全稳定运行。

购买咨询 售后咨询 电话咨询