从灵犀到灵犀云,咪咕AI平台构建

项目背景

咪咕公司是中国移动面向移动互联网领域设立的,负责数字内容领域产品提供、运营、服务的一体化专业子公司。互联网从PC 桌面时代延伸到现在的移动互联网时代,更多的移动设备进入消费者的视野,这是一个需要革新人机交互方式的时代。智能语音提供了一种免于接触设备的交互方式,解除频繁点击触摸屏的枷锁,将多数设备连接到局域网中就可以实现“一呼百应”的声音操控。灵犀云的发布,展现了传统运营商莫大的魄力。

需求简介

咪咕公司本项目采购机架式GPU服务器,为满足咪咕公司灵犀云三期扩容工程的建设,主要内容是在原有灵犀云的基础之上新增对AI平台的构建,作为AI平台构建研究的先期实践性项目,同时为后续咪咕GPU服务器集中采够的需求提供建议和指导方针。主要构建规模化和系统性的人工智能集群用于日常训练和应用推理需求。重点通过对灵犀云智能语音项目的实践完成对GPU服务器构建集群的探索和对集群资源调度管理方面的研究。

咪咕公司GPU应用服务器,是为了满足咪咕公司灵犀云三期扩容工程项目大规模数据计算要求,对GPU服务器的配置和管理提出技术要求,由GPU应用服务器供应商进行有针对性舍弃和优化的服务器。

总体技术要求:

1)  满足特定AI业务的GPU服务器具体配置要求:

2)  基于通用X86架构的机架式服务器,支持标准19英寸机架式安装;

3)  最优的性能功耗比;

4)  能够在18℃-30℃环境温度下长时间稳定运行;

5)  支持良好的远程监控、管理能力;

6)  支持当前主流的服务器操作系统和虚拟化软件,包括Ubuntu Linux、CentOS、Windows 2008 Server等,以及VMWare、Hyper-V、Xen、KVM等。

7)  配置GPU并行编程环境,安装深度学习开源工具如TensorFlow、Keras、CNTK、Caffe、MXNet、Kaldi、Torch等。

通过AI集群的构建,向上提供智慧算力,加速灵犀云在人工智能的计算智能、感知智能和认知智能三个层次中的发展。

第一层:计算、记忆;

第二层:感知,借助传感器、图象、语音识别技术不断进步,通过GPU底层算力的支持通过学习和训练使得感知智能与人类接近;

第三层:认知,让人工智能能理解会思考,这必须要突破语言理解,知识表示,联想推理和自主学习等四个方面;

以上三方面的发展进步都离不开底层AI集群提供算力的支持和对集群进行有效管理快速释放算力持续加速的支持。

解决方案

曙光AI产品系列中的GPU服务器主要面向中高功率密度数据中心和标准19’机架,并能够实现灵活采购和部署的一类GPU服务器。

其中本次配置采用了4U8卡GPU服务器分别搭配4块P100和P40,同时还配置了双口25GE光纤网卡,支持RoCE,提高了设备信息处理的带宽,降低了信息传输中的延迟,主要面向人工智能中的深度学习使用场景。

W780-G20采用Intel极具成熟度的E5-2600 V4系列处理器,为用户的各项应用提供更好的适配性和更高的性能。本次实配两颗处理器,每处理器搭配12根内存插槽,共24根内存插槽,最大可以支持3TB ECC LRDIMM内存,集成高性能SATA控制器,支持最多达24颗热插拔2.5吋硬盘,同时支持8颗业内主流加速器产品。

对满足需求的GPU卡与本项目选用的GPU服务器进行系统稳定性测试和GPU卡性能测试,并提供相关测试方法和测试报告,有力的验证了产品的稳定性和高性能。                                                  

曙光深入理解咪咕的AI集群构建需求、分享了曙光在互联网行业中的一些配置和实践经验。同时还搭配了曙光的集群管理软件和运维管理软件,为咪咕AI域的构建提供全方位的工业设计、作业调度、集群监控管理以及运维等功能,方便快捷的应用软件服务,强大的作业调度让计算更加高效,丰富的集群配置、管理工具,让集群管理更加简化。集群运行状态精细化展现,集群异常状况及时告警,让系统隐患防患于未然。系统直观展示各类软硬件资源的运行状况,准确快速地定位设备故障源,保障各种 IT 设备的安全稳定运行。结合曙光人工智能服务平台SothisAI的成功经验,证明了曙光GPU服务器基于集群和容器化构建AI平台的可行性,提供了基于GPU服务构建AI集群的一体化解决方案。

image.png

集群监控管理和作业调度软件GridView架构


购买咨询 售后咨询 电话咨询