曙光ParaStor300助力中国电科院协同仿真计算系统

项目背景

电科院协同计算系统提供方式计算数据集中管理和分散维护、多人异地协同计算以及快速的大规模电网并行分布式仿真计算功能。协同计算系统主要面向各级调度运行方式工作,包括年度/夏滚/冬滚、2~3年、月度方式计算等。按照工作需求,每次计算有几套数据,每套数据中有许多计算分析内容,总容量在200T~300T之间。

协同计算功能包括工程管理,潮流计算,暂稳计算等。

以潮流计算为例,潮流作业表包括:LF_CASE_ACLINE、LF_CASE_COMPENSATOR_P、LF_CASE_COMPENSATOR_S、LF_CASE_DCLINE、LF_CASE_LOAD、LF_CASE_NODE、LF_CASE_UNIT等。在每个工程中,有很多个潮流作业,每个潮流作业数据量大概10w条,所有潮流作业数据都存在相同的表中,作业间以case_no区分。潮流作业数据是批量插入的,并且经常性删除和插入,并发50个作业同时插入作业时,有较大的IO性能要求。

本系统存储的设计需要考虑存储的IO吞吐能力、IO带宽等。本系统核心计算程序是fortran开发的,和系统接口的方法是采用输入输出文件。系统后台使用计算机群进行计算,计算机群上的计算程序是一样的。计算文件采用NFS方法共享给所有计算节点使用,减少了数据文件在计算节点间的传输,简化了程序。但是,产生了io瓶颈,国调计算服务器21个,每个服务器上同时可以启动10~20个计算任务,即计算任务并发数在210~420。

现有业务系统计算节点、存储节点均采用千兆互联的方式,在使用中存在严重带宽不足等情况,影响业务运行,本期项目建设需要同步考虑将系统升级扩容至万兆互联。



方案设计

本次项目实为电科院内部IT系统业务系统内配套存储及其它IT基础解决方案的综合性方案,要求满足标准化、高密度、高并发、高扩展,满足数据并发访问处理需求。

ParaStor是曙光自主开发的分布式并行存储系统,采用多副本、N+M纠删码等数据保护技术、全冗余设计,支持单一存储命名空间、支持容量海量扩展,性能线性扩展,能够满足高性能计算中心海量文件并发读写需求。



优势说明

1)架构优势

ParaStor300采用元数据和数据分离的非对称式结构,这也是国际主流的并行存储系统架构,元数据和数据分离有助于提升存储系统的性能和扩展性。

ParaStor300的多台索引控制(默认配置2台)采用多活冗余集群结构元数据存储采用RAID6保护的SSD高速磁盘以提高元数据访问性能。曙光ParaStor300采用更高级的元数据冗余策略。ParaStor300的元数据控制器默认配置2台,同时支持更多的元数据控制器组成元数据集群,每台元数据控制器均为Active在线状态,正常工作时负载均衡并行文件系统客户端的元数据访问请求,一台元数据控制器出现故障时,其它元数据控制器分担其工作负载,接管时间非常短,且为在线切换,不中断正在进行的IO请求,不影响并行文件系统的业务运行。

2)数据保护

与传统磁盘阵列RAID保护技术相比,曙光ParaStor300的N+M纠删码技术具有明显优势。ParaStor300可以实现数据重建无人值守,比如深夜磁盘出现故障,传统RAID要立即人工更换磁盘,而ParaStor300只要有剩余空间就可以自动进行数据重建;ParaStor300的数据重建并发进行,1TB数据半小时内重建完成,而传统RAID的重建时间可能长达10小时到1天以上,而且RAID在数据重建期间磁盘负载很重,很容易出现雪崩效应,即继续出现磁盘损耗,导致RAID降级甚至数据丢失。

本方案采用的N+M保护策略,存储系统可以容忍M块硬盘同时失效。实际上M块硬盘“同时”失效的概率非常低,因为当ParaStor300的1块硬盘失效后,系统会在很短时间内在其它硬盘上自动完成数据重建,重建完成后,ParaStor300又可以容忍M块硬盘同时失效。数据修复过程完全无人值守。用户只用定期更换故障硬盘即可,更换新硬盘后,ParaStor会自动进行底层数据迁移,平衡容量。

3)分级存储

ParaStor300存储系统支持自动透明的分级存储功能,采用SSD和SATA磁盘相结合,既能保障存储系统容量,又能提高存储系统访问性能,具有极高性价比。

用户的热点数据优先存放在SSD分区,冷数据自动迁移到SATA分区,回热数据可以回迁,数据迁移策略综合数据访问频率、文件大小等因素,迁移策略用户可干预和定制。数据迁移过程在SSD和SATA磁盘之间以数据块级别并发进行,速度快且对存储性能影响较小,整个数据迁移过程自动透明,用户看到的是一个统一完整的数据访问空间。

4)扩展能力

ParaStor300分布式存储系统具有极佳的扩展性,最大支持4096个存储服务器节点,真正做到EB级存储。支持在线扩容,且不影响业务系统使用。增加数据控制器后,数据对象自动实现负载均衡的迁移分布,使得整个存储系统实现容量和性能的线性增长。


方案优势说明

解决了传统存储的带宽瓶颈问题;

曙光自带的私有客户端及对NFS的深度优化,解决了标准NFS协议访问的中断问题;

提升了系统的并发访问能力,可以同时为多个省级节点提供计算访问服务;

投资成本优于传统FC SAN架构,性价比更高;

交钥匙工程,从前期设计,到方案POC验证,到招投标,到最后项目交付,曙光原厂工程师全程参与支持,客户省心放心;

原厂7*24*365超白金级服务,本地化服务;


购买咨询 售后咨询 电话咨询