曙光分布式存储ParaStor300助力BGP地震处理解释一体化系统建设

项目背景

中国石油集团东方地球物理勘探有限责任公司在全国乃至全球设立数百个科研生产单位,以往的IT基础架构采用传统模式,存储使用统一存储、数据备份使用磁带库,面对日益增长的数据量以及对存储性能要求的提升,传统架构已经不能满足业务需求,迫切需要新的架构来提升存储访问效率。

通过多方调研和测试,东方地球公司决定采用分布式并行存储架构来支撑石油物探技术方法研究、应用软件开发、测试和地震数据处理、数据解释生产等关键业务系统。需支持GeoEast和GeoLightning石油地震数据处理—解释一体化应用软件系统。



方案设计

本次项目实为科研生产单位内部IT系统升级改造,而作为业务系统集群内的配套存储,要求满足标准化、高密度、高并发、高扩展,满足大数据处理解释业务需求。

ParaStor采用多副本、N+M纠删码等数据保护技术、全冗余设计,支持单一存储命名空间、支持容量海量扩展,性能线性扩展,能够满足高性能计算中心海量文件并发读写需求。

本方案规划采用8+2:1的保护策略,即8个数据对象匹配2个校验对象,这10个对象根据哈希算法分布在不同数据控制的不同硬盘上,这10块硬盘为一组,可以容忍2块硬盘同时失效而不至于数据丢失;整套存储系统可以容忍1台数据控制器失效而不至于数据丢失。在这种配置下,存储系统空间利用率可达到80%。



优势说明

1)  架构优势

ParaStor300采用元数据和数据分离的非对称式结构,这也是国际主流的并行存储系统架构,元数据和数据分离有助于提升存储系统的性能和扩展性。

ParaStor300的多台索引控制(默认配置2台)采用多活冗余集群结构元数据存储采用RAID6保护的SSD高速磁盘以提高元数据访问性能。曙光ParaStor300采用更高级的元数据冗余策略。ParaStor300的元数据控制器默认配置2台,同时支持更多的元数据控制器组成元数据集群,每台元数据控制器均为Active在线状态,正常工作时负载均衡并行文件系统客户端的元数据访问请求,一台元数据控制器出现故障时,其它元数据控制器分担其工作负载,接管时间非常短,且为在线切换,不中断正在进行的IO请求,不影响并行文件系统的业务运行。

2)  数据保护:

与传统磁盘阵列RAID保护技术相比,曙光ParaStor300的N+M纠删码技术具有明显优势。ParaStor300可以实现数据重建无人值守,比如深夜磁盘出现故障,传统RAID要立即人工更换磁盘,而ParaStor300只要有剩余空间就可以自动进行数据重建;ParaStor300的数据重建并发进行,1TB数据半小时内重建完成,而传统RAID的重建时间可能长达10小时到1天以上,而且RAID在数据重建期间磁盘负载很重,很容易出现雪崩效应,即继续出现磁盘损耗,导致RAID降级甚至数据丢失。

本方案采用的N+M保护策略,存储系统可以容忍M块硬盘同时失效。实际上M块硬盘“同时”失效的概率非常低,因为当ParaStor300的1块硬盘失效后,系统会在很短时间内在其它硬盘上自动完成数据重建,重建完成后,ParaStor300又可以容忍M块硬盘同时失效。数据修复过程完全无人值守。用户只用定期更换故障硬盘即可,更换新硬盘后,ParaStor会自动进行底层数据迁移,平衡容量。

3)  分级存储

ParaStor300存储系统支持自动透明的分级存储功能,采用SSD和SATA磁盘相结合,既能保障存储系统容量,又能提高存储系统访问性能,具有极高性价比。

用户的热点数据优先存放在SSD分区,冷数据自动迁移到SATA分区,回热数据可以回迁,数据迁移策略综合数据访问频率、文件大小等因素,迁移策略用户可干预和定制。数据迁移过程在SSD和SATA磁盘之间以数据块级别并发进行,速度快且对存储性能影响较小,整个数据迁移过程自动透明,用户看到的是一个统一完整的数据访问空间。

4)  扩展能力

ParaStor300分布式存储系统具有极佳的扩展性,最大支持4096个存储服务器节点,真正做到EB级存储。支持在线扩容,且不影响业务系统使用。增加数据控制器后,数据对象自动实现负载均衡的迁移分布,使得整个存储系统实现容量和性能的线性增长。

方案优势说明

源代码级调优,针对叠前业务系统深度优化,提升业务系统运行效率及可靠性;

端到端服务曙光开发工程师与客户业务系统负责人与直接对话,提升效率;

减少了将近50%的投资,实现企业COST DOWN;

原厂7*24*365超白金级服务。


购买咨询 售后咨询 电话咨询