Loading
17Nov 2017

0

0

性能王者、储迅荣耀----StorSwift分布式存储助力大规模基因计算

基因计算高速发展

变幻莫测的基因排序决定了人类的遗传变异特性。人类基因组研究是一项生命科学的基础性研究。有科学家把基因组图谱看成是指路图,或化学中的元素周期表;也有科学家把基因组图谱比作字典。但不论是从哪个角度去阐释,破解人类自身基因密码,以促进人类健康、预防疾病、延长寿命,其应用前景都是极其美好的。

随着基因测序成本降低,基因检测变得越来越普遍,研究人员通过基因测序的手段,基于患者的疾病表现和对药物的耐受性等,对不同的患者进行最佳的个性化治疗。同时,通过DNA样本、医疗记录等,建立强大的、全面的医疗数据库,通过大数据分析,从中找到影响各类遗传疾病的特定基因,以此在临床应用中改善疾病的诊断、治疗和预防。

 

基因计算对大容量高性能存储的需求

研究人员面临的挑战是如何管理和分析这些大量的、非结构化的基因组数据。仅单个人的基因组“运行”就会产生500GB的原始数据文件,这些文件都很复杂,包含了分散的、非结构化的科学数据,难以管理和分析。要想成功梳理这些复杂的非结构化科学数据,研究人员需要能大量计算和高速分析数据以及具有灵活性的计算系统,但是传统的计算系统跟不上数据需求的发展脚步。

在基因组学研究中,数据集往往需要被存储、分析,然后再次存储。这将是一个惊人的数据量,所有的数据都必须存储在外部存储设备,以便将来通过网络传送到计算机,分析后再存储回外部存储设备。这个过程给传统的IT基础设施带来了难以置信的负担。大多数存储管理设备并不能承受这些工作负载带来的压力,因为其不具有当今生物医学应用所需的可扩展性、持续性和长期性。

对于研究机构来说,寻找分布式文件存储的解决方案非常重要,因为它不仅能轻松存储数据,而且其他研究人员还能再次访问,进一步利用已经存取的PB级数据进行更多的计算和分析。储迅的分布式文件存储系统CX-CLOUD-FS因其高性能、高扩展性、高可靠性、易管理易维护等诸多优点,能为基因计算平台带来最佳的数据存储和保障机制,是基因计算和高性能计算领域的推荐存储平台。

 

CX-CLOUD-FS在北京某基因计算公司的应用

为了满足北京某基因计算公司大规模集中存储的需求,上海储迅信息技术有限公司为其设计并部署了一套CX-CLOUD-FS分布式文件存储系统,该系统提供了对复杂的非结构化数据的高速读写能力。同时,拥有几乎无限扩展的存储容量,这使得应用/计算服务器、大数据分析软件能直接查询和读写同一存储池,对海量数据的管理也变得轻松简单。

 

第一批上线10个CX-CLOUD-FS存储节点,客户端读写带宽轻松超越16GB/s,所有数据均做副本,支持最多5个节点的掉线、断电或者损坏,保证数据的最大可靠性。采用Infiniband网络连接,提供更高的带宽及更小的访问延迟。支持高速TCP/IP读写模式和RDMA模式,全面满足基因计算等高性能计算的业务需求。

 

CX-CLOUD-FS功能特性:

统一命名空间:多台使用本系统的存储节点可以整合成一个命名空间,对于用户来说看到的是单一的文件路径,用户只需要把文件存入其中即可,不用关心文件的具体存放位置。

横向扩展(Scale Out):容量和性能不够时,简单添加存储节点即可,不影响现有的业务的运行,不需要更改应用架构设计。

企业级接口兼容性:用户可以通过多重文件访问接口(支持POSIX访问的自带客户端、标准的CIFS和NFS访问协议、FTP、以及对象存储接口)。

高性能(High Performance):系统从缓存优化、节点内部数据同步、节点带宽聚合等多个层次大力提升系统的性能,满足高并发性读写系统的IO需求,同时支持RDMA高性能访问模式,支持Windows/Linux客户端专用引擎调优。

高可用性(High Availability):多重技术实现高可用性,当任意存储节点出现硬件故障(比如电源损坏、硬盘坏盘,甚至整个节点无法被访问),或者软件问题(比如某节点的文件损坏),对存储系统的使用者来说,数据仍然可以正常读写。通过设置,支持多个节点完全损坏时数据仍然可以正常读写。

高稳定性(High Stability):利用多种技术,从硬件和软件方面对系统的稳定运行做了充分保障,降低坏盘率,整套系统可以超长时间无故障运行。

海量容量(Huge Capacity):本系统可以无缝扩容,总容量轻松上100PB,完全可以满足当前大规模企业应用的需求。

访问控制(Access Control):本地无限层权限设置,并支持Windows Active Directory/LDAP验证模式。

易维护(Easy Maintenance):采用多种优势技术(比如无缝扩容,基于Easy UI的Web管理系统以及集中管理系统、硬盘极速重建技术等),使得产品上线运行之后,用户能以最低的成本进行管理和维护。