许多行业研究都表明,磁带归档是一种相对性价比最高的长期数据保存方法。而我们应当如何将主动归档以及其他相关的存储技术,与磁带系统进行更好地融合。

打开网易新闻 查看精彩图片

使用磁带存储的主要优势在于其非常理想的总体拥有成本。

从信息存储行业联盟(Information Storage Industry Consortium, INSIC)到Clipper Group,世界上有许多组织,都对磁盘归档和磁带归档体系的相关支出进行过详细的分析。根据TechTarget的报道,以5年时间为单位的话,在磁盘和磁带上维护500TB的归档数据的总体拥有成本大约是150万美元——包括设备购买、维护以及能源层面的支出——相比之下,磁带归档体系的总体拥有成本仅为25万美元。Clipper Group还考虑了相同容量下,磁盘和磁带存储体系,仅在能源成本层面的对比,磁盘产品比磁带产品贵了整整76倍

打开网易新闻 查看精彩图片

1 带磁盘或闪存介质的磁带归档体系

#当然,一些公司会更喜欢在磁带归档体系前端,建立一个由磁盘或闪存介质构建的缓冲区,以方便对归档数据进行更为快捷的调用。例如,一部电影文件已经被数字化,且存储在磁带归档系统中后,采用上述架构,最终用户可以尽快地对其进行访问;因为这样的架构可以省去单纯通过磁带库设备——寻找并确定电影被保存在了磁带库的哪一盘磁带的哪一段介质中,且精确挂载到电影从0秒开始播放的那一帧——这一较为琐碎过程(通常需要用时最多为2分钟)。

#而采用上述的架构就可以避免这2分钟左右延迟,通过将磁带库中的每部电影的两分钟片段,以文件的形式存储在磁盘或闪存阵列中。一旦收到对某部电影的播放请求,它就可以开始从磁盘调回这部电影的片段,同时,后端的磁带系统会在这两分钟内找到并加载对应的磁带磁条,随后,磁带可以无缝地接管在磁盘缓冲区中播放的文件,并最终完成整部电影的播放。磁带的伟大之处在于,其会以一致的传输速度,实现无抖动的视频内容回放,这也是为什么,磁带一直是媒体和娱乐行业首选的存储介质的原因之一。

2 从磁带到云端

#在一些现实场景中,主动归档体系中的存储缓冲区,(无论是使用磁盘还是闪存)仍然是在本地构建的,而磁带存储则被部署到了云端。有迹象表明,多家云计算服务供应巨头,正在使用磁带产品,构建自己的归档云服务体系。

#几年前的一场研讨会中,Azure云的架构人员,宣布会将磁带,作为未来,需要存储在云归档体系中的10-60ZB新数据的唯一介质选择。而磁盘、闪存和光学工业的综合生产能力,并不足以满足这种存储需求。

3 磁带归档:应对数据增长的良方

#目前,除了媒体和娱乐、能源、医疗健康和云服务行业,大多数的科研机构也在持续使用磁带归档体系,作为跟上数据存储容量需求上涨的一种应对方法。例如,位于纽约长岛的布鲁克海文国家实验室(BNL),通过使用粒子对撞机进行各种实验,会产生大量的科研数据。据BNL存储业务专家统计,由碰撞实验和其他工作产生的数据量从2009年的约2 PB增加到2014年的13 PB。

#到2016年,新原始数据的总量预计会达到20 ~ 30 PB。而BNL已经将8台磁带库(装载10,088盘磁带/磁带库)投入了生产环境中,并且可以使写入磁带后的数据仍然处于活跃状态。仅在2014年,BNL就从存档体系中恢复了750多万份文件,即每天20843份文件,约等于每小时868份文件。且这些数字一直在呈现增长态势。

打开网易新闻 查看精彩图片

据估计,磁带介质会继续存储世界上大约70%的数据,这一比例也将随着数据本身的增长而增长。而业界对大数据分析的应用场景是否会推动磁带归档的使用,还未达成一致意见。目前会有一些对象存储公司,以及专注于web-scale的软件定义存储公司,都鼓励客户对自身的数据采用“本地保护”和“本地归档”的模式,将数据存储在本地的超融合服务器设备或直连存储的简单服务器中;当数据符合归档保存的策略时,就可以直接将该节点做下电或关闭处理。

这种本地保护方法的支持者们表示,尽管大数据文件和对象的使用寿命可能是有限的,但这并不意味着用户需要舍弃它们。这些公司表示,在分析服务器集群中移动大量数据,可能会导致数据丢失的潜在危险;此外这也是客户希望避免的问题之一——任何的数据移动都有可能产生延迟。作为一种替代方案,同时也为了降低磁盘层面的支出成本,“本地保护&本地归档”的倡导者建议,关闭那些存有数据的驱动器,并将这些被下电或者关闭了的设备,直接视为一种冷数据归档体系。从表面上看,这也对应了上文提到的Clipper Group的发现:仅基于能源成本,磁盘归档体系要比磁带归档体系贵76倍。

当然,当需要给这些驱动器再加电时,我们可能得先去烧个香才行。