海量存储机群系统中提高系统MTTF的设计和分析

时间:2010-04-16来源:网络

从图上可以很明显地看到三个特点。第一,在相同节点数目下,备份数越多,系统的MTTF越大,这是所预期的。第二,当节点数目达到1000的时候,在2个备份的情况下,系统MTTF小于1小时;在3个备份的情况下,系统MTTF仍能保持在400小时(约为16天)左右。这些值与前面的理论分析基本一致,数值都在相同的数量级。第三,当备份数只有1或2个的时候,随着节点数的增加,系统MTTF显著下降;而当备份数是3个的时候,随着节点数的增加,系统MTTF基本保持不变。这个现象可以解释如下。首先,当备份数只有1或2个的时候,系统MTTF随着节点数的增加而下降的原因是:当节点数增多时,系统中出现节点失效的可能性就增大。比如,对于一个包含1000个节点的机群系统,若每个节点的失效速率为l,则系统中出现节点失效的速率为1000l。在这样高的失效速率下,很容易发生包含同一个状态块备份的两个节点(当备份数为2时)几乎同时失效。另外,随节点数的增多,状态块的数目也成倍增加,这也增加了系统中出现某状态块丢失的可能性。其次,当备份数有3个的时候,系统MTTF随着节点数的增加能保持稳定的原因是:当节点数增多时,虽然系统中出现某个节点失效的可能性增大,会降低系统MTTF,但另一个能起到相反的作用因素显著表现出来。这个因素就是通过并发拷贝操作,大大降低对象状态转移时间。举个例子。假设一个机群系统有1000个节点,每个节点存储着100个状态块,每个状态块大小为64M。当一个节点失效后,系统就会为其上的100个状态块寻找一对源节点和目标节点进行转移。正常情况下,在100Mb/s的网络里,若只使用一半带宽的话,转移一个状态块需要(64MB*8b/B*2)/(100Mb/s),即,近似为10秒。那么,转移100个状态块需要1000秒左右,即,近似为15分钟,这是很长的一段时间。但考虑到系统中有1000个节点,很容易找到这样100对源节点和目标节点,它们没有任何两个节点是相同的。在这种情况下,拷贝操作完全可以并发进行,100个状态块可在10秒内拷贝完毕,这是很短的一段时间。

缩短拷贝时间的最大好处是,在拷贝期间发生新节点失效的可能性减小,进而这样就可以减小某个状态块丢失的可能性。为了证明降低拷贝时间的作用,考虑如下对比实验。对于备份数为2和3的那两组实验,将原先的tratio的限制舍弃不用,而限制系统中正在进行拷贝的节点数目的上限为10个。如果实验的结果表明,随节点数的增加,系统MTTF显著降低,那么就证明了降低拷贝时间对提高系统MTTF的作用。图3显示的是得到的实验结果。作为对比,把没有该限制的原实验结果也画在图上,用虚线表示。实验的结果正如所预料的,在两种实验情况下,系统MTTF都随节点数增加,而显著降低。特别地,当节点数为1000时,在备份数为2的情况下,系统MTTF远低于1小时;在备份数为3的情况下,系统MTTF只有2小时左右。这些性能数据,都比原先没有该限制的实验,要低得多。


图3有并发限制与无并发限制的比较

5 结论

本文提出了一个新的动态备份策略,并行数据备份策略。研究表明,该策略可显著地提高系统的MTTF。特别地,当系统节点数目达到1000的时候,在3个备份的情况下,系统MTTF仍能保持在几十天的数量级。并且指出该策略的有效性主要来源于通过并发拷贝操作,大大降低了对象状态的转移时间。

本文创新点

本文提出了一个新的动态备份策略,并行数据备份策略。通过详细的理论分析和仿真实验,指出该策略可以在系统中当节点数达到成百上千时显著地提高系统的MTTF。该策略若使用在海量存储系统中,可以显著地提高数据的可靠性。

1 2 3

关键词: MTTF 海量存储 分析 机群系统

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版