我们专注服务于当下互联网基础设施建设与云计算、大数据时代的各种需求!

RAID中的SPARE Disk

SPARE 又称”Hot-Spare” 即热备份盘

RAID阵列中之所以要用热备份盘是和RAID本身的技术原因造成的。

RAID 5的校验信息分布在盘阵中的每块盘上,整个盘阵的有效容量是N-1

根据木桶原理,总容量按照最小的那个盘来计算。

RAID控制器通过固化在硬件中的程序来进行交验数据的生成和比对,用的算法是比较简单的XOR,盘阵中任何一个盘的损坏均不会对整个条带化数据产生影响,当磁头读到坏盘上的数据的时候,根据XOR这个简单的算法,可以很快速和简单的将本该有效的数据动态的算出来,然后对于操作系统和应用程序来说,丝毫感觉不到盘数据已经丢失了,因为RAID控制器在每次磁头读坏盘数据的时候都在不断的即时的将数据反推出来。

当坏盘出现后,服务器会报警,人工可以手动将坏盘替换出来,当插入好盘的时候,RAID控制器会根据XOR,将的三块盘的信息在后台算出来,然后写入新的硬盘。有些RAID控制系统会用NVRAM来存放阵列信息,因此和整列相关的条带化数据也会重新分配到新盘上,这些工作都对用户和应用程序来说都是透明的,用户可能会感受到的就是系统会因为在后台底层进行条带数据的重新分配而带来的服务器响应延迟。

当然,如果条件允许,用户也可以强制作重新分配,当然是在维护停机时间内操作。

好,看了上面的基础知识,大家可以知道,如果RAID 5的盘阵中即便出现一个坏盘,里的数据也不会丢失,甚至你可以不用去理睬他(当然系统性能会有比较大的下降)。

但是由于XOR的限制和RAID 5这个级别的限制,如果连续两个盘出现了问题,呢么整个盘阵中的数据就完蛋了,系统也会不可用。

特别是那些无人值守的机房,RAID 5中死掉一个盘,没有关系,如果他们比较倒霉,在管理人员没有更换坏盘的时候,第二个硬盘也死掉了,那麽就都完蛋了。

Hot-Spare盘就是一个不参与盘阵的,但是加电上线的盘,一点RAID 中的盘出现问题,它都可以自动的替换进入盘阵,你可以把它想象成一个”自动换盘”的概念。
但是Hot-Spare的代价是比较大的,因为这个盘根本就不参与日常的工作,所以基本上是通过银子提高保险系数。

通过嵌套的RAID也可以实现另外一种双保险,这种开销会比较小一点,而且整体性能会有比加大的上升。

比如RAID50技术,现在有很多用户作VOD系统,一般都推荐他们用RAID50,一方面容错性提高(据客户反映,一个20个客房的卡啦OK厅,停业一天的损失在5万人民币之内),RAID5是先做5然后做0,对于随机度和顺序读都有非常高的性能。

市面上的RAID控制卡大多会采用Intel i960R(N)芯片,现在最新的RAID控制卡均采用了StrongARM的芯片,然后是64MB~128MB之间的Cach和48小时的后备电池备份.