1、服务器故障原因及表现
服务器通常采用多块同型号硬盘组成不同级别的Raid来使用。Raid提供了不同级别的容灾措施,但它并不是万无一失的,即使是最安全的Raid-1也可能由于不可预见的原因导致数据彻底丢失。从我们接触的实际案例看,恰恰是阵列提供商所宣传的安全性,放松了用户的安全意识,最终造成数据丢失。例如Raid-5允许一块成员盘掉线而继续正常使用,实际中,90%以上的Raid-5故障均表现为两块以上成员盘掉线,且其中一块往往已掉线很久。这说明,当第一块故障盘亮灯并报警后,用户并未及时发现并排除故障,当第二块硬盘离线,Raid失效后才开始补救,为时已晚。
那么Raid为什么会出现故障?Raid安全性的基础是成员盘的安全可靠,由于机械硬盘存储密度的大幅提升以及厂商对成本的压缩控制,现在硬盘的质量已大不如前,很多硬盘仅仅使用几个月甚至更短时间即出现物理故障,当过多的硬盘出现故障,Raid的安全性就成了空谈。为提高性能,阵列上常常采用性能更高的服务器硬盘,这种硬盘可提供10000-15000rpm的转速,性能极佳。但它们在出现磁头损坏后,如不及时发现并断电,磁头很可能长时间与碟片接触,将碟片划伤,造成无法挽回的损失。
|
故障原因 |
故障表现 |
1 |
逻辑故障 |
1. 阵列中部分数据丢失或数据无法正常打开(文件系统损坏或文件结构破坏) 2. 阵列中某种格式(Office文档、压缩文件)无法正常打开(病毒破坏特定文件) 3. 在系统下,阵列未初始化(MBR损坏或分区表故障) 4. 阵列卷无法打开或提示格式化(文件系统损坏) 5. 误将阵列中一块多多块硬盘进行格式化操作 6. Raid重建(将Raid-1重建为Raid-0或反操作,将Raid-5重建为Raid-0或反操作等) |
2 |
成员盘物理故障 |
1. 多块成员盘指示灯报警 2. Raid管理器中多块硬盘离线或丢失 3. 阵列从系统下丢失并无法访问 4. 阵列呈现未初始化状态 5. 阵列重启后无法正常启动 6. 阵列同步过程中又有其它成员盘离线 |
3 |
阵列卡损坏 |
1. 阵列信息丢失,所有硬盘均呈现离线状态 2. 阵列在系统下无法识别 3. 无法进入Raid管理界面或查看Raid信息时死机 |
4 |
不恰当的阵列扩容 |
1. 多块成员盘指示灯报警 2. 阵列呈现未初始化状态,无法正常访问 3. 扩容后容量不正常,或发生卷丢失 4. 扩容后部分或全部文件丢失 |
5 |
盘序标记错误 |
1. 阵列无法正常启动 2. 在Raid管理中,阵列呈现未初始化状态 |
2、Raid发生故障如何避免数据丢失
用户在阵列出现故障后,通常首先向供应商求助,但供应商仅能保证阵列重新正常运行,并不对用户数据安全负责。所以供应商通常采取的措施是将离线硬盘剔除,替换完好硬盘让阵列自行做同步操作,正常情况下,这种做法是安全的,但如果成员盘先后离线时间间隔较长,提前离线的硬盘可能在重启后恢复正常并参与同步,它并未存储其离线后的“新鲜”数据,当其参与同步操作时,就把整个阵列数据“污染”了,导致数据在同步完成后丢失或无法正常打开,最明显的表现为:数据越新越大,损坏的概率越高,数据越旧越小,损坏概率越低。
数据恢复厂商与服务器供应商所提供的解决方案是不同的,数据恢复公司提倡先将数据完整恢复,再对阵列采取修复措施,甚至可以在替换故障硬盘后直接对阵列进行初始化,再将已经完整恢复的数据拷贝回去。对于大容量阵列来说,磁盘同步是个工作量巨大的操作,所有成员盘可能在连续几天的时间里不间断进行读写操作,一些存在质量问题的硬盘可能在这一过程中损坏。在技佳数据恢复中心的案例中,经常出现同步过程未结束,原来正常的硬盘又离线的情况,而这时再进行数据恢复,难度很高。