服务器数据恢复浅谈-技佳数据恢复公司

业内新闻

服务器数据恢复浅谈

发布时间：2015-08-22 09:58:22 发布者：技佳数据恢复中心 --转载请注明出处--

1、服务器故障原因及表现

服务器通常采用多块同型号硬盘组成不同级别的Raid来使用。Raid提供了不同级别的容灾措施，但它并不是万无一失的，即使是最安全的Raid-1也可能由于不可预见的原因导致数据彻底丢失。从我们接触的实际案例看，恰恰是阵列提供商所宣传的安全性，放松了用户的安全意识，最终造成数据丢失。例如Raid-5允许一块成员盘掉线而继续正常使用，实际中，90%以上的Raid-5故障均表现为两块以上成员盘掉线，且其中一块往往已掉线很久。这说明，当第一块故障盘亮灯并报警后，用户并未及时发现并排除故障，当第二块硬盘离线，Raid失效后才开始补救，为时已晚。

那么Raid为什么会出现故障？Raid安全性的基础是成员盘的安全可靠，由于机械硬盘存储密度的大幅提升以及厂商对成本的压缩控制，现在硬盘的质量已大不如前，很多硬盘仅仅使用几个月甚至更短时间即出现物理故障，当过多的硬盘出现故障，Raid的安全性就成了空谈。为提高性能，阵列上常常采用性能更高的服务器硬盘，这种硬盘可提供10000-15000rpm的转速，性能极佳。但它们在出现磁头损坏后，如不及时发现并断电，磁头很可能长时间与碟片接触，将碟片划伤，造成无法挽回的损失。

	故障原因	故障表现
1	逻辑故障	1. 阵列中部分数据丢失或数据无法正常打开（文件系统损坏或文件结构破坏） 2. 阵列中某种格式（Office文档、压缩文件）无法正常打开（病毒破坏特定文件） 3. 在系统下，阵列未初始化（MBR损坏或分区表故障） 4. 阵列卷无法打开或提示格式化（文件系统损坏） 5. 误将阵列中一块多多块硬盘进行格式化操作 6. Raid重建（将Raid-1重建为Raid-0或反操作，将Raid-5重建为Raid-0或反操作等）
2	成员盘物理故障	1. 多块成员盘指示灯报警 2. Raid管理器中多块硬盘离线或丢失 3. 阵列从系统下丢失并无法访问 4. 阵列呈现未初始化状态 5. 阵列重启后无法正常启动 6. 阵列同步过程中又有其它成员盘离线
3	阵列卡损坏	1. 阵列信息丢失，所有硬盘均呈现离线状态 2. 阵列在系统下无法识别 3. 无法进入Raid管理界面或查看Raid信息时死机
4	不恰当的阵列扩容	1．多块成员盘指示灯报警 2．阵列呈现未初始化状态，无法正常访问 3．扩容后容量不正常，或发生卷丢失 4．扩容后部分或全部文件丢失
5	盘序标记错误	1. 阵列无法正常启动 2. 在Raid管理中，阵列呈现未初始化状态

2、Raid发生故障如何避免数据丢失

用户在阵列出现故障后，通常首先向供应商求助，但供应商仅能保证阵列重新正常运行，并不对用户数据安全负责。所以供应商通常采取的措施是将离线硬盘剔除，替换完好硬盘让阵列自行做同步操作，正常情况下，这种做法是安全的，但如果成员盘先后离线时间间隔较长，提前离线的硬盘可能在重启后恢复正常并参与同步，它并未存储其离线后的“新鲜”数据，当其参与同步操作时，就把整个阵列数据“污染”了，导致数据在同步完成后丢失或无法正常打开，最明显的表现为：数据越新越大，损坏的概率越高，数据越旧越小，损坏概率越低。

数据恢复厂商与服务器供应商所提供的解决方案是不同的，数据恢复公司提倡先将数据完整恢复，再对阵列采取修复措施，甚至可以在替换故障硬盘后直接对阵列进行初始化，再将已经完整恢复的数据拷贝回去。对于大容量阵列来说，磁盘同步是个工作量巨大的操作，所有成员盘可能在连续几天的时间里不间断进行读写操作，一些存在质量问题的硬盘可能在这一过程中损坏。在技佳数据恢复中心的案例中，经常出现同步过程未结束，原来正常的硬盘又离线的情况，而这时再进行数据恢复，难度很高。

上一篇：开盘数据恢复之机械硬盘的启动过程下一篇：磁盘阵列智能存储数据恢复技术研究