重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
服务器故障描述:
山西某公司一台服务器的EMC FC AX-4存储RAID5磁盘阵列,阵列中共有12块硬盘组成raid5磁盘阵列其中有两块硬盘为热备盘,阵列中硬盘单盘容量为1TB,服务器中有两块硬盘离线,一块热备盘未启用。客户将服务器中所有磁盘带到数据恢复公司。
通常情况下造成服务器硬盘离线的原因为磁盘物理故障或者硬盘坏道。但是由于EMC控制器有着十分严格的磁盘检查策略,容易将性能不稳定的硬盘判定为硬件故障提出raid组,所以导致服务器崩溃的原因也有可能是磁盘读写不稳定。
服务器数据恢复解决过程:
第一步:检测硬盘和服务器数据备份;对服务器中所有磁盘进行物理故障检测,硬盘没有物理故障,然后使用坏道检测工具进行硬盘坏道排查也一切正常。使用专业镜像工具将raid中所有磁盘做全盘镜像。如下图:
第二步:分析RAID组结构;Raid数据恢复的常规步骤先要对服务器raid信息进行分析,然后重构raid组。在本案例中分析发现作为热备盘的6号盘和9号盘全部无数据,6号盘已经成功激活并替换了磁盘阵列中的5号硬盘,但数据并未同步。继续对该服务器raid中的其他硬盘进行条带大小、数据的分布规律、磁盘顺序等必要信息进行分析。分析发现7号硬盘在同一条带上的数据与该raid中其他硬盘不同,初步确认该盘为掉线较早的硬盘,使用数据恢复公司自用的raid校验程序对此条带进行校验发现最好的数据就是除去7号盘以后的数据,所以7号盘为先掉线盘无疑。将分析出来的上述信息通过北亚自主研发的raid虚拟程序组建出原raid磁盘阵列。
第三步:对服务器磁盘阵列中的LUN信息进行分析;该服务器底层只分配了一个LUN,所以工作量相对小很多,只需对一个lun的信息进行分析,分析后使用raid恢复程序记性解释map数据并导出。然后使用自用软件进行zfs文件系统解释,某些文件系统文件在解析时报错。工程师只好手动对程序做debug调试后发现报错原因为服务器突然瘫痪导致某些元文件损坏,现有程序无法正常解释。因此需要对这些损坏的文件系统元文件做修复,才能正常解析ZFS文件系统。分析损坏的元文件发现,因当初ZFS文件正在进行IO操作的同时存储瘫痪,导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证ZFS文件系统能够正常解析。
第四步:导出所有成功恢复数据;利用程序对修复好的ZFS文件系统做解析,解析所有文件节点及目录结构。对所有成功恢复的数据进行验证,数据完整。部分文件目录和验证截图如下:
另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。