在接到客户反应无法访问后,对应人通过远程访问方式(SSH)登录到服务器,检查系统日志,未发现系统中异常情况,然后查看操作系统情况,发现系统主分区处于只读状态。根据Linux系统管理维护常规操作方法,出现系统分区只读通常需要对系统分区进行remount的操作,对应人对系统进行热mount操作时,系统给出I/O错误的提示。对应人根据提示分析系统出现IO错误的原因,判断是操作系统某文件损坏的原因。然后对系统执行了重新启动的操作,但是重新启动失败,系统无法正常启动。
对应人和ISP的工作人员取得联系,请ISP工作人员协助重新启动系统,在几次尝试以后,均告失败。现场得到的提示是硬盘错误。
对应人决定将硬盘取回,尝试在公司内部服务器上对其操作。同时替换新的硬盘到服务器上,并重新安装操作系统。
硬盘取回后,连接到本地服务器上,发现系统无法正确识别该盘,其数据也无法读出。相继采取了EasyRecovery和MHDD等工具对硬盘进行读取操作,均无法成功,为此我们求助于专业的数据恢复人士,将硬盘送至大连市日晟数据恢复中心对硬盘中的数据进行恢复。
2012年X月X日下午,数据恢复中心告知,数据已经部分恢复。对应人将回复的数据带回公司对数据的准确性做了评估,认为数据没有遭到破坏,然后将数据导入到新设置的服务器上,并做了相应的备份和系统设定。
我们对本次故障发生的原因进行了分析,产生问题有如下原因:
1、 设备老化
本次故障发生的服务器是2008年投入使用的服务器,稳定运行大约4年时间。由于机房的硬件条件以及其他环境的因素,硬盘已经老化,同时因为组成备份结构的硬盘在同一台服务器上,导致备份用硬盘也无法读出。
2、 备份机制问题
由于采用了本机备份的方式,每次的备份文件都放在服务器的另外一块硬盘上,并且目前是对数据库进行备份,没有对系统运行程序进行备份,所以导致宕机以后无法及时恢复系统运行。
四、 防止措施
a) 加强设备管理,定期对设备进行功能性测试,包括对服务器硬件的稳定性检测等
b) 改善备份机制,采用程序和数据库分别备份的方式。同时采取每天定时异地备份的方式,保证数据的存储安全。
c) 考虑使用备用服务器机制,针对故障发生后,服务器出现的无法及时投入使用的情况,考虑采购另外一台服务器,作为备用。当一台服务器发生故障,另外一台服务器能在最短时间内发挥作用。
谢谢,麻烦你了,可以的话直接发到我邮箱里可以么?
[email protected]