三星970evo plus爆0e引发的远程救援

发布于 2024-01-22  284 次阅读


故障初始表现为控制台开始显示一些输入输出错误,初步定为I/O问题。使用smartctl查看硬盘SMART信息后发现,作为根目录盘的三星970 EVO Plus 1TB的0E参数已经达到20多万,备用块剩余不到60%(刚发现时稍多一些,随着后续操作降低至58%)。此时系统仍能正常运行。

image-20240122235940635

发现之后着手进行数据的迁移。由于人和机器的物理距离过远,无法更换新的硬盘,只能先从Proxmox Virtual Environment (pve)的Logical Volume Manager (LVM)上分出256GB,虚拟出一个硬盘。计划使用Clonezilla进行硬盘克隆(使用过多次,易用且可靠)。然而,Clonezilla并不支持从相对更大容量的硬盘克隆到小容量硬盘,因此作罢。

在无法简单克隆的情况下,先使用Clonezilla对损坏盘进行了镜像(需要进入专家模式,开启忽略bad sector),存储至本地NAS。

由于系统每日备份到NAS(使用rsync进行文件级别备份),后考虑新建一个虚拟机。在安装完同版本系统后,使用rsync进行文件级别还原。还原时需要使用任意Linux系统的Live CD来进行,以避免对待还原硬盘的读写。还原完成后需要修改分区的UUID为之前主分区的UUID(应该记录在引导中,图方便就直接改分区的UUID了),以正确引导启动。启动完成后还需要更新fstab中的swap分区的UUID为新的值。

以后应该再也不会购买任何三星的存储设备了


面向ACG编程