收到DiskErrorDetected(硬盘异常)事件时,若您只希望对故障磁盘进行更换, 建议您授权火山引擎更换硬盘。
处理前建议您在授权火山引擎更换硬盘前,先隔离故障盘,确保大数据应用不再读写故障盘,减少数据损失与任务失败。
系统架构 | 实例规格族 |
---|---|
x86 |
点击故障节点的ID,进入ECS实例页面,按照登录实例登录挂载故障盘的ECS实例。
执行如下命令,查看故障本地盘挂载点。如下步骤以故障本地盘为"/dev/vda2"为例。
df -h
blkid /dev/vda2
执行如下命令,编辑/etc/fstab文件。
vim /etc/fstab
按i
键,在文件中目标本地盘后添加nofail
参数。
仅需加入nofail
参数,无需调整其它内容。
参数 | 说明 |
---|---|
24fd1325-bbf3-4814-b7e9-041deba***** | 故障本地盘的UUID。 |
/ | 故障本地盘挂载点。 |
ext4 | 故障本地盘文件系统类型。 |
nofail | 本地盘出现在文件系统中但实际缺失时,不会中断ECS实例的启动流程。 |
esc
键,输入:wq
保存修改并退出。通过下列命令查看占用磁盘的进程列表,如下步骤以故障设备为"vda2"为例。
sudo fuser -mv vda2
登录在EMR控制台 -【服务管理】页面关闭进程列表中对应的服务。
执行如下命令,取消故障本地盘挂载。
unmount /dev/vda2
登录云服务器控制台。
在左侧导航树,选择“运维与监控 > 事件监控”,进入事件监控页面。
在顶部导航栏选择业务所在地域与项目。在事件监控页面,可以通过时间段或事件ID、实例ID搜索目标事件。
单击目标事件“操作”列的“运维操作 > 隔离故障盘”按钮,授权火山引擎隔离故障盘。
隔离完成后,您可以用鼠标箭头指向“隔离故障盘”按钮。
若展示已隔离状态,表面隔离成功。
若展示错误反馈,表面隔离失败。
登录EMR控制台 -【服务管理】页面重启在之前步骤中关闭的服务。
登录云服务器控制台。
在左侧导航树,选择“运维与监控 > 事件监控”,进入事件监控页面。
在顶部导航栏选择业务所在地域与项目。在事件监控页面,可以通过时间段或事件ID、实例ID搜索目标事件。
单击目标事件“操作”列的“运维操作”按钮,进入运维配置页面。
“运维方式”请选择“更换故障盘”。
单击“授权运维”按钮,并单击确认弹窗中的“确定”按钮,授权火山引擎运维人员更换故障硬盘。
授权后,将生成DiskError.ReplaceDisk(硬盘异常,更换硬盘)事件,提示您更换故障盘进度。
更换故障盘流程出现异常时,将向您发送DiskError.ReplaceDisk:Pending事件通知。收到通知后,您需要根据提示重启实例或提交工单解决异常问题。
更换故障盘成功,将向您发送DiskError.ReplaceDisk:Succeeded事件通知。收到通知后,您需要登录实例挂载本地盘。
说明
登录实例。
执行如下命令,查看未挂载的数据盘信息。
lsblk -l
mkfs -t <文件系统> <设备名>
mount <设备名> <挂载点>
sudo chmod 755 <挂载点> echo "<设备名> <挂载点> $fstype defaults,noatime,nofail 0 0" >> /etc/fstab
执行如下命令,确认数据盘是否挂载成功。
df -h