You need to enable JavaScript to run this app.
导航
步骤二:更换故障盘(非弹性裸金属实例)
最近更新时间:2024.09.09 16:47:09首次发布时间:2023.09.06 07:43:39

本文介绍出现本地盘故障时,如何完成更换故障硬盘授权操作。

注意

您需认真阅读和使用本文档,本文档视为火山引擎为您提供的云服务器服务规则的组成部分。如果您未按本文档指引进行操作,可能造成您业务损失,您理解并同意您将对此承担全部责任。

操作场景

收到DiskErrorDetected(硬盘异常)事件时,您可以授权火山引擎更换故障硬盘,避免由于硬盘故障导致实例宕机等更严重的故障。

注意事项

  • 暂不支持弹性裸金属规格、本地SSD型i2g、高性能计算GPU型hpcpni2、高性能计算GPU型ebmhpcpni2l、高性能计算GPU型ebmhpcpni2及高性能计算GPU型ebmhpchfpni2规格的实例使用本功能。规格详情可查看实例规格介绍
  • 请确保根据操作步骤指引,修改本地盘配置后,再进行运维授权,否则可能无法正常识别更换的新本地盘。
  • 更换故障盘可能导致数据丢失,请提前备份数据,以防数据丢失,例如通过硬盘、U盘等将重要数据拷贝到外部存储设备。

操作步骤

步骤一:获取故障硬盘序列号

当实例挂载的本地盘出现故障时,火山引擎将向您同步故障硬盘SN(Serial Number,序列号),方便您在实例内准确定位故障硬盘。
您可以调用DescribeSystemEvents接口,传入硬盘异常事件ID,在返回数据中获取故障硬盘SN。

  • 若故障磁盘所在实例为一代HDD规格实例(例如大数据存储型d1s),返回数据中的SystemEvents.ExtraInfo.Address参数值即为故障硬盘SN。
  • 若故障磁盘所在实例为二代HDD规格实例(例如大数据型d2s大数据型d2c大数据型d2)或本地SSD规格实例(例如本地SSD型i2),返回数据中的SystemEvents.ExtraInfo.Serial参数值即为故障硬盘SN。

步骤二:修改硬盘配置

  1. 登录挂载故障盘的ECS实例,操作详情可查看登录实例

  2. 执行如下命令,查看故障本地盘盘符。

    • 一代HDD规格实例
      若您的实例是一代HDD规格实例(例如大数据存储型d1s),请执行如下命令,查询故障硬盘盘符。

      请将$SN$替换为实际硬盘SN。

      ls -al /dev/disk/by-path/ | grep $SN$
      
    • 二代HDD或本地SSD规格实例
      若您的实例是二代HDD规格实例(例如大数据型d2s大数据型d2c大数据型d2)或本地SSD规格实例(例如本地SSD型i2),请执行如下命令,查询故障硬盘盘符。

      请将$SN$替换为实际硬盘SN。

      lsblk -oNAME,SERIAL | grep $SN$
      
  3. 执行如下命令,查看故障本地盘文件系统与其UUID。

    请将/dev/vda2替换为上一步中获取的实际故障盘盘符。

    blkid /dev/vda2
    
  4. 执行如下命令,编辑/etc/fstab文件。

    1. 打开/etc/fstab文件。

      vim /etc/fstab
      
    2. i键进入编辑模式,在文件中目标本地盘后添加nofail参数。

      仅需加入nofail参数,无需调整其它内容。

      fstab文件参数说明

      参数说明
      24fd1325-bbf3-4814-b7e9-041deba*****故障本地盘的UUID。
      /故障本地盘挂载点。
      ext4故障本地盘文件系统类型。
      nofail本地盘出现在文件系统中但实际缺失时,不会中断ECS实例的启动流程。
    3. esc键,输入:wq保存修改并退出。

  5. 执行如下命令,取消故障本地盘挂载。

    umount /dev/vda2
    

步骤三:授权运维

  1. 登录云服务器控制台

  2. 在左侧导航树,选择“运维与监控 > 事件监控”,进入事件监控页面。

  3. 在顶部导航栏选择业务所在地域与项目。

  4. 在事件监控页面,可以通过时间段或事件ID、实例ID搜索目标事件。

  5. 单击目标事件“操作”列的“运维操作”按钮,进入运维配置页面。

    1. “运维方式”请选择“更换故障盘”。

    2. (可选)更换故障盘前,如需避免实例中运行的应用不再读写故障盘,减少数据损失,请授权“隔离硬盘”。操作详情可查看隔离本地盘

    3. 单击“授权运维”按钮,并单击确认弹窗中的“确定”按钮,授权火山引擎运维人员更换故障硬盘。

      授权后,将生成DiskError.ReplaceDisk(硬盘异常,更换硬盘)事件,提示您更换故障盘进度。

  6. 更换故障盘流程出现异常时,将向您发送DiskError.ReplaceDisk:Pending事件通知。收到通知后,您需要根据提示重启实例或提交工单解决异常问题。

    • 通过重启实例解决问题
      如下图所示,请您根据指引,单击“重启实例”按钮,重启实例解决异常。

    • 通过工单解决问题
      如下图所示,请根据指引,单击“提交工单”按钮,联系火山引擎运维人员协助您解决异常。

步骤四:挂载硬盘

  1. 更换故障盘成功,将向您发送DiskError.ReplaceDisk:Succeeded事件通知。收到通知后,您需要登录实例挂载本地盘。

    说明

    • 若更换故障盘后,实例未识别到本地盘,请提交工单获取技术支持。
    • 推荐您使用UUID而非设备名(如/dev/data1)进行挂载。
    1. 登录实例
    2. 执行如下命令,查看未挂载的数据盘信息。
      lsblk -l
      
    3. 执行如下命令,为待挂载的数据盘制作文件系统。
      mkfs -t <文件系统> <UUID>
      
    4. 执行如下命令,挂载数据盘。
      mount -U <UUID> <挂载点>
      
  2. 执行如下命令,确认数据盘是否挂载成功。
    df -h