You need to enable JavaScript to run this app.
导航
任务管理
最近更新时间:2024.08.20 14:26:16首次发布时间:2023.09.25 16:09:31

批量计算任务对应 Kubernetes 中的 Job,配置与 VKE 中常规的任务基本相同。与 VKE 常规任务不同的是,批量计算中通过将任务提交到指定的队列来使用批量计算能力。本文主要介绍批量计算任务的创建、查看、管理等方法。

说明

该功能目前处于 公测 阶段。

使用限制

  • 暂不支持使用 mGPU 多卡共享能力。
  • 当前支持 Kubernetes Job、MPI Job、PyTorch Job、TensorFlow Job 类型的任务。

前提条件

  • 已安装批量计算套件的 batch-queue-controller 和 batch-node-controller 组件。详细操作,请参见 安装组件
  • 已创建队列。详细操作,请参见 队列
  • 已准备容器镜像并获取镜像地址。支持使用火山引擎镜像仓库(CR)中的镜像,也支持使用第三方镜像。CR 中上传镜像的操作,请参见 推送和拉取镜像

创建任务

通过控制台创建

说明

目前仅 Kubernetes Job 类型的任务支持通过控制台创建。

  1. 登录 容器服务控制台
  2. 在左侧导航栏中选择 集群,单击目标集群名称。
  3. 在集群管理页面的左侧导航栏中,选择 批量计算 > 任务管理
  4. 任务管理 页面单击 创建任务
  5. 根据系统提示,配置任务参数。

    说明

    在批量计算任务中,除如下表格以及图中说明的参数外,其余参数均与 VKE 中常规的任务配置相同。详细操作,请参见 创建任务

    配置项说明
    批量计算队列选择批量计算任务所属的队列。
    标签参数不可配置。根据您选择的批量计算队列,系统自动生成任务标签信息,表示该任务使用批量计算套件能力。
    alt
  6. 按系统提示按需配置参数后,单击 确定 创建完成批量计算任务。

通过 YAML 创建

  1. 通过 kubectl 连接目标集群。具体操作说明,请参见 连接集群
  2. 创建任务的 YAML 文件,通过 Label:batch.volcengine.com/queue-name,将任务提交到指定的队列来使用批量计算能力。
    示例文件demo-batch-job.yaml代码如下所示,详细的 Job YAML 字段说明,请参见 创建任务

    注意

    MPI Job、PyTorch Job 类型的任务还需要依赖相关插件(Operator)。您可以自行在业务代码中部署相关 Operator,也可以在 容器服务控制台应用中心 > 应用模板 中部署相关 Operator。具体操作说明,请参见 应用模板

    应用模板 中各 Job 对应的 Operator 名称如下:

    • MPI Job:mpi-operator
    • PyTorch Job:training-operator
    apiVersion: batch/v1
    kind: Job
    metadata:
      name: demo-batch-job #  任务名称。
      labels:
        batch.volcengine.com/queue-name: "demo-queue"  # 将当前任务提交到指定的批量计算队列。
    spec:
      suspend: true
      template:
        metadata:
          annotations:
            vke.volcengine.com/burst-to-vci: "enforce"
        spec:
          containers:
          - name: demo
            image: nginx:1.14.2
            command: ["/bin/bash", "-c", "for i in {1..20} ; do echo $i ; sleep 1 ; done"]
            resources:
              limits:
                cpu: 50m
                memory: 50Mi
              requests:
                cpu: 50m
                memory: 50Mi
          restartPolicy: Never
      backoffLimit: 4
    
  3. 执行以下命令,创建任务。
    kubectl apply -f demo-batch-job.yaml
    

查看任务

  1. 登录 容器服务控制台
  2. 在左侧导航栏中选择 集群,单击目标集群名称。
  3. 在集群管理页面的左侧导航栏中,选择 批量计算 > 任务管理
  4. 任务管理 页面查看已创建任务的基本信息,包括所属队列、执行状态等。

管理任务

  1. 登录 容器服务控制台
  2. 在左侧导航栏中选择 集群,单击目标集群名称。
  3. 在集群管理页面的左侧导航栏中,选择 批量计算 > 任务管理
  4. 任务管理 页面,按需管理已创建的批量计算任务。
    • 批量删除:选中多个任务名称前的复选框,然后单击页面左上角的 批量删除,可批量删除任务。
      alt
    • 更新编辑 Yaml更新并行数查看监控删除:与 VKE 常规任务的管理操作相同,详细说明,请参见 管理任务
    • 重启:在任务名称右侧 操作 列,选择... > 重启,重启批量计算任务。该功能主要用于重启执行失败的批量计算任务。

      说明

      在仅批量计算任务支持 重启 操作,VKE 常规任务没有该操作。