You need to enable JavaScript to run this app.
导航
通过 AI 交互式工作站进行镜像构建
最近更新时间:2024.10.10 16:51:38首次发布时间:2024.02.05 10:52:38

云原生 AI 套件提供 AI 镜像构建工具,支持通过交互式工作站构建 AI 镜像,实现 AI 业务的资源弹性和敏捷开发。

说明

该功能目前处于 公测 阶段。

功能介绍

交互式工作站是火山引擎云原生 AI 套件提供的 AI 镜像构建能力之一,支持用户创建和管理基于 VKE AI 预置镜像的工作站,支持以 WebIDE 方式进行交互式配置和开发。同时通过 VKE 集群本地构建的方式,提供了一键保存镜像的能力,从而实现以交互式的形式快速构建 AI 开发、训练、推理镜像。

前提条件

  • 已开通云原生 AI 套件服务,并在开通服务时安装了相关组件。详细操作,请参见 开通 AI 套件
  • 集群已安装镜像构建组件 commit-agent。详细操作,请参见 安装组件
  • (可选)如需使用自定义镜像创建工作站,请确保已将自定义镜像上传到火山引擎镜像仓库(CR)中。详细操作,请参见 推送和拉取镜像

创建工作站

创建一个容器化的 AI 工作站,通过 Jupyter Notebook 进行交互式的环境搭建和算法开发,并通过简单的命令将创建好的环境和算法直接打包成容器镜像。

  1. 登录 容器服务控制台
  2. 在左侧导航栏中单击 集群
  3. 在集群列表页面,单击目标集群。
  4. 在集群管理页面的左侧导航栏中,选择 云原生 AI > AI 镜像构建,然后单击 创建
  5. 在 创建交互式工作站 页面,配置交互式工作站相关的参数。
    • 环境配置
    配置项说明
    工作站名称根据系统提示,配置交互式工作站名称。在同一个命名空间下,名称必须唯一。

    容器镜像

    火山引擎提供一系列预置的 AI 容器镜像,为用户提供快速启动且高度一致的 AI 开发环境:

    • 公共镜像:使用 VKE 提供的 AI 预置镜像来创建交互式工作站。详细的 AI 预置镜像信息和介绍,请参见 使用 AI 容器镜像
    • 自定义镜像:使用已上传到 CR 的自定义镜像来创建交互式工作站。上传镜像到 CR 的操作,请参见 推送和拉取镜像

      说明

      • 若需要使用 自定义镜像,建议先安装 cr-credential-controller 免密组件。详细操作,请参见 cr-credential-controller 组件
      • 若不使用 cr-credential-controller 免密组件拉取私有镜像,则需要配置 镜像密钥,请根据系统提示自主配置。
      • 若您的自定义镜像在 CR 标准版实例中时,请确保 CR 标准版实例已配置当前集群所在 VPC 的访问控制权限。详细操作,请参见 连通本账号 VPC
    命名空间选择交互式工作站部署的命名空间,支持选择自定义创建的命名空间或 Kubernetes 自建的命名空间。Kubernetes 自建命名空间的说明,请参见 命名空间概述
    Token 设置访问交互式工作站控制台的 Jupyter Notebook 时使用的 Token。开启访问 Token 后,系统自动生成一个 Token,您也可以自定义修改该 Token。

    资源配额

    按照业务需求,在容器维度配置交互式工作站使用的 CPU、GPU 和内存的上下限,保障容器的健康运行。若不设置,则表示容器资源配额无限制。

    • CPU 请求:容器需要使用的最小 CPU 值。
    • CPU 上限:允许容器使用的 CPU 最大值。如果超过,容器会被终止。
    • 内存请求:容器需要使用的最小内存值。
    • 内存上限:允许容器使用的内存最大值。如果超过,容器会被终止。
    • GPU 资源类型:仅具有 GPU 计算型节点的集群,可配置 GPU 资源。有如下两种 GPU 资源:
      • Nvidia:使用 NVIDIA GPU 资源。根据系统提示输入您需要使用的 NVIDIA GPU 算力显卡类型。详细说明,请参见 NVIDIA GPU 调度弹性容器实例 GPU 调度
        该功能依赖 nvidia-device-plugin 组件,若未安装组件,请根据系统提示安装。
      • mGPU:【公测】使用容器共享 GPU 资源。根据系统提示输入您需要使用的容器共享 GPU 算力GPU 显存 和 显卡类型。详细说明,请参见 容器共享 GPU 调度
        该功能依赖 mgpu 组件,若未安装组件,请根据系统提示安装。
    • RDMA 卡数:【公测】提供 Pod Container 使用 RDMA 设备能力,推荐配置 2 或者 4。详细说明,请参见 VKE 集群中使用 RDMA 资源

    说明

    • 单个工作负载中,只能选用一种 GPU 资源。
    • RDMA 和 mGPU 不能同时使用。

    标签

    填写交互式工作站的标签,对应 Kubernetes 中的 Label,用于识别交互式工作站的键值对,配合选择器,帮助 Kubernetes 快速筛选目标交互式工作站。
    单击 添加标签,根据界面提示输入  和 

    注解

    填写交互式工作站的注解信息,对应 Kubernetes 中的 Annotation,主要记录用于应用部署、安全策略、调度策略的附加信息,不用于标识和区分资源。
    单击 添加注解,根据界面提示输入  和 

    • 存储配置
      AI 套件中
    配置项说明

    添加卷

    卷(Volume)是容器中存储数据的位置。为一类数据分配存储资源前,需要先在容器中指定待存储数据的目录。
    单击 添加卷,添加数据卷,并根据系统提示,配置卷参数。

    挂载卷单击 添加挂载卷,为已创建的卷分配存储资源,通过 subPath 方式挂载卷的子目录并分配读写权限。
    • Notebook 访问方式
    配置项说明
    service 名称访问交互式工作站时对应的服务(Service)名称,系统根据您设置的交互式工作站名称自动生成 Service 名称,格式为:{工作站名称}-service
    访问类型服务的访问类型,目前仅支持 负载均衡(LoadBalancer) 访问类型。

    负载均衡器

    配置服务的负载均衡器,目前仅支持使用已有的负载均衡(CLB)实例。CLB 实例的 访问模式 支持 公网访问私网访问

    说明

    • 仅支持已有的且未被容器服务使用的 按量计费 和 包年包月 类型 CLB 实例。
    • 若无可用的 CLB 实例,请先创建。详细操作,请参见 创建负载均衡实例
    • CLB 实例必须与当前集群同属于一个私有网络(VPC)。
    映射端口服务端口与容器端口的映射关系。您仅需要配置 服务端口,即 Service 对外提供服务的端口。其余映射端口相关配置项已由系统固定,不可更改。
    标签选择器AI 套件为工作站标注的系统标签。该参数不可配置。
  6. 单击 确定,创建交互式工作站。
    交互式工作站状态显示为 Running 表示创建成功。

访问 Notebook

创建交互式工作站成功后,可访对应的 Jupyter Notebook,以交互式的形式快速构建 AI 开发、训练、推理镜像。

  1. AI 镜像构建交互式工作站 列表,找到状态为 Running 的交互式工作站,单击右侧 访问地址 列下的 Service 访问地址和端口(例如192.168.10.10:80),访问对应的 Jupyter Notebook。
    alt
  2. 在 Jupyter Notebook 页面按照您的业务需求,自行构建 AI 开发、训练、推理镜像。更多信息,请参见 Jupyter Notebook 官方文档
  3. (可选)构建完 AI 镜像后,可将镜像推送到火山引擎镜像仓库(CR)中,方便在后续的容器服务业务中使用该镜像。详细操作,请参见本文下方 保存为容器镜像

管理工作站

创建交互式工作站成功后,可通过控制台提供的对应操作按钮,管理交互式工作站。
alt

访问 Pod 控制台

  1. AI 镜像构建交互式工作站 列表,找到状态为 Running 的交互式工作站,单击右侧 操作 列下的 访问 Pod 控制台
  2. 登录到工作站对应的 Pod 上,按需执行相关命令,管理交互式工作站。

    注意

    若通过 Pod 修改交互式工作站的 YAML 文件,会导致工作站重启,有数据丢失风险,请谨慎操作。

保存为容器镜像

说明

将通过交互式工作站对应 Jupyter Notebook 构建的镜像,推送至 CR 前请确保 CR 中已创建 OCI 制品仓库。详细操作,请参见 标准版创建 OCI 制品仓库体验版创建 OCI 制品仓库

  1. AI 镜像构建交互式工作站 列表,找到状态为 Running 的交互式工作站,单击右侧 操作 列下的 保存为容器镜像
  2. 根据系统提示窗说明的操作方法,将通过交互式工作站对应 Jupyter Notebook 构建的镜像,推送至 CR 中。
    1. 执行以下命令构建镜像。
      vke-commit-cli commit {OCI 制品仓库网络地址}:{镜像版本号}
      
      示例:
      vke-commit-cli commit test1-cn-beijing.cr.volces.com/space/vke-ai-image:v1
      

      说明

      执行上述构建镜像的命令,会默认开启 Jupyter,如果您不希望启动 Jupyter,可使用--change参数修改启动命令,例如:

      vke-commit-cli commit test-repo.cr.volces.com/testrepo/vke-commit-demo:20231218 --change 'CMD ["/bin/bash"]'
      
    2. 推送镜像到 CR 中的 OCI 制品仓库。
      vke-commit-cli push -u {镜像仓库用户名} -p {镜像仓库用户密码} {OCI 制品仓库网络地址}:{镜像版本号}
      
      示例
      vke-commit-cli push -u user_vke@2100****** -p password123 test1-cn-beijing.cr.volces.com/space/vke-ai-image:v1
      

删除交互式工作站

注意

删除交互式工作站会导致丢失工作站中的数据,请谨慎操作。

  1. AI 镜像构建交互式工作站 列表,找到状态为 Running 的交互式工作站,选择右侧 操作 列下的... > 删除
  2. 在系统弹出的提示框中确认工作站信息,然后单击 删除,删除工作站。