云原生 AI 套件提供独立的组件管理页面,支持统一管理 AI 套件相关组件的配置更新、卸载、升级等操作。
说明
该功能目前处于 公测 阶段。
已开通云原生 AI 套件服务,并在开通服务时安装了相关组件。详细操作,请参见 开通 AI 套件。
云原生 AI 套件中使用的组件及其说明如下所示。
组件名称 | AI 套件中的作用 |
---|---|
rdma-device-plugin | RDMA(Remote Direct Memory Access)设备插件,为 AI 套件中的 RDMA 高性能网络等各种异构资源提供接入、管理支持。 |
prometheus-agent | 托管 Prometheus 监控组件,为 AI 套件中的 GPU 资源提供监控指标数据采集能力,提升 AI 训练任务监控性能。 |
scheduler-plugin | 拓展调度器组件,云原生 AI 套件的必装组件,主要作用如下:
|
katalyst | AI 工作负载管理组件,应用于批量计算任务的拓扑感知调度,提供更加精细化的资源管理能力。 |
p2p-accelerator | p2p-accelerator 为基于 P2P 技术的容器镜像加速组件,image-accelerator 为基于 Nydus 技术的镜像懒加载组件。该两个组件主要应用于 AI 套件的性能加速模块,提升 AI 模型推理和计算的镜像构建、镜像拉取、数据访问等效率。 |
image-accelerator | |
nvidia-device-plugin | AI 套件中的 GPU 设备管理组件,为面向 AI 业务的 IaaS 层的 NVIDIA GPU 资源,提供统一的 Kubernetes 原生接入和管理能力。 |
mgpu | AI 套件中的共享 GPU 组件,提供 AI 套件中多容器间的显存、算力隔离能力,支持多个容器间共享 GPU 卡。 |
commit-agent | AI 套件中的镜像构建组件,支持将通过交互式工作站对应 Jupyter Notebook 构建的镜像,快速保存为容器镜像。 |
云原生 AI 套件为相关组件提供更改配置、升级、卸载等管理能力。
注意
此处的组件管理相关操作,与集群 组件管理 页面中的组件管理操作一致。因此,在执行升级、变更组件配置前请评估确认组件相关业务的影响,并了解组件变更差异。更多信息,请参见 组件变更配置差异说明。
管理操作 | 说明 |
---|---|
更新配置 | 在支持更新配置的组件模块中单击 配置,按照系统提示更新组件配置。详细的配置参数说明,请参见 安装组件。 |
升级 | 在具有 可升级 标签的组件右上角,选择 |
卸载 | 在已安装的组件右上角,选择 注意 组件卸载后,可能导致集群的部分功无法正常使用,请谨慎操作。 |