平台为资源组管理员额外提供了节点负载详情看板。当资源组中负载出现由碎片导致的排队状态时,资源组管理员可以在该页面进行负载碎片查询。该功能支持查询资源组 GPU 资源使用情况、节点负载详情(包含开发机、自定义任务和在线服务三类的 GPU、CPU 与内存用量)、空闲节点以及碎片节点信息。
使用步骤
若您需要使用该功能,您需要执行以下步骤:
- 点击「资源组」-「节点负载详情」。
- 选择需要查询的负载任务类型,默认为「开发机」,输入对应类型下的负载 ID 进行搜索。
- ID 输入查询后,在下方面板中将展示实际该负载所需要的资源,包括对应的 GPU 型号、资源组下的 Node 列表以及实际资源用量(GPU、CPU以及内存)。
说明
- 仅支持查询状态为
排队中
的负载信息。 - 仅支持查看 GPU 服务器上的负载信息。
- 过去一天内已下线的节点仍然会出现在 Node 列表中。
- 当前仅当服务部署中至少存在一个「排队中」的实例时,才可支持查询该部署的碎片信息。
最佳实践
当提交了一个 8 GPU/112 vCPU/ 1960 GiB内存 * 2的「自定义任务」,此时队列中有配额,但是任务始终为 排队中
时该如何操作?
- 进入「资源组」-「节点负载详情」,选择负载类型为「自定义任务」,输入任务完整负载 ID。
- 点击后可查看到该负载所需要的资源规格以及实际资源用量,此处显示为单个实例的规格用量。
- 在下方「空闲节点」中可以查看到整机空闲的节点数量,在「碎片节点」中可以查看碎片节点中每台实际已消耗的资源用量以及空闲的资源用量。
- 根据负载的资源用量(单个实例规格用量*实例数量),点击碎片节点列表中的「IP」。查看当前碎片节点上的负载详情,此时可以选择迁移碎片负载。
说明
- 「节点负载详情」Pod 列表中 “t”开头代表自定义任务、“s” 开头代表在线服务、“di” 开头代表开发机。
- 迁移方法说明:根据负载 ID,您可以联系到该任务创建者,进行任务迁移操作。具体迁移方法可以参考节点故障通知与负载迁移指南中「操作指南」小节。