机器学习平台支持查看任务及实例的状态、运行日志、监控数据等信息,用户通过这些信息能够获取当前训练任务的进度及健康状况,除此之外用户还能通过 WebShell 进入训练容器内部进行问题排查。
登录机器学习平台,单击左侧导航栏中的【模型训练】-【自定义训练】进入列表页面。列表页中的状态、运行时长简单描述了任务的总体情况。
单击任务名称进入详情页面后能够查看所有 实例 的状态,所有训练实例的状态共同影响着 任务 的状态。
参数名称 | 参数说明 |
|---|---|
实例状态 |
|
概览信息 |
|
监控 | 查看任务的 CPU和内存、GPU、网卡、vePFS、CloudFS、XID 维度的信息。 |
日志 | 支持查看历史日志和实时日志。 |
时间线 | 展示任务运行的重要时间节点,如创建完成、开始排队、启动运行等。 |
性能分析 | |
进程栈分析 | 查看程序的执行流程、函数调用关系以及变量的存储情况等。 说明 需先在全局配置配置日志投递规则。 |
重试记录 | 在创建自定义任务时,如果配置自动重试(具体见创建单机 / 分布式训练任务),可以查询重试记录以及配置。 |
自定义任务故障自查功能是为了解决多机任务运行异常时,传统诊断工具无法准确定位故障节点的问题。当您的任务出现运行异常(如部分节点无响应、性能大幅下降等)时,可通过本功能启动自动N分法诊断 ,系统将自动拆分任务并对比各子任务的运行状态,快速锁定具体的故障节点,帮助您高效排查问题根源。
注意
目前,“N 分诊断”功能仅支持处于 运行中 状态的 整机、单角色任务。不支持以下情况:
参数名称 | 说明 | 默认值 | 限制 |
|---|---|---|---|
子任务实例保留时长 | 子任务完成或失败后,其运行环境(节点、配额)保留的时长(分钟)。保留期间可查看实时日志。 | 60 | 最小为 1,必填。 |
拆分子任务数 | 将当前任务平均拆分为多少个子任务。 | 2 | 最小为 2,必填。且需确保当前总节点数可被整除。 |
入口命令和环境变量 | 子任务将继承当前任务的默认配置,您也可以在此进行修改。 | 当前任务配置 | 必填。 |