You need to enable JavaScript to run this app.
机器学习平台

机器学习平台

复制全文
自定义任务
查看任务的状态 / 监控 / 日志
复制全文
查看任务的状态 / 监控 / 日志

机器学习平台支持查看任务及实例的状态、运行日志、监控数据等信息,用户通过这些信息能够获取当前训练任务的进度及健康状况,除此之外用户还能通过 WebShell 进入训练容器内部进行问题排查。

使用前提
  • 【自定义训练】存在 >=1 个训练任务。

查询任务详情
  1. 登录机器学习平台,单击左侧导航栏中的【模型训练】-【自定义训练】进入列表页面。列表页中的状态、运行时长简单描述了任务的总体情况。

  2. 单击任务名称进入详情页面后能够查看所有 实例 的状态,所有训练实例的状态共同影响着 任务 的状态。

    参数名称

    参数说明

    实例状态

    • 排队中:该状态下实例正在等待资源分配和节点调度。
    • 部署中:镜像拉取、存储挂载、创建容器等过程。
    • 运行中:执行训练代码。
    • 停止中:用户触发取消操作或者任务超过最长运行时间,正在删除实例。
    • 异常:实例在排队、部署及停止的过程出现系统错误。
    • 完成:执行完成。
    • 失败:运行失败或者异常超时。
    • 已删除:实例已被删除。
    • 完成(保留中):配置了实例保留时长且实例运行完成
    • 失败(保留中):配置了实例保留时长且实例运行失败

    概览信息

    • 基本信息
      • 镜像、运行时长、实例保留时长、自动重试等任务配置信息
    • 挂载的共享文件系统
    • 实例信息
      • 当前运行配置
      • 原始配置信息

    监控

    查看任务的 CPU和内存、GPU、网卡、vePFS、CloudFS、XID 维度的信息。

    日志

    支持查看历史日志和实时日志。

    时间线

    展示任务运行的重要时间节点,如创建完成、开始排队、启动运行等。

    性能分析

    可以查看 GPU、CPU 数据分析,具体使用见文档:CPU 性能分析GPU 性能分析

    进程栈分析

    查看程序的执行流程、函数调用关系以及变量的存储情况等。

    说明

    需先在全局配置配置日志投递规则。

    重试记录

    在创建自定义任务时,如果配置自动重试(具体见创建单机 / 分布式训练任务),可以查询重试记录以及配置。

故障自查功能

自定义任务故障自查功能是为了解决多机任务运行异常时,传统诊断工具无法准确定位故障节点的问题。当您的任务出现运行异常(如部分节点无响应、性能大幅下降等)时,可通过本功能启动自动N分法诊断 ,系统将自动拆分任务并对比各子任务的运行状态,快速锁定具体的故障节点,帮助您高效排查问题根源。

注意

目前,“N 分诊断”功能仅支持处于 运行中 状态的 整机、单角色任务。不支持以下情况:

  • 任务处于“排队中”、“部署中”或“创建中”状态。
  • 任务已进入终态(例如:已完成、失败、异常、已停止)。
  • 非整机任务。
  • 多角色任务。
  • 使用闲时资源启动的任务。
  1. 进入任务详情页,​找到您需要进行故障自查的任务 ,点击任务名称进入任务详情页。

Image

  1. 点击 「任务故障自查」 按钮。
  2. 配置故障自查参数。在弹窗中,您需要配置以下必填参数:

参数名称

说明

默认值

限制

子任务实例保留时长

子任务完成或失败后,其运行环境(节点、配额)保留的时长(分钟)。保留期间可查看实时日志。

60

最小为 1,必填。

拆分子任务数

将当前任务平均拆分为多少个子任务。

2

最小为 2,必填。且需确保当前总节点数可被整除。

入口命令和环境变量

子任务将继承当前任务的默认配置,您也可以在此进行修改。

当前任务配置

必填。

  1. 确认所有配置无误后,点击弹窗中的 「确认」 按钮。
  2. 查看故障自查记录。​在任务的详情页中的 「故障自查记录」 标签页中,查看具体的故障自查记录。
最近更新时间:2026.01.23 14:11:33
这个页面对您有帮助吗?
有用
有用
无用
无用