机器学习平台支持查看任务及实例的状态、运行日志、监控数据等信息,用户通过这些信息能够获取当前训练任务的进度及健康状况,除此之外用户还能通过 WebShell 进入训练容器内部进行问题排查。
登录机器学习平台,单击左侧导航栏中的【模型训练】-【自定义训练】进入列表页面。列表页中的状态、运行时长简单描述了任务的总体情况。
单击任务名称进入详情页面后能够查看所有 实例 的状态,所有训练实例的状态共同影响着 任务 的状态。单击【Timeline】查看任务的一些重要时间节点。为便于用户理解,对如下信息做特别说明:
参数名称 | 参数说明 |
---|---|
实例状态 | * 排队中:该状态下实例正在等待资源分配和节点调度。 * 部署中:镜像拉取、存储挂载、创建容器等过程。 * 运行中:执行训练代码。 * 停止中:用户触发取消操作或者任务超过最长运行时间,正在删除实例。 * 异常:实例在排队、部署及停止的过程出现系统错误。 * 完成:执行完成。 * 失败:运行失败或者异常超时。 * 已删除:实例已被删除。 * 完成(保留中):配置了 实例保留时长 且实例运行完成 。* 失败(保留中):配置了 实例保留时长 且实例运行失败 。 |
任务状态 | * 创建中:提交任务创建的请求后,等待请求返回的阶段。 * 排队中:所有实例的状态均为 排队中 。 * 部署中:所有实例已完成排队,实例的状态均为 部署中 或者包含部分运行中 的状态。 * 运行中:所有实例完成部署,实例状态均为 运行中 。 * 停止中:用户触发取消操作或者任务超过最长运行时间,正在删除实例。 * 异常:该阶段下存在 >=1 个状态为 异常 的实例。 * 完成:所有实例执行完成。 * 失败:存在 >=1 个状态为 失败 的实例。 * 已停止:任务因手动取消、运行超时、被抢占,使得所有未完成的实例最终到达 已删除 的状态。 * 失败(保留中):存在 >=1 个状态为 失败(保留中) 的实例。 * 完成(保留中):所有实例的状态为 完成(保留中) 。 |
Timeline | * 展示任务运行的重要时间节点,如创建完成、开始排队、启动运行等。 |
单击某个实例在操作区的【监控】可跳转到该实例的监控页面查看更详细的监控指标,具体支持的监控指标如下。
单击某个实例在操作区的【日志】可跳转到该实例的日志页面查看更详细的运行日志,【实时日志】默认可用,【历史日志】需用户主动开通,详细步骤见日志功能升级变更说明。
实时日志
支持在全文中做关键词的检索。如检索出所有包含 error
字符串的日志条目。
关键词不区分大小写,均能够被检索出来。如搜索 “Error”、“error”、“ERROR” 均会检索到如下内容。
Error error ERROR erroR ... error ...
多个单词以空格或特殊字符分隔时,会将空格或特殊字符忽略。如搜索 “worker 5”、“worker-5” 均会检索到如下内容。
worker-5 worker_5 worker 5 worker^5 ... worker 5 ...
支持查看大小限制在 <500MB 或 <5000条的日志。查看的日志越多等待时间可能越长。使用 volc ml_task logs 指令可以查看完整日志,详见命令行工具使用文档。
支持日志的自动更新,开启后平台将定时更新训练日志,并且支持用户选择每次更新的日志条数。
历史日志
支持通过检索条件筛选出符合条件的日志,详见检索语法。
全文查询:error
键值查询:Latency :> 5000
短语查询:"http error"
支持通过SQL语句进行统计分析,详见分析概述。
status:200 | SELECT COUNT(*) AS PV
支持历史日志的全量下载及存为定时SQL分析。
支持以【原始日志】和【图表分析】两种方式对日志数据进行查看与检索。
通过前述方式检索出的结果,通过原始或表格两种格式展示,展示允许多种个性化设置,如换行、紧凑布局、过滤空字段、平铺JSON类字段和使用翻页器。
对于【原始日志】,支持选择字段进行显示或隐藏。支持单页日志条数设置(10/20/30/40/50)。
对于【图表分析】,支持使用多种图表对数据进行可视化分析,如折线图、柱状图等,对于每种图表的使用建议场景详见统计图表概述。对于图表效果细节,支持通用配置、字段配置和交互事件三种个性化设置方式。
当实例状态为运行中
,单击操作区的【WebShell】可进入实例容器内部手动执行命令或排查问题。