You need to enable JavaScript to run this app.
导航
使用RayHistoryServer查看历史作业
最近更新时间:2024.08.22 10:54:43首次发布时间:2024.08.22 10:54:43

Ray社区目前暂未提供历史作业查看方案,因此针对上述用户痛点需求,EMR团队研发了RayHistoryServer组件,方便用户查看历史作业。下面详细介绍EMR on VKE形态如何开启以及使用RayHistoryServer。

注意

  • 目前RayHistoryServer仅支持查看已经运行结束的作业,针对运行中的作业可以使用Ray社区原生的UI查看运行中的作业情况。
  • 强烈建议客户开启RayHistoryServer,尤其是以RayJob方式使用Ray的客户,开启RayHistoryServer后可以是风方便分析RayJob失败的原因。

开启RayHistoryServer

如上图所示,在选择Ray服务时,建议同时开启RayHistoryServer(默认只会占用1CU资源),同时需要填写一个TOS地址(用力存放Ray历史作业元数据以及日志信息)以及对应的AK/SK(可以设置AK/SK只对上述TOS具备读写权限)。
创建集群成功后,在下述页面可以查到RayHistoryServer的UI入口:

可以在历史页面通过EMR集群ID以及RayCluster名字找到对应集群入口点击进入查看历史作业详情。

RayHistoryServer相关配置

目前RayHistoryServer仅支持上述配置,其中用户最有可能用到的除了cpu/memory资源配置之外,就是retained_days配置,此配置要来设置保存历史作业的有效时间,默认15,代表保存最近15天的历史作业信息。

部分记录作业

开启历史作业后,用户可能需要对部分特殊作业不记录到RayHistoryServer中,可以通过配置yaml中的annotation解决,如下所示:

apiVersion: ray.io/v1
kind: RayCluster
metadata:
  annotations:
    #下述配置用于配置某些特殊作业不记录RayHistoryServer
    ray.io/enable-ray-history-server: false 
  labels:
    app.kubernetes.io/managed-by: Helm
    app.kubernetes.io/name: kuberay
    helm.sh/chart: ray-cluster-1.0.0
  name: raycluster
spec:
  enableInTreeAutoscaling: false
  headGroupSpec:
    rayStartParams:
    ....