Ray社区目前暂未提供历史作业查看方案,因此针对上述用户痛点需求,EMR团队研发了RayHistoryServer组件,方便用户查看历史作业。下面详细介绍EMR on VKE形态如何开启以及使用RayHistoryServer。
注意
如上图所示,在选择Ray服务时,建议同时开启RayHistoryServer(默认只会占用1CU资源),同时需要填写一个TOS地址(用力存放Ray历史作业元数据以及日志信息)以及对应的AK/SK(可以设置AK/SK只对上述TOS具备读写权限)。
创建集群成功后,在下述页面可以查到RayHistoryServer的UI入口:
可以在历史页面通过EMR集群ID以及RayCluster名字找到对应集群入口点击进入查看历史作业详情。
目前RayHistoryServer仅支持上述配置,其中用户最有可能用到的除了cpu/memory资源配置之外,就是retained_days配置,此配置要来设置保存历史作业的有效时间,默认15,代表保存最近15天的历史作业信息。
开启历史作业后,用户可能需要对部分特殊作业不记录到RayHistoryServer中,可以通过配置yaml中的annotation解决,如下所示:
apiVersion: ray.io/v1 kind: RayCluster metadata: annotations: #下述配置用于配置某些特殊作业不记录RayHistoryServer ray.io/enable-ray-history-server: false labels: app.kubernetes.io/managed-by: Helm app.kubernetes.io/name: kuberay helm.sh/chart: ray-cluster-1.0.0 name: raycluster spec: enableInTreeAutoscaling: false headGroupSpec: rayStartParams: ....