使用 RAY 计算引擎提交分布式任务--机器学习平台-火山引擎

文档中心

导航

使用 RAY 计算引擎提交分布式任务

最近更新时间：2025.02.26 11:33:10首次发布时间：2024.05.10 21:09:58

Ray On MLP 是火山引擎机器学习平台上全新推出的分布式计算引擎选项。利用这一强大的引擎，算法工程师可以轻松通过 python 和 Ray AI Runtime 进行大规模数据处理以及分布式模型训练。火山引擎机器学习平台(MLP)专注于为客户提供端到端的机器学习服务，以帮助客户构建可靠高效的机器学习流程。现在我们更进一步，将 Ray 框架(ray.io) 与自定义任务模块完美整合，帮助您轻松创建和运行 Ray 作业，实现作业的灵活调度，按需执行。

在使用 Ray On MLP 时，您无需进行任何的代码更改或调整任何资源，只需要使用预置的 Ray 镜像或者使用携带包含 Ray Runtime 的自定义镜像，即可一键运行 Ray 作业。您亦可通过 MLP 中的开发机模块连接到您的 Ray 引擎，以进行相关的任务开发和调试。Ray On MLP 预览版现已在所有地区推出，这意味着您可以在全球范围内利用这一强大的分布式计算引擎，轻松应对不同地域和场景的分布式挑战。

功能限制

不支持任务诊断功能，但支持自动重试。
实例保留时长功能中不支持倒计时显示。
Ray Dashboard 中 Metrics 功能的启用需要用户对接自己的 Grafana。

页面交互

创建 Ray 集群

点击「自定义任务」进入列表页面，点击「创建自定义任务」。
依次进行任务配置，镜像需选择确保存在 Ray 相关的二进制文件，并符合版本要求（2.2.0~2.32.0）
选择 Ray 框架，并选择对应的机型。可针对您 driver 所需要的运行环境填写 RuntimeEnv，以及根据作业需求挂载相应的存储。
1. 备注： 当前版本不支持任务诊断与容错功能。