Ray On MLP 是火山引擎机器学习平台上全新推出的分布式计算引擎选项。利用这一强大的引擎,算法工程师可以轻松通过 python 和 Ray AI Runtime 进行大规模数据处理以及分布式模型训练。火山引擎机器学习平台(MLP)专注于为客户提供端到端的机器学习服务,以帮助客户构建可靠高效的机器学习流程。现在我们更进一步,将 Ray 框架(ray.io) 与 自定义任务模块完美整合,帮助您轻松创建和运行 Ray 作业,实现作业的灵活调度,按需执行。
在使用 Ray On MLP 时,您无需进行任何的代码更改或调整任何资源,只需要使用预置的 Ray 镜像或者使用携带包含 Ray Runtime 的自定义镜像,即可一键运行 Ray 作业。您亦可通过 MLP 中的开发机模块连接到您的 Ray 引擎,以进行相关的任务开发和调试。Ray On MLP 预览版现已在所有地区推出,这意味着您可以在全球范围内利用这一强大的分布式计算引擎,轻松应对不同地域和场景的分布式挑战。
点击「自定义任务」进入列表页面,点击「创建自定义任务」。
依次进行任务配置,镜像需选择确保存在 Ray 相关的二进制文件,并符合版本要求(2.2.0~2.32.0)
选择 Ray 框架,并选择对应的机型。可针对您 driver 所需要的运行环境填写 RuntimeEnv,以及根据作业需求挂载相应的存储。
切回「概览信息」页面,选择「Head 实例」,点击「WebIDE」,打开「New Terminal」,切换为「Ports」。
输入刚才在日志页面查看的 port,此处示例为「8265」,点击「Local Address」即可访问「Ray Dashboard」。
通过 Ray 创建的 worker 实例具备容错功能。即当 worker 遇到故障失败,也能够在分钟级恢复并重新加入集群。