当您希望采用‘用多少付多少’的付费方式时,您可以使用火山引擎机器学习平台推出的按量后付费方式来配置和使用您的资源。创建按量后付费类型的资源组不收取费用,仅在提交负载成功后按照资源使用时长计费。
前置准备
1.注册账号及开通服务
参考官网帮助文档,完成火山引擎账号注册及企业认证。
2.开通相关服务
参考官网帮助文档,开通关联服务,包括网络、存储、镜像仓库等资源。
3.网络配置
私有网络 必须
打开 私有网络控制台-私有网络,复用现有私有网络和子网;或创建新的私有网络和子网。
- 地域-可用区 与算力资源相同。
- 网段按需规划,在 专线/CEN 等场景下避免网段冲突。
- 请按需调大子网段的可用IP数量(建议不少于GPU卡数),例如 CIDR = 20 可用IP数 = 4093 或以上。
安全组 必须
打开 私有网络控制台-安全组,在前述私有网络下,对默认安全组「配置规则」或「创建安全组」,需要保证以下联通性。
访问规则 | 策略 | 协议类型 | 端口范围 | 目的地地址 | 描述 |
---|
出方向 | 允许 | 按需 | 按需 | 按需 | 按需选择需要放开的流量 |
入方向 | 允许 | | 2222 | | 开发机 SSH 登录 |
| 10000 | | 开发机/ 自定义任务 WebIDE |
| 12222 | | 自定义训练框架通信 |
| 3389 | | rdp 远程桌面 |
| 80 | | http 默认端口 |
| 443 | | https 默认端口 |
| 5082 | | 按需,CloudFS 依赖 |
| 5092 | | 按需,CloudFS 依赖 |
| ALL | 本安全组 | 组内互通 |
4.镜像仓库配置
打开 镜像仓库控制台,根据提示开通火山引擎镜像仓库服务。
- 创建标准版实例,地域 与算力资源相同,等待实例状态变为【运行中】(可能需要 5~10 分钟)
- 进入实例-命名空间-创建命名空间,创建一个命名空间用于开发机镜像归档
- 进入实例-访问控制-添加 VPC,选择前述复用/创建 的私有网络
开通白名单后使用已注册的火山引擎主账号登录机器学习平台,进入平台会自动弹出跨服务授权的页面,提交表单后即可完成对象存储、镜像仓库等依赖服务的跨服务授权。
到此所有需要的服务均已开通,下一步则由主账号为普通开发者创建对应的子用户账号(可选)。
5.创建子账号(可选)
使用已注册的火山引擎主账号登录访问控制,参考帮助文档创建子账号并配置权限。如果非火山引擎主账号,需要具备MLPlatformAdmin权限才可以添加子账号。
推荐按需授予如下权限:
更多预置权限参考:预置策略。
创建资源组
推荐为主账号账号。
打开创建资源组页面(入口:控制台> 资源组 > 按量后付费),按照控制台指引,新建按量后付费资源组。下面介绍涉及的核心配置。
1.负载网络配置
- 负载网络若未关联出私有网络VPC/安全组,参考3.网络配置完成配置。
- 按量后付费模式下,库存会实时变化。配置子网时,建议覆盖所有可用区。
- 使用按量后付费的资源提交负载时,将会根据负载网络的子网可用区决定资源的分配。
例如仅配置【可用区B】时,提交负载时也仅支持使用【可用区B】 的资源,若 B 区没有库存时,将无法支持创建;若此时同规格【可用区C】有资源时,可以直接创建成功。
- 若需要的可用区没有绑定子网时,请先前往全局配置完成授权后再到控制台创建资源组。
- 建议进行网络联通性诊断,校验VPC、APIG、镜像等网络配置,保障网络访问打通。
2.存储网络配置说明(可选)
若您需在按量后付费的负载上使用 NAS 存储产品,可以在此绑定存储网络。
- 存储私有网络 VPC:默认选择全局配置已授权过的 VPC,存储 VPC 绑定后不支持修改。
- 子网:默认选择全局配置已授权过的子网,存储子网需要与负载子网的可用区保持一致。
创建队列
主账号可以将资源组资源按照业务需求、项目要求进一步按照队列进行拆分。
操作入口:
- 在【资源组】列表页的资源组的操作列中【创建队列】。
- 也可以在左侧导航的【队列管理】中新建队列。
注意在菜单栏上方切换到您资源组所在region,才能看到/选到对应的资源组。
下面介绍核心配置。
配置管理说明
- 至少要分配 1vCPU 及以上的配额,CPU 的配额建议大于16vCPU,云盘配额建议至少大于 20GiB,如低于该值或未配置,则无法正常创建开发机。
- GPU 的配额单位为卡数。
- 您(管理员)可以为用户授权队列,具体请参见添加用户。
更多队列管理操作,请参见管理队列内的用户。
创建按量后付费负载
当您创建工作负载时,队列选择【按量后付费队列】类型,可创建按量后付费负载。以创建开发机为例,知道如何配置。
打开开发机创建页面,顶部菜单栏切换地域为您按量后付费队列地域,按照控制台指引配置。下面介绍按量后付费核心参数,完整配置说明请参见 创建开发机。
1.队列配置
在选择队列时,请选择【按量后付费】类型
- 选中队列后,可以看到每个队列的剩余可使用配额。
- 在提交负载的过程中,所设置的最大规格不能超过队列的配额上限,否则负载将无法成功提交。

2.计算规格
- 平台支持【高性能计算GPU型】、【GPU计算型】、【通用型】、【内存型】和【计算型】的实例规格。
- 可售健康度
- 当实例的健康度为【充足】时,代表该规格在当前可用区资源充足。
- 当健康度为【紧张】时,代表该资源即将售罄,如您需要大量资源,建议更换为其他健康度为充足的规格。
- 当健康度为【告罄】时,代表该资源已售罄,您无法选择该实例创建。
- 当资源充足,但是资源组未配置该可用区的子网时,无法选中该可用区的实例规格,请联系资源管理员【更改负载网络】后再创建。
3.存储挂载
- 使用【按量后付费】的队列时,支持挂载【TOS】、【NAS】类型的存储。
- 挂载【NAS】时,需要先在资源组绑定存储网络。资源组上存储网络的子网,需要与负载网络的子网可用区保持一致。
4.创建结果说明
- 当资源充足时,将会在很短时间内完成负载的创建,请耐心等待。
- 当负载的状态为【运行中】时,开始计费。
- 开发机:当开发机关机后,云盘将持续计费;仅当开发机删除后,云盘将停止计费。
- 自定义任务:任务失败或完成后,将结束计费。
- 在线服务:仅在运行中计费。
- 当资源不足时,负载将会进入【排队中】状态;您可以更换其他资源充足的实例规格或者在有资源的全部可用区绑定子网。