当用户需要将【模型管理】中的模型部署成线上服务时,可以在【在线服务】模块中创建服务,得到相应的 API 和示例代码即可调用模型进行推理。
相关概念
操作步骤
- 登录机器学习平台,单击左侧导航栏中的【模型服务】-【在线服务】进入列表页面。
- 单击列表页面左上方的【+ 创建服务】进入创建页面。
- 在创建页面填写相关参数,具体参数如下:
参数名称 | 参数说明 |
---|
服务名称 | - 填写服务的名称。 必填 。
- 支持1~200位可见字符,且只包含大小写字母、中文、数字、中划线、下划线。
- 服务名称可重复。
|
服务描述 | - 填写对服务的适当描述。 选填 。
- 支持 1~500 位可见字符。
|
可见范围 | - 配置该服务能够在哪些账号范围内可见。选填。
- 主账号内可见:主账号下所有用户均可查看该服务及详情。
- 队列内成员可见:拥有服务所属队列权限的用户均可查看该服务及详情。
- 指定子账号可见:在指定账号列表中的用户有权限查看到该服务及详情。
- 仅创建人可见:仅服务创建人有权限查看该服务及详情。
|
镜像 | 选择推理引擎的镜像。 必填 。 |
模型 | 服务使用的模型及版本。 选填 。 |
入口命令 | 镜像的启动命令。选填。 |
环境变量 | - 将被注入到容器实例中的环境变量。 选填 。
- 环境变量 key 值仅支持大小写字母、数字、下划线,且不能以数字作为开头。
- 可配置多个环境变量。
|
健康检查 | 选择是否对端口进行健康检查,通过健康检查脚本可以定时检测服务端口状态,确保该端口提供的服务为正常状态。默认勾选。 |
优雅关闭时间 | 实例下线前等待一段时间来处理该实例已经接收的请求,以减少实例变更带来的请求报错,选填。 |
所属队列 | 选择在线服务的队列。必填。 |
计算规格 | - 运行服务的计算资源。 必填 。
- 每种计算规格包含特定的 CPU、内存、GPU 的数量。
|
实例数 | |
优先级 | 与自定义任务的优先级配置一致,详见发起单机/分布式训练任务。 |
自动扩缩容 | 支持基于定时或指标的扩缩容策略,选填。详见为服务配置自动扩缩容。 |
滚动更新 | - 支持配置滚动更新的策略,必填。
- 最大不可用:滚动更新过程中不可用实例的数量占预期实例数的百分比。假设预期实例数为 10,最大不可用为 20%,则更新过程中可用的实例数最少有 8 个
- 最大超量:滚动更新过程中超出预期的实例数量占预期实例数的百分比。假设预期实例数为 10,最大超量为 10%,则更新过程中实例数最多可达 11 个
|
私有网络 | 支持配置用户的私有网络、子网及安全组,从而用户私网环境下可调用在平台上创建的服务。选填。 |
端口 | - 监听端口限制范围:1-29999、32768-65535。
- 调用端口限制范围:1-65535。
- 端口用途:仅支持 HTTP、RPC、Metrics、Other。
- 当端口用途为 Metrics 时支持额外填写自定义指标的采集路径,平台会将该路径下的指标数据推送到用户指定的 VMP 工作区(需要提前在【全局配置】模块中开启监控归档的功能)。
|
负载均衡器(CLB) | - 选择某个负载均衡器,选填。
- 通过负载均衡提高服务可用性和可靠性,满足服务高访问量的业务场景。
- 若需要公网访问到该服务,则需要选择配置了公网IP的负载均衡。详见文档CLB文档。
|
- 完成上述表单的配置后,单击【提交】开始部署服务,待服务状态到达
运行中
即可进行模型推理。