将模型部署成服务--机器学习平台-火山引擎

文档中心

导航

将模型部署成服务

最近更新时间：2024.01.17 20:23:40首次发布时间：2021.09.01 16:30:36

当用户需要将【模型管理】中的模型部署成线上服务时，可以在【在线服务】模块中创建服务，得到相应的 API 和示例代码即可调用模型进行推理。

相关概念

操作步骤

登录机器学习平台，单击左侧导航栏中的【模型服务】-【在线服务】进入列表页面。
单击列表页面左上方的【+ 创建服务】进入创建页面。
在创建页面填写相关参数，具体参数如下：

参数名称	参数说明
服务名称	填写服务的名称。必填。支持1～200位可见字符，且只包含大小写字母、中文、数字、中划线、下划线。服务名称可重复。
服务描述	填写对服务的适当描述。选填。支持 1～500 位可见字符。
可见范围	配置该服务能够在哪些账号范围内可见。选填。主账号内可见：主账号下所有用户均可查看该服务及详情。队列内成员可见：拥有服务所属队列权限的用户均可查看该服务及详情。指定子账号可见：在指定账号列表中的用户有权限查看到该服务及详情。仅创建人可见：仅服务创建人有权限查看该服务及详情。
镜像	选择推理引擎的镜像。必填。
模型	服务使用的模型及版本。选填。
入口命令	镜像的启动命令。选填。
环境变量	将被注入到容器实例中的环境变量。选填。环境变量 key 值仅支持大小写字母、数字、下划线，且不能以数字作为开头。可配置多个环境变量。
健康检查	选择是否对端口进行健康检查，通过健康检查脚本可以定时检测服务端口状态，确保该端口提供的服务为正常状态。默认勾选。
优雅关闭时间	实例下线前等待一段时间来处理该实例已经接收的请求，以减少实例变更带来的请求报错，选填。
所属队列	选择在线服务的队列。必填。
计算规格	运行服务的计算资源。必填。每种计算规格包含特定的 CPU、内存、GPU 的数量。
实例数	服务的实例数量。必填。实例数量 >= 1。
优先级	与自定义任务的优先级配置一致，详见发起单机/分布式训练任务。
自动扩缩容	支持基于定时或指标的扩缩容策略，选填。详见为服务配置自动扩缩容。
滚动更新	支持配置滚动更新的策略，必填。最大不可用：滚动更新过程中不可用实例的数量占预期实例数的百分比。假设预期实例数为 10，最大不可用为 20%，则更新过程中可用的实例数最少有 8 个最大超量：滚动更新过程中超出预期的实例数量占预期实例数的百分比。假设预期实例数为 10，最大超量为 10%，则更新过程中实例数最多可达 11 个
私有网络	支持配置用户的私有网络、子网及安全组，从而用户私网环境下可调用在平台上创建的服务。选填。
端口	支持自定义监听端口和调用端口，选填。监听端口限制范围：1-29999、32768-65535。调用端口限制范围：1-65535。端口用途：仅支持 HTTP、RPC、Metrics、Other。当端口用途为 Metrics 时支持额外填写自定义指标的采集路径，平台会将该路径下的指标数据推送到用户指定的 VMP 工作区（需要提前在【全局配置】模块中开启监控归档的功能）。
负载均衡器（CLB）	选择某个负载均衡器，选填。通过负载均衡提高服务可用性和可靠性，满足服务高访问量的业务场景。若需要公网访问到该服务，则需要选择配置了公网IP的负载均衡。详见文档CLB文档。

完成上述表单的配置后，单击【提交】开始部署服务，待服务状态到达运行中即可进行模型推理。