模型创建后,您需要继续创建推理服务。创建推理服务时,需要与目标模型进行关联,并根据业务需求配置网络、资源、以及自定义参数等内容。
前提条件
明确推理服务需要关联的模型,请提前获取目标模型的名称。
- 如果关联自定义模型,需要提前创建自定义模型,请参见创建自定义模型。
- 如果关联公共模型,需要提前获取公共模型的名称、维度等信息,请参见查看公共模型。
创建推理服务
登录云搜索服务控制台。
在顶部导航栏,选择目标项目和地域。
在左侧导航栏选择 ML 服务,查找并单击目标服务名称。
在左侧导航栏选择推理服务,然后单击创建推理服务。
在创建推理服务面板,配置推理服务相关参数,然后单击确定。
配置 | 说明 |
---|
服务名称 | 自定义设置推理服务的名称。 - 首字符仅支持字母或下划线(_)。
- 可包含字母、数字、特殊字符仅支持英文句号(.)、下划线(_)、短横线(-)、反斜杠(/),长度为 1~128 个字符。
- 最多只能包含一个反斜杠(/)字符。
|
选择模型 | 从拉列表框选择推理服务需要关联的模型,支持根据模型名称关键字进行模糊搜索。 |
可用区 | 选择需要部署推理服务的可用区。 - 如果 OpenSearch 实例是单可用区,那么您的推理服务也只有一个可用区。
- 如果推理服务需要多可用区部署,则需要确保 OpenSearch 实例有多个可用区。如何为实例添加可用区,请参见添加可用区。
|
是否开启高可用区 | 单可用区部署推理服务时,支持为推理服务开启高可用。
开启高可用的推理服务,节点数量至少为 2。 |
资源类型 | 您可以选择 CPU 类型和 GPU 两种资源类型。
如果需要使用的资源类型还未启用,您可以选择先变配 ML 服务。具体操作,请参见变配 ML 服务。 |
规格 | 从下拉列表中选择资源规格。 |
节点数量 | 设置推理服务的节点数量。 - 单可用区部署,未开启高可用:节点数量可设范围为 1~512。
- 单可用区部署,开启高可用:节点数量为 2 的整数倍,最大值为 512。
- 多可用区部署:节点数量为可用区个数的整数倍,最大值为 512。比如可用区个数为 2,节点数量就为 2 的整数倍。
说明 使用 GPU 资源类型时,请根据界面提示的剩余配额设置节点数量。 |
网络配置 | 是否开通私网访问。
开通后,系统将为推理服务关联的模型分配一个私网访问地址,允许与 ML 服务在相同 VPC 环境内的客户端访问关联的模型。 |
描述 | 自定义设置推理服务的描述信息。 |
高级选项 | 支持为推理服务配置自定义参数。
默认提供UserConfig 、maxReplicasPerNode 两个参数,如需增加其他参数配置,请单击添加自定义参数,然后配置参数名称和取值。 UserConfig 参数只有关联 RAG 模型需要填写。使用案例,请参见构建智能问答系统。
MaxReplicasPerNode 参数表示单机副本数量。MaxOngoingRequests 参数表示单个副本最大同时处理的请求数量。
|