创建推理服务--云搜索服务-火山引擎

文档中心

导航

创建推理服务

最近更新时间：2025.03.07 16:41:34首次发布时间：2024.09.26 11:38:08

模型创建后，您需要继续创建推理服务。创建推理服务时，需要与目标模型进行关联，并根据业务需求配置网络、资源、以及自定义参数等内容。

前提条件

明确推理服务需要关联的模型，请提前获取目标模型的名称。

如果关联自定义模型，需要提前创建自定义模型，请参见创建自定义模型。
如果关联公共模型，需要提前获取公共模型的名称、维度等信息，请参见查看公共模型。
如果关联豆包大模型，需要提前获取豆包大模型的名称等信息，请参见查看豆包大模型。

创建推理服务

登录云搜索服务控制台。
在顶部导航栏，选择目标项目和地域。
在左侧导航栏选择 AI 搜索，查找并单击目标服务名称。
在左侧导航栏选择推理服务，然后单击创建推理服务。

在创建推理服务面板，配置推理服务相关参数，然后单击确定。

关联自定义模型/公共模型的参数配置如下：

配置	说明
服务名称	自定义设置推理服务的名称。首字符仅支持字母或下划线（_）。可包含字母、数字、特殊字符仅支持英文句号（.）、下划线（_）、短横线（-）、反斜杠(/)，长度为 1~128 个字符。最多只能包含一个反斜杠(/)字符。
选择模型	从下拉列表框选择推理服务需要关联的自定义模型/公共模型，支持根据模型名称关键字进行模糊搜索。
可用区	选择需要部署推理服务的可用区。如果 OpenSearch 实例是单可用区，那么您的推理服务也只有一个可用区。如果推理服务需要多可用区部署，则需要确保 OpenSearch 实例有多个可用区。如何为实例添加可用区，请参见添加可用区。
是否开启高可用区	单可用区部署推理服务时，支持为推理服务开启高可用。开启高可用的推理服务，节点数量为 2 的整数倍。
资源类型	您可以选择 CPU 类型和 GPU 两种资源类型。如果需要使用的资源类型还未启用，您可以选择先变配 AI 搜索。具体操作，请参见变配 AI 搜索。
规格	从下拉列表中选择资源规格。
节点数量	设置推理服务的节点数量。单可用区部署，未开启高可用：节点数量可设范围为 1~512。单可用区部署，开启高可用：节点数量为 2 的整数倍，最大值为 512。多可用区部署：节点数量为可用区个数的整数倍，最大值为 512。比如可用区个数为 2，节点数量就为 2 的整数倍。说明使用 GPU 资源类型时，请根据界面提示的剩余配额设置节点数量。
网络配置	是否开通私网访问。开通后，允许推理服务访问在相同 VPC 环境内的数据。
描述	自定义设置推理服务的描述信息。
接入点限流	选填，开启后可设置单接入点访问限流。 RPM：开启了接入点限流需要配置 RPM（Requests Per Minute）分钟处理请求数。
高级选项	支持为推理服务配置自定义参数。默认提供`UserConfig`、`maxReplicasPerNode`两个参数，如需增加其他参数配置，请单击添加自定义参数，然后配置参数名称和取值。 `UserConfig`参数只有关联 RAG 模型需要填写。使用案例，请参见构建智能问答系统。 `MaxReplicasPerNode`参数表示单机副本数量。 `MaxOngoingRequests`参数表示单个副本最大同时处理的请求数量。

关联豆包大模型的参数配置如下：

配置	说明
服务名称	自定义设置推理服务的名称。首字符仅支持字母或下划线（_）。可包含字母、数字、特殊字符仅支持英文句号（.）、下划线（_）、短横线（-）、反斜杠(/)，长度为 1~128 个字符。最多只能包含一个反斜杠(/)字符。
选择模型	从下拉列表框选择推理服务需要关联的豆包大模型，支持根据模型名称关键字进行模糊搜索。
描述	自定义设置推理服务的描述信息。
接入点限流	选填，开启后可设置单接入点访问限流，不开启则默认按照模型限流。 RPM：开启了接入点限流需要配置 RPM（Requests Per Minute）分钟处理请求数。 TPM：开启了接入点限流需要配置 TPM（Token Per Minute）分钟处理 tokens 数。