You need to enable JavaScript to run this app.
导航
创建推理服务
最近更新时间:2025.03.07 16:41:34首次发布时间:2024.09.26 11:38:08
我的收藏
有用
有用
无用
无用

模型创建后,您需要继续创建推理服务。创建推理服务时,需要与目标模型进行关联,并根据业务需求配置网络、资源、以及自定义参数等内容。

前提条件

明确推理服务需要关联的模型,请提前获取目标模型的名称。

  • 如果关联自定义模型,需要提前创建自定义模型,请参见创建自定义模型
  • 如果关联公共模型,需要提前获取公共模型的名称、维度等信息,请参见查看公共模型
  • 如果关联豆包大模型,需要提前获取豆包大模型的名称等信息,请参见查看豆包大模型

创建推理服务

  1. 登录云搜索服务控制台

  2. 在顶部导航栏,选择目标项目和地域。

  3. 在左侧导航栏选择 AI 搜索,查找并单击目标服务名称。

  4. 在左侧导航栏选择推理服务,然后单击创建推理服务

  5. 创建推理服务面板,配置推理服务相关参数,然后单击确定

    1. 关联自定义模型/公共模型的参数配置如下:

      配置

      说明

      服务名称

      自定义设置推理服务的名称。

      • 首字符仅支持字母或下划线(_)。
      • 可包含字母、数字、特殊字符仅支持英文句号(.)、下划线(_)、短横线(-)、反斜杠(/),长度为 1~128 个字符。
      • 最多只能包含一个反斜杠(/)字符。

      选择模型

      从下拉列表框选择推理服务需要关联的自定义模型/公共模型,支持根据模型名称关键字进行模糊搜索。

      可用区

      选择需要部署推理服务的可用区。

      • 如果 OpenSearch 实例是单可用区,那么您的推理服务也只有一个可用区。
      • 如果推理服务需要多可用区部署,则需要确保 OpenSearch 实例有多个可用区。如何为实例添加可用区,请参见添加可用区

      是否开启高可用区

      单可用区部署推理服务时,支持为推理服务开启高可用。
      开启高可用的推理服务,节点数量为 2 的整数倍。

      资源类型

      您可以选择 CPU 类型和 GPU 两种资源类型。
      如果需要使用的资源类型还未启用,您可以选择先变配 AI 搜索。具体操作,请参见变配 AI 搜索

      规格

      从下拉列表中选择资源规格。

      节点数量

      设置推理服务的节点数量。

      • 单可用区部署,未开启高可用:节点数量可设范围为 1~512。
      • 单可用区部署,开启高可用:节点数量为 2 的整数倍,最大值为 512。
      • 多可用区部署:节点数量为可用区个数的整数倍,最大值为 512。比如可用区个数为 2,节点数量就为 2 的整数倍。

      说明

      使用 GPU 资源类型时,请根据界面提示的剩余配额设置节点数量。

      网络配置

      是否开通私网访问。
      开通后,允许推理服务访问在相同 VPC 环境内的数据。

      描述

      自定义设置推理服务的描述信息。

      接入点限流

      选填,开启后可设置单接入点访问限流。

      • RPM:开启了接入点限流需要配置 RPM(Requests Per Minute)分钟处理请求数。

      高级选项

      支持为推理服务配置自定义参数。
      默认提供UserConfigmaxReplicasPerNode两个参数,如需增加其他参数配置,请单击添加自定义参数,然后配置参数名称和取值。

      • UserConfig参数只有关联 RAG 模型需要填写。使用案例,请参见构建智能问答系统
        Image
      • MaxReplicasPerNode参数表示单机副本数量。
      • MaxOngoingRequests参数表示单个副本最大同时处理的请求数量。
    2. 关联豆包大模型的参数配置如下:

    配置

    说明

    服务名称

    自定义设置推理服务的名称。

    • 首字符仅支持字母或下划线(_)。
    • 可包含字母、数字、特殊字符仅支持英文句号(.)、下划线(_)、短横线(-)、反斜杠(/),长度为 1~128 个字符。
    • 最多只能包含一个反斜杠(/)字符。

    选择模型

    从下拉列表框选择推理服务需要关联的豆包大模型,支持根据模型名称关键字进行模糊搜索。

    描述

    自定义设置推理服务的描述信息。

    接入点限流

    选填,开启后可设置单接入点访问限流,不开启则默认按照模型限流。

    • RPM:开启了接入点限流需要配置 RPM(Requests Per Minute)分钟处理请求数。
    • TPM:开启了接入点限流需要配置 TPM(Token Per Minute)分钟处理 tokens 数。