You need to enable JavaScript to run this app.
导航
创建推理服务
最近更新时间:2024.11.01 11:11:46首次发布时间:2024.09.26 11:38:08

模型创建后,您需要继续创建推理服务。创建推理服务时,需要与目标模型进行关联,并根据业务需求配置网络、资源、以及自定义参数等内容。

前提条件

明确推理服务需要关联的模型,请提前获取目标模型的名称。

  • 如果关联自定义模型,需要提前创建自定义模型,请参见创建自定义模型
  • 如果关联公共模型,需要提前获取公共模型的名称、维度等信息,请参见查看公共模型

创建推理服务

  1. 登录云搜索服务控制台

  2. 在顶部导航栏,选择目标项目和地域。

  3. 在左侧导航栏选择 ML 服务,查找并单击目标服务名称。

  4. 在左侧导航栏选择推理服务,然后单击创建推理服务

  5. 创建推理服务面板,配置推理服务相关参数,然后单击确定

    配置

    说明

    服务名称

    自定义设置推理服务的名称。

    • 首字符仅支持字母或下划线(_)。
    • 可包含字母、数字、特殊字符仅支持英文句号(.)、下划线(_)、短横线(-)、反斜杠(/),长度为 1~128 个字符。
    • 最多只能包含一个反斜杠(/)字符。

    选择模型

    从拉列表框选择推理服务需要关联的模型,支持根据模型名称关键字进行模糊搜索。

    可用区

    选择需要部署推理服务的可用区。

    • 如果 OpenSearch 实例是单可用区,那么您的推理服务也只有一个可用区。
    • 如果推理服务需要多可用区部署,则需要确保 OpenSearch 实例有多个可用区。如何为实例添加可用区,请参见添加可用区

    是否开启高可用区

    单可用区部署推理服务时,支持为推理服务开启高可用。
    开启高可用的推理服务,节点数量至少为 2。

    资源类型

    您可以选择 CPU 类型和 GPU 两种资源类型。
    如果需要使用的资源类型还未启用,您可以选择先变配 ML 服务。具体操作,请参见变配 ML 服务

    规格

    从下拉列表中选择资源规格。

    节点数量

    设置推理服务的节点数量。

    • 单可用区部署,未开启高可用:节点数量可设范围为 1~512。
    • 单可用区部署,开启高可用:节点数量为 2 的整数倍,最大值为 512。
    • 多可用区部署:节点数量为可用区个数的整数倍,最大值为 512。比如可用区个数为 2,节点数量就为 2 的整数倍。

    说明

    使用 GPU 资源类型时,请根据界面提示的剩余配额设置节点数量。

    网络配置

    是否开通私网访问。
    开通后,系统将为推理服务关联的模型分配一个私网访问地址,允许与 ML 服务在相同 VPC 环境内的客户端访问关联的模型。

    描述

    自定义设置推理服务的描述信息。

    高级选项

    支持为推理服务配置自定义参数。
    默认提供UserConfigmaxReplicasPerNode两个参数,如需增加其他参数配置,请单击添加自定义参数,然后配置参数名称和取值。

    • UserConfig参数只有关联 RAG 模型需要填写。使用案例,请参见构建智能问答系统
      Image
    • MaxReplicasPerNode参数表示单机副本数量。
    • MaxOngoingRequests参数表示单个副本最大同时处理的请求数量。