You need to enable JavaScript to run this app.
导航
模型推理接入点保障重排 QPS
最近更新时间:2024.09.10 19:58:35首次发布时间:2024.08.26 21:50:24

说明

知识库服务提供了默认公共推理接入点,方便用户快速开启知识问答试用及调试。但在有较高生产级 QPS (Query Per Second,每秒查询并发量)需求,建议使用自建的推理接入点。

一、创建推理接入点


创建推理接入点请参考【+创建推理接入点】。在创建时,重点关注以下参数配置:

  • 接入模型:请参考以下章节 二、重排模型
  • 购买方式
    • 按 Token 计费:按照实际消耗Token量后付费,更加灵活,但可达到的并发上限较低。可通过产品页面,查看不同模型对应的访问限制详情。
    • 按模型单元计费:按照模型可支持的 TPM(Token Per Minute) 付费,可支持更高并发。预付费模式下保障资源确定性,适合对SLA要求更高或流量更平滑的业务。注意:购买模型单元前,请先联系「联系我们」协调资源加白,再进行线上购买。

图片

二、重排模型

说明

重排模型暂未对全量客户开放构建私有推理接入点,如有需要,请先请先联系「联系我们」协调资源加白
图片
在工作人员操作模型加白后,您将会收到一条共享邀约通知
您会在火山方舟的模型仓库收到一条邀约提醒,点击“立即处理”前往「资源共享」平台。
图片
接受共享邀约
在【资源管理】平台左侧导航栏选择【共享给我】,可查看收到的资源共享。
点击“接受”共享邀请,就可以访问该共享资源。您可以前往火山方舟【模型仓库】查看接受的共享模型。
图片

请确保您已经拥有重排模型的访问权限,并参考如下步骤进行接入点构建:

1、推理接入点创建

在创建推理接入点,需选择【模型仓库】下的 “共享” rerank 模型进行创建
注意:不要选择其他模型,非 rerank 模型的接入点,无法在检索测试时选到
图片

2、检索测试选择

在进行检索测试时,若开启【重排模型】可点击模型卡片,并在展开下拉框里选择已创建的推理接入点,若未创建过,也可以直接点击【创建接入点】跳转至火山方舟控制台进行新建
alt