You need to enable JavaScript to run this app.
导航
【知识库】模型推理接入点保障重排 QPS
最近更新时间:2024.08.28 10:47:12首次发布时间:2024.07.26 10:59:28

说明

知识库服务提供了默认公共推理接入点,方便用户快速开启知识问答试用及调试。但在有较高生产级 QPS (Query Per Second,每秒查询并发量)需求,或想要使用精调模型进行对话问答的场景时,建议使用自建推理接入点

一、推理接入点创建

1、推理接入点定义

在使用大语言模型时,往往需要将模型部署成在线服务,并生成唯一服务访问入口,即为推理接入点

2、推理接入点创建

进入【火山方舟】产品控制台 / 在线推理 模块,点击【创建推理接入点
图片
在创建接入点时,可以按照业务实际需求,填写业务名称及描述信息。重点关注以下参数配置:

  • 接入模型:请参考以下两节 二、重排模型 三、大语言生成模型,按照不同场景选择模型
  • 购买方式
    • 按 Token 计费:按照实际消耗Token量后付费,更加灵活,但可达到的并发上限较低。可通过产品页面,查看不同模型对应的访问限制详情
    • 按模型单元计费:按照模型可支持的 TPM(Token Per Minute) 付费,可支持更高并发。预付费模式下保障资源确定性,适合对SLA要求更高或流量更平滑的业务。注意:购买模型单元前,需联系火山客服协调资源加白,再进行线上购买

图片

二、重排模型

说明

重排模型暂未对全量客户开放构建私有推理接入点,如有需要,请先联系火山客服对重排模型进行加白
图片
在工作人员操作模型加白后,您将会受到一条共享邀约通知
您会在火山方舟的模型仓库收到一条邀约提醒,点击“立即处理”前往「资源共享」平台。
图片
接受共享邀约
在【资源管理】平台左侧导航栏选择【共享给我】,可查看收到的资源共享。
点击“接受”共享邀请,就可以访问该共享资源。您可以前往火山方舟【模型仓库】查看接受的共享模型。
图片

请确保您已经拥有重排模型的访问权限,并参考如下步骤进行接入点构建:

1、推理接入点创建

在创建推理接入点,需选择【模型仓库】下的 “共享” rerank 模型进行创建
注意:不要选择其他模型,非 rerank 模型的接入点,无法在检索测试时选到
图片

2、检索测试选择

在进行检索测试时,若开启【重排模型】可点击模型卡片,并在展开下拉框里选择已创建的推理接入点,若未创建过,也可以直接点击【创建接入点】跳转至火山方舟控制台进行新建
图片

三、大语言生成模型

1、推理接入点创建

在创建推理接入点,可以选择使用【模型广场】下的官方 Doubao 模型进行构建,也可以按需切换到【模型仓库】使用精调后的模型进行构建。

图片

2、检索生成选择

在进行检索测试时,开启【大模型回答】,先选择想要使用的模型,再选择模型对应私有接入点即可

图片

此外,通过 API 调用私有接入点可参考 search