通过 Endpoint ID 调用模型--火山方舟大模型服务平台-火山引擎

文档中心

导航

通过 Endpoint ID 调用模型

最近更新时间：2025.03.24 15:42:36首次发布时间：2023.06.27 23:50:08

推理接入点 是方舟平台提供的模型服务抽象单元，用于通过 API/SDK 调用大模型进行推理。
您可以通过创建 自定义推理接入点 Endpoint ID 的方式来接入模型，通过此方式可以对模型服务进行灵活控制、精细监控、安全加固、风险防护等操作，帮助您获得更贴合业务、更加安全的模型服务。

灵活控制服务调用，按需变更服务启停状态、模型版本、服务限流、关联的智能体、资源包等配置。
监控服务调用指标，如性能延时、调用错误率、接口调用速率、token使用速率等指标。
监控服务风险，如沙箱的异常连接、登陆及非法命令执行等。
为服务进行安全加固，如HTTPS、mTLS加密传输，保障会话数据安全。

说明

您也可以参考快速入门-调用模型服务，通过 Model ID快快速调用模型。

前提条件

在调用模型之前，请确认所需模型已开通（参见开通管理）。
获取API key，并配置为系统环境变量（参见1.获取并配置 API Key ）。

调用流程

在获取 Endpoint ID后，您可以参考模型能力或 API 列表来获取对应的模型代码示例，并通过对model字段赋值 Endpoint ID （推理接入点ID）的方式来发起调用。

import os
from volcenginesdkarkruntime import Ark
# 从环境变量中读取您的方舟API Key
client = Ark(api_key=os.environ.get("<YOUR_API_KEY>"))
completion = client.chat.completions.create(
    # 将 <Model> 替换为 Endpoint ID（或者Model ID）
    model="<Model>", 
    messages=[
        {"role": "user", "content": "你好"}
    ]
)
print(completion.choices[0].message)

获取 Endpoint ID

访问方舟控制台-在线推理。
点击页面上方 账号全部资源 下拉箭头，切换需要创建推理接入点的项目空间。
切换到“自定义推理接入点”页签，单击 创建推理接入点 按钮，在打开的页面中选择推理接入点配置。
按照界面完成配置，如对参数有疑问，可以参考配置参数说明。
打开方舟控制台-在线推理查看推理接入点 ID。

配置参数说明

创建模型 自定义推理接入点 时，配置参数字段详细说明如下：

配置项	子配置项	配置说明
接入点名称	-	必填，填写接入点名称。
接入点描述	-	选填，描述接入模型的业务需求，如接入场景、用途（如测试、线上业务）等。
接入模型	-	必填，可选择模型广场或模型仓库中的模型进行接入：模型广场：模型为基础模型，需进一步选择模型版本。模型仓库：模型为精调模型，需进一步选择模型版本。当前精调模型仅支持基于豆包系列模型。
购买方式	-	必填，计费方式支持使用按Token付费、按模型单元付费。按Token付费（推荐）：是指大模型处理内容转化为 Tokens，并按照Tokens 数量计费，包括提交给模型处理的内容，以及模型输出的内容。换算工具请参见在线体验工具在线体验工具。模型单元：是指调用某个特定模型的 TPM（Token per Minute，单位时间 token 的使用量）配额。目前仅部分模型支持此方式购买，详情请参见模型单元。购买模型单元，请提交工单点击控制台右下角图标发起oncall申请。了解模型单元，请参见模型单元。
按Token付费	模型限流	无需配置，系统会显示该账号下访问所选模型的总限流。如您希望提升模型访问总限流，您可以提交工单或购买TPM保障包。
	TPM保障包(推荐订购)	选填。可以提升账号下该模型推理接入点的限流，降低延时。详细介绍请参见TPM保障包。
	计费类型	必填。TPM保障包的计费方式，包括后付费，预付费：后付费(按小时)：按量计费，使用灵活，适合短期或者服务请求波动较大的场景。预付费(按天)：提前购买，价格较为优惠，适合长期或者服务请求相对稳定的场景。
	购买额度	必填。TPM保障包的额度，请根据界面提示进行选择。
	购买时长	必填。TPM保障包的购买时长。
	自动续费	可选，推荐您进行选择，保障服务持续可用。
	单次自动续费时长	必填。触发自动续费时，为您自动购买的TPM保障包时长。
	自动续费次数	必填。默认为永久生效，您可以根据业务填写自定义次数。
按模型单元付费	计费类型	必填，当选择了按模型单元付费，需要选择计费类型。后付费：按照模型单元运行时长付费，适合模型推理服务波动较大或者无法预测的场景，使用更加灵活。说明购买后付费模型单元的前提是账号中的余额大于 100 元，否则无法成功下单。预付费：按月预留资源，提供更优惠价格，适合模型推理服务波动较小，可预测的场景。组合使用：预付费模型单元和后付费模型单元叠加使用在推理接入点。创建推理接入点时只能选择 1 种计费类型，操作叠加购买多种模型单元，需要创建完成推理接入点后，在推理接入点详情页进行配置。说明如下图所示，日常有基础访问次数以及在某时间段有高峰期的时段，可以考虑通过预付费方式购买基础访问次数匹配的模型单元以获得优惠价格；再通过购买灵活变动的后付费模型单元，来应对高峰期的超出基础次数的模型服务请求。
	购买时长	必填。选择模型单元购买时长，即模型单元包月的时长。
	自动续费	选填，费用到期后，是否自动续费。说明推荐您开通自动续费，可避免续费不及时导致业务中断。
	单次自动续费时长	必填，当开启了自动续费，需要配置每次触发自动续费时，下个模型单元包月的时长。
	自动续费次数	必填，当开启了自动续费，需要配置自动续费执行的次数。
接入点限流	-	选填，服务接入点是否限流。
	RPM	必填，开启了接入点限流后，需要配置 RPM（Requests Per Minute）分钟处理请求数。
	TPM	必填，开启了接入点限流后，需要配置 TPM（Tokens Per Minute）分钟处理 tokens 数。

说明

如模型单元购买失败，平台将为您在两小时内完成退款。

管理 Endpoint ID

您可以在控制台在线推理-自定义推理接入点中查看创建的推理接入点列表。

登录火山方舟控制台，点击页面上方项目切换下拉按钮，切换需要创建推理接入点的项目空间。

进入在线推理-自定义推理接入点页签，可以查看和管理创建的接入点。点击接入点名称可进入详情页。

您可以在接入点详情页面执行 切换模型版本、 查询和修改模型限流 等设置。另外，您也可以查看到接入点的计费、状态监控、应用关联情况 和 安全审计 信息。如果您不再需要此接入点，也可以点击“停止接入”按钮，停止相关应用接入。