推理接入点 是方舟平台提供的模型服务抽象单元,用于通过 API/SDK 调用大模型进行推理。
您可以通过创建 自定义推理接入点 Endpoint ID 的方式来接入模型 ,通过此方式可以对模型服务进行灵活控制、精细监控、安全加固、风险防护等操作,帮助您获得更贴合业务、更加安全的模型服务。
说明
您也可以参考 快速入门-调用模型服务,通过 Model ID快快速调用模型。
在获取 Endpoint ID后,您可以参考 模型能力 或 API 列表来获取对应的模型代码示例,并通过对model
字段赋值 Endpoint ID (推理接入点ID)的方式来发起调用。
import os from volcenginesdkarkruntime import Ark # 从环境变量中读取您的方舟API Key client = Ark(api_key=os.environ.get("<YOUR_API_KEY>")) completion = client.chat.completions.create( # 将 <Model> 替换为 Endpoint ID(或者Model ID) model="<Model>", messages=[ {"role": "user", "content": "你好"} ] ) print(completion.choices[0].message)
创建模型 自定义推理接入点 时,配置参数字段详细说明如下:
配置项 | 子配置项 | 配置说明 |
---|---|---|
接入点名称 | - | 必填,填写接入点名称。 |
接入点描述 | - | 选填,描述接入模型的业务需求,如接入场景、用途(如测试、线上业务)等。 |
接入模型 | - | 必填,可选择 模型广场 或 模型仓库 中的模型进行接入:
|
购买方式 | - | 必填,计费方式支持使用 按Token付费、按模型单元付费。
|
按Token付费 | 模型限流 | 无需配置,系统会显示该账号下访问 所选模型的总限流。 |
TPM保障包(推荐订购) | 选填。可以提升账号下该模型推理接入点的限流,降低延时。 | |
| 必填。TPM保障包的计费方式,包括 后付费 , 预付费 :
| |
| 必填。TPM保障包的额度,请根据界面提示进行选择。 | |
| 必填。TPM保障包的购买时长。 | |
| 可选,推荐您进行选择,保障服务持续可用。 | |
| 必填。触发自动续费时,为您自动购买的TPM保障包时长。 | |
| 必填。默认为永久生效,您可以根据业务填写自定义次数。 | |
按模型单元付费 | 计费类型 | 必填,当选择了 按模型单元付费 ,需要选择计费类型。
说明 购买后付费模型单元的前提是账号中的余额大于 100 元,否则无法成功下单。
说明 如下图所示,日常有基础访问次数以及在某时间段有高峰期的时段,可以考虑通过预付费方式购买基础访问次数匹配的模型单元以获得优惠价格;再通过购买灵活变动的后付费模型单元,来应对高峰期的超出基础次数的模型服务请求。 |
购买时长 | 必填。选择模型单元购买时长,即模型单元包月的时长。 | |
自动续费 | 选填,费用到期后,是否自动续费。 说明 推荐您开通自动续费,可避免续费不及时导致业务中断。 | |
| 必填,当开启了自动续费,需要配置每次触发自动续费时,下个模型单元包月的时长。 | |
| 必填,当开启了自动续费,需要配置自动续费执行的次数。 | |
接入点限流 | - | 选填,服务接入点是否限流。 |
| 必填,开启了接入点限流后,需要配置 RPM(Requests Per Minute)分钟处理请求数。 | |
| 必填,开启了接入点限流后,需要配置 TPM(Tokens Per Minute)分钟处理 tokens 数。 |
说明
如模型单元购买失败,平台将为您在两小时内完成退款。
您可以在控制台在线推理-自定义推理接入点中查看创建的推理接入点列表。