查看并管理推理接入点--火山方舟大模型服务平台-火山引擎

文档中心

导航

查看并管理推理接入点

最近更新时间：2025.01.16 23:13:56首次发布时间：2023.12.13 22:54:10

查看并管理模型推理

登录火山方舟，单击左侧导航栏中的在线推理进入列表页。列表页展示了每个接入点的名称、状态、创建时间、管理员信息，也提供了开启、停止、删除等操作。

在线推理列表页，支持按接入点名称 、模型名称等条件进行搜索。
为便于理解，对在线推理接入点状态字段做特别说明：

参数名称	参数说明
接入点状态	调度中：后台资源正在调度中，可能处于排队状态也可能已经在资源启动中
	健康：接入点状态正常，可以正常调用。健康并不能表示接入点负载情况。调用超过限流，状态会显示健康，但是服务会返回错误。
	已停止：用户触发停止接入的操作
	异常：接入的模型异常，您可以提交工单后台将为您处理

查看模型推理接入点详情

点击具体接入点名称进入接入点详情页，可以查看模型推理接入点的概览信息、监控、API调用等信息。

概览信息

概览信息中可以查看模型推理接入点模型信息。

基本信息：接入模型、限流、创建人等信息。
计费信息：计费类型、输入输出价格。
关联的应用。

点击右上角的 ···，可编辑信息、删除该服务。请注意，当前模型推理接入点支持在相同模型基座的基础上调整不同的模型版本。
模型推理接入点的频率限制可根据具体需求场景评估是否满足，不满足可以参照前端提示提交工单联系客服咨询。

API 调用

API调用页面可以查看模型推理接入点的调用方法，目前支持2种授权方式。
方式1：API Key 授权。在方舟创建 API Key 后，使用API Key获得对应推理接入点的服务调用权限。
您可以在API key管理页面获取API Key，在环境变量中进行设置，参考API示例对模型推理接入点进行调用。

方式2：火山引擎IAM（访问控制）授权。在IAM为子账号配置权限后，您访问时带入子账号的API访问中的Access Key和Secret Access Key，平台为您进行资源级别的访问鉴权，是更加安全可控的方式。
您可以参考使用IAM进行访问控制对资源进行授权，获得授权后，可使用平台提供的多语言SDK，在环境变量中设置Access Key和Secret Access Key发起调用。

监控使用配置

模型监控页面可以查看Token消耗速率请求速率、接口延时、错误率、流式首帧延时、流式非首 Token 延时、非流式延迟。查看监控数据需要完成3步配置：开通VMP服务、授权跨服务访问、选择工作区。

1.开通VMP服务并创建工作区

VMP：Volcengine Managed Service for Prometheus/ 托管Prometheus服务

点击第一步中的前往开通按钮，会跳转至托管 Prometheus 服务开通申请页面。请阅读确认相关服务介绍及计费方式，确认后点击申请开通。服务开通成功后，可以点击查看产品详情，进入托管 Prometheus 服务配置页面。
注意
您需要有VMPFullAccess才能完成该配置。可通过控制台右上角访问控制完成权限配置

需要在托管 Prometheus 服务配置页面，完成创建工作区。