You need to enable JavaScript to run this app.
导航
查看并管理推理接入点
最近更新时间:2024.11.26 20:14:45首次发布时间:2023.12.13 22:54:10

查看并管理模型推理
  1. 登录火山方舟,单击左侧导航栏中的在线推理进入列表页。列表页展示了每个接入点的名称、状态、创建时间、管理员信息,也提供了开启停止删除等操作。

Image

  1. 在线推理列表页,支持按接入点名称模型名称等条件进行搜索。
  2. 为便于理解,对在线推理接入点状态字段做特别说明:

参数名称

参数说明

接入点状态

调度中:后台资源正在调度中,可能处于排队状态也可能已经在资源启动中

健康:接入点状态正常,可以正常调用。

健康并不能表示接入点负载情况。调用超过限流,状态会显示健康,但是服务会返回错误。

已停止:用户触发停止接入的操作

异常:接入的模型异常,您可以提交工单后台将为您处理

查看模型推理接入点详情

点击具体接入点名称进入接入点详情页,可以查看模型推理接入点的概览信息、监控、API调用等信息。

概览信息

概览信息中可以查看模型推理接入点模型信息。

  • 基本信息:接入模型、限流、创建人等信息。
  • 计费信息:计费类型、输入输出价格。
  • 关联的智能体。

点击右上角的 ···,可编辑信息、删除该服务。请注意,当前模型推理接入点支持在相同模型基座的基础上调整不同的模型版本。
模型推理接入点的频率限制可根据具体需求场景评估是否满足,不满足可以参照前端提示提交工单联系客服咨询。

API 调用

API调用页面可以查看模型推理接入点的调用方法,目前支持2种授权方式。
方式1:API Key 授权。在方舟创建 API Key 后,使用API Key获得对应推理接入点的服务调用权限。
您可以在API key管理页面获取API Key,在环境变量中进行设置,参考API示例对模型推理接入点进行调用。
Image
方式2:火山引擎IAM(访问控制)授权。在IAM为子账号配置权限后,您访问时带入子账号的API访问中的Access Key和Secret Access Key,平台为您进行资源级别的访问鉴权,是更加安全可控的方式。
您可以参考使用IAM进行访问控制对资源进行授权,获得授权后,可使用平台提供的多语言SDK,在环境变量中设置Access Key和Secret Access Key发起调用。
Image

监控使用配置

模型监控页面可以查看Token消耗速率请求速率、接口延时、错误率、流式首帧延时、流式非首 Token 延时、非流式延迟。查看监控数据需要完成3步配置:开通VMP服务、授权跨服务访问、选择工作区。

1.开通VMP服务并创建工作区

VMP:Volcengine Managed Service for Prometheus/ 托管Prometheus服务

点击第一步中的前往开通按钮,会跳转至托管 Prometheus 服务开通申请页面。请阅读确认相关服务介绍及计费方式,确认后点击申请开通。服务开通成功后,可以点击查看产品详情,进入托管 Prometheus 服务配置页面。
注意
您需要有VMPFullAccess才能完成该配置。可通过控制台右上角访问控制完成权限配置
Image
Image
需要在托管 Prometheus 服务配置页面,完成创建工作区。

在创建工作区页面配置工作区相关信息,确认无误后,点击立即创建。
Image
Image
成功创建会显示提交成功,并展示产品状态为正常

说明
如您购买VMP的标准版工作空间,方舟采集的监控指标将不会对您收取费用。VMP其他的收费说明见收费详情

2.授权跨服务访问

跨服务访问需要开通托管Prometheus服务。如按照第1步中已经完成 VMP 服务开通,那授权跨服务访问自动为已完成状态。

3.选择工作区

将第1步中配置的工作区名称与模型推理接入点进行关联。点击保存后,即出现监控页面。
Image
Image

指标告警配置

前提条件

火山引擎授权操作指引请参考:https://www.volcengine.com/docs/6257/65058

如果子账号需要配置告警规则,需要有当前账号的 VMPFullAccess 权限。如果用户仅有 VMPReadOnlyAccess 权限,需要额外新增以下接口权限来配置告警:

  • VMP:CreateAlertingRuleGroup,通过告警模版创建告警规则组
  • VMP:UpdateAlertingRuleGroup,更新告警规则组
  • VMP:UpgradeAlertingRuleGroups,升级告警规则组到最新的告警模版
  • VMP:DeleteAlertingRuleGroup,删除告警规则组

创建告警规则组

点击监控页面右上角的配置指标告警跳转至告警配置页面。
选择模板分类为 **Ark,**可以看到平台预制的告警模板,如果已有的告警模板不适用,也可以参 照VMP 创建告警规则自行配置。

选择方舟接入点模板后,点击下一步到基础信息配置页面。

基础信息需要配置告警名称、关联的工作区,支持配置变量选择告警生效接入点 ID 范围、通知策略、聚合策略。配置完成后点击下一步,进入告警规则配置。

配置规则页面已经按照选择的模板,进行了配置预置,可以根据自己的业务场景自行调整,完成配置后点击确认,完成告警规则组配置。

配置完成的告警规则,支持再次编辑和删除。

告警通知

支持使用邮件、飞书、钉钉、电话几种形式进行告警通知接收,详细配置方式见告警中心

监控

模型监控页面可以查看Token消耗速率请求速率、接口延时、错误率、首Token延时、非首 Token 延时、Token输入长度、Token输出长度。
Image