You need to enable JavaScript to run this app.
导航
新功能发布记录2024.2
最近更新时间:2024.02.29 14:19:33首次发布时间:2024.02.20 14:06:38
2024.2.29
  • 涉及地域:若无特别说明,以下功能都会在 华北2(北京)、华东2(上海)、华南1(广州)、华北3(北京)(需开白) 几个地域发布。
功能说明开放状态相关文档

下线 g2i / c2i / r2i二代机型

  • 存量已经购买上述二代机型的可继续使用。
  • 无法在新建资源组时购买上述二代机型。
  • 在存量资源组中仅支持上述二代机型的缩容不支持扩容。

全量开放

支持闲时任务节点维度的抢占规则当大量闲时任务导致碎片时,即使队列的 quota 足够也会触发抢占,减少有 quota 排队的情况。全量开放
2024.2.20
  • 涉及地域:若无特别说明,以下功能都会在 华北2(北京)、华东2(上海)、华南1(广州)、华北3(北京)(需开白) 几个地域发布。
功能说明开放状态相关文档

GPU碎片资源整理规则的优化

  • 允许配置「在线服务」的所有实例参与重新调度,解决了以往单实例在线服务造成的 GPU 碎片难以被清理的问题。
  • 支持根据业务场景灵活配置「在线服务」做碎片整理的执行时间。

全量开放

自定义任务支持推送事件至 SNS(火山引擎消息通知服务)允许用户在 SNS 上订阅平台推送的事件(任务创建、重试、失败、删除、优先级调整、诊断异常等),从而收到对应的消息通知。仅华北2(北京)开白可用
CPU 负载支持资源隔离禁止使用纯 CPU 队列提交的 CPU 负载调度到 GPU 节点上,减少 GPU 碎片。开白可用

基础监控指标升级

  • 支持开启新版本指标采集。新版本指标和老版本指标可以单独开启和关闭,互不干扰。
  • 新版本指标包含老版原有的容器资源指标和 GPU 资源(DCGM)指标,但调整了一些标签的定义和位置。
  • 新版指标推送至 VMP 后会被计为 “云产品免费指标”,不再收费(老版本依然收费)。
  • 平台 DCGM 指标版本从 2.2.9 升级至 3.1.8,修复了包括 DCGM_FI_PROF_SM_ACTIVE 异常归零等问题,以及支持了少量新指标。

全量开放

详细说明