火山引擎-云上增长新动力

立即注册

依托字节跳动大规模 AI 实践、火山方舟海量业务经验，通过容器编排、AI 网关、推理全链路观测和 AI 加速，支持企业在大规模 GPU 集群上高效、稳定、高性价比地运行推理工作负载。

通过容器编排、AI 网关、推理全链路观测和 AI 加速，支持企业在大规模 GPU 集群上高效、稳定、高性价比地运行推理工作负载。

核心能力

方案架构

方案优势

视频演示

合作案例

核心能力

立即咨询

AI 生态

丰富推理框架兼容

深度适配 vLLM/SGLang/Dynamo 等主流推理框架，率先支持 Dynamo 的 PD 分离架构，助力推理效率提升。

灵活高效

推理算力提效

支持流量和算力灵活调度，基于复合指标实现海量算力弹性、精准、快速调用和出让，提升整体 GPU 资源利用率。

卓越性能

LLM 推理加速

部署 PD 分离架构的推理服务，结合引擎优化、算子优化及分布式缓存的运用，大幅提升端到端大模型推理性能。

全面追踪

全链路推理观测

火山方舟同款观测服务：推理全链路透明埋点，全方位覆盖 AI 推理引擎观测指标，推理问题分钟级精准定位。

方案架构

产品架构

AI Cloud Native ServingKit 是一套面向推理模型部署的产品集，适用于在分布式环境中部署和交付大模型推理服务，为用户提供更强的推理性能、更省的推理成本、更广泛的生态支持。

架构优势

吞吐 TPS 提升 2.4 倍

TTFT 降低 60%

分钟级拉起服务

全链路应用观测，0 侵入埋点

架构优势

吞吐 TPS 提升 2.4 倍

TTFT 降低 60%

分钟级拉起服务

架构优势

吞吐 TPS 提升 2.4 倍

TTFT 降低 60%

分钟级拉起服务

方案优势

模型极速启动

算子加速

AI 网关

PD 分离编排

多级分布式缓存

推理全链路观测

模型极速启动

基于 P2P 技术和模型加载工具，实现百台 GPU 分钟级部署 DeepSeek-R1-671B 完整模型，极大缩短模型部署时间。

产品优势

镜像加速

支撑百台镜像分钟级别服务拉起。

模型加速

支持 GDKV 模型预热，基于 RDMA 网络模型权重加速提升 8 倍。

产品优势

镜像加速

模型加速

产品优势

Dynamo PD 分离，单卡总吞吐提升 40%

自研 SGLang 算子优化，单卡总吞吐提升 2.4 倍

产品优势

Dynamo PD 分离，单卡总吞吐提升 40%

自研 SGLang 算子优化，单卡总吞吐提升 2.4 倍

产品优势

身份鉴权及 Token 限流

多模型统一访问

插件增强：联网查询、内容安全、灰度发布

负载感知路由 & KVCache 感知路由

产品优势

身份鉴权及 Token 限流

多模型统一访问

插件增强：联网查询、内容安全、灰度发布

产品优势

PD 分离编排，提升资源管理效率

兼容 vLLM/Dynamo/SGLang 等分布式推理引擎；统一管理 P 和 D 节点，支持 xPyD，调度异构 GPU。

更准的弹性扩缩，提升 GPU 利用率

引入 KEDA 增强 HPA 能力，自定义扩缩容指标；通过复合指标，实现 P 和 D 独立伸缩。

产品优势

PD 分离编排，提升资源管理效率

更准的弹性扩缩，提升 GPU 利用率

产品优势

丰富 KVCache 缓存服务

支持 GPU Direct RDMA（GDR）访问，相比传统 KV，时延降低至 1/50。

弹性极速缓存 EIC

充分利用 GPU 机器闲置 DRAM 和本地盘，降低资源成本。

产品优势

丰富 KVCache 缓存服务

弹性极速缓存 EIC

产品优势

模型推理的全链路覆盖

支持 vLLM/Dynamo/SGLang 等推理框架指标观测。

性能分析

支持无侵入、轻量级动态开启，快速定位 AI 服务性能瓶颈。

应用性能监控全链路版托管 Prometheus

产品优势

模型推理的全链路覆盖

性能分析