You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

核心能力

AI 生态

丰富推理框架兼容

深度适配 vLLM/SGLang/Dynamo 等主流推理框架,率先支持 Dynamo 的 PD 分离架构,助力推理效率提升。
灵活高效

推理算力提效

支持流量和算力灵活调度,基于复合指标实现海量算力弹性、精准、快速调用和出让,提升整体 GPU 资源利用率。
卓越性能

LLM 推理加速

部署 PD 分离架构的推理服务,结合引擎优化、算子优化及分布式缓存的运用,大幅提升端到端大模型推理性能。
全面追踪

全链路推理观测

火山方舟同款观测服务:推理全链路透明埋点,全方位覆盖 AI 推理引擎观测指标,推理问题分钟级精准定位。

方案架构

方案架构
产品架构
AI Cloud Native ServingKit 是一套面向推理模型部署的产品集,适用于在分布式环境中部署和交付大模型推理服务,为用户提供更强的推理性能、更省的推理成本、更广泛的生态支持。

架构优势

吞吐 TPS 提升 2.4 倍
TTFT 降低 60%
分钟级拉起服务
全链路应用观测,0 侵入埋点

相关产品

方案架构

架构优势

吞吐 TPS 提升 2.4 倍
TTFT 降低 60%
分钟级拉起服务
方案架构

架构优势

吞吐 TPS 提升 2.4 倍
TTFT 降低 60%
分钟级拉起服务

方案优势

模型极速启动

算子加速

AI 网关

PD 分离编排

多级分布式缓存

推理全链路观测

场景图
模型极速启动
基于 P2P 技术和模型加载工具,实现百台 GPU 分钟级部署 DeepSeek-R1-671B 完整模型,极大缩短模型部署时间。

产品优势

镜像加速
支撑百台镜像分钟级别服务拉起。
模型加速
支持 GDKV 模型预热,基于 RDMA 网络模型权重加速提升 8 倍。

相关产品

场景图

产品优势

镜像加速
模型加速
场景图
算子加速
适配多种推理引擎,叠加算子优化,提升推理性能。

产品优势

Dynamo PD 分离,单卡总吞吐提升 40%
自研 SGLang 算子优化,单卡总吞吐提升 2.4 倍

相关产品

场景图

产品优势

Dynamo PD 分离,单卡总吞吐提升 40%
自研 SGLang 算子优化,单卡总吞吐提升 2.4 倍
场景图
AI 网关
AI 推理应用的接入层必要组件,通过开启多模型流量智能调度和管理,确保对外服务的稳定性以及灵活性。

产品优势

身份鉴权及 Token 限流
多模型统一访问
插件增强:联网查询、内容安全、灰度发布
负载感知路由 & KVCache 感知路由

相关产品

场景图

产品优势

身份鉴权及 Token 限流
多模型统一访问
插件增强:联网查询、内容安全、灰度发布

相关产品

场景图
PD 分离编排
PD 分离动态调整,复合指标指导精准扩缩。

产品优势

PD 分离编排,提升资源管理效率
兼容 vLLM/Dynamo/SGLang 等分布式推理引擎;统一管理 P 和 D 节点,支持 xPyD,调度异构 GPU。
更准的弹性扩缩,提升 GPU 利用率
引入 KEDA 增强 HPA 能力,自定义扩缩容指标;通过复合指标,实现 P 和 D 独立伸缩。

相关产品

场景图

产品优势

PD 分离编排,提升资源管理效率
更准的弹性扩缩,提升 GPU 利用率
场景图
多级分布式缓存
弹性极速缓存 EIC 提供丰富多样的 KVCache 缓存服务。

产品优势

丰富 KVCache 缓存服务
支持 GPU Direct RDMA(GDR)访问,相比传统 KV,时延降低至 1/50。
弹性极速缓存 EIC
充分利用 GPU 机器闲置 DRAM 和本地盘,降低资源成本。

相关产品

场景图

产品优势

丰富 KVCache 缓存服务
弹性极速缓存 EIC
场景图
推理全链路观测
推理全链路透明埋点,业务故障可观测。

产品优势

模型推理的全链路覆盖
支持 vLLM/Dynamo/SGLang 等推理框架指标观测。
性能分析
支持无侵入、轻量级动态开启,快速定位 AI 服务性能瓶颈。

场景图

产品优势

模型推理的全链路覆盖
性能分析

模型极速启动

场景图

产品优势

镜像加速
模型加速
场景图

产品优势

Dynamo PD 分离,单卡总吞吐提升 40%
自研 SGLang 算子优化,单卡总吞吐提升 2.4 倍
场景图

产品优势

身份鉴权及 Token 限流
多模型统一访问
插件增强:联网查询、内容安全、灰度发布

相关产品

场景图

产品优势

PD 分离编排,提升资源管理效率
更准的弹性扩缩,提升 GPU 利用率
场景图

产品优势

丰富 KVCache 缓存服务
弹性极速缓存 EIC
场景图

产品优势

模型推理的全链路覆盖
性能分析

大模型时代更开放普惠的 AI 云服务

大模型时代更开放普惠的 AI 云服务

大模型时代更开放普惠的 AI 云服务

大模型时代更开放普惠的 AI 云服务

合作案例
借鉴真实成功案例经验,助力业务增长
“传统搜索和 AI 大模型结合,直播间的用户在搜索场景得到更优的体验。”
——虎牙直播
“基于火山引擎推理套件部署 R1,TTFT(mean) 优化约 230%, TPOT(mean) 优化约 17%。”
——某出海客户
“传统搜索和 AI 大模型结合,直播间的用户在搜索场景得到更优的体验。”
——虎牙直播
“基于火山引擎推理套件部署 R1,TTFT(mean) 优化约 230%, TPOT(mean) 优化约 17%。”
——某出海客户