We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
文档
备案
控制台
登录
立即注册
AI 云原生推理套件
依托字节跳动大规模 AI 实践、火山方舟海量业务经验,通过容器编排、AI 网关、推理全链路观测和 AI 加速,支持企业在大规模 GPU 集群上高效、稳定、高性价比地运行推理工作负载。
通过容器编排、AI 网关、推理全链路观测和 AI 加速,支持企业在大规模 GPU 集群上高效、稳定、高性价比地运行推理工作负载。
2.4 倍
推理吞吐提升
60%
TTFT降低
PD分离
推理框架
立即咨询
核心能力
方案架构
方案优势
视频演示
合作案例
核心能力
立即咨询
AI 生态
丰富推理框架兼容
深度适配 vLLM/SGLang/Dynamo 等主流推理框架,率先支持 Dynamo 的 PD 分离架构,助力推理效率提升。
灵活高效
推理算力提效
支持流量和算力灵活调度,基于复合指标实现海量算力弹性、精准、快速调用和出让,提升整体 GPU 资源利用率。
卓越性能
LLM 推理加速
部署 PD 分离架构的推理服务,结合引擎优化、算子优化及分布式缓存的运用,大幅提升端到端大模型推理性能。
全面追踪
全链路推理观测
火山方舟同款观测服务:推理全链路透明埋点,全方位覆盖 AI 推理引擎观测指标,推理问题分钟级精准定位。
方案架构
产品架构
AI Cloud Native ServingKit 是一套面向推理模型部署的产品集,适用于在分布式环境中部署和交付大模型推理服务,为用户提供更强的推理性能、更省的推理成本、更广泛的生态支持。
架构优势
吞吐 TPS 提升 2.4 倍
TTFT 降低 60%
分钟级拉起服务
全链路应用观测,0 侵入埋点
立即咨询
相关产品
GPU 云服务器
容器服务
API 网关
架构优势
吞吐 TPS 提升 2.4 倍
TTFT 降低 60%
分钟级拉起服务
相关产品
GPU 云服务器
容器服务
API 网关
架构优势
吞吐 TPS 提升 2.4 倍
TTFT 降低 60%
分钟级拉起服务
相关产品
GPU 云服务器
容器服务
API 网关
方案优势
模型极速启动
算子加速
AI 网关
PD 分离编排
多级分布式缓存
推理全链路观测
模型极速启动
基于 P2P 技术和模型加载工具,实现百台 GPU 分钟级部署 DeepSeek-R1-671B 完整模型,极大缩短模型部署时间。
产品优势
镜像加速
支撑百台镜像分钟级别服务拉起。
模型加速
支持 GDKV 模型预热,基于 RDMA 网络模型权重加速提升 8 倍。
立即咨询
相关产品
容器服务
镜像仓库
产品优势
镜像加速
模型加速
相关产品
容器服务
镜像仓库
算子加速
适配多种推理引擎,叠加算子优化,提升推理性能。
产品优势
Dynamo PD 分离,单卡总吞吐提升 40%
自研 SGLang 算子优化,单卡总吞吐提升 2.4 倍
立即咨询
相关产品
GPU 云服务器
容器服务
产品优势
Dynamo PD 分离,单卡总吞吐提升 40%
自研 SGLang 算子优化,单卡总吞吐提升 2.4 倍
相关产品
GPU 云服务器
容器服务
AI 网关
AI 推理应用的接入层必要组件,通过开启多模型流量智能调度和管理,确保对外服务的稳定性以及灵活性。
产品优势
身份鉴权及 Token 限流
多模型统一访问
插件增强:联网查询、内容安全、灰度发布
负载感知路由 & KVCache 感知路由
立即咨询
相关产品
API 网关
产品优势
身份鉴权及 Token 限流
多模型统一访问
插件增强:联网查询、内容安全、灰度发布
相关产品
API 网关
PD 分离编排
PD 分离动态调整,复合指标指导精准扩缩。
产品优势
PD 分离编排,提升资源管理效率
兼容 vLLM/Dynamo/SGLang 等分布式推理引擎;统一管理 P 和 D 节点,支持 xPyD,调度异构 GPU。
更准的弹性扩缩,提升 GPU 利用率
引入 KEDA 增强 HPA 能力,自定义扩缩容指标;通过复合指标,实现 P 和 D 独立伸缩。
立即咨询
相关产品
容器服务
托管 Prometheus
API 网关
产品优势
PD 分离编排,提升资源管理效率
更准的弹性扩缩,提升 GPU 利用率
相关产品
容器服务
托管 Prometheus
API 网关
多级分布式缓存
弹性极速缓存 EIC 提供丰富多样的 KVCache 缓存服务。
产品优势
丰富 KVCache 缓存服务
支持 GPU Direct RDMA(GDR)访问,相比传统 KV,时延降低至 1/50。
弹性极速缓存 EIC
充分利用 GPU 机器闲置 DRAM 和本地盘,降低资源成本。
立即咨询
相关产品
弹性极速缓存
容器服务
产品优势
丰富 KVCache 缓存服务
弹性极速缓存 EIC
相关产品
弹性极速缓存
容器服务
推理全链路观测
推理全链路透明埋点,业务故障可观测。
产品优势
模型推理的全链路覆盖
支持 vLLM/Dynamo/SGLang 等推理框架指标观测。
性能分析
支持无侵入、轻量级动态开启,快速定位 AI 服务性能瓶颈。
立即咨询
应用性能监控全链路版
托管 Prometheus
产品优势
模型推理的全链路覆盖
性能分析
应用性能监控全链路版
托管 Prometheus
模型极速启动
产品优势
镜像加速
模型加速
相关产品
容器服务
镜像仓库
算子加速
产品优势
Dynamo PD 分离,单卡总吞吐提升 40%
自研 SGLang 算子优化,单卡总吞吐提升 2.4 倍
相关产品
GPU 云服务器
容器服务
AI 网关
产品优势
身份鉴权及 Token 限流
多模型统一访问
插件增强:联网查询、内容安全、灰度发布
相关产品
API 网关
PD 分离编排
产品优势
PD 分离编排,提升资源管理效率
更准的弹性扩缩,提升 GPU 利用率
相关产品
容器服务
托管 Prometheus
API 网关
多级分布式缓存
产品优势
丰富 KVCache 缓存服务
弹性极速缓存 EIC
相关产品
弹性极速缓存
容器服务
推理全链路观测
产品优势
模型推理的全链路覆盖
性能分析
应用性能监控全链路版
托管 Prometheus
大模型时代更开放普惠的 AI 云服务
大模型时代更开放普惠的 AI 云服务
大模型时代更开放普惠的 AI 云服务
大模型时代更开放普惠的 AI 云服务
合作案例
借鉴真实成功案例经验,助力业务增长
“传统搜索和 AI 大模型结合,直播间的用户在搜索场景得到更优的体验。”
——虎牙直播
“基于火山引擎推理套件部署 R1,TTFT(mean) 优化约 230%, TPOT(mean) 优化约 17%。”
——某出海客户
“传统搜索和 AI 大模型结合,直播间的用户在搜索场景得到更优的体验。”
——虎牙直播
“基于火山引擎推理套件部署 R1,TTFT(mean) 优化约 230%, TPOT(mean) 优化约 17%。”
——某出海客户