机器学习平台-火山引擎

火山方舟

产品能力

产品优势

应用场景

客户案例

开放大模型生态，驱动智能化未来

火山方舟提供模型训练、推理、评测、精调等全方位功能与服务，并重点支撑大模型生态。

开放大模型生态，驱动智能化未来

产品能力

云端开发

分布式训练

实验管理

在线服务

流程自动化

大模型安全

云端开发

提供稳定的在线编译、调试代码和模型开发的环境

灵活性对齐裸机

秒级开关机、重启不丢环境、动态挂载存储

易用性

SSH/WebIDE直连、秒级打包开发环境

云端开发

分布式训练

一键发起超大规模分布式任务

多机编排

0侵入支持PyTorch、DeepSpeed等框架

训练加速

通信库、算子库的通用优化

动态调度

任务优先级、跨队列抢占

分布式训练

实验管理

可视化地跟踪训练过程筛选最优模型

实验对比

对比不同实验的数据随Step的变化找出最优超参

数据形式多样

标量、直方图、多媒体、自定义表格

实验管理

在线服务

支持多框架、多种硬件的高性能推理服务

高性能

支TF、Triton以及自研的多种推理引擎

弹性扩缩容

根据定时/负载情况动态扩缩容实现极致的弹性

在线服务

流程自动化

从数据处理、训练、评估至发布的机器学习全流程编排

易用性

支持SDK/YAML编排、触发器自动触发

可复用

支持定义工作流模板实现组件的复用

流程自动化

大模型安全

通过大模型应用防火墙，保护大模型及应用不会受到OWASP LLM Top10攻击

全栈防护

集成提示词注入等多种攻击识别能力，接入更高效

极低时延

支持急速检测，满足低时延场景需求

大模型安全

云端开发

灵活性对齐裸机、易用性。

云端开发

分布式训练

多机编排、训练加速、动态调度。

分布式训练

实验管理

实验对比、数据形式多样。

实验管理

在线服务

高性能、弹性扩缩容。

在线服务

流程自动化

易用性、可复用。

流程自动化

大模型安全

全栈防护、极低时延。

大模型安全

云端开发

灵活性对齐裸机、易用性。

分布式训练

多机编排、训练加速、动态调度。

实验管理

实验对比、数据形式多样。

在线服务

高性能、弹性扩缩容。

流程自动化

易用性、可复用。

大模型安全

全栈防护、极低时延。

产品优势

高利用率

资源池化：GPU资源的高效利用

调度：训推一体、抢占、弹性伸缩

存储优化：PFS、缓存加速

模型优化

GPT大模型预训练、一键精调

抖音同款推荐模型白盒建模

算子库、通信库等通用系统优化

体验友好

易用性：代码+数据+镜像0改动

调参神器：兼容WandB、TB

模型运行效率分析工具箱

免费开放

平台免费，只按资源收费

支持OpenAPI、命令行工具

支持多语言SDK

高利用率

资源池化：GPU资源的高效利用

调度：训推一体、抢占、弹性伸缩

存储优化：PFS、缓存加速

模型优化

GPT大模型预训练、一键精调

抖音同款推荐模型白盒建模

算子库、通信库等通用系统优化

体验友好

易用性：代码+数据+镜像0改动

调参神器：兼容WandB、TB

模型运行效率分析工具箱

免费开放

平台免费，只按资源收费

支持OpenAPI、命令行工具

支持多语言SDK

应用场景

生物医药

提供灵活高效的弹性调度能力以应对类型丰富、数量多且波动大的超算任务。

大模型训练

GPT任务稳定运行，训练效率跟随卡数线性变化，为千亿大模型的训练保驾护航。

自动驾驶

以高性能算子库、通信优化等手段加速迭代，以分层存储和缓存加速简化海量样本的管理。

生物医药

提供灵活高效的弹性调度能力以应对类型丰富、数量多且波动大的超算任务。

大模型训练

GPT任务稳定运行，训练效率跟随卡数线性变化，为千亿大模型的训练保驾护航。

自动驾驶

以高性能算子库、通信优化等手段加速迭代，以分层存储和缓存加速简化海量样本的管理。

生物医药

提供灵活高效的弹性调度能力以应对类型丰富、数量多且波动大的超算任务。

大模型训练

GPT任务稳定运行，训练效率跟随卡数线性变化，为千亿大模型的训练保驾护航。

自动驾驶

以高性能算子库、通信优化等手段加速迭代，以分层存储和缓存加速简化海量样本的管理。

大模型训练

自动驾驶

生物医药

大模型训练

GPT任务稳定运行，训练效率跟随卡数线性变化，为千亿大模型的训练保驾护航。

大模型训练

自动驾驶

以高性能算子库、通信优化等手段加速迭代，以分层存储和缓存加速简化海量样本的管理。

自动驾驶

生物医药

提供灵活高效的弹性调度能力以应对类型丰富、数量多且波动大的超算任务。

生物医药

客户案例

大模型

机器学习平台+火山AI超算集群为大模型提供训练的稳定性保障。通过vePFS和RDMA网络实现Checkpoint高效分发；结合拓扑感知调度、模型并行策略调优及算子优化等多种手段加速训练和推理。

大模型

自动驾驶

扩大训练规模并使用经机器学习平台高度优化过的通信库、算子库、数据透明缓存加速将收敛速度从96小时减少为20小时；通过资源池化、排队待机制实现合理的GPU资源管理和调度，全局GPU利用率提升超过40%。

自动驾驶

生物医药

将包年包月、按量、竞价实例等多种资源统一池化和排队，快速响应客户AI4S场景的AI模型开发、训练、Slurm超算等多种任务的极致弹性需求。

生物医药

大模型自动驾驶生物医药

机器学习平台+火山AI超算集群为大模型提供训练的稳定性保障。通过vePFS和RDMA网络实现Checkpoint高效分发；结合拓扑感知调度、模型并行策略调优及算子优化等多种手段加速训练和推理。

扩大训练规模并使用经机器学习平台高度优化过的通信库、算子库、数据透明缓存加速将收敛速度从96小时减少为20小时；通过资源池化、排队待机制实现合理的GPU资源管理和调度，全局GPU利用率提升超过40%。

将包年包月、按量、竞价实例等多种资源统一池化和排队，快速响应客户AI4S场景的AI模型开发、训练、Slurm超算等多种任务的极致弹性需求。

一键启动火山引擎之旅