产品概述
LAS(Lake AI Service)是新一代多模态数据湖服务,孵化于字节跳动大模型训练场景,帮助客户快速构建多模态数据湖,提供多模态元数据统一管理、AI 算子处理、企业级权限控制,并无缝对接火山方舟,支撑机器学习、模型训练、模型微调等丰富的 AI 场景,打破数据孤岛,充分发挥数据价值。
产品功能
- 数据入湖
- 支持多种模态数据(图片/文字/音视频等)、多种引擎的数据统一入湖。
- 湖存储优化
- 支持多种数据湖格式,支持自动执行小文件合并、碎片及过期文件清理等。
- 统一元数据
- 统一管理数据湖中的结构化/半结构化/非结构化的元数据、统一权限管理。
- 数据集管理
- 提供数据集的管理能力,包含数据查询、数据编辑、版本管理、数据导出等。
- 数据处理
- 提供内置非结构化数据处理算子的工作流编排能力,加速数据清洗过程。
- 对接AI生态
- 数据集可直接在火山引擎的向量数据库检索或火山方舟、机器学习平台训练。
产品优势
- 专门为 AI 设计的数据基建
- 支持 PyTorch、TensorFlow 等主流AI框架。
- 数据集无缝对接火山引擎多个AI训练平台。
- 面向 AI 场景设计的数据集管理和处理。
- 快速构建多模态数据湖
- 支持多模态数据统一存储。
- 支持在湖文件中存储和检索向量。
- 特殊优化的湖格式,文件读写速度更快。
- 一站式数据回流、处理与训练
- 支持火山方舟/机器学习的推理数据无缝回流到 LAS。
- 提供一站式数据集的查询、分析和清洗。
- 数据集在方舟和机器学习平台再进行训练。
产品架构

应用场景
多模态数据湖
企业的结构化数据和非结构化数据统一入湖、统一管理,打破数据孤岛,减少数据移动,降低数据使用成本,提高数据使用效率。
架构图
架构优势
- 多模态数据统一存储
支持表和文件统一湖格式存储 - 开放的湖格式
湖格式开放,支持和 parquet、webdataset 互转 - AI 生态和大数据生态友好
适配 PyTorch、TensorFlow、Ray、Spark 等主流引擎
推荐相关产品
AI 数据管理
帮助AI团队管理数据集、加速数据清洗过程,提高数据预处理效率,加速模型训练,减少人力投入,实现降本增效。
架构图
架构优势
- 便捷的数据管理
提供数据集创建、查询和分析、多版本等管理功能 - 提供高效的数据清洗工具
提供工作流,并内置开源算子,加速数据清洗 - 快捷对接训练平台
支持清洗后的数据一键注册到火山训练平台
推荐相关产品
AI模型蒸馏
帮助企业构建数据采集->算法训练->人工反馈收集的数据闭环,实现高效的模型蒸馏,加速模型效果提升。
架构图
架构优势
- 从推理服务一键开启回流
在火山方舟的推理服务中,开启数据回流 - 回流数据的查询和分析
在 LAS 上对采集到的回流数据进行查询和分析 - 筛选可用数据,对模型发起精调
从回流数据中挖掘训练集,再去火山方舟平台进行精调
推荐相关产品