You need to enable JavaScript to run this app.
导航
产品简介
最近更新时间:2025.04.07 18:52:14首次发布时间:2024.05.21 14:49:43
我的收藏
有用
有用
无用
无用

产品概述

LAS(Lake AI Service)是新一代多模态数据湖服务,孵化于字节跳动大模型训练场景,帮助客户快速构建多模态数据湖,提供多模态元数据统一管理、AI 算子处理、企业级权限控制,并无缝对接火山方舟,支撑机器学习、模型训练、模型微调等丰富的 AI 场景,打破数据孤岛,充分发挥数据价值。

产品功能

  • 数据入湖
    • 支持多种模态数据(图片/文字/音视频等)、多种引擎的数据统一入湖。
  • 湖存储优化
    • 支持多种数据湖格式,支持自动执行小文件合并、碎片及过期文件清理等。
  • 统一元数据
    • 统一管理数据湖中的结构化/半结构化/非结构化的元数据、统一权限管理。
  • 数据集管理
    • 提供数据集的管理能力,包含数据查询、数据编辑、版本管理、数据导出等。
  • 数据处理
    • 提供内置非结构化数据处理算子的工作流编排能力,加速数据清洗过程。
  • 对接AI生态
    • 数据集可直接在火山引擎的向量数据库检索或火山方舟、机器学习平台训练。

产品优势

  • 专门为 AI 设计的数据基建
    • 支持 PyTorch、TensorFlow 等主流AI框架。
    • 数据集无缝对接火山引擎多个AI训练平台。
    • 面向 AI 场景设计的数据集管理和处理。
  • 快速构建多模态数据湖
    • 支持多模态数据统一存储。
    • 支持在湖文件中存储和检索向量。
    • 特殊优化的湖格式,文件读写速度更快。
  • 一站式数据回流、处理与训练
    • 支持火山方舟/机器学习的推理数据无缝回流到 LAS。
    • 提供一站式数据集的查询、分析和清洗。
    • 数据集在方舟和机器学习平台再进行训练。

产品架构

Image

应用场景

多模态数据湖

企业的结构化数据和非结构化数据统一入湖、统一管理,打破数据孤岛,减少数据移动,降低数据使用成本,提高数据使用效率。

架构图

架构优势

  • 多模态数据统一存储
    支持表和文件统一湖格式存储
  • 开放的湖格式
    湖格式开放,支持和 parquet、webdataset 互转
  • AI 生态和大数据生态友好
    适配 PyTorch、TensorFlow、Ray、Spark 等主流引擎

推荐相关产品

  • 对象存储
  • EMR Severless

AI 数据管理

帮助AI团队管理数据集、加速数据清洗过程,提高数据预处理效率,加速模型训练,减少人力投入,实现降本增效。

架构图

架构优势

  • 便捷的数据管理
    提供数据集创建、查询和分析、多版本等管理功能
  • 提供高效的数据清洗工具
    提供工作流,并内置开源算子,加速数据清洗
  • 快捷对接训练平台
    支持清洗后的数据一键注册到火山训练平台

推荐相关产品

  • 火山方舟
  • 机器学习平台
  • VikingDB
  • 对象存储

AI模型蒸馏

帮助企业构建数据采集->算法训练->人工反馈收集的数据闭环,实现高效的模型蒸馏,加速模型效果提升。

架构图

架构优势

  • 从推理服务一键开启回流
    在火山方舟的推理服务中,开启数据回流
  • 回流数据的查询和分析
    在 LAS 上对采集到的回流数据进行查询和分析
  • 筛选可用数据,对模型发起精调
    从回流数据中挖掘训练集,再去火山方舟平台进行精调

推荐相关产品

  • 火山方舟

  • 对象存储