You need to enable JavaScript to run this app.
导航
CloudFS 目的端数据加速
最近更新时间:2024.12.16 14:56:23首次发布时间:2024.12.13 19:44:17

本文主要介绍以大数据文件存储(CloudFS)为数据集目的端时,创建 AI 加速数据集的方法。

说明

该功能目前处于 公测 状态。

使用限制

  • 容器服务(VKE)集群、对象存储(TOS)存储桶、CloudFS 实例等数据集中的资源,需要在同一个账号下的同地域内。
  • VKE 集群和 CloudFS 实例需要同属一个私有网络(VPC)内。

前提条件

  • 已开通云原生 AI 套件服务,并在开通服务时安装了相关组件。详细操作,请参见 开通 AI 套件
  • 集群已安装 Helm 应用模板 fluid。详细操作,请参见 应用模板
  • 已创建文件存储实例,作为缓存目的端使用的载体。详细操作,请参见 创建文件存储实例
  • 集群已安装 csi-cloudfs 组件。详细操作,请参见 安装组件

操作步骤

步骤一:准备数据来源

无论数据来源为 TOS 还是 CloudFS,均需要准备 TOS 存储桶:

步骤二:创建数据集

  1. 登录 容器服务控制台
  2. 在左侧导航栏中单击 集群
  3. 在集群列表页面,单击目标集群。
  4. 在集群管理页面的左侧导航栏中,选择 云原生 AI > 数据加速,然后单击 创建加速数据集
  5. 在 创建数据集 页面,配置数据集相关参数。
    配置项说明
    基本信息
    数据集名称根据系统提示,配置数据集名称。在同一个命名空间下,名称必须唯一。
    命名空间选择数据集所属的命名空间,支持选择自定义创建的命名空间或 Kubernetes 自建的命名空间。Kubernetes 自建命名空间的说明,请参见 命名空间概述
    标签分类数据集的标签分类,系统提供 训练样本模型代码其他 四种分类。不支持自定义标签分类。
    数据集目的端
    目的端数据集的缓存目的端,本场景中选择 大数据文件存储(CFS)
    集群AI 业务所在的当前集群,不可配置。
    文件存储实例选择数据集缓存目的端所使用的文件存储实例。即 前提条件 中准备的文件存储实例。
    数据源端

    数据来源

    数据集的数据来源。目的端为 大数据文件存储(CFS) 时支持如下两种来源:

    • TOS:使用火山引擎对象存储服务存储桶(Bucket)中的数据,作为数据来源。
      • 地域:选择 TOS 存储桶所在的地域(Region)。
      • Bucket:选择目标存储桶。
      • 子目录:输入存储桶下的子目录,默认为根目录(/)。
      • 访问密钥:存储桶的访问密钥,即使用此处指定的访问密钥,授权容器服务访问存储桶。若无可用的密钥,单击 创建密钥,根据系统提示配置密钥参数,创建新的访问密钥。
    • 大数据文件存储(CFS):使用火山引擎大数据文件存储中的数据,作为数据来源。
      • 导入数据源:选择文件存储实例下已添加的 TOS 存储桶,作为数据导入源。
    数据集配置
    立即预热勾选 启用 后表示立刻将数据加载到缓存中。
  6. 单击 确认,创建完成数据集。

验证结果

在 容器服务控制台云原生 AI > 数据加速 页面查看数据集的状态,状态为 可用,表示数据集已成功创建。

说明

若创建不成功或状态为 不可用异常 时,请 提交工单 获取技术支持。