CloudFS 目的端数据加速--容器服务-火山引擎

文档中心

立即注册

导航

容器服务

CloudFS 目的端数据加速

最近更新时间：2024.12.16 14:56:23首次发布时间：2024.12.13 19:44:17

本文主要介绍以大数据文件存储（CloudFS）为数据集目的端时，创建 AI 加速数据集的方法。

说明

该功能目前处于公测状态。

使用限制

容器服务（VKE）集群、对象存储（TOS）存储桶、CloudFS 实例等数据集中的资源，需要在同一个账号下的同地域内。
VKE 集群和 CloudFS 实例需要同属一个私有网络（VPC）内。

前提条件

已开通云原生 AI 套件服务，并在开通服务时安装了相关组件。详细操作，请参见开通 AI 套件。
集群已安装 Helm 应用模板 fluid。详细操作，请参见应用模板。
已创建文件存储实例，作为缓存目的端使用的载体。详细操作，请参见创建文件存储实例。
集群已安装 csi-cloudfs 组件。详细操作，请参见安装组件。

操作步骤

步骤一：准备数据来源

无论数据来源为 TOS 还是 CloudFS，均需要准备 TOS 存储桶：

数据来源为 TOS：详细操作，请参见创建存储桶。
数据来源为 CloudFS：创建 CloudFS 实例后，在实例下挂载 TOS 存储桶。详细操作，请参见创建文件存储实例、添加 TOS Bucket。

步骤二：创建数据集

登录容器服务控制台。
在左侧导航栏中单击集群。
在集群列表页面，单击目标集群。
在集群管理页面的左侧导航栏中，选择 云原生 AI > 数据加速，然后单击 创建加速数据集。

在 创建数据集 页面，配置数据集相关参数。

配置项	说明
基本信息
数据集名称	根据系统提示，配置数据集名称。在同一个命名空间下，名称必须唯一。
命名空间	选择数据集所属的命名空间，支持选择自定义创建的命名空间或 Kubernetes 自建的命名空间。Kubernetes 自建命名空间的说明，请参见命名空间概述。
标签分类	数据集的标签分类，系统提供训练样本、模型、代码、其他四种分类。不支持自定义标签分类。
数据集目的端
目的端	数据集的缓存目的端，本场景中选择大数据文件存储（CFS）。
集群	AI 业务所在的当前集群，不可配置。
文件存储实例	选择数据集缓存目的端所使用的文件存储实例。即前提条件中准备的文件存储实例。
数据源端
数据来源	数据集的数据来源。目的端为大数据文件存储（CFS）时支持如下两种来源： TOS：使用火山引擎对象存储服务存储桶（Bucket）中的数据，作为数据来源。地域：选择 TOS 存储桶所在的地域（Region）。 Bucket：选择目标存储桶。子目录：输入存储桶下的子目录，默认为根目录（`/`）。访问密钥：存储桶的访问密钥，即使用此处指定的访问密钥，授权容器服务访问存储桶。若无可用的密钥，单击创建密钥，根据系统提示配置密钥参数，创建新的访问密钥。大数据文件存储（CFS）：使用火山引擎大数据文件存储中的数据，作为数据来源。导入数据源：选择文件存储实例下已添加的 TOS 存储桶，作为数据导入源。
数据集配置
立即预热	勾选启用后表示立刻将数据加载到缓存中。

单击确认，创建完成数据集。

验证结果

在容器服务控制台的 云原生 AI > 数据加速 页面查看数据集的状态，状态为可用，表示数据集已成功创建。

说明

若创建不成功或状态为 不可用、异常时，请提交工单获取技术支持。