本文主要介绍以大数据文件存储(CloudFS)为数据集目的端时,创建 AI 加速数据集的方法。
使用限制
- 容器服务(VKE)集群、对象存储(TOS)存储桶、CloudFS 实例等数据集中的资源,需要在同一个账号下的同地域内。
- VKE 集群和 CloudFS 实例需要同属一个私有网络(VPC)内。
前提条件
- 已开通云原生 AI 套件服务,并在开通服务时安装了相关组件。详细操作,请参见 开通 AI 套件。
- 集群已安装 Helm 应用模板 fluid。详细操作,请参见 应用模板。
- 已创建文件存储实例,作为缓存目的端使用的载体。详细操作,请参见 创建文件存储实例。
- 集群已安装 csi-cloudfs 组件。详细操作,请参见 安装组件。
操作步骤
步骤一:准备数据来源
无论数据来源为 TOS 还是 CloudFS,均需要准备 TOS 存储桶:
步骤二:创建数据集
- 登录 容器服务控制台。
- 在左侧导航栏中单击 集群。
- 在集群列表页面,单击目标集群。
- 在集群管理页面的左侧导航栏中,选择 云原生 AI > 数据加速,然后单击 创建加速数据集。
- 在 创建数据集 页面,配置数据集相关参数。
配置项 | 说明 |
---|
基本信息 |
数据集名称 | 根据系统提示,配置数据集名称。在同一个命名空间下,名称必须唯一。 |
命名空间 | 选择数据集所属的命名空间,支持选择自定义创建的命名空间或 Kubernetes 自建的命名空间。Kubernetes 自建命名空间的说明,请参见 命名空间概述。 |
标签分类 | 数据集的标签分类,系统提供 训练样本、模型、代码、其他 四种分类。不支持自定义标签分类。 |
数据集目的端 |
目的端 | 数据集的缓存目的端,本场景中选择 大数据文件存储(CFS)。 |
集群 | AI 业务所在的当前集群,不可配置。 |
文件存储实例 | 选择数据集缓存目的端所使用的文件存储实例。即 前提条件 中准备的文件存储实例。 |
数据源端 |
数据来源 | 数据集的数据来源。目的端为 大数据文件存储(CFS) 时支持如下两种来源: - TOS:使用火山引擎对象存储服务存储桶(Bucket)中的数据,作为数据来源。
- 地域:选择 TOS 存储桶所在的地域(Region)。
- Bucket:选择目标存储桶。
- 子目录:输入存储桶下的子目录,默认为根目录(
/ )。 - 访问密钥:存储桶的访问密钥,即使用此处指定的访问密钥,授权容器服务访问存储桶。若无可用的密钥,单击 创建密钥,根据系统提示配置密钥参数,创建新的访问密钥。
- 大数据文件存储(CFS):使用火山引擎大数据文件存储中的数据,作为数据来源。
- 导入数据源:选择文件存储实例下已添加的 TOS 存储桶,作为数据导入源。
|
数据集配置 |
立即预热 | 勾选 启用 后表示立刻将数据加载到缓存中。 |
- 单击 确认,创建完成数据集。
验证结果
在 容器服务控制台 的 云原生 AI > 数据加速 页面查看数据集的状态,状态为 可用,表示数据集已成功创建。
说明
若创建不成功或状态为 不可用、异常 时,请 提交工单 获取技术支持。