对象存储 TOS(Tinder Object Storage)是火山引擎提供的分布式云存储服务。对于机器学习项目而言,用户可以将用于训练 / 推理的海量数据上传至 TOS。本文主要介绍如何使用 CLI 和 Python SDK 进行 TOS 的数据管理。
TOS 数据一般有 4 种上传方式:
- (推荐)通过 Rclone 等命令行工具完成大规模数据的上传,具体参考使用 Rclone 访问 TOS。
- TOS 控制台的 Web 页面进行小批量数据的上传、下载、备份策略等基本维护。
- 基于TOS的openAPI和SDK,将数据直接写入TOS
- 通过 goofys,将 TOS 某个 bucket 或者其下的路径挂载到火山引擎 ECS 或者个人电脑上的某个文件目录下,采用 cp / rsync / scp 等 POSIX native 命令完成数据的上传,详见GitHub。