目前平台支持的样本存储方案如下,本文列出了每种方案的优缺点,请结合自己的场景选择。
名称 | 优点 | 缺点 | 链接 |
---|---|---|---|
对象存储(TOS) | 1. 数据安全性好,可以针对每个子账号来控制权限,有数据快照,防止误删除带来的数据损失。 2. 单位存储价格低。 3. 可用性高,扩展性好,容易扩容。 4. 机器学习平台提供透明代理缓存服务,可以用 POSIX 接口的方式访问数据,并且有明显的加速作用。 5. 数据上传方便,可使用官网页面、AWS S3 生态的所有工具,上传数据过程中流量免费。 | 1. 机器学习平台支持将 TOS 挂载为 POSIX 文件系统,在Posix兼容性上有些限制。使用问题参考常见问题FAQ。 2. 对结构化数据的支持较差,也无法和 Spark / Flink / Hive 等大数据计算引擎直接对接。 | 使用入口 官方文档 |
vePFS 并行文件系统 | 1. PB级容量 2.亚毫秒级延迟 3.10亿级小文件 4.单租户百GBps的带宽 5.数千容器并行访问的共享 6.完备的Posix接口 | 1.单价稍贵 2. 对于mmap读写性能差,不建议使用。如需使用mmap需要关闭vePFS预读机制,会有一定性能提升。使用mmap常见场景:dali、yolox、lmdb等。 | 使用入口 |
HDFS | - | - | 敬请期待 |