数据集是数据服务平台的重要概念。数据服务支持注册不同的数据源,导入的数据表抽象为数据集,为后续创建API做准备。
数据源
是指从哪些存储源头导入数据,目前平台已经支持的数据源有:
- MySQL(Beta):关系型数据库,适合完成数据量在千万及以下的简单数据分析场景。
- Elastic Search(Beta):ES是一款高度可伸缩的、分布式的、近实时搜索的全文搜索与分析引擎。适合多条件下,筛选小范围的数据。查询性能可以达到秒级。
- SAP HANA:数据存储在内存中,访问速度极快,支持OLAP和OLTP等多种分析场景,适合实时分析场景。
- HBase(Beta):高可靠、高性能、面向列、可伸缩的分布式存储,主要用来存储非结构化和半结构化的松散数据,适合大数据量的秒级查询场景。

选定数据目录

注意:
- 如果是刚创建好的空目录,则第一次添加数据集的时候需要选定目录对应的数据源。
- 选定数据源后,该目录后续只能导入对应数据源的数据库表。

选定数据表,导入为物理数据集
正常选定数据源后,可以依次选择数据库和希望导入的表。如果该数据目录已经导入过数据,后续只能从对应的数据库导入表。
