智能数据洞察支持接入湖仓一体分析服务 LAS 获取数据,进而创建数据集,进一步进行分析。
若您的火山账号购买了LAS资源,新建数据集时,会出现默认的LAS存储数据连接,可用于建模和数据抽取。
(1)点击数据准备->数据集,点击左侧加号,选择「新建数据集」
(2)点击LAS
(3)选择表创建
(4)若想实现LAS与其他数据的Join,可在选择好LAS数据源后再次点击绿色加号按钮添加新的数据源
在模型配置中,可进行字段保留设置、数据筛选、抽取参数设置等操作,详见模型配置。
在数据筛选中, 支持对数据源数据进行筛选,仅保留符合条件部分数据。详见数据筛选。
字段配置支持在模型字段基础上增加复杂计算字段,或者做其他配置。详见字段配置。
在同步设置中,支持对数据集进行同步频率/时间、依赖配置、同步情况监控、性能设置等。详见同步设置。
本产品提供了灵活的任务调度依赖配置功能。调度依赖通常是指数据同步、数据开发过程中周期调度节点间的上下游依赖关系。通过节点的依赖关系有序调度任务运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,保障适时的产出有效业务数据。
推荐依赖是指在带分区的LAS数据源中,系统能自动构建数据源分区探测任务,自动配置调度依赖。当检测任务检查到上游分区就绪的时候,才会实际的触发当天的任务实例的运行。(不带分区的数据源不支持推荐依赖配置)
说明: 系统在定时时间唤醒 Sensor 任务后,每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务,超过50小时分区一直未产出,Sensor 任务会置为失败。
Sensor 释义:Sensor 任务主要指系统生成脚本发现分区的定时任务,非当前任务。 针对用户设置的情况,系统会自动感知、探查用户的数据源中是否存在该任务所需的分区表。若存在,即代表上游数据的准备工作已完成,下游数据可以启动运行。
系统会自动发现当前表已创建过的依赖任务 Sensor ,然后进行推荐选择;若无推荐则列表为空,此时用户可以选择自定义配置。
配置方法:确认数据源是分区表,在模型配置中设置分区的数据筛选条件,在同步设置-依赖配置-系统自动配置中,即可看到推荐依赖。