You need to enable JavaScript to run this app.
导航
LAS数据集
最近更新时间:2024.10.14 20:27:47首次发布时间:2024.10.14 19:04:38

1.概述

智能数据洞察支持接入湖仓一体分析服务 LAS 获取数据,进而创建数据集,进一步进行分析。
若您的火山账号购买了LAS资源,新建数据集时,会出现默认的LAS存储数据连接,可用于建模和数据抽取。

2.快速入门

(1)点击数据准备->数据集,点击左侧加号,选择「新建数据集」

(2)点击LAS

(3)选择表创建

  • 模型配置页面上,选中左侧的自定义SQL或者数据库中的表,通过鼠标拖拽的方式将其拖拽到右侧画布中。
  • Hive表的列表中仅能看到自己有权限的表格。

(4)若想实现LAS与其他数据的Join,可在选择好LAS数据源后再次点击绿色加号按钮添加新的数据源

3.功能介绍

3.1 模型配置

在模型配置中,可进行字段保留设置、数据筛选、抽取参数设置等操作,详见模型配置

3.2 数据筛选

在数据筛选中, 支持对数据源数据进行筛选,仅保留符合条件部分数据。详见数据筛选

3.3 字段配置

字段配置支持在模型字段基础上增加复杂计算字段,或者做其他配置。详见字段配置

3.4 同步设置

在同步设置中,支持对数据集进行同步频率/时间、依赖配置、同步情况监控、性能设置等。详见同步设置

3.5 推荐依赖

本产品提供了灵活的任务调度依赖配置功能。调度依赖通常是指数据同步、数据开发过程中周期调度节点间的上下游依赖关系。通过节点的依赖关系有序调度任务运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,保障适时的产出有效业务数据。
推荐依赖是指在带分区的LAS数据源中,系统能自动构建数据源分区探测任务,自动配置调度依赖。当检测任务检查到上游分区就绪的时候,才会实际的触发当天的任务实例的运行。(不带分区的数据源不支持推荐依赖配置)
说明: 系统在定时时间唤醒 Sensor 任务后,每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务,超过50小时分区一直未产出,Sensor 任务会置为失败。

Sensor 释义:Sensor 任务主要指系统生成脚本发现分区的定时任务,非当前任务。 针对用户设置的情况,系统会自动感知、探查用户的数据源中是否存在该任务所需的分区表。若存在,即代表上游数据的准备工作已完成,下游数据可以启动运行。

系统会自动发现当前表已创建过的依赖任务 Sensor ,然后进行推荐选择;若无推荐则列表为空,此时用户可以选择自定义配置。
配置方法:确认数据源是分区表,在模型配置中设置分区的数据筛选条件,在同步设置-依赖配置-系统自动配置中,即可看到推荐依赖。