面向对象:主要面向大数据团队、数仓等技术同学,企业认证后即可在火山引擎公有云环境体验DataLeap数据开发特惠版。
教程时长:2小时。
学习目标:帮助需要数据分析和数仓团队同学,快速体验和了解DataLeap产品功能及用法,方便在后期的使用和学习。
1 开发流程介绍
1.1 流程阶段
目的:以一个项目的完整开发流程为背景做介绍任务关键节点和任务
- 前期步骤:开始workshop的必要条件,需完成前置开通并确保服务状态可用
- 数仓建设:含数据导入集成,数据加工任务,调度以及项目任务发布上线
- 任务运维: 含数据回溯初始化查询,运行规则,实例运维情况及日志监控
- 安全管理: 对数据对象授权,申请访问,敏感列等信息屏蔽按需提交申请
- 资产管理: 数据检索和资产信息查找,数据血缘分析,复查专题建设和管理
1.2 核心链路
1.3 场景详情
序号 | Demo场景 | 具体描述 | 步骤 | 关注点 | 角度 |
---|
一 | 用户及项目管理 | 账号注册开通,服务购买,子账号注册,创建项目,库表专题等内容 | - 新建用户:主账号在控制台创建用户子账号,并完成账户充值和产品购买操作;
- 创建项目:子账号在控制台-项目管理模块,新建项目,完成基础配置,添加成员账号并授予相关角色;
- 角色策略权限,LAS队列权限分配;
- 公开项目控制:创建专题设置,库表创建等。
| | 功能、安全、易用 |
二 | 离线数仓建设 | 模拟数仓开发链路,对数据进行加工处理。也可通过数据回溯,进行补数据或重刷历史数据。 | - 数仓建表:结合业务需求,完成离线数仓建表,通过DDL或导航式创建LAS表;
- 数据采集和加工:将源端原始表数据通过数据集成到LAS,新建LAS SQL任务,对LAS表进行加工、处理;
- 调度作业:完成任务的调度配置,根据业务需求设置周期调度,调试并提交,经过复查后确认上线作业,保证生产安全;
- 监控运维:配置运行监控,监控任务运行状态。
| - 数仓规范:可从主题、层级等多维度,查询并管理数仓LAS表。
- 数据开发:工作流/任务开发、调试及上线流程的规范性,调度配置支持场景的丰富性,调度系统的效率及稳定性。
| 功能、规范、易用、性能、稳定 |
三 | 任务运维 | 通过智能运维中心,对开发发布后任务进行运行规则监控,监控规则设置和阈值提醒,了解任务血缘依赖关系 | - 对任务运行规则设置;
- 设置监控预警,发送形式监控阈值配置;
- 对任务运维中的任务血缘依赖DAG;
- 实例运维了解任务启动和调度情况,操作日志,任务日志查看;
- 数据回溯:发起回溯计划,进行补数据或重刷历史数据。结合业务重要程度,设置项目或任务粒度的回溯审批控制,审批通过后,回溯计划即可进行。
| - 监控规则的复用性。
- 预警提醒的灵活性。
- 实例运维的及时性。
| 稳定、易用、敏捷、预警 |
四 | 数据安全 | 结合用户身份,和业务需求,对数据的读写权限进行严格控制,并提供完整、规范的审批流程。 | - 数据获权:申请LAS表的读、写权限;
- 数据授权:表的权限审批人,审批权限申请,并授予该账号表的权限;
- 数据鉴权:在未申请时,通过数据开发-临时查询,编写SQL读写该表数据,系统阻断操作;申请通过后,可读写该表的数据;
- 授权管理敏感列信息隐藏申请。
| - 任务运维:任务及实例的操作,DAG展示,运行状态、质量监控及邮件告警。
- 数据回溯:规范的回溯审批流程,丰富的回溯策略,保障生产运行稳定、安全。
- 权限:时效性、安全性、完整性,敏感列设置。
- 审批:审批流程的规范性及完整性。
| 功能、易用、安全 |
五 | 数据地图 | 查看数据专题,数据检索,数据资产血缘关系,列级别数据回溯追踪 | - 专题建设情况及数据资产查看检索;
- 数据对象的血缘依赖关系呈现;
- 字段级上下游依赖配置。
| - 数仓专题建设完整性,资产管理的便捷性。
- 血缘依赖的上下游链路是否完整,是否可追踪。
- 资产权限信息是否易于检索和查找。
| 资产、血缘、检索 |
层级 | 英文缩写 | 层级说明 | 备注 |
---|
原始数据层 | ods | 贴近数据源的粗糙数据 | 获取业务原始数据 |
通用维度层 | dim | 沉淀一致性的维度 | 静态的维表数据 |
事实明细层 | dwd | 事实表的明细粒度数据 | 基本信息等明细数据 |
汇总应用层 | dwm | 面向业务过程提供数据汇总 | 形成轻度汇总数据 |