本文为您介绍如何创建项目,并通过创建同步任务,将 MySQL 中的数据导出至湖仓一体分析服务 LAS 中。
在 DataLeap 中,通常通过数据集成功能,定期将系统中产生的业务数据导入至大数据存储。SQL 任务进行计算后,再定期将计算结果导出至您指定的数据源中,以便进一步展示或运行使用。
登录 DataLeap 租户控制台。
单击左侧导航栏的项目管理,进入项目管理页面。
单击创建项目按钮,进入创建项目页面,完成项目基础信息、项目管控、服务绑定等项目配置工作。配置详见新建项目。
项目创建完成后,您可进行以下任务配置操作。
新增数据源的操作步骤如下:
登录 DataLeap 租户控制台。
在左侧导航栏,单击项目管理 ,进入项目管理页面。
勾选我加入的选项后,在项目列表中,单击右侧操作列的配置信息按钮, 进入项目控制台。
单击数据源管理, 在数据源管理页面,单击右上角的新建数据源按钮。
在新增数据源对话框中,选择数据源类型为 MySQL,接入方式为火山引擎 MySQL,如下图所示。
参数 | 说明 |
---|---|
基本配置 | |
数据源类型 | MySQL |
接入方式 | 选择火山引擎 MySQL。 |
RDS实例ID | 火山引擎云数据库 MySQL 的实例 ID,下拉选择。 |
是否订阅数据-否 | |
数据库名 | 数据库的名称,下拉选择。 |
用户名 | 数据库的账号。 |
密码 | 数据库的密码。 |
是否订阅数据-是 | |
数据库名 | 数据库的名称,下拉选择。 |
用户名 | 数据库的账号。 |
密码 | 数据库的密码。 |
订阅任务 | 选择数据库传输服务数据订阅任务名称 |
消费组名称 | |
用户名 | 消费组的账号 |
密码 | 消费组的密码 |
其他更多数据源配置信息详见MySQL数据源。
配置信息完成后,单击测试按钮,测试资源组的连通性。
确保至少有1个数据集成资源组连通后,点击确认按钮完成新建。
本小节将新建一个数据集成任务并进行配置,目的是把 MySQL 表中的数据写入至 LAS 中,具体操作如下:
左上角全部产品中,进入数据开发界面。
在数据开发页面,点击新建任务按钮,进入新建任务页面。
任务类型选择数据集成 > 离线集成 。
输入任务名称,并选择目标文件夹。
注意
任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127个字符以内。
选择数据源。
配置数据来源的 MySQL 信息。
配置右侧的目标端,选择 LAS。
字段映射
配置来源端和目标端字段的映射关系。
点击自动添加,可以根据数据源 schema 自动添加字段。
点击手动添加,可以添加一条空白的字段信息,手工输入字段名、类型等。
点击删除全部,可以删除全部字段信息。
调整字段映射。 通过拖拽字段左侧的按钮,可以调整字段顺序。
注意
请注意列与列之间映射的字段类型是否数据兼容。
任务运行参数。
期望最大并发数:数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。
脏数据设置:错误记录数,表示脏数据的最大容忍条数/比例。
自定义参数设置:
单击右侧的调度设置 ,进入该任务的调度设置页面:
参数 | 描述 |
---|---|
基本信息 | |
责任人 | 仅限一个成员,默认为任务创建人,可根据实际需要,修改为其他项目成员。 |
调度资源组 | DataLeap 平台提供的资源组,用于生成定时调度实例,默认提供公共调度资源组。 |
标签 | 您可以自定义标签,用于标识某一类任务,以便快速搜索过滤,操作即时生效,无需重新上线任务。
|
调度属性 | |
调度状态 | 分为开启和关闭,默认开启。 |
调度类型 |
|
调度生效日期 | 当调度类型选择周期调度时,可对调度的生效时间范围进行设置。 |
执行频率&执行时间 |
|
分时调度 | 当调度类型选择周期调度,执行频率选择分钟级或者小时级时,出现分时调度属性。 |
最早回溯时间 | 可重跑的历史数据的最早时间。设定后,最早回溯时间之前的实例将无法生成。 |
空跑设置 | 当某任务逻辑暂时无需运行,但又不想改动整个数据链路关系时,可将其设置为空跑,此时该任务会直接置为成功。 |
重试触发条件 | 系统提供失败和单次运行超时两种重试触发条件:
|
失败重跑次数 | 任务失败后重试的次数。若重试运行时间超过48小时,系统将自动结束该实例。 |
重跑时间间隔 | 任务失败后重试的时间间隔。 |
最大并发控制 | 是指单任务最大并发,即任务可同时运行的最大实例个数。实际可执行的实例个数,除受该任务最大并发限制之外,还受系统总并发实例数影响。 |
数据回溯建议 | 标记该任务是否可进行数据回溯,包括允许回溯和谨慎回溯。若选择谨慎回溯 ,进行回溯/重跑操作时,系统将出现二次确认提示。 |
依赖关系 | |
任务上游依赖设置 | 通过建立任务依赖,完成数据依赖,构建数据血缘。一般情况下,当任务执行成功时,数据表分区数据即已就绪。 |
任务自依赖设置 | 跨周期自依赖设置,当前周期的任务,需要依赖自身上一周期的产出,您可根据实际场景开启。 |
更多配置参数介绍详见调度配置文档。
配置数据集成资源组。
单击右侧的数据集成资源组按钮,选择数据源测试连通性成功的集成资源组。更多说明详见数据集成资源组。
可上下滚动鼠标查看任务配置,确认无误后,点击工具栏中的保存图标,完成作业保存
单击上方工具栏中的提交上线图标,
在提交上线窗口中,配置回溯数据、监控设置、提交设置等内容,配置详见提交发布
单击确认按钮,将同步任务至调度系统中,调度系统会根据调度设置中的属性,从第二天开始自动定时执行。
任务发布成功后,您可以继续下一个教程。在该教程中,您将学习如何查看实例运维及任务日志等,详见排查运行报错。