ByteHouse 云数仓版(ByteHouse CDW)是一款云原生数据仓库,能够支持实时数据分析和海量数据离线分析,对 PB 级海量数据进行高效分析,其便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性,助力于客户数字化转型。
DataLeap 数据开发接入 ByteHouse 云数仓版引擎能力,支持您在数据开发任务中,通过创建 ByteHouse CDW SQL 任务类型,来实现对 ByteHouse CDW 引擎数据表的周期性调度或手动执行运维等能力,提高作业的执行效率。
下文将为您介绍如何创建 ByteHouse CDW SQL 任务类型节点进行数据开发。
注意
ByteHouse CDW 更多权限说明详见 ByteHouse 安全与访问控制。
登录 DataLeap租户控制台 。
在概览界面,显示加入的项目中,单击数据开发进入对应项目。
在任务开发界面,左侧导航栏中,单击新建任务按钮,进入新建任务页面。
选择任务类型:
填写任务基本信息:
单击确定按钮,完成任务创建。
任务创建成功后,进入到 ByteHouse CDW SQL 任务配置界面,在配置界面中您可按需编写 ByteHouse CDW 支持的 SQL 语法。
在代码编辑器界面,输入对应 ByteHouse CDW SQL 语句,示例如下:
说明
在一个 ByteHouse CDW SQL 节点中,当节点中存在多个 Query 时,执行多个 Query 成功时,结果页中只返回最后一个成功 Query 的相应结果。
--创建数据库,子用户无权执行 SQL 创建时,可前往“数据地图”创建 ByteHouse CDW 数据库,库名如:bh_cdw_x; CREATE DATABASE IF NOT EXISTS bh_cdw_x; --创建数据表 CREATE TABLE bh_cdw_x.bh_cdw_table_test( id Int64 COMMENT 'id for column', name String COMMENT 'name', age Int64 COMMENT 'age', date date COMMENT 'time' ) ENGINE = CnchMergeTree PARTITION BY date UNIQUE key (id, date) ORDER BY id; --插入数据 INSERT INTO bh_cdw_x.bh_cdw_table_test VALUES(1, 'John', 25, '2024-01-01'),(2, 'Jane', 30, '2024-01-01'); --查询数据 SELECT * FROM bh_cdw_x.bh_cdw_table_test WHERE date = '2024-01-01';
功能名称 | 描述 |
---|---|
格式化 | 依据在个性化设置中的 SQL 格式化风格的设置,格式化编辑完成的代码,使其语法结构看起来简洁明了。 |
执行引擎 | 支持 ByteHouse CDW 执行引擎。 |
参数说明 | ByteHouse CDW SQL 中支持使用系统提供的时间变量和任务中自定义的输入参数。参数使用详见平台时间变量与常量说明 |
任务配置完成后,在右侧导航栏中,单击调度配置按钮,进入调度配置窗口,您可以在此设置基本信息、调度属性、依赖、任务输入输出参数等信息,详细参数设置详见:调度参数。
任务产出数据登记,用于记录任务、数据血缘信息,并不会对代码逻辑造成影响。您可在调度设置 > 任务产出数据登记一栏中,设置产出登记相关信息。
对于系统无法通过解析获取产出信息的其他任务,ByteHouse CDW SQL 任务可自动或手动方式登记其产出信息。如果任务含有 ByteHouse CDW 库表数据的产出,则强烈建议填写,以便后续维护任务数据血缘关系。
说明
手动登记任务产出数据配置时,需事先完成 ByteHouse CDW 元数据采集工作,您可前往数据地图 > 元数据采集配置对应的采集器。操作详见元数据采集。
任务代码逻辑和参数配置完成后,您可在编辑器上方,单击操作栏中的保存和调试按钮,进行任务调试。
注意
调试任务开始运行后,可在下方查看调试记录,您也可以查看任务的历史运行记录,包括状态、业务日期、开始时间、结束时间、耗时、提交人等。
单击调试记录,可以查看以下详情内容:
结果:展示代码执行后的查询结果。
概览:查看运行结果的代码。
日志:查看运行详情,可下载日志。
查询结果确认无误后,单击上方操作栏中的保存和提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:数据开发概述---离线任务提交。
后续任务运维操作详见:离线任务运维。