DataLeap 以项目作为任务开发、成员管理的基本单位。创建项目后,才能使用 DataLeap 进行任务开发。一个工作项目支持绑定火山引擎 E-MapReduce(EMR)、ByteHouse 云原生数据库、流式计算 Flink 版等多种类型的计算引擎实例。
本文将为您介绍如何进行创建项目操作。
已完成 DataLeap 相应服务版本的开通操作。详见 DataLeap 服务开通。
新建项目相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|---|
基础信息 | |
*当前区域 | 当前 DataLeap 服务所属的地域信息,默认为开通 DataLeap 服务时选择的区域,此处不可编辑。 说明 若开通了多个区域,可通过页面顶端导航栏的区域下拉框选择靠近您业务的区域。 |
*项目名称 | 创建项目的名称,按需设置。 |
*项目类型 | 分为公开和私有。
说明 开通 DataOps敏捷研发、湖仓一体或分布式数据自治服务后,项目类型才可设置为私有。 |
*项目模式 | 目前仅提供简单模式。 |
*所有者 | 租户主账号,不可修改。 |
*项目描述 | 项目有关的描述信息。 |
项目账号 | 项目下任务若需要使用统一的账号提交鉴权,可将租户主账号/租户下某子账号设置为项目账号,您可通过搜索的方式,搜索该租户下已创建的 IAM 子用户信息。 |
数据源开发生产环境隔离 | 可选择是否开启数据源开发生产环境隔离。
注意 项目一旦初始化配置后将不可再变更,请谨慎操作! |
项目管控 | |
*鉴权配置 | 开发、生产环境对应的提交鉴权账号设置。
|
*项目回溯控制 | 无本项目编辑权限的用户,通过上游回溯本项目下的任务,选择是否需要审批。
|
*任务依赖的默认配置方式 | 用于决定项目下任务调度设置时,默认采用的任务依赖关系配置方式。支持指定偏移量依赖和就近依赖两种配置方式选项,默认选中指定偏移量依赖。
具体配置方式详见调度依赖。 |
项目最大并行度 | 项目内任务运行的最大并行数,设置范围为1~5000的整数,项目最大并行度应大于等于项目重跑最大并行度。 说明 由于目前使用公共调度资源组,单个租户最大的并行度是100,即一个租户下各项目最大的并行度上限值是100。 |
项目重跑最大并行度 | 项目重跑的任务运行最大并行数,设置范围为1~5000的整数,项目重跑最大并行度应小于等于项目最大并行度。 说明 现阶段项目重跑最大并行度的上限值也是100。 |
默认监控规则 | 系统提供的基础监控规则,规则内容为任务重试结束仍失败,报警以邮件形式发送给任务负责人,且仅发送1次。 说明
|
数据安全设置 | 项目下查询数据结果相关的安全设置。
|
消息通知设置 | 可选择在什么情况下发送通知消息,支持以下选项,可多选。
|
服务绑定 | |
计算资源组设置 | 用于 Notebook、Python、Shell 等任务类型任务执行。 |
*调度资源组设置 | 支持公共调度资源组和独享调度资源组,下拉可选运行中的资源组,可设置多个。 独享调度资源组操作详见:独享调度资源组管理。 |
数据集成资源组设置 | 绑定已开通的数据集成资源组,下拉可选,可设置多个。 |
引擎设置 | 您按需绑定需要使用的计算引擎,目前支持 EMR、EMR Serverless StarRocks、EMR Serverless Spark、LAS、流式计算 Flink 版、ByteHouse CE、ByteHouse CDW 计算引擎。 说明 不同 DataLeap 服务版本,支持绑定不同的计算引擎服务。具体支持绑定详见 DataLeap 公有云版本功能差异。 |
DataLeap 项目创建完成后,您便可开始后续的元数据采集、数据集成、数据开发等一系列数仓任务相关操作。