创建项目--大数据研发治理套件-火山引擎

文档中心

导航

创建项目

最近更新时间：2024.07.12 16:01:04首次发布时间：2024.07.11 10:46:05

DataLeap 以项目作为任务开发、成员管理的基本单位。创建项目后，才能使用 DataLeap 进行任务开发。一个工作项目支持绑定火山引擎 E-MapReduce（EMR）、ByteHouse 云原生数据库、流式计算 Flink 版等多种类型的计算引擎实例。
本文将为您介绍如何进行创建项目操作。

1 约束限制

仅租户主账号或具备 DataLeapFullAccess 权限的 IAM 子用户才可创建项目。

2 前提条件

已完成 DataLeap 相应服务版本的开通操作。详见 DataLeap 服务开通。

3 操作步骤

主账号或具备 DataLeapFullAccess 权限的 IAM 子用户登录 DataLeap租户控制台。
单击概览界面的新建项目按钮，进入创建项目界面。

在创建项目界面，完成以下项目相关配置信息：

新建项目相关参数说明如下表所示。其中名称前带 * 的参数为必填参数，名称前未带 * 的参数为可选参数。

参数	说明
基础信息
*当前区域	当前 DataLeap 服务所属的地域信息，默认为开通 DataLeap 服务时选择的区域，此处不可编辑。说明若开通了多个区域，可通过页面顶端导航栏的区域下拉框选择靠近您业务的区域。
*项目名称	创建项目的名称，按需设置。仅可由汉字、字母、数字、下划线、或特殊字符.、[]、【】、（）、()组成。
*项目类型	分为公开和私有。公开：只要是租户成员，即可进入项目，查看项目下的任务信息。私有：只有该项目下的成员，才可进入项目，查看项目下的任务信息。说明开通 DataOps敏捷研发、湖仓一体或分布式数据自治服务后，项目类型才可设置为私有。
*项目模式	目前仅提供简单模式。
*所有者	租户主账号，不可修改。
*项目描述	项目有关的描述信息。
项目账号	项目下任务若需要使用统一的账号提交鉴权，可将租户主账号/租户下某子账号设置为项目账号，您可通过搜索的方式，搜索该租户下已创建的 IAM 子用户信息。
数据源开发生产环境隔离	可选择是否开启数据源开发生产环境隔离。若勾选开启隔离，则数据源支持开发生产环境隔离，开发环境任务配置和任务调试只能使用开发数据源，发布自动使用生产数据源。若不勾选开启隔离，则默认简单模式只能注册生产数据源。注意项目一旦初始化配置后将不可再变更，请谨慎操作！
项目管控
*鉴权配置	开发、生产环境对应的提交鉴权账号设置。未配置项目账号：开发、生产环境鉴权，仅可使用用户账号。已配置项目账号：生产环境鉴权，可按需选择使用用户账号或项目账号；开发环境鉴权，默认使用用户账号。
*项目回溯控制	无本项目编辑权限的用户，通过上游回溯本项目下的任务，选择是否需要审批。直接执行：无本项目编辑权限用户，通过上游回溯本项目下的任务，直接生成对应回溯实例且执行。审批同意后执行：无本项目编辑权限用户，通过上游回溯本项目下的任务，需要任务责任人或是项目管理员审批同意后，才能生成回溯实例且执行。
*任务依赖的默认配置方式	用于决定项目下任务调度设置时，默认采用的任务依赖关系配置方式。支持指定偏移量依赖和就近依赖两种配置方式选项，默认选中指定偏移量依赖。指定偏移量依赖：在依赖不同调度频率的任务或者调度日期出现偏移时，需要手动设置偏移量。就近依赖：下游实例寻找上游依赖时会遵循就近原则，即依赖距离其定时运行时间最近（等于或早于本实例的定时时间）的上游实例。具体配置方式详见调度依赖。
项目最大并行度	项目内任务运行的最大并行数，设置范围为1～5000的整数，项目最大并行度应大于等于项目重跑最大并行度。说明由于目前使用公共调度资源组，单个租户最大的并行度是100，即一个租户下各项目最大的并行度上限值是100。
项目重跑最大并行度	项目重跑的任务运行最大并行数，设置范围为1～5000的整数，项目重跑最大并行度应小于等于项目最大并行度。说明现阶段项目重跑最大并行度的上限值也是100。
默认监控规则	系统提供的基础监控规则，规则内容为任务重试结束仍失败，报警以邮件形式发送给任务负责人，且仅发送1次。若选择启用，则项目内任务上线时，会默认启用监控规则。说明默认监控规则由系统提供，用户不可修改。任务上线时/上线后，均可选择是否使用默认监控规则。若选中任务中包含Kafka2HDFS任务，默认监控规则对该类型任务不生效。
数据安全设置	项目下查询数据结果相关的安全设置。任务查询结果显示最大记录：任务查询返回结果可显示的最大记录数。可按需设置，设置范围为 1~10000的整数。 Select 查询结果设置：可选择是否允许下载和复制查询结果。
消息通知设置	可选择在什么情况下发送通知消息，支持以下选项，可多选。临时查询运行成功临时查询运行失败任务调试运行成功任务调试运行失败
服务绑定
计算资源组设置	用于 Notebook、Python、Shell 等任务类型任务执行。支持公共计算资源组和独享计算资源组选项，下拉可选运行中的资源组，可设置多个。独享计算资源组操作详见：独享计算资源组管理。
*调度资源组设置	支持公共调度资源组和独享调度资源组，下拉可选运行中的资源组，可设置多个。独享调度资源组操作详见：独享调度资源组管理。
数据集成资源组设置	绑定已开通的数据集成资源组，下拉可选，可设置多个。若无选项，可单击去创建跳转至独享资源组管理页面，创建新的资源组。独享集成资源组操作详见：独享集成资源组管理。
引擎设置	您按需绑定需要使用的计算引擎，目前支持 EMR、EMR Serverless StarRocks、EMR Serverless Spark、LAS、流式计算 Flink 版、ByteHouse CE、ByteHouse CDW 计算引擎。各计算引擎创建操作详见服务开通。说明不同 DataLeap 服务版本，支持绑定不同的计算引擎服务。具体支持绑定详见 DataLeap 公有云版本功能差异。

4 后续操作

DataLeap 项目创建完成后，您便可开始后续的元数据采集、数据集成、数据开发等一系列数仓任务相关操作。