创建项目--大数据研发治理套件-火山引擎

文档中心

立即注册

导航

创建项目

最近更新时间：2025.04.15 17:31:44首次发布时间：2022.09.26 20:53:58

DataLeap 以项目为单位对任务进行划分管理。本文将为您介绍如何创建一个新项目。

1 约束限制

仅租户主账号或具备 DataLeapFullAccess 权限的 IAM 子账号才可创建项目。关于账号的详细说明请参见账号权限。
DataLeap 智能助手目前是白名单开通状态，您可通过提工单的方式联系我们进行白名单开通使用。
开通智能开发助手、智能运维助手后，才支持对项目进行相应的智能助手设置。开通智能助手的操作请参见概览。
满足以下条件后，才可绑定 ByteHouseCE 引擎服务。
- 已开通大数据分析、湖仓一体、分布式数据自治或 DataOps敏捷研发服务。详细操作说明请参见 DataLeap 服务信息。
- 若由子账号绑定 ByteHouseCE 引擎服务，则该账号需具备 ByteHouseCEStandardAccess 权限且添加要绑定集群的权限后，才可以绑定成功。添加权限相关说明请参见 ByteHouse CE SQL任务。
已开通大数据分析、湖仓一体、分布式数据自治或 DataOps敏捷研发服务，才可绑定 ByteHouse 云数仓版引擎服务。

2 前提条件

已开通所需引擎，且已在相应的引擎侧创建集群或实例。

若选择 EMR 或 EMR Serverless StarRocks 引擎服务，需确保已在引擎管理页面绑定相应的集群。绑定集群的相关说明请参见绑定 EMR 集群、绑定 EMR Serverless StarRocks 实例。
已创建流式计算 Flink 版引擎项目和资源池，相关说明可参见导入项目、创建通用-VCI 资源池。
已创建ByteHouse CE 集群，相关说明可参见创建 ByteHouse 企业版集群。
已创建ByteHouse 云数仓版服务实例，相关说明可参见 ByteHouse云数仓版的环境管理、创建计算组。

3 操作步骤

登录 DataLeap 控制台。
单击左侧导航栏的项目管理，进入项目管理页面。
从页面顶端的账号全部资源下拉框中，选择创建项目要归类的火山引擎项目。
说明
若不选择，则默认归类到 default(默认项目) 下。
单击创建项目按钮，进入创建项目页面。
参见4 参数说明设置以下项目配置信息后，单击确定按钮，完成项目创建。
- 基础信息
- 项目管控
- 服务绑定

说明

通过概览页面的新建项目按钮，也可创建项目。

4 参数说明

4.1 配置基础信息

基础信息相关参数说明如下表所示。其中名称前带 * 的参数为必填参数，名称前未带 * 的参数为可选参数。

参数	说明
*当前区域	当前 DataLeap 服务所属的地域信息，默认为开通 DataLeap 服务时选择的区域，此处不可编辑。说明若开通了多个区域，可通过页面顶端导航栏的区域下拉框选择靠近您业务的区域。
*项目名称	创建项目的名称，按需设置。仅可由汉字、字母、数字、下划线、或特殊字符.、[]、【】、（）、()组成。
*项目类型	分为公开和私有。公开：只要是租户成员，即可进入项目，查看项目下的任务信息。私有：只有该项目下的成员，才可进入项目，查看项目下的任务信息。说明开通 DataOps敏捷研发、湖仓一体或分布式数据自治服务后，项目类型才可设置为私有。
*项目模式	目前仅提供简单模式。
*所有者	租户主账号，不可修改。
*项目描述	项目有关的描述信息。
项目账号	项目下任务若需要使用统一的账号提交鉴权，可将租户主账号/租户下某子账号设置为项目账号。配置项目账号，且下方鉴权配置 > 生产环境开启项目账号配置时，不同任务权限校验情况不同： SQL、Shell、Python 等开发类的任务类型，运维中心执行时，会使用项目账号去提交任务并鉴权；数据集成任务类型：若数据集成数据源中配置了用户信息，会使用数据源中配置的用户信息去鉴权访问；若数据源中没有配置用户信息，则运维中心执行时，会使用配置的项目账号去提交任务并鉴权；
数据源开发生产环境隔离	可选择是否开启数据源开发生产环境隔离。若勾选开启隔离，则数据源支持开发生产环境隔离，开发环境任务配置和任务调试只能使用开发数据源，发布自动使用生产数据源。若不勾选开启隔离，则默认简单模式只能注册生产数据源。注意项目一旦初始化配置后将不可再变更，请谨慎操作！
火山引擎项目	该 DataLeap 项目所属的火山引擎项目，默认为当前所选火山引擎项目，此处不可编辑，可通过页面顶端导航栏的火山引擎项目下拉框选择相应的项目。说明火山引擎项目通过访问控制系统进行管理。该项目管理是火山引擎提供的一种资源管理方式，即您可以对不同业务或项目使用的云资源进行分组管理。如需修改资源所属项目，请前往访问控制的项目管理。

4.2 配置项目管控信息

项目管控信息相关参数说明如下表所示。

参数	说明
*鉴权配置	开发、生产环境对应的提交鉴权账号设置。未配置项目账号：开发、生产环境鉴权，仅可使用用户账号。已配置项目账号：生产环境鉴权，可按需选择使用用户账号或项目账号。说明开发环境鉴权，默认使用用户账号。若 EMR 引擎使用安全模式绑定时，配置项目账号后，在运维中心执行任务会使用项目账号去提交鉴权，您需确保项目账号有访问 EMR 库表/队列等资源权限。
*项目回溯控制	无本项目编辑权限的用户，通过上游回溯本项目下的任务，选择是否需要审批。直接执行：无本项目编辑权限用户，通过上游回溯本项目下的任务，直接生成对应回溯实例且执行。审批同意后执行：无本项目编辑权限用户，通过上游回溯本项目下的任务，需要任务责任人或是项目管理员审批同意后，才能生成回溯实例且执行。
任务依赖的默认配置方式	用于决定项目下任务调度设置时，默认采用的任务依赖关系配置方式。支持指定偏移量依赖和就近依赖两种配置方式选项，默认选中指定偏移量依赖。指定偏移量依赖：在依赖不同调度频率的任务或者调度日期出现偏移时，需要手动设置偏移量。就近依赖：下游实例寻找上游依赖时会遵循就近原则，即依赖距离其定时运行时间最近（等于或早于本实例的定时时间）的上游实例。
项目最大并行度	项目内任务运行的最大并行数，设置范围为1～5000的整数，项目最大并行度应大于等于项目重跑最大并行度。说明由于目前使用公共调度资源组，单个租户最大的并行度是100，即一个租户下各项目最大的并行度上限值是100。
项目重跑最大并行度	项目重跑的任务运行最大并行数，设置范围为1～5000的整数，项目重跑最大并行度应小于等于项目最大并行度。说明现阶段项目重跑最大并行度的上限值也是100。
默认监控规则	系统提供的基础监控规则，规则内容为任务重试结束仍失败，报警以邮件形式发送给任务负责人，且仅发送1次。若选择启用，则项目内任务上线时，会默认启用监控规则。说明默认监控规则由系统提供，用户不可修改。任务上线时/上线后，均可选择是否使用默认监控规则。若选中任务中包含Kafka2HDFS任务，默认监控规则对该类型任务不生效。
数据安全设置	项目下查询数据结果相关的安全设置。任务查询结果显示最大记录：任务查询返回结果可显示的最大记录数。可按需设置，设置范围为1~10000的整数。 Select查询结果设置：可选择是否允许下载和复制查询结果。
消息通知设置	可选择在什么情况下发送通知消息，支持以下选项，可多选。临时查询运行成功临时查询运行失败任务调试运行成功任务调试运行失败
智能助手设置	可选择是否启用智能开发助手、智能运维助手，支持多选。启用智能开发助手：提供代码补全建议、代码生成、智能诊断、智能代码修复等能力，帮助数据开发、分析师、数据科学等角色减少重复性开发，提升开发效率。默认勾选。注意使用前，需先在智能市场中找到并安装"DataLeap 智能开发助手"。启用智能运维助手：提供任务实例运维诊断、优化建议等能力，帮助用户快速定位并解决问题，提升用户任务运维的效率。说明启用相应的智能助手后，在执行开发或运维操作时才可使用助手功能。

4.3 配置服务绑定信息

服务绑定信息相关参数说明如下表所示。

参数	说明
计算资源组设置	用于Notebook、Python、Shell等任务类型任务执行。支持公共计算资源组和独享计算资源组选项，下拉可选运行中的资源组，可设置多个。说明若选择独享计算资源组，则仅可选择归属于当前火山引擎项目下的资源组。
*调度资源组设置	支持公共调度资源组和独享调度资源组，下拉可选运行中的资源组，可设置多个。说明若选择独享调度资源组，则仅可选择归属于当前火山引擎项目下的资源组。
数据集成资源组设置	可按需绑定已开通的数据集成资源组，下拉可选运行中的资源组，可设置多个。若无所需选项，可单击去创建跳转至独享资源组管理页面，创建新的资源组。说明仅可选择归属于当前火山引擎项目下的数据集成资源组。
引擎设置	显示已对接的引擎列表，包括 E-MapReduce（EMR）、湖仓一体分析服务（LAS）、流式计算 Flink 版等，可按需绑定。若引擎未开通，可单击去购买跳转至相应页面进行购买后再绑定。 E-MapReduce：火山引擎提供的在线计算引擎，支持Hadoop、Spark、HBase、Hive、Flink等大数据组件。设置项包括 EMR 集群、Yarn 队列和访问模式。 EMR 集群：仅可选择运行中的 EMR 集群。 Yarn 队列：EMR 集群下对应的 Yarn 队列，下拉可选运行中的队列，支持设置多个。访问模式：支持快捷模式和安全模式，选择集群后会自动显示相应的访问模式。集群访问模式的设置说明请参见绑定 EMR 集群。说明项目和 EMR 集群是多对多的绑定关系，即一个项目可以绑定多个 EMR 集群，而多个项目也可以绑定同一个 EMR 集群。 EMR 引擎目前支持绑定 Hadoop、TensorFlow、Flink、Doris 和 StarRocks 五种集群类型的 EMR 版本，其中 Doris 和 StarRocks 仅支持绑定 3.2.1 版本。不同版本说明请参见 EMR版本概述。项目需绑定 EMR 1.3.1 或之前的版本，且集群中需包含 Flink 组件服务，方可创建 EMR 流式数据任务，其余版本将在后续支持创建流式数据任务。EMR 支持的任务类型请参见数据开发 > 概述。当绑定安全模式的集群时，为保证任务可正常执行，请确保项目下全部成员已完成账号映射。 EMR Serverless StarRocks：是开源StarRocks在火山引擎上的全托管服务，您可以灵活的创建和管理StarRocks实例以及数据。设置项包括实例名称和访问模式。实例名称：仅可选择已绑定且运行中的 EMR Serverless StarRocks 实例。访问模式：支持快捷模式和安全模式，选择实例后会自动显示相应的访问模式。实例访问模式的设置说明请参见绑定 EMR Serverless StarRocks 实例。 EMR Serverless Spark：是基于 Serverless 的 Spark 服务，支持 Spark SQL 和 Spark Jar，满足中大型客户对不同状态资源的差异化诉求。设置项包括服务实例和资源队列。服务实例：下拉可选运行中的默认实例 serverless_spark_default。资源队列：服务实例下已创建的资源队列计算组，下拉可选，支持绑定多个。说明一个队列下可包含多个不同的计算组，支持按计算组选择。 EMR Serverless Presto：是基于 Serverless 的 Presto 服务，提供交互式SQL查询。设置项包括服务实例和资源队列。服务实例：下拉可选运行中的默认实例 serverless_presto_default。资源队列：服务实例下已创建的资源队列计算组，下拉可选，支持绑定多个。说明一个队列下可包含多个不同的计算组，支持按计算组选择。湖仓一体分析服务：Serverless湖仓一体分析服务，企业级标准构建湖仓分析平台。设置项包括服务实例和 LAS队列。当绑定湖仓一体分析服务引擎实例时，服务实例默认选择 default，支持绑定多个服务实例下对应的LAS队列。每个LAS队列的显示信息包括队列名称、队列类型（公共队列、独占队列）、具体状态（如正常、到期停服、欠费等）。说明只有任务责任人和项目账号都具备 LAS 队列使用权限时，才可以向绑定的 LAS 队列提交任务。否则，需主账号前往 LAS控制台 > 权限管理授予其队列权限。流式计算 Flink 版：企业级全托管流式计算平台，支持开箱即用，Serverless极致弹性，极简SQL开发，流批一体等特性。设置项包括引擎项目和资源池。引擎项目：是指已在该引擎上创建的项目，下拉可选。绑定后，当前项目下任务会映射至对应引擎项目。资源池：引擎项目下已创建的资源池，下拉可选，支持绑定多个。 ByteHouse CE：是企业的智能增长引擎，基于开源 ClickHouse 的企业级分析型数据库，支持用户交互式分析 PB 级别数据，通过多种自研表引擎，灵活支持各类数据分析和应用。设置项包括 ByteHouse CE 集群，下拉可选已创建的集群，支持绑定多个。 ByteHouse 云数仓版：是一个同时支持实时和离线导入的自助数据分析平台，能够对 PB 级海量数据进行高效分析。设置项包括服务实例和计算组，支持配置多个。服务实例：下拉可选运行中的实例。计算组：服务实例下已创建的计算组，下拉可选，支持绑定多个。

5 后续操作

创建项目后，您可继续完善该项目的其他配置信息，如复查配置、队列管理、同步设置等，并可前往数据开发页面，在该项目下进行相应的任务开发操作。