1 约束限制
仅租户主账号或具备 DataLeapFullAccess 权限的 IAM 子账号才可创建项目。关于账号的详细说明请参见账号权限。
2 前提条件
- 若选择 EMR 引擎服务,需确保已在引擎管理页面绑定相应的 EMR 集群。绑定 EMR 集群的相关说明请参见 绑定 EMR 集群。
- 满足以下条件后,才可绑定 ByteHouseCE 引擎服务。
- 已开通大数据分析、湖仓一体、分布式数据自治或 DataOps敏捷研发服务。详细操作说明请参见 DataLeap 服务信息。
- 若由子账号绑定 ByteHouseCE 引擎服务,则该账号需具备 ByteHouseCEStandardAccess 权限且添加要绑定集群的权限后,才可以绑定成功。添加权限相关说明请参见 ByteHouse CE SQL任务。
- 已开通大数据分析、湖仓一体、分布式数据自治或 DataOps敏捷研发服务,才可绑定 ByteHouse 云数仓版引擎服务。
3 操作步骤
登录 DataLeap 控制台。
单击左侧导航栏的项目管理,进入项目管理页面。
从页面顶端的账号全部资源下拉框中,选择创建项目要归类的火山引擎项目。
说明
若不选择,则默认归类到 default(默认项目) 下。
单击创建项目按钮,进入创建项目页面。
设置项目相关配置信息后,单击确定按钮,即完成项目创建。
新建项目相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|
基础信息 |
*当前区域 | 当前 DataLeap 服务所属的地域信息,默认为开通 DataLeap 服务时选择的区域,此处不可编辑。 说明 若开通了多个区域,可通过页面顶端导航栏的区域下拉框选择靠近您业务的区域。 |
*项目名称 | 创建项目的名称,按需设置。
仅可由汉字、字母、数字、下划线、或特殊字符.、[]、【】、()、()组成。 |
*项目类型 | 分为公开和私有。 - 公开:只要是租户成员,即可进入项目,查看项目下的任务信息。
- 私有:只有该项目下的成员,才可进入项目,查看项目下的任务信息。
说明 开通 DataOps敏捷研发、湖仓一体或分布式数据自治服务后,项目类型才可设置为私有。 |
*项目模式 | 目前仅提供简单模式。 |
*所有者 | 租户主账号,不可修改。 |
*项目描述 | 项目有关的描述信息。 |
项目账号 | 项目下任务若需要使用统一的账号提交鉴权,可将租户主账号/租户下某子账号设置为项目账号。 |
数据源开发生产环境隔离 | 可选择是否开启数据源开发生产环境隔离。 - 若勾选开启隔离,则数据源支持开发生产环境隔离,开发环境任务配置和任务调试只能使用开发数据源,发布自动使用生产数据源。
- 若不勾选开启隔离,则默认简单模式只能注册生产数据源。
注意 项目一旦初始化配置后将不可再变更,请谨慎操作! |
火山引擎项目 | 该 DataLeap 项目所属的火山引擎项目,默认为当前所选火山引擎项目,此处不可编辑,可通过页面顶端导航栏的火山引擎项目下拉框选择相应的项目。 说明 火山引擎项目通过访问控制系统进行管理。该项目管理是火山引擎提供的一种资源管理方式,即您可以对不同业务或项目使用的云资源进行分组管理。如需修改资源所属项目,请前往访问控制的项目管理。 |
项目管控 |
*鉴权配置 | 开发、生产环境对应的提交鉴权账号设置。 - 未配置项目账号:开发、生产环境鉴权,仅可使用用户账号。
- 已配置项目账号:生产环境鉴权,可按需选择使用用户账号或项目账号;开发环境鉴权,默认使用用户账号。
|
*项目回溯控制 | 无本项目编辑权限的用户,通过上游回溯本项目下的任务,选择是否需要审批。 - 直接执行:无本项目编辑权限用户,通过上游回溯本项目下的任务,直接生成对应回溯实例且执行。
- 审批同意后执行:无本项目编辑权限用户,通过上游回溯本项目下的任务,需要任务责任人或是项目管理员审批同意后,才能生成回溯实例且执行。
|
任务依赖的默认配置方式 | 用于决定项目下任务调度设置时,默认采用的任务依赖关系配置方式。支持指定偏移量依赖和就近依赖两种配置方式选项,默认选中指定偏移量依赖。 - 指定偏移量依赖:在依赖不同调度频率的任务或者调度日期出现偏移时,需要手动设置偏移量。
- 就近依赖:下游实例寻找上游依赖时会遵循就近原则,即依赖距离其定时运行时间最近(等于或早于本实例的定时时间)的上游实例。
|
项目最大并行度 | 项目内任务运行的最大并行数,设置范围为1~5000的整数,项目最大并行度应大于等于项目重跑最大并行度。 说明 由于目前使用公共调度资源组,单个租户最大的并行度是100,即一个租户下各项目最大的并行度上限值是100。 |
项目重跑最大并行度 | 项目重跑的任务运行最大并行数,设置范围为1~5000的整数,项目重跑最大并行度应小于等于项目最大并行度。 |
默认监控规则 | 系统提供的基础监控规则,规则内容为任务重试结束仍失败,报警以邮件形式发送给任务负责人,且仅发送1次。
若选择启用,则项目内任务上线时,会默认启用监控规则。 说明 - 默认监控规则由系统提供,用户不可修改。
- 任务上线时/上线后,均可选择是否使用默认监控规则。
- 若选中任务中包含Kafka2HDFS任务,默认监控规则对该类型任务不生效。
|
数据安全设置 | 项目下查询数据结果相关的安全设置。 - 任务查询结果显示最大记录:任务查询返回结果可显示的最大记录数。可按需设置,设置范围为1~10000的整数。
- Select查询结果设置:可选择是否允许下载和复制查询结果。
|
消息通知设置 | 可选择在什么情况下发送通知消息,支持以下选项,可多选。 - 临时查询运行成功
- 临时查询运行失败
- 任务调试运行成功
- 任务调试运行失败
|
服务绑定 |
计算资源组设置 | 用于Notebook、Python、Shell等任务类型任务执行。
支持公共计算资源组和独享计算资源组选项,下拉可选运行中的资源组,可设置多个。 说明 若选择独享计算资源组,则仅可选择归属于当前火山引擎项目下的资源组。 |
*调度资源组设置 | 支持公共调度资源组和独享调度资源组,下拉可选运行中的资源组,可设置多个。 说明 若选择独享调度资源组,则仅可选择归属于当前火山引擎项目下的资源组。 |
数据集成资源组设置 | 可按需绑定已开通的数据集成资源组,下拉可选运行中的资源组,可设置多个。
若无所需选项,可单击去创建跳转至独享资源组管理页面,创建新的资源组。 说明 仅可选择归属于当前火山引擎项目下的数据集成资源组。 |
引擎设置 | 已开通引擎 E-MapReduce(EMR)、湖仓一体分析服务(LAS)和流式计算 Flink 版,可按需绑定。单击去购买会跳转至相应的管理页面。 - E-MapReduce:火山引擎提供的在线计算引擎,支持Hadoop、Spark、HBase、Hive、Flink等大数据组件。设置项包括 EMR 集群、Yarn 队列和访问模式。
- EMR 集群:仅可选择运行中的 EMR 集群。
- Yarn 队列:EMR 集群下对应的 Yarn 队列,下拉可选运行中的队列,支持设置多个。
- 访问模式:支持快捷模式和安全模式,选择集群后会自动显示相应的访问模式。集群访问模式的设置说明请参见绑定 EMR 集群。
说明 - 项目和 EMR 集群是多对多的绑定关系,即一个项目可以绑定多个 EMR 集群,而多个项目也可以绑定同一个 EMR 集群。
- EMR 引擎目前支持绑定 Hadoop、TensorFlow、Flink、Doris 和 StarRocks 五种集群类型的 EMR 版本,其中 Doris 和 StarRocks 仅支持绑定 3.2.1 版本。不同版本说明请参见 EMR版本概述。
- 项目需绑定 EMR 1.3.1 或之前的版本,且集群中需包含 Flink 组件服务,方可创建 EMR 流式数据任务,其余版本将在后续支持创建流式数据任务。EMR 支持的任务类型请参见数据开发 > 概述。
- 当绑定安全模式的集群时,为保证任务可正常执行,请确保项目下全部成员已完成账号映射。
- EMR Serverless StarRocks:是开源StarRocks在火山引擎上的全托管服务,您可以灵活的创建和管理StarRocks实例以及数据。设置项包括实例名称和访问模式。
- EMR Serverless Spark:是基于 Serverless 的 Spark 服务,支持 Spark SQL 和 Spark Jar,满足中大型客户对不同状态资源的差异化诉求。设置项包括服务实例和计算队列。
- 服务实例:下拉可选运行中的默认实例 serverless_spark_default。
- 资源队列:服务实例下已创建的资源队列,下拉可选,支持绑定多个。
- EMR Serverless Presto:是基于 Serverless 的 Presto 服务,提供交互式SQL查询。设置项包括服务实例和计算队列。
- 服务实例:下拉可选运行中的默认实例 serverless_presto_default。
- 资源队列:服务实例下已创建的资源队列,下拉可选,支持绑定多个。
- 湖仓一体分析服务:Serverless湖仓一体分析服务,企业级标准构建湖仓分析平台。设置项包括服务实例和 LAS队列。
当绑定湖仓一体分析服务引擎实例时,服务实例默认选择 default,支持绑定多个服务实例下对应的LAS队列。每个LAS队列的显示信息包括队列名称、队列类型(公共队列、独占队列)、具体状态(如正常、到期停服、欠费等)。 - 流式计算 Flink 版:企业级全托管流式计算平台,支持开箱即用,Serverless极致弹性,极简SQL开发,流批一体等特性。设置项包括引擎项目和资源池。
- 引擎项目:是指已在该引擎上创建的项目,下拉可选。绑定后,当前项目下任务会映射至对应引擎项目。
- 资源池:引擎项目下已创建的资源池,下拉可选,支持绑定多个。
- ByteHouse CE:是企业的智能增长引擎,基于开源 ClickHouse 的企业级分析型数据库,支持用户交互式分析 PB 级别数据,通过多种自研表引擎,灵活支持各类数据分析和应用。设置项包括 ByteHouse CE 集群,下拉可选已创建的集群,支持绑定多个。
- ByteHouse 云数仓版:是一个同时支持实时和离线导入的自助数据分析平台,能够对 PB 级海量数据进行高效分析。设置项包括服务实例和计算组。
- 服务实例:默认为 default_ins,下拉可选。
- 计算组:服务实例下已创建的计算组,下拉可选,支持绑定多个。
|
说明
- 只有任务责任人和项目账号都具备 LAS 队列使用权限时,才可以向绑定的 LAS 队列提交任务。否则,需主账号前往 LAS控制台 > 权限管理 授予其队列权限。
- 通过概览页面的新建项目按钮,也可创建项目。
4 后续操作
创建项目后,您可继续完善该项目的其他配置信息,如复查配置、队列管理、同步设置等,并可前往数据开发页面,在该项目下进行相应的任务开发操作。