You need to enable JavaScript to run this app.
导航
创建项目
最近更新时间:2025.03.18 16:47:00首次发布时间:2022.09.26 20:53:58
我的收藏
有用
有用
无用
无用

DataLeap 以项目为单位对任务进行划分管理。本文将为您介绍如何创建一个新项目。

1 约束限制

  • 仅租户主账号或具备 DataLeapFullAccess 权限的 IAM 子账号才可创建项目。关于账号的详细说明请参见账号权限
  • DataLeap 智能助手目前是白名单开通状态,您可通过提工单的方式联系我们进行白名单开通使用。
  • 开通智能开发助手智能运维助手后,才支持对项目进行相应的智能助手设置。开通智能助手的操作请参见概览
  • 满足以下条件后,才可绑定 ByteHouseCE 引擎服务。
    • 已开通大数据分析湖仓一体分布式数据自治DataOps敏捷研发服务。详细操作说明请参见 DataLeap 服务信息
    • 若由子账号绑定 ByteHouseCE 引擎服务,则该账号需具备 ByteHouseCEStandardAccess 权限且添加要绑定集群的权限后,才可以绑定成功。添加权限相关说明请参见 ByteHouse CE SQL任务
  • 已开通大数据分析湖仓一体分布式数据自治DataOps敏捷研发服务,才可绑定 ByteHouse 云数仓版引擎服务。

2 前提条件

已开通所需引擎,且已在相应的引擎侧创建集群或实例。

3 操作步骤

  1. 登录 DataLeap 控制台。
  2. 单击左侧导航栏的项目管理,进入项目管理页面。
  3. 从页面顶端的账号全部资源下拉框中,选择创建项目要归类的火山引擎项目。
    Image

    说明

    若不选择,则默认归类到 default(默认项目) 下。

  4. 单击创建项目按钮,进入创建项目页面。
    Image
  5. 参见4 参数说明设置以下项目配置信息后,单击确定按钮,完成项目创建。
    • 基础信息
    • 项目管控
    • 服务绑定

说明

通过概览页面的新建项目按钮,也可创建项目。

4 参数说明

4.1 配置基础信息

基础信息相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

参数

说明

*当前区域

当前 DataLeap 服务所属的地域信息,默认为开通 DataLeap 服务时选择的区域,此处不可编辑。

说明

若开通了多个区域,可通过页面顶端导航栏的区域下拉框选择靠近您业务的区域。

*项目名称

创建项目的名称,按需设置。
仅可由汉字、字母、数字、下划线、或特殊字符.、[]、【】、()、()组成。

*项目类型

分为公开和私有。

  • 公开:只要是租户成员,即可进入项目,查看项目下的任务信息。
  • 私有:只有该项目下的成员,才可进入项目,查看项目下的任务信息。

说明

开通 DataOps敏捷研发湖仓一体分布式数据自治服务后,项目类型才可设置为私有。

*项目模式

目前仅提供简单模式

*所有者

租户主账号,不可修改。

*项目描述

项目有关的描述信息。

项目账号

项目下任务若需要使用统一的账号提交鉴权,可将租户主账号/租户下某子账号设置为项目账号。
配置项目账号,且下方鉴权配置 > 生产环境开启项目账号配置时,不同任务权限校验情况不同:

  • SQL、Shell、Python 等开发类的任务类型,运维中心执行时,会使用项目账号去提交任务并鉴权;
  • 数据集成任务类型:
    • 若数据集成数据源中配置了用户信息,会使用数据源中配置的用户信息去鉴权访问;
    • 若数据源中没有配置用户信息,则运维中心执行时,会使用配置的项目账号去提交任务并鉴权;

数据源开发生产环境隔离

可选择是否开启数据源开发生产环境隔离。

  • 若勾选开启隔离,则数据源支持开发生产环境隔离,开发环境任务配置和任务调试只能使用开发数据源,发布自动使用生产数据源。
  • 若不勾选开启隔离,则默认简单模式只能注册生产数据源。

注意

项目一旦初始化配置后将不可再变更,请谨慎操作!

火山引擎项目

该 DataLeap 项目所属的火山引擎项目,默认为当前所选火山引擎项目,此处不可编辑,可通过页面顶端导航栏的火山引擎项目下拉框选择相应的项目。

说明

火山引擎项目通过访问控制系统进行管理。该项目管理是火山引擎提供的一种资源管理方式,即您可以对不同业务或项目使用的云资源进行分组管理。如需修改资源所属项目,请前往访问控制项目管理

4.2 配置项目管控信息

项目管控信息相关参数说明如下表所示。

参数

说明

*鉴权配置

开发、生产环境对应的提交鉴权账号设置。

  • 未配置项目账号:开发、生产环境鉴权,仅可使用用户账号
  • 已配置项目账号:生产环境鉴权,可按需选择使用用户账号项目账号。

说明

  • 开发环境鉴权,默认使用用户账号
  • 若 EMR 引擎使用安全模式绑定时,配置项目账号后,在运维中心执行任务会使用项目账号去提交鉴权,您需确保项目账号有访问 EMR 库表/队列等资源权限。

*项目回溯控制

无本项目编辑权限的用户,通过上游回溯本项目下的任务,选择是否需要审批。

  • 直接执行:无本项目编辑权限用户,通过上游回溯本项目下的任务,直接生成对应回溯实例且执行。
  • 审批同意后执行:无本项目编辑权限用户,通过上游回溯本项目下的任务,需要任务责任人或是项目管理员审批同意后,才能生成回溯实例且执行。

任务依赖的默认配置方式

用于决定项目下任务调度设置时,默认采用的任务依赖关系配置方式。支持指定偏移量依赖就近依赖两种配置方式选项,默认选中指定偏移量依赖

  • 指定偏移量依赖:在依赖不同调度频率的任务或者调度日期出现偏移时,需要手动设置偏移量。
  • 就近依赖:下游实例寻找上游依赖时会遵循就近原则,即依赖距离其定时运行时间最近(等于或早于本实例的定时时间)的上游实例。

项目最大并行度

项目内任务运行的最大并行数,设置范围为1~5000的整数,项目最大并行度应大于等于项目重跑最大并行度。

说明

由于目前使用公共调度资源组,单个租户最大的并行度是100,即一个租户下各项目最大的并行度上限值是100。

项目重跑最大并行度

项目重跑的任务运行最大并行数,设置范围为1~5000的整数,项目重跑最大并行度应小于等于项目最大并行度。

说明

现阶段项目重跑最大并行度的上限值也是100。

默认监控规则

系统提供的基础监控规则,规则内容为任务重试结束仍失败,报警以邮件形式发送给任务负责人,且仅发送1次。
若选择启用,则项目内任务上线时,会默认启用监控规则。

说明

  • 默认监控规则由系统提供,用户不可修改。
  • 任务上线时/上线后,均可选择是否使用默认监控规则。
  • 若选中任务中包含Kafka2HDFS任务,默认监控规则对该类型任务不生效。

数据安全设置

项目下查询数据结果相关的安全设置。

  • 任务查询结果显示最大记录:任务查询返回结果可显示的最大记录数。可按需设置,设置范围为1~10000的整数。
  • Select查询结果设置:可选择是否允许下载和复制查询结果。

消息通知设置

可选择在什么情况下发送通知消息,支持以下选项,可多选。

  • 临时查询运行成功
  • 临时查询运行失败
  • 任务调试运行成功
  • 任务调试运行失败

智能助手设置

可选择是否启用智能开发助手、智能运维助手,支持多选。

  • 启用智能开发助手:提供代码补全建议、代码生成、智能诊断、智能代码修复等能力,帮助数据开发、分析师、数据科学等角色减少重复性开发,提升开发效率。默认勾选。

    注意

    使用前,需先在智能市场中找到并安装"DataLeap 智能开发助手"。

  • 启用智能运维助手:提供任务实例运维诊断、优化建议等能力,帮助用户快速定位并解决问题,提升用户任务运维的效率。

说明

启用相应的智能助手后,在执行开发或运维操作时才可使用助手功能。

4.3 配置服务绑定信息

服务绑定信息相关参数说明如下表所示。

参数

说明

计算资源组设置

用于Notebook、Python、Shell等任务类型任务执行。
支持公共计算资源组和独享计算资源组选项,下拉可选运行中的资源组,可设置多个。

说明

若选择独享计算资源组,则仅可选择归属于当前火山引擎项目下的资源组。

*调度资源组设置

支持公共调度资源组和独享调度资源组,下拉可选运行中的资源组,可设置多个。

说明

若选择独享调度资源组,则仅可选择归属于当前火山引擎项目下的资源组。

数据集成资源组设置

可按需绑定已开通的数据集成资源组,下拉可选运行中的资源组,可设置多个。
若无所需选项,可单击去创建跳转至独享资源组管理页面,创建新的资源组。

说明

仅可选择归属于当前火山引擎项目下的数据集成资源组。

引擎设置

已开通引擎 E-MapReduce(EMR)、湖仓一体分析服务(LAS)、流式计算 Flink 版等,可按需绑定。单击去购买会跳转至相应的管理页面。

  • E-MapReduce:火山引擎提供的在线计算引擎,支持Hadoop、Spark、HBase、Hive、Flink等大数据组件。设置项包括 EMR 集群Yarn 队列访问模式
    • EMR 集群:仅可选择运行中的 EMR 集群。
    • Yarn 队列:EMR 集群下对应的 Yarn 队列,下拉可选运行中的队列,支持设置多个。
    • 访问模式:支持快捷模式和安全模式,选择集群后会自动显示相应的访问模式。集群访问模式的设置说明请参见绑定 EMR 集群

    说明

    • 项目和 EMR 集群是多对多的绑定关系,即一个项目可以绑定多个 EMR 集群,而多个项目也可以绑定同一个 EMR 集群。
    • EMR 引擎目前支持绑定 Hadoop、TensorFlow、Flink、Doris 和 StarRocks 五种集群类型的 EMR 版本,其中 Doris 和 StarRocks 仅支持绑定 3.2.1 版本。不同版本说明请参见 EMR版本概述
    • 项目需绑定 EMR 1.3.1 或之前的版本,且集群中需包含 Flink 组件服务,方可创建 EMR 流式数据任务,其余版本将在后续支持创建流式数据任务。EMR 支持的任务类型请参见数据开发 > 概述
    • 当绑定安全模式的集群时,为保证任务可正常执行,请确保项目下全部成员已完成账号映射。
  • EMR Serverless StarRocks:是开源StarRocks在火山引擎上的全托管服务,您可以灵活的创建和管理StarRocks实例以及数据。设置项包括实例名称访问模式
    • 实例名称:仅可选择已绑定且运行中的 EMR Serverless StarRocks 实例。
    • 访问模式:支持快捷模式和安全模式,选择实例后会自动显示相应的访问模式。实例访问模式的设置说明请参见绑定 EMR Serverless StarRocks 实例
  • EMR Serverless Spark:是基于 Serverless 的 Spark 服务,支持 Spark SQL 和 Spark Jar,满足中大型客户对不同状态资源的差异化诉求。设置项包括服务实例资源队列
    • 服务实例:下拉可选运行中的默认实例 serverless_spark_default
    • 资源队列:服务实例下已创建的资源队列计算组,下拉可选,支持绑定多个。

      说明

      一个队列下可包含多个不同的计算组,支持按计算组选择。

  • EMR Serverless Presto:是基于 Serverless 的 Presto 服务,提供交互式SQL查询。设置项包括服务实例资源队列
    • 服务实例:下拉可选运行中的默认实例 serverless_presto_default
    • 资源队列:服务实例下已创建的资源队列计算组,下拉可选,支持绑定多个。

      说明

      一个队列下可包含多个不同的计算组,支持按计算组选择。

  • 湖仓一体分析服务:Serverless湖仓一体分析服务,企业级标准构建湖仓分析平台。设置项包括服务实例LAS队列
    当绑定湖仓一体分析服务引擎实例时,服务实例默认选择 default,支持绑定多个服务实例下对应的LAS队列。每个LAS队列的显示信息包括队列名称、队列类型(公共队列、独占队列)、具体状态(如正常、到期停服、欠费等)。

    说明

    只有任务责任人和项目账号都具备 LAS 队列使用权限时,才可以向绑定的 LAS 队列提交任务。否则,需主账号前往 LAS控制台 > 权限管理 授予其队列权限。

  • 流式计算 Flink 版:企业级全托管流式计算平台,支持开箱即用,Serverless极致弹性,极简SQL开发,流批一体等特性。设置项包括引擎项目资源池
    • 引擎项目:是指已在该引擎上创建的项目,下拉可选。绑定后,当前项目下任务会映射至对应引擎项目。
    • 资源池:引擎项目下已创建的资源池,下拉可选,支持绑定多个。
  • ByteHouse CE:是企业的智能增长引擎,基于开源 ClickHouse 的企业级分析型数据库,支持用户交互式分析 PB 级别数据,通过多种自研表引擎,灵活支持各类数据分析和应用。设置项包括 ByteHouse CE 集群,下拉可选已创建的集群,支持绑定多个。
  • ByteHouse 云数仓版:是一个同时支持实时和离线导入的自助数据分析平台,能够对 PB 级海量数据进行高效分析。设置项包括服务实例计算组,支持配置多个。
    • 服务实例:下拉可选运行中的实例。
    • 计算组:服务实例下已创建的计算组,下拉可选,支持绑定多个。

5 后续操作

创建项目后,您可继续完善该项目的其他配置信息,如复查配置、队列管理、同步设置等,并可前往数据开发页面,在该项目下进行相应的任务开发操作。