本文为您介绍 2025 年大数据研发治理套件 DataLeap 产品功能版本更新和相关文档动态。
2025/04/15
序号 | 功能 | 功能描述 | 使用文档 |
---|
1 | 数据开发 | - 数据开发 Notebook 调度任务和临时查询任务,当 Kernel 类型包含 Spark 参数配置时,支持引用项目参数配置。满足同一套代码处于不同执行环境时,可自动区分不同的引擎环境参数、项目参数等;或者当存在敏感信息需要通过参数传递时,也可通过项目参数的方式进行配置。
- Serverless Flink SQL、Serverless Java Flink 流式任务中包含资源引用时,如果资源文件发生更新,那么在资源库更新资源文件之后,重启流式任务,便可使资源变更生效,提升流式任务资源变更时的任务执行效率。
| |
2 | 数据地图 | - 表详情展示字段密级,支持安全标签编辑。目前已支持的类型:EMR Hive、LAS、EMR StarRocks、EMR Serverless StarRocks、LAS Catalog、ByteHouse CE。
- Bytehouse CE 建表时支持Excel模式。
- 亚太东南(柔佛)环境对接 ByteHouse CE 引擎。
| |
3 | 数据质量 | - 补充模板监控规则的分区表达式参数,与数据开发的调度参数相同。
- 亚太东南(柔佛)区域下,其他数据源监控、数据探查等功能支持 ByteHouse CE 类型。
| |
4 | 控制台 | - 亚太东南(柔佛)环境对接 ByteHouse CE 引擎。
| |
5 | 数据安全 | - 亚太东南(柔佛)环境对接 ByteHouse CE 引擎, 权限管理、风险审计、审批中心、安全标签等功能支持 ByteHouse CE 类型。
| |
2025/03/31
序号 | 功能 | 功能描述 | 使用文档 |
---|
1 | 发布中心 | - 发布包管理中,查看发布包详情时,新增发布任务的跳转链接,在查看任务文件变更有异常后,可直接单击任务名称跳转到数据开发界面进行编辑,提升界面交互体验。
| 发布包管理 |
2 | 数据开发 | - 临时查询 EMR Hive SQL、EMR Spark SQL、EMR Presto、EMR Trino 任务类型创建后,在一个任务中可自由切换 Spark、Hive、Presto、Trino 执行引擎,提升动态切换执行引擎能力和不同引擎的查询调试效率。
- 在离线/流式任务运维、实例运维的列表里,新增存储目录筛选过滤项。在众多任务当中,能够依据任务存放的目录位置进行过滤,从而提高任务查找的效率。
- 数据开发 EMR Serverless Spark/Presto 引擎元数据中,新增新建表、导入 CSV 文件的入口。导入 CSV 文件功能支持将本地 CSV 上传到对象存储 TOS Bucket 中,并通过配置 TOS2Hive 集成任务,把 CSV 数据写入到 EMR Serverless 引擎下的 Hive 表中,提升了本地数据的写入效率。
- 资源库中新增支持 EMR Serverless Spark/Presto 引擎下的 JAR 资源上传操作,以实现在 DataLeap 中对资源进行统一管理。
- 函数库中新增 EMR Serverless Spark/Presto 引擎相关的公共函数列表展现。在数据开发任务里,您可直接使用对应引擎的公共函数,从而提升数据开发效率。
- 流式计算 Flink 版引擎,Serverless Java Flink/Serverless Flink SQL 任务类型,在进行 Flink 参数或自定义参数配置时,支持以项目或自定义参数变量形式配置,实现同一套代码处于不同执行环境时,能够自动对不同的引擎环境参数、项目参数、自定义参数等加以区分。
| |
3 | 数据地图 | - Las Catalog表针对datasource表类型做编辑限制,即当数据表是 datasource 表,不支持在数据地图侧编辑表字段信息。
- Bytehouse CDW 建表时,可设置为分区的字段不再限制为date类型,可以选择任意字段。
| |
2025/03/17
序号 | 功能 | 功能描述 | 使用文档 |
---|
1 | 数据集成 | - 新增 DataSail 准实时整库同步 PostgreSQL2LAS 解决方案,增量数据通过数据采集方案实时写入对应的 Log 表,Log 表再定期与 Base 表进行 Merge 操作,将最终增量数据写入 Base 表中,进行全增量数据合并,提升全量+增量数据迁移效率。
- DataSail 解决方案列表界面,在方案运维操作中新增了方案解绑能力。该功能支持将列表中的方案置为只读状态,此后集成任务的编辑、维护等操作可移步至数据开发界面进行,从而确保两个界面中的同一任务配置保持一致。
- 实时整库同步解决方案新增 TiDB 数据源类型,支持 TiDB 数据写入 ByteHouse 企业版(ByteHouse CE)数据库表中;离线单通道模式支持读取和写入 TiDB 数据源类型。
- 数据写入 LAS 目标数据源时,新增支持在开发界面一键建表的能力 ,提升目标表创建效率。
- 在 DataLeap 项目开启数据源开发与生产环境隔离的情况下,对开发环境数据源配置信息的填写方式进行优化,使其支持一键复制生产环境数据源配置信息,提升开发环境数据源信息的配置效率。
- Redis 数据源写入数据时,若写入字段类型为 set、hash、sorted_set 时,支持在写入数据前删除相同的 redis key 数据。
- LarkSheet 数据源新增离线写入通道,支持将其他源端的数据写入到飞书电子表格和多维表格中。
| |
2 | 数据开发 | - Shell、Python、Notebook任务类型,完善任务产出数据登记,支持登记 EMR Serverless Spark、EMR Serverless Presto、EMR Serverless StarRocks、ByteHosue 等所有引擎,便于后续下游任务维护数据血缘关。
- 数据开发资源库优化资源上传能力,不同项目下支持上传相同的资源文件,提升不同项目下的资源文件复用率。
- 数据开发元数据界面,新增支持 ByteHouse CE 引擎下的数据库表信息查看,在此可根据 ByteHouse CE 的库表信息直接一键生成相应的数据查询语句。
| |
3 | 控制台 | - 项目控制台新增智能助手控制配置项。运维助手控制台新增支持诊断场景自定义。
- 推送渠道配置页面全面上线,且调整获权方配置要求(获权方可以不配置飞书账号映射,即获权方没有飞书账号映射时,也不影响DataLeap 数据安全支持飞书审批工单。)
| |
4 | 数据安全 | - ByteHouse CE/CDW表权限有效期支持自定义
- 优化分类分级规则配置:新建标签时只有选内容才需配置阈值,而字段名和描述不会触发该配置;调整阈值配置信息。
- 新增系统管理菜单项,可按需进行不同管理员角色的配置。
- 推送渠道配置页面配置飞书账号映射后,审批工单支持飞书审批。
- 拆解、调整审批工单文档结构、内容等。
| |
5 | 数据质量 | | |
2025/03/07
序号 | 功能 | 功能描述 | 使用文档 |
---|
1 | 数据开发 | - 【白名单】DataLeap 方式开通智能开发助手、智能运维助手、智能找数助手计费项服务,平台将根据模型的输入、输出的总 Token 数进行按量计费;
- 【白名单】DataLeap 智能开发助手接入DeepSeek R1 模型,提升数据处理和智能问答分析能力;
- 【白名单】数据地图检索数据中新增智能找数助手,通过搜索库表信息关键词或采用智能问答模式,快速检索目标表。
| |
2 | 控制台 | - 【白名单】DataLeap 支持开通智能开发助手、智能运维助手、智能找数助手三款计费项服务,平台将根据模型的输入、输出总 Token 数进行按量计费。
- 通过对 Hadoop 类型集群部署 Presto 服务,DataLeap 数据安全支持半托管 Presto 的库表权限控制。
| |
3 | 数据地图 | - 【白名单】开通智能找数助手后,支持智能问答模式检索数据。
- LAS Catalog 表支持 TTL 生命周期管理设置。
| |
4 | 数据安全 | | |
2025/02/12
序号 | 功能 | 功能描述 | 使用文档 |
---|
1 | 数据集成 | - 独享数据集成资源组运行实例窗口,优化查看任务 CPU、内存申请量与使用量方式,默认不全选当前页的申请量与使用量,提升勾选查看效率;
- 写入数据集成 EMR Serverless Hive(LAS Catalog)数据源时,支持通过选择的源表字段信息,在数据地图中实现快速建表能力,提供多种建表方式;
- Oracle 数据源支持配置分库分表形式读取源端数据源,提升 Oracle 分库分表配置效率。
- MySQL、Oracle 分库分表配置,支持手动添加 ${database}_${table} 或 ${database}.${table} 形式的常量字段,将分库分表各自的来源库表信息,写入到目标表字段中,方便在目标表中区分数据的来源信息。
- 在读取Hive数据源时,可支持对多个表分区数据的读取,并将这些数据写入目标。
- MaxCompute 数据源支持以 insert overwrite 方式向非分区表中写入数据,同步过程中将自动清除源表中的原有历史数据。
- 实时整库同步、实时分库分表解决方案通过数据缓存方案配置时,新增支持数据转换能力,满足各类解决方案缓存场景下的数据转换需求。
- 实时整库同步解决方案中,源表和目标表映射关系配置时,支持全屏显示展示后进行表映射配置,以便更清晰地查看源表与目标表的映射关系信息,提升任务配置效率。
- 实时整库/实时分库分表 PostgreSQL(带Kafka缓存)2StarRocks、PostgreSQL(带Kafka缓存)2ByteHouse_CDW 通道,新增支持新增列、修改列类型等 DDL 配置能力;
| |
2 | 数据开发 | - 数据开发任务发布,新增跨区域同步任务配置,可将当前地域中已发布的任务,同步到其他地域下,提升跨区域任务同步效率。
- Serverless Flink 引擎流式计算作业,在创建作业快照界面,新增停止任务按钮,在确保有最后一个快照是成功的情况下,您可在此停止正在运行的流式作业。
| |
2025/01/16
序号 | 功能 | 功能描述 | 使用文档 |
---|
1 | 数据开发 | - 函数库新增 ByteHouse 云数仓版公共函数。在 ByteHouse CDW SQL 任务中,您能够直接使用相关函数,从而提升数据开发效率。
- 运维中心资源运维界面中,显示当前独享计算、调度资源组已绑定哪些 DataLeap 项目,提升资源组运维效率。
- 新增数据开发全流程引导介绍,涵盖数据开发、数据集成任务创建流程,帮助您快速熟悉产品使用流程,提高开发效率。
| |
2 | 控制台 | - 引擎绑定时,随机生成的密码会发送到IAM账号邮箱;子账号可以查看自己的密码。
- 开通的服务和资源组的自动续费、手动续费调整优化;tab页签调整大小。
- 支持跨区域同步设置。
| |
3 | 数据安全 | - LAS Formation 改名为 LAS Catalog。
- 数据脱敏、加解密支持 LAS Catalog 类型。
- 审批人收到的权限申请邮件增加跳转链接。
| |
4 | 数据地图 | - LAS Formation 改名为 LAS Catalog。
- 资产管理新增规则维护功能。
- 增加了模型规范化建表的管理功能,支撑各业务线的表命名规范性。
- 数据检索首页改版。
- 血缘图谱更名为血缘应用。
- DB管理、资产管理文档结构、内容优化。
| |
5 | 数据质量 | - 双数据源校验支持MySQL连接串(即MySQL本地)、Oracle连接串(即Oracle本地)两种类型。
| |