文档中心
文档
备案
控制台
登录
立即注册
导航
DataLeap私有化V2.1.2
搜索目录或文档标题
搜索目录或文档标题
1 DataLeap概述
2 管理控制台
2.1 概述
2.2 身份认证管理
2.2.1 账号分类
2.2.2 管理子账号
2.2.3 LDAP连接管理
2.2.4 角色管理
2.2.5 登录/登出
2.2.6 修改密码
2.2.7 修改手机号/邮箱
2.3 概览
2.3.1 我加入的项目
2.3.2 快速入口
2.4 项目管理
2.4.1 新建项目
2.4.2 删除项目
2.4.3 管理项目基础
2.4.4 复查配置
2.5 资源管理
2.6 资源文件管理
2.6.1 新建资源文件
2.6.2 管理资源文件
2.7 函数管理
2.7.1 新建函数
2.7.2 管理函数
2.8 智能市场
2.8.1 新建标签组
2.8.2 管理标签组
2.8.3 项目引用标签组
2.8.4 标签组的应用
2.9 CDC数据源注册
2.9.1 新建CDC数据源
2.9.2 授权管理
2.9.3 编辑CDC数据源
2.9.4 删除CDC数据源
2.9.5 查看使用任务
3 数据开发
3.1 批开发
3.1.1 任务开发通用设置
3.1.1.1 调度设置
3.1.1.2 任务产出数据登记
3.1.1.3 历史版本
3.1.1.4 任务操作
3.1.1.5任务上游依赖偏移设置
3.1.1.6任务输入输出参数
3.1.2 HSQL任务
3.1.3 MR任务
3.1.4 Spark任务
3.1.5 Shell任务
3.1.6 Python任务
3.2 流开发
3.2.1 SQL任务
3.2.2 流式托管任务
3.3 离线数据集成
3.3.1 MySQL-Hive
3.3.2 Hive-MySQL
3.3.3 Hive-Kafka
3.3.4 SqlSever-Hive
3.3.5 SFTP/FTP-Hive
3.3.6 Hive-PostgreSQL
3.3.7 PostgreSQL-Hive
3.3.8 MongoDB-Hive
3.3.9 Hive-SqlSever
3.3.10 Hive-Hbase
3.3.11 Hive-mongo
3.3.12 LarkSheet-Hive
3.3.13 离线数据集成通用配置
3.3.14 RestAPI-Hive
3.4 流式数据集成
3.4.1 Kafka-Hdfs
3.5 任务发布
3.5.1 基本概念
3.5.2 代码提交
3.5.3 发布包管理
3.6 批运维
3.6.1 运维概览
3.6.2 任务运维
3.6.2.1 已上线
3.6.2.2 待复查
3.6.3实例运维
3.6.4 数据回溯
3.6.5 监控报警
3.6.5.1 监控规则
3.6.5.2 任务运行监控设置
3.6.5.3 监控报警列表
3.6.5.4 项目默认监控规则
3.6.5.5 默认自定义监控规则
3.6.6 基线监控
3.7 流运维
3.8 临时查询
3.9 数据库
3.9.1 库表查询
3.9.2 库表元数据
3.9.3 库表快捷操作
3.10 函数库
3.10.1 引用函数
3.10.2 前往函数管理
3.11 数据源管理
3.11.1 MySQL数据源注册
3.11.2 SQL Server数据源注册
3.11.3 Kakfa数据源注册
3.11.4 SFTP/FTP数据源注册
3.11.5 PostgreSQL数据源注册
3.11.6 Mongo数据源注册
3.11.7 Hbase数据源注册
3.11.8 查看使用任务
3.11.9 删除数据源
3.11.10 Rest_API数据源注册
4 数据质量
4.1 产品简介
4.1.1 整体概述
4.1.2 功能简介
4.2 数据监控
4.2.1 规则类型
4.2.2 强规则熔断任务
4.2.3 创建规则
4.2.4 规则参数说明
4.2.5 规则管理
4.2.6 规则报警
4.3 数据探查
4.3.1 创建探查
4.3.2 探查报告
4.4 数据对比
4.4.1 创建数据对比
4.4.2 对比结果说明
4.4.3 对比报告
5 数据地图
5.1 主页
5.2 搜索结果页
5.2.1 数据详情页
5.3 精选专题
5.4 专题详情
5.5 血缘图谱
5.5.1 血缘关系tab页表格视图
5.5.2 血缘关系tab页可视化视图
5.5.3 血缘图谱
5.5.4 血缘的其他使用说明
5.6 我的收藏
5.7 配置管理
5.7.1 业务域管理
5.7.2 主题管理
5.7.3 产品线管理
5.7.4 专题管理
5.8 Table管理
5.8.1 搜索区
5.8.2 列表区
5.8.3 新建hive表
5.9 DB管理
6 数据安全
6.1 概述
6.2 权限申请
6.3 权限审批
6.3.1 工单审批通知
6.3.2 查看工单列表
6.3.3 查看工单详情
6.3.4 查看申请记录
6.3.5 代办设置
6.4 授权管理
6.4.1 查看管理权限
6.4.2 查看授权详情
6.4.3 回收权限
6.4.4 主动授权
6.4.5 按获权方快速清查
6.4.6 修改有效期
6.5 我的权限
6.6 权限设置
6.6.1 设置敏感列
6.6.2 不开放申请
6.6.3 设置行限制
6.6.4 设置审批流
6.6.5 库的高级设置
6.7 安全管理
6.7.1 行为审计
7 SLA治理
7.1 概述
7.2 目标用户及使用场景
7.3 核心数据SLA
7.3.1 功能概述
7.3.2 SLA申报
7.3.2.1 申报SLA
7.3.2.2 审批申报
7.3.2.3 查询申报
7.3.2.4 任务卡点
7.3.2.5 链路信息变动
7.3.3 SLA签署
7.3.4 SLA管理
7.3.5 SLA看板
7.3.6 SLA播报
7.3.7 SLA延迟大盘
7.3.8 问题大盘
7.3.9 事故大盘
7.4 事故管理
7.4.1 新建事故
7.4.2 查看事故
7.4.3 编辑事故
7.5 系统管理
8 数据服务
8.1 简介
8.1.1 产品亮点
8.1.2 主要功能概述
8.2 项目管理
8.2.1 准备工作
8.2.2 项目设置
8.2.3 API应用授权
8.3 数据集
8.3.1 数据目录
8.3.2 添加数据集(离线数据/批数据)
8.4 API
8.4.1 API目录
8.4.2 数据集API
8.5 应用管理
8.5.1 创建应用
8.5.2 编辑应用
8.5.3 管理密钥
8.6 共享集市
8.6.1 查看
8.6.2 申请 & 审批
8.6.3 查看API
8.7 Unified SQL
8.7.1 Unified SQL定义
8.7.2 语法概述
8.7.3 SELECT 语法
8.7.4 数据类型
8.7.5 函数
8.7.5.1 MySQL/ElasticSearch 支持的函数
8.7.5.2 Hana支持的函数
8.7.5.3 HBase支持的函数
8.7.6 操作符
8.7.7 SQL查询优化
8.7.8 Dynamic SQL
8.7.9 Dynamic Sql 元素
8.7.10 语法兼容性
8.8 数据源使用限制
8.8.1 ElasticSearch
8.8.2 Hana
文档首页
/
DataLeap私有化V2.1.2
/
3 数据开发
/
3.3 离线数据集成
/
3.3.13 离线数据集成通用配置
3.3.13 离线数据集成通用配置
最近更新时间:2022.09.07 11:41:27
首次发布时间:2022.09.05 11:25:31
我的收藏
有用
有用
无用
无用
文档反馈
数据处理高级参数设置
并发设置
系统默认值指执行引擎会根据任务的类型、文件的个数、文件的大小、连接节点的个数智能推断任务执行的并发。如果不确定如何设置并发,可使用默认值。
最大并发数
指任务在各个执行阶段控制的最大并发数,并发数是由系统自动计算,当计算的并发大于最大并发数时,会将并发限制到最大并发数的值。用户可自定义1~20000的任意一个整数 。
需要注意的是,JDBC、Kafka会单独将默认的最大并发限制为5,此时写入阶段的并发数上限为全局并发数限制和局部并发数限制的较小值。如需突破限制,精细地控制每个阶段的并发,可以在自定义并发数里配置读入并发和写入并发。
小流量测试
当初次提交作业想验证数据正确性时,可开启小流量测试。测试条数在1~10000之间,当每个并发运行到该条数时,任务会自行关闭。
单并发流控设置
流量控制支持用户自定义每一个并发的读写字节流控阈值,读写记录数流控阈值和读写流控等待阈值,默认关闭。读写字节和读写记录有一项满足要求即启动流控。
读写流控等待阈值:该阈值决定每次流控检查的时间间隔,当最新记录到来的时刻和上次记录的时刻超过等待阈值时,进行流控检查。读写流控等待阈值默认为1000ms。
如果发现流控效果不明显,可以调小此阈值(如10ms)来进行更精细控制。
读写字节流控阈值:该阈值决定每次检查时是否激活流量控制。当最新的字节数和上次记录的字节数超过阈值时,启动流控。根据超过的比例进行动态睡眠处理。默认为-1,即不开启。
读写记录数流控阈值:该阈值决定每次检查时是否激活流量控制。当最新写的记录数和上次记录的记录数超过阈值时,启动流控。根据超过的比例进行动态睡眠处理。默认为-1,即不开启。
根据测试结果,用户可根据任务所需的qps快速配置读写流控参数,公式如下:
读写记录数流控阈值(每秒)~= 单并发qps * 2
注意:如果需要进行多并发的精确流控,需要在任务自定义参数中加入job.common.slots_per_tm : 1,将每个Worker中的线程数设置为1。
自定义参数
自定义参数支持用户更好地定制自己任务的运行方式,目前已支持参数如下:
job.common.flink_tm_slot_memory:Flink TM单个slot的内存,单位为MB,默认大小为4096。配置示例:job.common.flink_tm_slot_memory=8192
job.common.flink_yarn_priority:只在开启了优先级提交的yarn队列生效,可控制flink作业提交到yarn队列的优先级,范围1~9,数字越大,优先级越高,默认为1。配置示例:job.common.flink_yarn_priority=1。