You need to enable JavaScript to run this app.
导航
高级参数
最近更新时间:2024.12.09 11:49:09首次发布时间:2022.05.27 15:34:06

1 任务运行参数

参数名称

参数说明

默认值

job.common.global_parallelism_num

连接器的全局并发数,只适用于流任务
该参数会决定启动多少个 TaskManager。

  • 如果 MQ 中的流量较小,则可通过在任务高级参数中指定此参数来控制作业的全局并发。
  • 如果 MQ 的 Partition 个数很多,但数据流量并不高,亦可通过此参数来节约任务的执行资源。

MQ Partition 个数 / 4

job.common.checkpoint_interval

每次 Checkpoint 时间间隔,单位为毫秒,只适用于流任务

900000

job.common.checkpoint_timeout

Checkpoint 超时时间,单位为毫秒,只适用于流任务

600000

job.common.dirty_record_skip_enabled

是否跳过脏数据。

true

  • job.common.reader_transport_channel_speed_record
  • job.common.writer_transport_channel_speed_record

读写限速参数,每秒读写条数限制,默认值 -1,代表不限制;配置大于 0 时,就开启条数限制。

-1

  • job.common.reader_transport_channel_speed_byte
  • job.common.writer_transport_channel_speed_byte

读写限速参数,每秒读写 bytes 限制,默认值 -1,代表不限制;配置大于 0 时,就开启限制。

-1

  • job.reader.reader_parallelism_num
  • job.writer.writer_parallelism_num

连接器的读并发和写并发,只适用于离线任务
不建议配置,不合理的配置会造成资源浪费或导致执行变慢。

无默认值,系统根据数据量大小自动推算并发数。

job.writer.case_insensitive

大小写不敏感。
在读写 TOS、OSS、ES、Kafka 等数据源时,如有大小写转换问题,建议配置为大小写敏感即 job.writer.case_insensitive=false

true

job.writer.pre_sql_list

写入数据源前置处理 SQL List ,格式是 json 数组,如:
job.writer.pre_sql_list=["delete from xx where id=xxx","delete from xx where id=xxx"]

job.reader.enable_string_compatible

PostgreSQL2Hudi 实时分库分表同步解决方案中,若源端存在当前不能识别的 postgre 数据类型时,您可根据实际业务情况添加该参数,来判断是否将其转换为 string 类型。

  • false:不转换,作业运行报错;
  • true:转换为 string 类型,作业正常运行。

说明

该参数仅适用于 PostgreSQL2Hudi 实时分库分表同步解决方案。

false

2 资源使用相关参数

注意

资源使用参数只适用于离线集成任务。
流式集成任务的资源参数,可按照下面【流式集成任务配置说明】章节中的介绍,直接在页面中选配即可。

参数名称

参数说明

默认值

job.common.flink_tm_vcores

每个 Task Manager 使用的 CPU 核数。

  • 取值说明:必须大于或等于 0.5,且必须是 0.5 的倍数

1.0

job.common.slots_per_tm

每个 Task Manager 默认 slot 的数量。

2

job.common.flink_tm_slot_memory

每个 Task Manager 中的各个 slot 的内存大小,单位为 MB。

  • 取值说明:每个 Task Manager 的 CPU 和内存(GB)的比例,必须满足:flink_tm_vcores : (flink_tm_slot_memory [GB] * slots_per_tm) = 1:2 或 1:4
  • 取值示例:flink_tm_vcores = 4.0,slots_per_tm = 2,则 flink_tm_slot_memory 必须为 4GB 或 8GB,即配置为 4096 或 8192。

2048

job.common.flink_tm_task_off_heap_memory

每个 Task Manager 的堆外内存占总内存的比例。

0.125

job.common.flink_tm_managed_memory_ratio

每个 Task Manager 的托管内存占总内存的比例。

0.2

job.common.flink_tm_network_max

每个 Task Manager 的网络内存的最大值,单位为 GB。

  • 取值说明:配置时使用小写字母 g,比如:2g

2g

job.common.flink_jm_vcores

Flink Job Manager 的 CPU 核数。

  • 取值说明:不得小于 0.5,且必须是 0.5 的倍数

1.0

job.common.flink_jm_memory

Flink Job Manager 的总内存大小,单位为 MB。

  • 取值说明:Job Manager 的 CPU 和内存(GB)的比例,必须满足:flink_jm_vcores : flink_jm_memory [GB] = 1:2 或 1:4
  • 取值示例:flink_jm_vcores = 2.0,则 flink_jm_memory 必须为 4GB 或 8GB,即配置为 4096 或 8192。

4096

job.common.flink_jm_off_heap_memory

Flink Job Manager 的堆外内存占总内存的比例。

0.125

3 数据源相关参数

数据源相关参数请到各数据源文档进行查看支持的数据源

4 高级参数配置说明

4.1 离线集成任务配置说明

离线任务运行参数、数据源相关参数和资源使用参数均配置到下图红框处。

  1. 登录 DataLeap 租户控制台
  2. 选中任务所属的项目,进入数据开发界面,并打开需配置高级参数的任务。
  3. 在【任务运行参数 > 自定义参数设置】中,添加相应的高级参数,添加示例:
    Image

4.2 流式集成任务配置说明

  1. 数据源相关参数,任务运行参数等的配置,与离线集成任务中的配置方式一致。
  2. 流式集成任务的资源参数,可直接在下图红框处进行可视化配置:
    Image
  3. 流式集成任务的其他高级参数,可在【任务运行参数 > 高级参数】中添加,添加示例:
    Image

4.3 解决方案参数配置说明

DataSail 解决方案高级参数设置,您可在方案的资源组高级配置中进行设置。

  1. 登录 DataSail 控制台
  2. 在左侧导航栏中选择数据同步方案,进入同步方案配置界面。
  3. 单击目录树中项目选择入口,选择已创建的 DataLeap 项目。
    Image
  4. 在方案编辑界面中,【基本配置 > 资源组高级配置】中,添加相应的离线、实时高级参数设置。
    Image