ByteHouse 支持通过 Kafka 进行实时数据写入。
相比通过引擎进行 Insert 数据,ByteHouse 的 Kafka 导入功能具有以下特点:
更多原理请参考 HaKafka 引擎文档。
10.100.19.127:9092,10.100.19.127:9093
。说明
选择 NONE 时,表明不用身份验证模式,可忽略以下配置内容。
在对应数据源下,单击新建导入任务,进入新建导入任务配置界面,并完成以下信息配置:
参数 | 说明 |
---|---|
通用信息 | |
任务名称 | 填写导入任务名称信息,支持数字、字母及下划线,不能以数字开头,最多仅支持 128 字符,且不能和现有任务重名。 |
描述 | 输入该导入任务相关描述信息,方便后续维护管理。 |
选择数据源 | |
源类型 | 选择 Kafka 数据源类型。 |
数据源 | 下拉选择已创建成功的 Kafka 数据源。 |
Topic | 下拉选择 Kafka 数据源中的已有的 Topic 信息。 |
Group 名称 | Kafka Consumer Group 名称。非必填,若不填则系统自动生成 Group 名称。 |
自动重设 Offset | 指初次启动任务时,Kafka 最新生产的数据开始消费的 offset,第二次启动任务时,会从上次消费暂停的 offset 恢复。 |
格式 | 消息格式,目前最常用 JSONEachRow。 |
分隔符 | 输入消息分隔符,一般使用 '\n'。 |
消费者个数 | 消费者个数,每个消费者会创建一个线程。 |
写入 Block Size | 写入的 block_size 大小。 |
选择目标表 | |
目标数据表 | 下拉选择数据导入的目标 ByteHouse 表。 |
目标 Schema 配置 | |
提取 Schema | 此处配置 Kafka 中的信息和 ByteHouse 表信息的映射,建议使用“数据映射”功能,通过 JSON 或 SQL 方式,抽样提取 Kafka 消息进行自动匹配,字段映射新增方式,您可选择覆盖添加和增量添加方式,匹配需要符合以下规则:
|
所有源列和目标列都完成匹配后,单击页面右下角的提交按钮。提交后,就可以在数据导入对应的数据源下看到新的导入任务。任务创建完成后,会直接开始 Kafka 消费任务。
单击导入任务名称,可以看到当前导入任务的执行情况,信息包括:任务执行 ID、开始时间、时长、导入记录数等信息。
导入任务创建完成后,您可在执行计划中,看到所有导入任务的具体执行情况。
在数据导入界面下,单击左侧执行计划按钮,进入到执行计划列表,您可根据以下筛选项,进行执行计划筛选: