You need to enable JavaScript to run this app.
导航
3.3.3 Hive-Kafka
最近更新时间:2022.09.05 11:25:30首次发布时间:2022.09.05 11:25:30
我的收藏
有用
有用
无用
无用

使用场景

将Hive数据同步至Kakfa,实现Hive数据源与Kafka之间的数据传输。

新建任务

  1. 在任务开发首页,点击“新建任务”
  2. 在项目下,左侧目录结构中,右键新建任务
    alt

任务配置

alt

hive2kafka提供两种同步模式,代码同步和数据表同步,通过两种模式,都可以将hive数据导入到kafka中。
代码同步:将通过sql获取的hive数据,同步至kafka。
数据表同步: 将选中的hive表数据,以JSON形式同步至kafka中。

  • value为null的字段不会存于kafka中。
  • hive是array和map类型的,kafka类型选择string,该字段数据会以json形式来存储。

常见问题

  1. Hive2Kafka是否支持回溯?
    支持正常回溯,但是历史已经写入的数据不会删除。
  2. Hive2Kafka流控设置
    目前支持设置 records/s 和 bytes/s。

注意:

  1. 设置的速率都是针对单个并行实例的,如果需要控制全局速率,那么可以通过设置reader和writer的并行度,和单个并行度的速率来达到控制全局速率的目的。
  2. 设置bytes/s时,系统内部统计的流量和真实写入kafka的流量有偏差。