将kafka数据同步至hdfs,实现kafka数据源与hdfs之间的数据实时传输。
1. 在任务开发首页,点击“新建任务”
2. 在项目下,左侧目录结构中,右键新建任务
数据源信息
目标源信息
文件保存地址,输入HDFS Path。
基础信息:任务名称、描述、责任、队列等。
资源设置 :
1. 一般场景下使用默认参数即可
2. 获取推荐配置:根据任务的历史24小时运行情况,给出推荐配置
Flink 运行参数 :Flink 相关的动态参数和执行参数,具体设置详见Flink官方文档。
用户自定义参数 :kv格式,非必填。
任务测试通过后,先“保存”任务生成一个草稿版本。然后点击”提交上线“,即按最新的版本启动一个 Flink 实例。任务运维可在“实时任务运维”中操作。
若在运维列表的“重启”任务,默认按线上配置重启,而非最新版本草稿。
每次上线会生成一个版本,在“历史版本”功能中可以查看、对比和回滚,回滚的效果是恢复至草稿,需要重新点击上线。
怎么配置任务堆积报警
答:流式通道任务的报警统一在任务运维界面设置,任务上线后进入任务运维页面配置堆积报警
任务消费能力不足,Lag比较严重
答:任务页面开启高级设置,人工指定并发数,默认并发数为消息队列分区数/
产生的文件较小
答:方案优先级由高到低如下: