Apache Flink 是一个面向有限流和无限流有状态计算的分布式计算框架,它能够支持流处理和批处理两种应用类型。Flink 不仅能够提供同时支持 高吞吐 、 低延迟 和 Exactly-Once 语义的实时计算能力,同时 Flink 还提供了基于流式计算引擎处理批量数据的计算能力,真正意义上实现了 流批统一 。
Flink 当前在业内应用比较广泛的业务场景可以总结为以下几类:
实时ETL& 索引构建: 主要通过实时计算完成数据的实时抽取、数据的实时聚合、清洗,比如实时监控平台或实时大屏场景;
实时的统计和分析 :比如实时数仓场景;
实时机器学习(ML) :随着用户红利结束,传统 T+1 离线推荐引擎转化率效果越来越差,推荐引擎也在向实时化演进,通过实时样本拼接及实时增量模型提升转化率,字节内部抖音/头条/网盟/TikTok 广告推荐都深度使用 Flink 提供的能力(后面会介绍);
实时事件处理/决策(CEP) :主要是实时监控、风控、精细化运营、个性化营销等场景,比如说在金融领域在线信贷实时金融风控场景、安全领域基于态势感知的大数据实时安全风控场景。