You need to enable JavaScript to run this app.
导航
查看计算任务详情
最近更新时间:2024.12.05 13:36:57首次发布时间:2022.11.11 17:16:32

Flink 控制台提供了任务详情页,您可以查看任务基础信息、任务配置详情、监控指标数据曲线、快照、日志、告警配置等信息。

功能入口

  1. 登录流式计算 Flink 版控制台
  2. 在顶部菜单栏选择目标地域。
  3. 在左侧导航栏选择项目管理,然后单击目标项目卡片,进入项目详情。
  4. 在项目左侧导航栏选择任务运维 > 任务管理
  5. 任务页签下,筛选目标任务,然后单击目标任务的名称。

详情概览

图片

  • 基本信息:展示任务名称、状态、类型、资源池、优先级、引擎版本等基本信息,并提供 Web UI 快捷入口。
  • 网络信息:展示当前任务运行的资源池的子网、安全组信息。
  • 历史实例:以列表形式展示任务的所有历史实例,并可以查看历史实例的任务配置详情、监控指标曲线和日志。

配置信息

图片
展示任务当前的配置详情,包含以下信息:

  • SQL 配置:仅当是 SQL 任务时展示任务的 SQL 语句。
  • 任务配置: 当是 JAR 任务时展示 JAR URI、程序主类和 main 函数的args[]参数。当是 Ray 任务时展示代码文件、Entrypoint 等信息。当是 Python 任务时展示 Python File URI、 Entry Point Main Arguments 等信息。
  • 任务资源配置:展示任务的 Flink 参数配置。
  • Checkpoint 配置:展示任务的 Checkpoint 配置。
  • Task 重启策略配置:展示任务的重启策略和重启规则。
  • 任务失败重试拉起配置:展示任务失败重试规则,包括最大重试拉起次数和重试拉起时间间隔。
  • 自定义参数:展示任务配置的自定义参数。
  • 自动调优:
  • 依赖文件:展示任务选择的依赖文件。

数据血缘

图片
当您为 Flink 任务配置了上下游信息,便可以在任务详情中查看到任务的数据血缘关系。
支持 Hive 和 Others 两类。类型为 Hive 时,可以看到设置的 Catalog、Database、Table;数据类型为 Others 时,可以看到数据源的连接地址。

运行事件

图片
记录任务运行的整条链路上的关键事件,并打印出关键信息。方便运维人员排查、分析、查找错误原因。
同时可以直接查看实例的配置详情。

数据曲线

图片
流式计算 Flink 版已经对接云监控服务,提供 Flink 任务的监控和告警能力。
Flink 任务详情中的数据曲线页签下,展示当前任务的监控指标数据曲线。您可以按需查看 Overview、Network&IO、JVM、Schedule Info、Watermark、checkpoint view、checkpoint timer、Checkpoint Operator Performance、resource、Kafka 等不同维度的核心指标情况,通过分析监控指标,能快速发现任务运行是否异常。

说明

在数据曲线页面提供了图表联动功能。
勾选该功能后,鼠标悬停在任意一个监控曲线图,都能同时查看到其他所有曲线图在相同时间的指标详情信息。

自动调优

Flink 平台已经支持为任务开启自动调优。开启后,系统将自动分析运行任务,将根据上游 Kafka 的 Lag 调整 Flink 计算任务的资源使用量,从而降低资源使用量。
如果您在任务开发侧已经启用了自动调优,则可以在任务详情页面的查看到调优规则调优记录;如果在任务开发侧未开启,您也可以在任务详情页面开启自动调优。

注意

开启任务自动调优前,需要先了解以下注意事项:

  • 仅支持为 Flink 1.11 引擎版本的 Stream 类型任务开启自动调优。
  • 仅支持 Source 端为 Kafka 的任务开启自动调优。
  • 开启自动调优功能的任务仅支持运行在按量计费的资源池上。

在任务详情页面,如果是首次启用自动调优,请单击立即编辑;如果需要修改调优规则,请单击编辑规则。启用或修改调优规则将立即生效,无需重新启动任务。
图片

配置

说明

不生效时间

设置每天自动调优的不生效时间段,即在该时间段内智能调优正常运行但不进行任何调优调整。

最大资源限制

设置任务在自动调整资源时,可以扩容的最大资源上限,单位为 CU。
默认值为 100CU。

调整间隔时间

设置任务在调优重启生效一次之后,下一次再进行调优的时间间隔,单位为 min。
默认值为 30min。

快照

图片
展示 Flink 任务 5 天内手动创建和系统创建的任务快照。
快照主要用于系统出现故障时,使用快照恢复任务,不会出现数据丢失。此处不做详细介绍,如需了解快照的创建和使用,请参见作业快照

日志

在任务详情页的日志页签下,您可以查看当前任务的日志详情。系统会保留 7 日内的日志。在日志保留期间,可以查看任务的历史日志。

任务类型

说明

Flink

图片
展示当前任务的日志,可自由切换 JobManager 、TaskManager 和 Client,查看对应日志。

  • ①:根据历史实例、JobManager 、TaskManager、Client、Pod,查看对应日志。
  • ②:支持指定起始时间和结束时间,查看该时间段内的任务日志。
  • ③:设置日志输出类型,可选值有logerrout,仅查看目标输出类型的任务日志。

    说明

    • log文件通常包含 Flink 系统运行过程中的一般信息,如任务启动和停业的时间、任务状态更新、警告和错误信息等。这些日志内容通常是用于诊断和调试问题的重要信息。支持在 Flink 参数中通过env.log.level参数限制 log 日志的输出等级,指定输出日志等级后,在任务日志中只会输出当前等级日志,以及更高等级的日志。如何设置,请参见自定义参数
    • out文件通常包含 Flink 任务执行过程中生成的输出数据。这些数据可以是 Flink 应用程序的最终结果,也可以是中间结果。如果 Flink 应用程序是流处理应用程序,那么out文件可能会不断更新,随着新数据的到来而不断增长。
    • err文件通常包含 Flink 任务执行过程中出现的错误信息和异常。这些信息对于诊断和调试问题非常重要,可以帮助您快速定位和解决问题。
  • ④:设置日志等级,仅查看该等级的任务日志。
  • ⑤:设置关键字,精准定位到包含该关键字的任务日志。
  • ⑥:支持全屏查看日志。
  • ⑦:支持下载日志文件到本地,格式为<实例名称>-<日志类型>-<Pod名称>-log.txt
  • ⑧:支持任务日志的一键到底、一键到顶的快捷按钮。

Ray

图片
展示当前 Ray 任务日志,您可以自由切换需要查看的日志类型,查看对应日志。

  • 支持设置时间段,查看该时间段内的日志。
  • 指定日志等级和关键字,精准查看任务日志。
  • 支持全屏查看日志。
  • 支持持下载日志文件到本地。
  • 支持任务日志的一键到底、一键到顶的快捷按钮。

告警

图片
流式计算 Flink 版已经对接云监控服务,提供 Flink 任务的监控和告警能力。
在 Flink 任务详情中的告警配置页签下,您可以单击前往云监控配置告警规则,以创建针对当前任务创建告警规则和告警通知方式。当监控指标达到告警阈值,系统将触发告警事件,并向告警联系人发送告警消息,有助于及时发现并处理任务异常。
如何创建告警策略,请参见创建告警策略