You need to enable JavaScript to run this app.
导航
智能运维助手
最近更新时间:2025.03.18 15:09:10首次发布时间:2024.10.24 10:38:58
我的收藏
有用
有用
无用
无用

DataLeap 智能运维助手旨在满足用户线上任务运维的需求,例如任务运行失败、运行变慢等场景下的运维诊断和优化建议操作。其目标是助力用户快速定位并解决问题,提升用户任务运维的效率。本文将为您介绍 DataLeap 智能运维助手的相关能力。

1 使用场景

DataLeap 智能运维助手的底层能力整合了统一的日志服务、大模型以及产品知识库。其基本运行原理为获取任务实例的所有行为(包括执行日志详情分析、资源使用分配、任务变更记录等)并加以分析,持续积累、分析并整合运维的事件处理经验,来构建有效的运维知识库。当相同的运维事件再度出现时,能够快速且有效地基于知识库沉淀的经验来处置线上任务运维事件。

2 使用限制

  • DataLeap 智能运维助手,目前仅在华北2(北京)、华东2(上海)、华南1(广州)地域开放,当前功能处于白名单阶段,如需使用,您可通过提工单的方式,请联系我们进行开通使用。
  • EMR HDFS-Sensor、EMR Hive-Sensor、EMR Serverless Spark LAS Catalog Sensor、EMR Serverless Spark TOS Sensor、LAS HDFS-Sensor、LAS Hive-Sensor 等 Sensor 任务,不支持任务日志的运行诊断、日志解读等操作。

3 使用前提

  1. 已购买智能运维助手服务,您可前往 DataLeap租户控制台 > 购买其他服务中进行购买,操作详见1.1 开通服务
    Image
  2. 任务日志的运行诊断、日志详情解读分析等操作,则需要先在控制台中启用智能运维助手:
    • 在新建 DataLeap 项目时,可在项目管控 > 智能助手设置步骤中,直接勾选启用智能运维助手
      Image
    • 针对已创建的历史项目,您可在项目控制台 > 智能助手控制窗口中,勾选启用智能运维助手,并对日志解读、运行诊断场景进行精细化控制属性设置。属性设置说明详见智能助手控制
      Image

      注意

      开通后,当天已经例行运行的任务实例,不会触发智能运维诊断服务。手动重新执行后,便可触发服务。

  3. 临时查询中的任务,其任务优先级默认皆为 D5。因此,这类任务在进行运行诊断、日志解读等操作前,必须在启用智能运维助手时勾选 D5 任务优先级。
    Image

4 智能运维-数据开发调试运维

数据开发调试运维主要应用于开发调试场景。
以往在开发过程中,仅通过执行日志为您提供错误排查方向,解读日志主要依赖您的问题排查经验,因此在调试阶段任务错误排查效率往往不高。智能运维助手在数据开发调试阶段,为您提供以下能力:

  • 本次数据开发调试日志的概览中,支持基于智能运维解析的能力,对日志进行解读和总结输出,同时能总结失败任务的错误信息,为您提供更全面、详细的日志解读信息,帮助您更好地理解执行错误信息。
  • 并且凭借智能调试诊断插件的能力,提供调试时间轴。在时间轴中,能够清晰展示任务运行过程中的各个运行分支阶段和节点信息,分析任务运行情况,提高开发调试日志的运维效率和质量。时间轴能力详见日志时间轴

4.1 开发调试-运行诊断

开发调试运维可以对运行失败的实例进行错误诊断,为您提供清晰的运行错误总结、错误原文、原因解读以及相应的解决方案建议。这能够极大程度地为您节省排查错误日志问题的时间,帮助您快速找到解决问题的方法。
您还可以对智能运维提供的解决方案进行点赞或点踩操作,这将为您的运维知识库提供更多有效的解决方案建议,进一步丰富运维知识库。
示例如下:
Image

5 智能运维-实例运维

本部分内容主要针对任务线上调度运行后发生的错误、延迟的诊断,基于大模型的能力,对运行日志进行分析,解析出错误栈,并与运维知识库进行匹配,获取错误原因以及解决方案。
DataLeap 智能运维助手以项目维度开通,运行实例后便可执行以下操作:

5.1 智能运维-入口

在项目控制台,开通智能运维开发助手能力后,您可以从以下路径进入智能运维界面:

  1. 在左上角全部产品中,进入数据开发 > 运维中心 > 离线任务运维 > 实例运维界面。
  2. 实例运维列表界面下,单击某个实例操作列下的查看日志按钮,进入实例日志概览界面;或单击运行状态列下的诊断按钮,进入运行诊断界面。
    Image
  3. 在日志详情界面,可以看该任务每个实例的日志概览、时间轴、运行诊断、日志详情几个部分。当前,这几个部分构成了智能运维的主要能力。
    Image

5.2 智能运维-日志概览

以往在日志概览页签中,仅提供了任务日志的 tracking URL 链接信息,而没有其他更详细的日志信息。
优化后的智能运维中的日志概览,将基于智能运维解析的能力,对日志进行解读和总结输出,同时能够总结错误信息。为您提供更全面、详细的日志解读信息,帮助您更好地理解和分析任务运行情况,提高运维效率和质量。
示例如下:
Image

5.3 智能运维-时间轴

在实例运维的时间轴上,可清晰呈现任务运行过程中的各个分支阶段的耗时占比与节点信息,便于分析任务运行时长状况,从而提升开发调试日志的运维效率与质量。
时间轴使用方式操作详见日志时间轴
Image

5.4 智能运维-运行诊断

智能运维可以对运行失败的实例进行错误诊断,为您提供清晰的运行错误总结、错误原文、原因解读以及相应的解决方案建议。这能够极大程度地为您节省排查错误日志问题的时间,帮助您快速找到解决问题的方法。
您还可以对智能运维提供的解决方案进行点赞或点踩操作,这将为您的运维知识库提供更多有效的解决方案建议,进一步丰富运维知识库。
示例如下:
Image

5.5 智能运维-日志详情:

在日志详情界面,智能运维可对日志详情进行每个关键步骤的详细解读与总结,示例效果如下:
Image
借助智能运维日志解读,您能够显著提升对日志详情的可读性。目前,平台会对所有日志进行解读。我们期望使用更为通俗易懂的文案来解释日志,从而增强其可读性。