You need to enable JavaScript to run this app.
导航
智能运维助手
最近更新时间:2025.04.03 10:56:50首次发布时间:2024.10.24 10:38:58
我的收藏
有用
有用
无用
无用

DataLeap 智能运维助手旨在满足用户线上任务运维的需求,例如任务运行失败、运行变慢等场景下的运维诊断和优化建议操作。其目标是助力用户快速定位并解决问题,提升用户任务运维的效率。本文将为您介绍 DataLeap 智能运维助手的相关能力。

1 使用场景

DataLeap 智能运维助手的底层能力整合了统一的日志服务、大模型以及产品知识库。其基本运行原理为获取任务实例的所有行为(包括执行日志详情分析、资源使用分配、任务变更记录等)并加以分析,持续积累、分析并整合运维的事件处理经验,来构建有效的运维知识库。当相同的运维事件再度出现时,能够快速且有效地基于知识库沉淀的经验来处置线上任务运维事件。

2 使用限制

  • DataLeap 智能运维助手,目前仅在华北2(北京)、华东2(上海)、华南1(广州)地域开放,当前功能处于白名单阶段,如需使用,您可通过提工单的方式,请联系我们进行开通使用。
  • EMR HDFS-Sensor、EMR Hive-Sensor、EMR Serverless Spark LAS Catalog Sensor、EMR Serverless Spark TOS Sensor、LAS HDFS-Sensor、LAS Hive-Sensor 等 Sensor 任务,不支持任务日志的运行诊断、日志解读等操作。

3 使用前提

  1. 已购买智能运维助手服务,您可前往 DataLeap租户控制台 > 购买其他服务中进行购买,操作详见1.1 开通服务
    Image

  2. 任务日志的运行诊断、日志详情解读分析等操作,则需要先在控制台中启用智能运维助手:

    • 在新建 DataLeap 项目时,可在项目管控 > 智能助手设置步骤中,直接勾选启用智能运维助手
      Image
    • 针对已创建的历史项目,您可在项目控制台 > 智能助手控制窗口中,勾选启用智能运维助手,并对日志解读、运行诊断场景进行精细化控制属性设置。属性设置说明详见智能助手控制
      Image

      注意

      开通后,当天已经例行运行的任务实例,不会触发智能运维诊断服务。手动重新执行后,便可触发服务。

  3. 临时查询中的任务,其任务优先级默认皆为 D5。因此,这类任务在进行运行诊断、日志解读等操作前,必须在启用智能运维助手时勾选 D5 任务优先级。
    Image
    临时查询任务类型和智能运维助手需开启的任务类型映射如下:

    临时查询任务类型

    智能运维助手需开启的任务类型

    EMR Hive SQL、EMR Spark SQL、EMR Presto、EMR Trino

    EMR HSQL

    EMR Doris SQL

    EMR Doris

    EMR StarRocks SQL

    EMR StarRocks

    EMR Serverless StarRocks SQL

    EMR Serverless StarRocks

    EMR Serverless Spark SQL

    EMR Serverless Spark SQL

    LAS SQL

    LAS SQL

    ByteHouse CE SQL

    ByteHouse CE SQL

    ByteHouse CDW SQL

    ByteHouse CDW SQL

    Notebook

    Notebook

    MySQL

    MySQL

4 智能运维-数据开发调试运维

数据开发调试运维主要应用于开发调试场景。
以往在开发过程中,仅通过执行日志为您提供错误排查方向,解读日志主要依赖您的问题排查经验,因此在调试阶段任务错误排查效率往往不高。智能运维助手在数据开发调试阶段,为您提供以下能力:

  • 本次数据开发调试日志的概览中,支持基于智能运维解析的能力,对日志进行解读和总结输出,同时能总结失败任务的错误信息,为您提供更全面、详细的日志解读信息,帮助您更好地理解执行错误信息。
  • 并且凭借智能调试诊断插件的能力,提供调试时间轴。在时间轴中,能够清晰展示任务运行过程中的各个运行分支阶段和节点信息,分析任务运行情况,提高开发调试日志的运维效率和质量。时间轴能力详见日志时间轴

4.1 开发调试-运行诊断

开发调试运维可以对运行失败的实例进行错误诊断,为您提供清晰的运行错误总结、错误原文、原因解读以及相应的解决方案建议。这能够极大程度地为您节省排查错误日志问题的时间,帮助您快速找到解决问题的方法。
您还可以对智能运维提供的解决方案进行点赞或点踩操作,这将为您的运维知识库提供更多有效的解决方案建议,进一步丰富运维知识库。
示例如下:
Image

5 智能运维-实例运维

本部分内容主要针对任务线上调度运行后发生的错误、延迟的诊断,基于大模型的能力,对运行日志进行分析,解析出错误栈,并与运维知识库进行匹配,获取错误原因以及解决方案。
DataLeap 智能运维助手以项目维度开通,运行实例后便可执行以下操作:

5.1 智能运维-入口

在项目控制台,开通智能运维开发助手能力后,您可以从以下路径进入智能运维界面:

  1. 在左上角全部产品中,进入数据开发 > 运维中心 > 离线任务运维 > 实例运维界面。
  2. 实例运维列表界面下,单击某个实例操作列下的查看日志按钮,进入实例日志概览界面;或单击运行状态列下的诊断按钮,进入运行诊断界面。
    Image
  3. 在日志详情界面,可以看该任务每个实例的日志概览、时间轴、运行诊断、日志详情几个部分。当前,这几个部分构成了智能运维的主要能力。
    Image

5.2 智能运维-日志概览

以往在日志概览页签中,仅提供了任务日志的 tracking URL 链接信息,而没有其他更详细的日志信息。
优化后的智能运维中的日志概览,将基于智能运维解析的能力,对日志进行解读和总结输出,同时能够总结错误信息。为您提供更全面、详细的日志解读信息,帮助您更好地理解和分析任务运行情况,提高运维效率和质量。
示例如下:
Image

5.3 智能运维-时间轴

在实例运维的时间轴上,可清晰呈现任务运行过程中的各个分支阶段的耗时占比与节点信息,便于分析任务运行时长状况,从而提升开发调试日志的运维效率与质量。
时间轴使用方式操作详见日志时间轴
Image

5.4 智能运维-运行诊断

智能运维可以对运行失败的实例进行错误诊断,为您提供清晰的运行错误总结、错误原文、原因解读以及相应的解决方案建议。这能够极大程度地为您节省排查错误日志问题的时间,帮助您快速找到解决问题的方法。
您还可以对智能运维提供的解决方案进行点赞或点踩操作,这将为您的运维知识库提供更多有效的解决方案建议,进一步丰富运维知识库。
示例如下:
Image

5.5 智能运维-日志详情:

在日志详情界面,智能运维可对日志详情进行每个关键步骤的详细解读与总结,示例效果如下:
Image
借助智能运维日志解读,您能够显著提升对日志详情的可读性。目前,平台会对所有日志进行解读。我们期望使用更为通俗易懂的文案来解释日志,从而增强其可读性。