You need to enable JavaScript to run this app.
导航
智能运维助手
最近更新时间:2025.02.10 20:46:27首次发布时间:2024.10.24 10:38:58

1 使用场景

DataLeap 智能运维助手旨在满足用户线上任务运维的需求,例如任务运行失败、运行变慢等场景下的运维诊断和优化建议操作。其目标是助力用户快速定位并解决问题,提升用户任务运维的效率。
DataLeap 智能运维助手的底层能力整合了统一的日志服务、大模型以及产品知识库。其基本运行原理为获取任务实例的所有行为(包括执行日志详情分析、资源使用分配、任务变更记录等)并加以分析,持续积累、分析并整合运维的事件处理经验,来构建有效的运维知识库。当相同的运维事件再度出现时,能够快速且有效地基于知识库沉淀的经验来处置线上任务运维事件。
本文将为您介绍 DataLeap 智能运维助手的相关能力。

2 使用限制

DataLeap 智能运维助手,目前仅在华北2(北京)、华东2(上海)、华南1(广州)地域开放,当前功能处于邀测阶段,如需使用,您可通过提工单的方式,咨询 DataLeap 技术支持人员进行开通使用。

3 智能运维-数据开发调试运维

数据开发调试运维主要面向开发调试场景。以往在开发过程中,仅以执行日志的形式为您提供错误排查方向,解读日志主要依赖您排查问题的经验,因此任务错误排查在调试阶段的效率往往较低。
在本次数据开发调试日志里,凭借智能调试诊断插件的能力,提供调试时间轴。在该时间轴中,能够清晰展示任务运行过程中的每个运行分支阶段和节点信息,展现效果如下:


3.1 安装智能调试诊断插件

注意

  • 插件市场需开通 Dataleap 分布式数据自治服务版本后,方可使用,详见版本服务计费说明
  • 适用场景支持以下类型任务:LAS SQL、EMR Serverless Spark SQL、EMR Serverless Spark Java/Python,其余更多的任务类型正在持续迭代中,敬请期待。
  1. 登录 DataLeap租户控制台
  2. 概览界面,显示加入的项目中,单击 IDE开发进入对应项目。
  3. 任务开发界面,左侧导航栏中,单击插件市场按钮,进入插件列表页面。
  4. 单击智能调试诊断插件名称,可查看该插件使用说明文档。
    Image

    说明

    也可以使用Ctrl + Shift + X(Mac下使用 + Shift + X),用快捷键方式来快速开启插件市场。

  5. 并单击右侧小齿轮 > 安装按钮,或单击插件详情页的安装按钮,即可一键完成安装。

3.2 时间轴介绍

  1. 插件完成安装后,单击左侧导航栏回到数据开发界面,并打开开发作业;
  2. 单击调试按钮,并在下方对应的调试记录中,单击时间轴按钮,出现该调试实例的时间轴;
  3. 当鼠标移动到时间轴上的某个阶段,便会出现弹框,弹框内包括该阶段的耗时信息、失败实例的诊断归因与恢复建议等信息:
    • 通过时间轴快速查看任务每个阶段的耗时分布情况:
      Image
    • 在调试失败的实例时间轴里,智能调试诊断提供日志归因分析。查看时间轴上的任务执行阶段时,除耗时信息外,还会显示诊断归因、恢复建议等内容,您可依据恢复建议信息,来解决当前调试失败的问题。
      Image

4 智能运维-实例运维

本部分内容主要针对任务运行后发生的错误、延迟的诊断,基于大模型的能力,对运行日志进行分析,解析出错误栈,并与运维知识库进行匹配,获取错误原因以及解决方案。

4.1 开通智能运维助手

DataLeap 智能运维助手以项目维度按需开通,开通操作流程如下:

  1. 登录 DataLeap租户控制台
  2. 概览界面,选择需要开通的项目,单击项目配置进入对应项目控制台。
    Image
  3. 项目控制台 > 配置信息界面,单击右上角编辑按钮,并在项目管控 > 开发助手设置栏中,将日志智能解析运维知识库启用。
  4. 项目编辑完成后,单击最下方保存按钮,完成智能运维能力开通。
    Image

注意

开通后,当天已经例行运行的任务实例,不会触发智能运维服务。手动重新执行后,便可触发服务。

4.2 智能运维-入口

在项目控制台,开通智能运维开发助手能力后,您可以从以下路径进入智能运维界面:

  1. 在左上角全部产品中,进入数据开发 > 运维中心 > 离线任务运维 > 实例运维界面。
  2. 实例运维列表界面下,单击某个实例操作列下的查看日志按钮,进入实例日志概览界面;或单击运行状态列下的诊断按钮,进入运行诊断界面。
    Image
  3. 在日志详情界面,可以看该任务每个实例的日志概览、运行诊断、日志详情三个部分。当前,这三个部分构成了智能运维的三个主要能力。
    Image

4.3 智能运维-日志概览

以往在日志概览页签中,仅提供了任务日志的 tracking URL 链接信息,而没有其他更详细的日志信息。
优化后的智能运维中的日志概览,将基于智能运维解析的能力,对日志进行解读和总结输出,同时能够总结错误信息。为您提供更全面、详细的日志解读信息,帮助您更好地理解和分析任务运行情况,提高运维效率和质量。
示例如下:
Image

4.4 智能运维-运行诊断:

智能运维可以对运行失败的实例进行错误诊断,为您提供清晰的运行错误总结、错误原文、原因解读以及相应的解决方案建议。这能够极大程度地为您节省排查错误日志问题的时间,帮助您快速找到解决问题的方法。
您还可以对智能运维提供的解决方案进行点赞或点踩操作,这将为您的运维知识库提供更多有效的解决方案建议,进一步丰富运维知识库。
示例如下:
Image

4.5 智能运维-日志详情:

在日志详情界面,智能运维可对日志详情进行每个关键步骤的详细解读与总结,示例效果如下:
Image
借助智能运维日志解读,您能够显著提升对日志详情的可读性。目前,平台会对所有日志进行解读。我们期望使用更为通俗易懂的文案来解释日志,从而增强其可读性。