You need to enable JavaScript to run this app.
导航
扫描管理
最近更新时间:2024.10.23 14:57:49首次发布时间:2024.01.02 11:58:21

通过本功能,您可以配置扫描任务,实现对指定数据资源进行分类分级识别,并推荐资源owner对识别到的数据表字段进行分类分级打标。

1 约束限制

仅主账号具备扫描管理权限。

2 前提条件

概览页面,已开通湖仓一体分布式数据自治DataOps敏捷研发服务。详细操作说明请参见 DataLeap 服务信息

3 新建扫描任务

  1. 登录DataLeap控制台。

  2. 选择概览 > 数据安全 > 安全标签 > 扫描管理,进入扫描管理页面。

  3. 单击新建扫描任务按钮,弹出新建扫描任务侧拉窗口。
    Image

  4. 设置任务信息后,单击确定按钮,完成创建。
    新建扫描任务相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    基础信息

    *名称

    扫描任务的名称,自行设定,不可重复。
    名称由中文、英文、数字或下划线组成,长度不超过50字符。

    *描述

    扫描任务的说明信息,长度不超过200字符。

    责任人

    扫描任务的责任人,默认为任务创建人,不可编辑。

    分类分级

    *数据源

    支持 LAS、ByteHouse CE、EMR Hive、ByteHouse CDW、LasFormation 和 EMR Serverless StarRocks 五类数据源选项,下拉可选。

    *集群

    扫描数据所属的集群,下拉可选运行中且已创建采集器的集群。
    数据源ByteHouse CEEMR HiveEMR Serverless StarRocks 时,需设置该参数。

    *扫描范围

    支持指定数据表、指定数据库的所有表和所有数据表三个选项,下拉可选。

    • 指定数据表:支持用户选择多个数据表。可选择在线选择批量填写
      • 在线选择:下拉可选已创建的数据库,以及数据库下已创建的表。
      • 批量填写:填写数据表完整路径“database.table”,多个数据表用英文逗号分隔。
    • 指定数据库的所有表:支持用户选择多个数据库。可选择在线选择批量填写
      • 在线选择:下拉可选已创建的数据库资源。
      • 批量填写:填写数据库完整路径“database.*”,*表示所有数据表,多个数据库用英文逗号分隔。
    • 所有数据表:用户无需选择数据资源,会对该类型下的所有表进行扫描。

    说明

    • 具备读权限的库管或库权限负责人可以圈选扫描范围。
    • 扫描所有数据表会有较大资源消耗,可能需要等较长时间,请谨慎操作。

    *标注范围

    是指识别指定范围内数据表的对应列。支持按分类和按分级两种方式标注范围,标注范围下拉可选,支持设置多个。

    • 按分类:支持模糊检索,可选择多个标签或标签分类,选项内容为整个标签树。
    • 按分级:支持选择多个分级,选项内容为所有密级L1~L4。

    *覆盖当前标签

    可选择是否覆盖当前标签。

    • 是:识别结果直接打标至“当前标签”,无需手动确认。
    • 否:识别结果推送至“推荐标签”,可手动确认标签。

    *计算组

    ByteHouse 中的计算资源集群,下拉可选已在 ByteHouse 云数仓版控制台创建的计算组。

    说明

    仅可选择开启了自动启停处于开启状态的计算组。

    数据源选择 ByteHouse CDW 时,需设置该参数。

    任务调度

    状态

    默认开启,不可编辑。

    *调度类型

    支持手动执行和周期执行两个选项。

    • 手动执行:由用户在任务列表的操作列单击执行按钮触发执行计划。
    • 周期执行:指任务可基于配置的调度参数定时自动执行。

    *调度生效日期

    调度的生效时间范围。超出调度生效时间,任务会自动关闭。

    • 开始时间默认填写为“当下日期和时刻”,结束时间默认填写为“一个月后的同一日期和时刻”。
    • 开始时间:只能选“当下日期和时刻”之后的时间。
    • 结束时间:距离开始时间不超过1年,不能在开始时间之前。

    调度类型选择周期执行时,需设置该参数。

    *执行频率

    支持周级和月级两个选项。

    • 周级:执行日期需要设置每周几来执行,支持多选。
    • 月级:执行日期需要设置每月几号执行,支持多选。

    调度类型选择周期执行时,需设置该参数。

    *执行日期

    采用“日期”+“时刻”的配置方式。

    • 执行频率选择周级时,执行日期选项为周一 ~ 周日,可多选,执行时刻选择具体的时间。
    • 执行频率选择月级时,执行日期选项为1~31,可多选,执行时刻选择具体的时间。

    调度类型选择周期执行时,需设置该参数。

    *执行扫描范围

    可配置每次执行计划的扫描范围,来避免周期任务对所有数据表进行多次无意义的重复扫描和识别。
    支持增量扫描和全量扫描两个选项。

    • 增量扫描:每次执行只扫描指定范围内新增的数据表或新增了数据字段的数据表,第一次执行计划扫描所有表。
    • 全量扫描:每次执行计划扫描指定范围内的所有数据表。

    调度类型选择周期执行时,需设置该参数。

    消息通知

    通知场景

    扫描结果中存在识别标签时,可推送消息通知前来数据安全平台进行标签确认。
    通知场景支持通知打标选项,可勾选。

    *推送至

    接收通知的人,支持角色和个人两个选项。

    • 当选择角色时,支持库管、库权限负责人、表Owner、表权限负责人四个选项,下拉可选,支持选择多个。
    • 当选择个人时,可输入用户账号关键词下拉选择,支持选择多个。

    选择通知场景后,需设置该参数。

4 管理扫描任务

仅任务创建人和任务负责人可以管理自己的任务,操作步骤如下:

  1. 登录DataLeap控制台。
  2. 选择概览 > 数据安全 > 安全标签 > 扫描管理,进入扫描管理页面。
    Image
  3. 可执行以下管理操作:
    • 设置搜索信息,搜索符合条件的扫描任务列表。当设置多个搜索条件时,会取各个条件的交集进行查询。
      扫描任务有多种执行状态,相关说明如下表所示。

      执行状态

      描述

      说明

      等待执行

      处于准备完成,排队等待阶段

      执行开始时间/结束时间为空,执行耗时为执行生成时至当前时刻的等待调度时长。

      正在执行

      执行中阶段

      执行开始时间为实际开始时间,执行结束时间为空,执行耗时为开始执行至当前时刻的执行时长。

      执行失败

      全部执行失败

      执行开始时间/结束时间为实际时间,执行耗时为开始执行到结束执行的执行时长。

      执行成功

      全部执行成功

      执行开始时间/结束时间为实际时间,执行耗时为开始执行到结束执行的执行时长。

      终止

      已完成终止

      执行开始时间/结束时间为实际时间,执行耗时为开始执行到完成终止的执行时长。

      部分成功

      部分执行成功

      执行开始时间/结束时间为实际时间,执行耗时为开始执行到完成终止的执行时长。

    • 单击任务列表中某条信息的任务名称,可以查看该任务详情,包括配置信息和执行记录。

    • 单击任务列表中某条信息操作列的编辑按钮,在弹出的编辑任务窗口中,可以修改该信息。

    • 单击任务列表中某条信息操作列的执行详情按钮,在详情页面,可以查看该任务的执行详情并可进行以下操作:

      • 单击某条执行记录结果分布列的数据,可以查看该执行结果的分布情况。
      • 单击某条执行记录操作列的重跑按钮,可重跑该任务。仅最近一次"全部失败/部分成功"的任务可重跑。
      • 单击某条执行记录操作列的下载结果分布按钮,二次确认后,可以下载执行记录的结果分布,按资源查看详细的执行结果、识别标签、样本内容等。

        注意

        下载结果包含部分线上数据,请注意数据安全。

    • 单击任务列表中某条信息操作列的修改负责人按钮,在弹出的窗口中,输入用户账号关键词搜索并在下拉列表中选择对应账号,完成负责人修改。

    • 单击任务列表中某条信息操作列的运维 > 执行按钮,可以手动运行该任务。

    • 单击任务列表中某条信息操作列的运维 > 终止最近执行按钮,二次确认后,可以终止该任务。

    • 单击任务列表中某条信息操作列的运维 > 关闭按钮,二次确认后,可以关闭该任务。

      说明

      若任务正在执行,会先终止执行再关闭。

    • 单击任务列表中某条信息操作列的运维 > 开启按钮,二次确认后,可以启动该任务。

    • 单击任务列表中某条信息操作列的运维 > 删除按钮,二次确认后,可以删除该任务以及任务相关的数据。

      说明

      若任务正在执行,会先终止任务再进行删除。

    • 勾选一条或多条信息后,可以单击任务列表下方的批量操作按钮,执行批量执行、批量关闭、批量启动、批量删除和批量修改负责人等操作。

说明

  • 仅处于开启状态的任务可进行关闭和执行操作。
  • 仅处于关闭状态的任务可进行开启操作。
  • 批量操作时,若同时选择了关闭状态和开启状态的任务,则不可进行批量执行、关闭、启动操作。

5 后续操作

执行扫描任务后,您可查看数据分类分级识别结果,并进行标签确认操作,相关操作说明可参见识别结果管理