You need to enable JavaScript to run this app.
导航
日志采集落仓解决方案
最近更新时间:2023.12.19 19:39:20首次发布时间:2023.12.19 19:39:20

企业需要把不同终端的日志收集起来,并支持下游消费及落仓。DataSail可以一站式解决这类场景,覆盖日志上报、采集、落仓完整流程,为您提供稳定、弹性、便宜、安全的全托管解决方案。本实践中,将为您介绍以下流程日志上报 -> 日志采集 -> 日志落仓

1. 前置操作

  1. 已开通全域数据集成(DataSail)产品。详见服务开通

  2. 已开通并创建 DataLeap 项目,创建的流式任务会同步到该项目下。详见新建项目

  3. 已创建合适资源规格的独享数据集成资源组,并将其绑定至创建成功的 DataLeap 项目下。且独享集成资源组已和 DataSail 做网络配置打通。

  4. 资源组购买操作详见资源组管理,项目绑定操作详见数据集成资源组,网络操作详见 DataSail 网络配置

  5. 已完成来源和目标端的数据源准备,创建数据源操作详见DataSail 数据源配置Hive 数据源配置


2. 注意事项

  1. 权限:子账号新建数据源时,需要有项目的管理员角色,方可以进行新建数据源操作。各角色对应权限说明,详见:管理成员

3. 关键步骤

  1. 采集阶段

    1. 创建Topic

    2. 创建采集任务

    3. 数据上报

    4. 数据预览

  2. 同步阶段

    1. 配置数据源

    2. 配置同步任务

    3. 数据查询

4 日志采集同步方案

4.1 日志采集配置

4.1.1 创建Topic

  1. 点击左侧导航Topic管理,开始创建Topic

  2. 单击新建Topic,填写Topic名称、Topic描述、分区个数和生命周期,点击确定新建成功

  3. 通用采集无需关联Schema

详见:Topic管理



4.1.2 创建采集任务

1、点击左侧导航采集管理,开始创建采集任务
2、单击新建采集任务,填写采集任务类型-通用采集、接入数据来源、采集任务名称、选择上报Topic,点击确定新建成功
3、点击确认后成功创建采集任务,并生成采集任务ID,采集任务ID将作为数据上报的重要参数用于区分上报Topic
详见:采集任务管理


4.1.3 数据上报

支持按不同方式采集上报:


4.1.4 数据预览

按上方接入文档配置后,进行数据上报,可在Topic详情中进行实时数据预览
1、前往Topic管理 - 点击名称进入Topic详情 - 数据预览
2、选择时间范围,点击刷新,可以获取上报的数据。json按字符串输出,可获取最近100条数据,最大长度限制为2k。
alt


4.2 日志同步配置

4.2.1 配置数据源

在配置流式集成任务前,您需在数据源管理界面中,配置来源端 DataSail(即4.1中采集的MQ Topic) 和目标端 Hive(可将采集到的数据同步至EMR/LAS等多个sink端,本文使用EMR Hive举例) 相应的数据源。详见 DataSail 数据源配置Hive 数据源配置
以下为您介绍配置来源端 DataSail数据源:

  1. 单击右上角 新建数据源 按钮,进入新增数据源页面,如下图所示。

  2. 选择 DataSail托管Topic 数据源类型,并配置该类型下的其他参数项:

    字段说明备注
    数据源类型DataSail托管Topic
    接入方式DataSail托管Topic

    数据源名称

    数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

    描述对当前新建数据源的注释说明。

    DataSail项目

    用于数据集的分组管理,目前仅支持默认(default)项目

    默认(default)项目

    Access Key ID

    火山云 Access Key

    AKLTZWU******

    Secret Access Key

    火山云 Secret Key

    TW1KaVlU******

  3. 参数项填写完整后,单击测试按钮,执行测试连通性,数据源与独享数据集成资源组网络需保证能互通。如连接失败,请确保资源组已配置网络,详见: DataSail 网络配置

  4. 连通性测试成功后,单击确定按钮,完成新增。


4.2.2 配置同步任务

数据源创建完成后,进行流式集成任务配置,详见:流式任务配置

  1. 在数据开发界面,单击目录树上新建任务按钮,进入新建任务界面。选择任务类型:数据集成。选择任务:流式集成

  1. 新建流式集成任务完成后,需要配置相关任务信息

  1. 数据同步后,可查询Hive中数据,与上报日志进行数据比对校验,确认无误后完成本次采集+落仓全流程。



5 后续步骤

数据验证无误后,您可以对已创建的任务进行管理,如任务的编辑、重启、暂停、添加任务监控等操作。详见:实时任务运维