企业需要把不同终端的日志收集起来,并支持下游消费及落仓。DataSail可以一站式解决这类场景,覆盖日志上报、采集、落仓完整流程,为您提供稳定、弹性、便宜、安全的全托管解决方案。本实践中,将为您介绍以下流程日志上报 -> 日志采集 -> 日志落仓。
已开通全域数据集成(DataSail)产品。详见服务开通。
已开通并创建 DataLeap 项目,创建的流式任务会同步到该项目下。详见新建项目。
已创建合适资源规格的独享数据集成资源组,并将其绑定至创建成功的 DataLeap 项目下。且独享集成资源组已和 DataSail 做网络配置打通。
资源组购买操作详见资源组管理,项目绑定操作详见数据集成资源组,网络操作详见 DataSail 网络配置。
已完成来源和目标端的数据源准备,创建数据源操作详见DataSail 数据源配置、Hive 数据源配置。
采集阶段
创建Topic
创建采集任务
数据上报
数据预览
同步阶段
配置数据源
配置同步任务
数据查询
点击左侧导航Topic管理,开始创建Topic
单击新建Topic,填写Topic名称、Topic描述、分区个数和生命周期,点击确定新建成功
通用采集无需关联Schema
详见:Topic管理
1、点击左侧导航采集管理,开始创建采集任务
2、单击新建采集任务,填写采集任务类型-通用采集、接入数据来源、采集任务名称、选择上报Topic,点击确定新建成功
3、点击确认后成功创建采集任务,并生成采集任务ID,采集任务ID将作为数据上报的重要参数用于区分上报Topic
详见:采集任务管理
支持按不同方式采集上报:
按上方接入文档配置后,进行数据上报,可在Topic详情中进行实时数据预览
1、前往Topic管理 - 点击名称进入Topic详情 - 数据预览
2、选择时间范围,点击刷新,可以获取上报的数据。json按字符串输出,可获取最近100条数据,最大长度限制为2k。
在配置流式集成任务前,您需在数据源管理界面中,配置来源端 DataSail(即4.1中采集的MQ Topic) 和目标端 Hive(可将采集到的数据同步至EMR/LAS等多个sink端,本文使用EMR Hive举例) 相应的数据源。详见 DataSail 数据源配置、Hive 数据源配置。
以下为您介绍配置来源端 DataSail数据源:
单击右上角 新建数据源 按钮,进入新增数据源页面,如下图所示。
选择 DataSail托管Topic 数据源类型,并配置该类型下的其他参数项:
字段 | 说明 | 备注 |
---|---|---|
数据源类型 | DataSail托管Topic | |
接入方式 | DataSail托管Topic | |
数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 | |
描述 | 对当前新建数据源的注释说明。 | |
DataSail项目 | 用于数据集的分组管理,目前仅支持默认(default)项目 | 默认(default)项目 |
Access Key ID | 火山云 Access Key | AKLTZWU****** |
Secret Access Key | 火山云 Secret Key | TW1KaVlU****** |
参数项填写完整后,单击测试按钮,执行测试连通性,数据源与独享数据集成资源组网络需保证能互通。如连接失败,请确保资源组已配置网络,详见: DataSail 网络配置。
连通性测试成功后,单击确定按钮,完成新增。
数据源创建完成后,进行流式集成任务配置,详见:流式任务配置。
数据验证无误后,您可以对已创建的任务进行管理,如任务的编辑、重启、暂停、添加任务监控等操作。详见:实时任务运维