You need to enable JavaScript to run this app.
导航
数据流配置
最近更新时间:2024.08.12 16:39:38首次发布时间:2024.08.02 17:59:37

本文档介绍数据流管理的主要功能与数据流配置的基本流程。

概述

数据流管理模块支持客户在控制台创建数据流,以实现内容数据按照配置自动化写入指定数据库或消息队列。

数据流配置流程

数据流配置流程分为如下几步:

  • 创建云资源:请提前创建运行数据流所必需的flink资源,并按需下单其他云资源

  • 添加云资源:在洞察控制台-云资源管理页添加数据流运行所用到的云资源

  • 创建数据流:在洞察控制台-数据流管理页创建数据流,编辑节点信息

  • 发布数据流:校验数据流,校验通过后发布上线


数据流配置流程图


数据流链路示意图
当前可支持配置的数据流链路如图所示


数据流节点介绍

洞察支持客户在控制台配置数据流节点,实现各环节下不同云组件的自动化对接,以下详细介绍各节点功能。

Source

Source指要处理的数据源(对应MQ某个topic),是数据流的起点。
目前洞察支持在source节点配置如下云组件:

支持组件配置内容详细说明

BMQ

  1. 节点名称/描述:客户可自定义编辑节点相关信息

  2. 选择数据源:指source中具体的数据来源,可以是洞察数据或客户自有数据

  3. 选择MQ类型:BMQ

  4. 选择资源池:选择账号下BMQ具体的实例资源作为source

  5. 选择topic: 选择BMQ实例下具体topic

  6. 选择ConsumerGroup: 为洞察选择用于数据消费的group

Kafka

  1. 节点名称/描述:客户可自定义编辑节点相关信息

  2. 选择数据源:指source中具体的数据来源,可以是洞察数据或客户自有数据

  3. 选择MQ类型:Kafka

  4. 选择资源池:选择账号下Kafka具体的实例资源作为source

  5. 选择topic: 选择实例下具体topic

  6. 选择ConsumerGroup: 为洞察选择用于数据消费的group


Sink

Sink指数据最终要写入的目标位置(例如MQ某个topic/数据表),是数据流的终点。
目前洞察支持在sink节点配置如下云组件:

支持组件配置内容详细说明

ES

  1. 节点名称/描述:客户可自定义编辑节点相关信息

  2. 选择sink类型:云搜索服务ES

  3. 选择资源池:选择账号下ES具体的实例资源作为sink

  4. index: 为写入数据指定index

  5. 唯一ID 为写入数据指定唯一ID

  6. 用户名及密码:填写ES资源对应的账号密码,以确保洞察数据可写入数据

MySQL

  1. 节点名称/描述:客户可自定义编辑节点相关信息

  2. 选择sink类型:MySQL

  3. 选择实例:选择账号下MySQL具体的实例资源作为sink

  4. 选择数据库: 为写入数据指定数据库

  5. 选择数据表: 为写入数据指定数据表

  6. 用户名及密码:填写MySQL资源对应的账号密码,以确保洞察数据可写入数据

BMQ

  1. 节点名称/描述:客户可自定义编辑节点相关信息

  2. 选择sink类型:BMQ

  3. 选择资源池:选择账号下BMQ具体的实例资源作为sink

  4. 选择topic: 指定数据写入的具体topic

Kafka

  1. 节点名称/描述:客户可自定义编辑节点相关信息

  2. 选择sink类型:Kafka

  3. 选择资源池:选择账号下kafka具体的实例资源作为sink

  4. 选择topic: 指定数据写入的具体topic


Operator

Operator指数据流中可加入的算子,用于对数据执行某类具体操作,包含字段处理算子和模型算子(建设中)。

注意

PaaS数据结构转化逻辑请查看:数据结构转化样例--内容洞察平台-火山引擎

支持算子配置内容详细说明

字段处理

  1. 节点名称/描述

  2. 字段处理规则: 支持字段裁剪,赋值,转换和内容过滤,详细规则可参考:帮助文档--内容洞察平台-火山引擎

  3. 消息测试: 供客户校验字段处理规则是否符合预期。操作如下:在input处粘贴一条消息,点击“消息测试”按钮,系统将根据字段处理规则,在result输出处理后的字段结果。

模型算子建设中-

数据流基础功能

创建/编辑

客户可创建多条数据流,并在数据流画布进行编辑,支持添加、删除、编辑节点。

控制台示意说明

创建数据流

点击数据流管理tab,点击右上角创建数据流按钮,可创建数据流

点击任一节点,可进行编辑


点击source/sink节点,可按照提示完成编辑。

可在数据流中新增/删除operator节点。

校验及发布

数据流发布上线前,还需进行校验,校验通过后才可发布上线。

控制台示意说明

提交保存,节点标识变更

节点编辑完成后,点击保存。
若填写内容校验无误,节点标识变更为对号。
若节点信息填写有误,可查看节点提示信息。

点击发布数据流

节点编辑完成,且节点标识提示正确无误的情况下,可点击按钮【发布草稿到线上】发布数据流。

选择TOS桶并上传样例数据

发布数据流前需进行发布校验,上传样例数据,以确保数据可正常按照设置写入下游。

选择TOS桶以存储相关文件,并选择/上传将要进行校验的样例数据。

注意:

  • 请上传json格式的样例数据

  • 上传的新内容将会保存为文件并上传至已选择桶的 insight_verify/ 路径下,如没有该路径则会自动创建

校验数据样例:
洞察数据:

insight_sample.json
11.35KB

其他数据:
raw_sample.json
136.00Bytes

点击启动校验

样例数据上传完毕后,点击按钮【启动校验】
校验预计需要3-5分钟请耐心等待

校验通过,发布数据流


校验通过后,可查看数据预览,确认无误后可发布数据流。

发布预计需要3-5分钟,请耐心等待。
发布成功后,前端状态变更为发布成功。


说明

数据流配置方式流程可参考最佳实践: