为降低您已有的数仓中的实时数据/历史数据导入DataFinder的ETL工作量,DataFinder为您提供了界面化的配置数据源接入和数据同步任务配置的功能,通过界面化配置即可将对应数仓中的数据接入到DataFinder数据库中。本文将详细介绍数仓数据接入的注意事项和操作步骤。
细分 | 详细说明 |
---|---|
环境与功能要求 |
|
数据接入任务类型 | 当前版本支持同步事件、用户属性、业务维度数据,且仅支持接入数仓中的Kafka数据源或者Hive数据源的数据,其中:
|
数据格式 |
|
网络要求 | DataFinder集群与您的Kafka和Hive数据源在内网中网络联通。 |
登录并进入DataFinder控制台后,单击顶部导航栏数据管理>数据集成>数据接入,进入数据接入页面,单击外部数据源页签,即可进入数仓与数据库接入配置页面,当前支持接入Kafka、Hive数据。
单击Hive数据源后的接入按钮,配置接入参数。
参数 | 配置说明 |
---|---|
数据连接名称 | 自定义数据源名称,用于标识数据源,便于后续创建数据同步任务时选用。 |
连接方式 | 当前支持IP/Port、JDBC连接字符串两种方式连接数据源。
|
鉴权方式 | 当前仅支持用户名密码方式鉴权,您需配置有权限的用户名和密码,后续用于数据同步时对接读取数据源中的数据。 |
完成配置后,单击右上角的测试连接,当界面提示连接成功后,单击保存,即可保存数据源。
单击Kafka数据源后的接入按钮,配置接入参数。
参数 | 配置说明 |
---|---|
数据连接名称 | 自定义数据源名称,用于标识数据源,便于后续创建数据同步任务时选用。 |
鉴权方式 | 您需根据Kafka数据源实际的鉴权要求,选择鉴权方式。
|
服务器 | 配置数据源的服务器IP地址和端口,多个服务器信息间可通过英文逗号分隔。 |
完成配置后,单击右上角的测试连接,当界面提示连接成功后,单击保存,即可保存数据源。
您后续可以在数据接入页面,单击对应数据源,查看已创建的数据连接详情。
创建好数据连接后,您可以创建数据同步任务,后续DataFinder会根据同步任务配置的同步周期和数据处理策略进行数据同步,当前版本支持同步事件、用户属性、业务维度数据。
配置基本信息,完成后单击下一步。
参数 | 配置说明 |
---|---|
任务名称 & 任务描述 | 自定义任务名称、任务描述,用于标识数据同步任务。 |
数据连接 & 数据库 & 数据表 | 选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的数据库、数据表。 |
接入应用 | 选择数据同步至DataFinder当前项目中的哪个应用。 |
抽取设置 | 配置数据同步时,数据抽取的字段过滤规则,后续仅满足抽取规则的数据才会被同步。
|
配置数据模型映射,完成后单击下一步。
说明
当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。
配置用户ID字段、事件时间字段。
参数 | 配置说明 |
---|---|
用户ID字段 | 选择待同步的数据表中,标识用户user_unique_id、web_id、device_id的字段。 |
事件时间字段 | 选择待同步的数据表中,标识事件时间的字段。 |
配置事件名称映射。
参数 | 配置说明 |
---|---|
事件名称字段 | 选择待同步的数据表中,标识事件名称的字段。 |
事件名称映射 | 配置待同步的数据表中的事件,与在DataFinder中已创建的事件的映射关系。 注意
|
配置事件属性映射。
配置待同步的数据表中的事件属性与DataFinder中已登记的事件属性的映射关系。
注意
配置同步设置。根据界面提示配置任务是手动触发还是每天定时周期运行。
完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。
配置基本信息,完成后单击下一步。
参数 | 配置说明 |
---|---|
任务名称 & 任务描述 | 自定义任务名称、任务描述,用于标识数据同步任务。 |
数据连接 & 数据库 & 数据表 | 选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的数据库、数据表。 |
接入应用 | 选择数据同步至DataFinder当前项目中的哪个应用。 |
抽取设置 | 配置数据同步时,数据抽取的字段过滤规则,后续仅满足抽取规则的数据才会被同步。
|
配置数据模型映射,完成后单击下一步。
说明
当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。
注意
配置同步设置。根据界面提示配置任务是手动触发还是每天定时周期运行。
完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。
配置基本信息,完成后单击下一步。
参数 | 配置说明 |
---|---|
任务名称 & 任务描述 | 自定义任务名称、任务描述,用于标识数据同步任务。 |
数据连接 & 数据库 & 数据表 | 选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的数据库、数据表。 |
接入应用 | 选择数据同步至DataFinder当前项目中的哪个应用。 |
抽取设置 | 配置数据同步时,数据抽取的字段过滤规则,后续仅满足抽取规则的数据才会被同步。
|
配置数据模型映射,完成后单击下一步。
说明
当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。
维度表的同步任务需配置关联的业务维度、业务维度的ID字段、业务维度属性映射。
注意
配置同步设置。根据界面提示配置任务是手动触发还是每天定时周期运行。
完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。
配置基本信息,完成后单击下一步。
参数 | 配置说明 |
---|---|
任务名称 & 任务描述 | 自定义任务名称、任务描述,用于标识数据同步任务。 |
数据连接 & topic | 选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的Kafka的topic。 |
接入应用 | 选择数据同步至DataFinder当前项目中的哪个应用。 |
配置数据模型映射,完成后单击下一步。
说明
当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。
配置用户ID字段、事件时间字段。
参数 | 配置说明 |
---|---|
用户ID字段 | 选择待同步的数据表中,标识用户user_unique_id、web_id、device_id的字段。 |
事件时间字段 | 选择待同步的数据表中,标识事件时间的字段。 |
配置事件名称映射。
参数 | 配置说明 |
---|---|
事件名称字段 | 选择待同步的topic中,标识事件名称的字段。 |
事件名称映射 | 配置待同步的topic中的事件,与在DataFinder中已创建的事件的映射关系。 注意
|
配置事件属性映射。
配置待同步的数据表中的事件属性与DataFinder中已登记的事件属性的映射关系。
注意
配置同步设置。Kafka数据当前仅支持手动触发。
完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。
配置基本信息,完成后单击下一步。
参数 | 配置说明 |
---|---|
任务名称 & 任务描述 | 自定义任务名称、任务描述,用于标识数据同步任务。 |
数据连接 & topic | 选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的Kafka的topic。 |
接入应用 | 选择数据同步至DataFinder当前项目中的哪个应用。 |
配置数据模型映射,完成后单击下一步。
说明
当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。
配置用户ID字段字段。
参数 | 配置说明 |
---|---|
用户ID字段 | 选择待同步的数据表中,标识用户user_unique_id、web_id、device_id的字段。 |
配置用户属性映射。
配置待同步的topic中的用户属性,与在DataFinder中已创建的用户属性的映射关系。
注意
配置同步设置。Kafka数据当前仅支持手动触发。
完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。
配置基本信息,完成后单击下一步。
参数 | 配置说明 |
---|---|
任务名称 & 任务描述 | 自定义任务名称、任务描述,用于标识数据同步任务。 |
数据连接 & topic | 选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的Kafka的topic。 |
接入应用 | 选择数据同步至DataFinder当前项目中的哪个应用。 |
配置数据模型映射,完成后单击下一步。
说明
当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。
维度表的同步任务需配置关联的业务维度、业务维度的ID字段、业务维度属性映射。
注意
配置同步设置。Kafka数据当前仅支持手动触发。
完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。
数据同步任务创建完成后,后续您可以在页面中查看已创建的同步任务列表。