You need to enable JavaScript to run this app.
导航
数据接入:数仓与数据库
最近更新时间:2024.11.08 10:44:04首次发布时间:2024.11.08 10:44:04

为降低您已有的数仓中的实时数据/历史数据导入DataFinder的ETL工作量,DataFinder为您提供了界面化的配置数据源接入和数据同步任务配置的功能,通过界面化配置即可将对应数仓中的数据接入到DataFinder数据库中。本文将详细介绍数仓数据接入的注意事项和操作步骤。

注意事项与限制

细分

详细说明

环境与功能要求

  • 私有化4.10.0版本开始支持界面化的数仓与数据库数据接入、数据同步的配置。
  • 该功能为增值功能,使用需单独开通,如您希望使用此功能,可以联系技术人员进行咨询。

数据接入任务类型

当前版本支持同步事件、用户属性、业务维度数据,且仅支持接入数仓中的Kafka数据源或者Hive数据源的数据,其中:

  • Kafka数据源:仅支持手动触发同步任务,触发后接入Kafka的实时数据。
  • Hive数据源:当前支持手动触发或天级周期性触发,触发后同步Hive中的离线数据。

数据格式

  • Kafka 中的数据只能是 json 格式
  • Hive 数据格式没有限制

网络要求

DataFinder集群与您的Kafka和Hive数据源在内网中网络联通。
例如,Kafka可以通过broker.server访问(192.168..:9092);Hive可以通过fs.defaultFS路径访问(hdfs://192.168..:9000/path)。

数据接入

登录并进入DataFinder控制台后,单击顶部导航栏数据管理>数据集成>数据接入,进入数据接入页面,单击外部数据源页签,即可进入数仓与数据库接入配置页面,当前支持接入Kafka、Hive数据。
Image

创建Hive数据连接

  1. 单击Hive数据源后的接入按钮,配置接入参数。
    Image

    参数

    配置说明

    数据连接名称

    自定义数据源名称,用于标识数据源,便于后续创建数据同步任务时选用。

    连接方式

    当前支持IP/PortJDBC连接字符串两种方式连接数据源。

    • IP/Port:需配置连接数据源的服务器IP地址和端口。
    • JDBC连接字符串:直接配置数据源的对接JDBC连接字符串。

    鉴权方式

    当前仅支持用户名密码方式鉴权,您需配置有权限的用户名和密码,后续用于数据同步时对接读取数据源中的数据。

  2. 完成配置后,单击右上角的测试连接,当界面提示连接成功后,单击保存,即可保存数据源。

创建Kafka数据连接

  1. 单击Kafka数据源后的接入按钮,配置接入参数。
    Image

    参数

    配置说明

    数据连接名称

    自定义数据源名称,用于标识数据源,便于后续创建数据同步任务时选用。

    鉴权方式

    您需根据Kafka数据源实际的鉴权要求,选择鉴权方式。

    • 如果Kafka数据源为“无鉴权”模式,则您直接选择无鉴权模式。
    • 如果Kafka数据源配置了鉴权模式,则选择SASL_PLAINTEXT鉴权方式,并配置有权限的用户名和密码。

    服务器

    配置数据源的服务器IP地址和端口,多个服务器信息间可通过英文逗号分隔。

  2. 完成配置后,单击右上角的测试连接,当界面提示连接成功后,单击保存,即可保存数据源。

编辑/删除数据连接

您后续可以在数据接入页面,单击对应数据源,查看已创建的数据连接详情。
Image

  • 再次新建数据连接:您可以单击右上角的新建数据连接按钮,再次新建数据连接。
  • 编辑与删除:对于已创建的数据连接,您可以通过搜索框快速查找,也支持单击操作列的编辑删除按钮进行编辑删除操作。

创建数据同步任务

创建好数据连接后,您可以创建数据同步任务,后续DataFinder会根据同步任务配置的同步周期和数据处理策略进行数据同步,当前版本支持同步事件、用户属性、业务维度数据。

同步Hive数据:事件数据

  1. 配置基本信息,完成后单击下一步
    Image

    参数

    配置说明

    任务名称 & 任务描述

    自定义任务名称、任务描述,用于标识数据同步任务。

    数据连接 & 数据库 & 数据表

    选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的数据库、数据表。
    选择库表完成后,可单击预览数据表,确认所选的数据表是否正确。

    接入应用

    选择数据同步至DataFinder当前项目中的哪个应用。

    抽取设置

    配置数据同步时,数据抽取的字段过滤规则,后续仅满足抽取规则的数据才会被同步。

    • 支持添加多个抽取规则,且支持设置多个规则间的逻辑关系是AND或者OR
    • 数据同步时间跨度不可超过10天,建议您通过抽取规则进行时间字段的约束。

      注意

      • DataFinder为您提供了两个动态时间字段的占位符,便于您配置数据抽取的时间过滤条件:
        • ${DATE} 业务时间日期,格式为:yyyy-mm-dd,取值为当天日期,示例:
          • 数据同步任务为周期任务-天任务:2019/01/02 8点执行,${DATE} = 2019-01-02
          • 数据同步任务为手动触发任务:2019/01/02 8点手动触发执行,${DATE} = 2019-01-02
        • ${date} 业务时间日期,格式为:yyyymmdd,取值为当天日期,示例:
          • 数据同步任务为周期任务-天任务:2019/01/02 8点执行,${date} = 2019-01-02
          • 数据同步任务为手动触发任务:2019/01/02 8点手动触发执行,${date} = 2019-01-02
      • 仅字符串类型的字段可使用以上时间占位符进行抽取过滤,如果您的源表中的时间字段为datetime等类型,会自动识别为字符串类型。
  2. 配置数据模型映射,完成后单击下一步

    说明

    当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。

    1. 配置用户ID字段、事件时间字段。
      Image

      参数

      配置说明

      用户ID字段

      选择待同步的数据表中,标识用户user_unique_id、web_id、device_id的字段。
      三类用户ID字段至少配置一项。

      事件时间字段

      选择待同步的数据表中,标识事件时间的字段。

    2. 配置事件名称映射。
      Image

      参数

      配置说明

      事件名称字段

      选择待同步的数据表中,标识事件名称的字段。

      事件名称映射

      配置待同步的数据表中的事件,与在DataFinder中已创建的事件的映射关系。

      注意

      • 如果在下拉列表中找不到DataFinder已登记的事件,您可前往数据管理>元数据管理>一般事件,进行登记。
      • 未配置映射关系的事件数据在同步时将被抛弃。
    3. 配置事件属性映射。
      配置待同步的数据表中的事件属性与DataFinder中已登记的事件属性的映射关系。

      注意

      • 如果在下拉列表中找不到DataFinder已登记的事件属性,您可前往数据管理>元数据管理>事件属性,进行登记。
      • 未配置映射关系的事件数据在同步时将被抛弃。

      Image

  3. 配置同步设置。根据界面提示配置任务是手动触发还是每天定时周期运行。
    Image

  4. 完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。

同步Hive数据:用户属性数据

  1. 配置基本信息,完成后单击下一步
    Image

    参数

    配置说明

    任务名称 & 任务描述

    自定义任务名称、任务描述,用于标识数据同步任务。

    数据连接 & 数据库 & 数据表

    选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的数据库、数据表。
    选择库表完成后,可单击预览数据表,确认所选的数据表是否正确。

    接入应用

    选择数据同步至DataFinder当前项目中的哪个应用。

    抽取设置

    配置数据同步时,数据抽取的字段过滤规则,后续仅满足抽取规则的数据才会被同步。

    • 支持添加多个抽取规则,且支持设置多个规则间的逻辑关系是AND或者OR
    • 数据同步时间跨度不可超过10天,建议您通过抽取规则进行时间字段的约束。

      注意

      • DataFinder为您提供了两个动态时间字段的占位符,便于您配置数据抽取的时间过滤条件:
        • ${DATE} 业务时间日期,格式为:yyyy-mm-dd,取值为当天日期,示例:
          • 数据同步任务为周期任务-天任务:2019/01/02 8点执行,${DATE} = 2019-01-02
          • 数据同步任务为手动触发任务:2019/01/02 8点手动触发执行,${DATE} = 2019-01-02
        • ${date} 业务时间日期,格式为:yyyymmdd,取值为当天日期,示例:
          • 数据同步任务为周期任务-天任务:2019/01/02 8点执行,${date} = 2019-01-02
          • 数据同步任务为手动触发任务:2019/01/02 8点手动触发执行,${date} = 2019-01-02
      • 仅字符串类型的字段可使用以上时间占位符进行抽取过滤,如果您的源表中的时间字段为datetime等类型,会自动识别为字符串类型。
  2. 配置数据模型映射,完成后单击下一步

    说明

    当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。

    1. 配置用户ID字段字段。
      Image
      选择待同步的数据表中,标识用户user_unique_id、web_id、device_id的字段。三类用户ID字段至少配置一项。
    2. 配置用户属性映射。
      Image
      配置待同步的数据表中的用户属性与DataFinder中已登记的用户属性的映射关系。

      注意

      • 如果在下拉列表中找不到DataFinder已登记的用户属性,您可前往数据管理>元数据管理>用户属性,进行登记。
      • 未配置映射关系的事件数据在同步时将被抛弃。
  3. 配置同步设置。根据界面提示配置任务是手动触发还是每天定时周期运行。
    Image

  4. 完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。

同步Hive数据:维度表数据

  1. 配置基本信息,完成后单击下一步
    Image

    参数

    配置说明

    任务名称 & 任务描述

    自定义任务名称、任务描述,用于标识数据同步任务。

    数据连接 & 数据库 & 数据表

    选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的数据库、数据表。
    选择库表完成后,可单击预览数据表,确认所选的数据表是否正确。

    接入应用

    选择数据同步至DataFinder当前项目中的哪个应用。

    抽取设置

    配置数据同步时,数据抽取的字段过滤规则,后续仅满足抽取规则的数据才会被同步。

    • 支持添加多个抽取规则,且支持设置多个规则间的逻辑关系是AND或者OR
    • 数据同步时间跨度不可超过10天,建议您通过抽取规则进行时间字段的约束。

      注意

      • DataFinder为您提供了两个动态时间字段的占位符,便于您配置数据抽取的时间过滤条件:
        • ${DATE} 业务时间日期,格式为:yyyy-mm-dd,取值为当天日期,示例:
          • 数据同步任务为周期任务-天任务:2019/01/02 8点执行,${DATE} = 2019-01-02
          • 数据同步任务为手动触发任务:2019/01/02 8点手动触发执行,${DATE} = 2019-01-02
        • ${date} 业务时间日期,格式为:yyyymmdd,取值为当天日期,示例:
          • 数据同步任务为周期任务-天任务:2019/01/02 8点执行,${date} = 2019-01-02
          • 数据同步任务为手动触发任务:2019/01/02 8点手动触发执行,${date} = 2019-01-02
      • 仅字符串类型的字段可使用以上时间占位符进行抽取过滤,如果您的源表中的时间字段为datetime等类型,会自动识别为字符串类型。
  2. 配置数据模型映射,完成后单击下一步

    说明

    当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。

    维度表的同步任务需配置关联的业务维度、业务维度的ID字段、业务维度属性映射。
    Image

    注意

    • 如果在下拉列表中找不到DataFinder已登记的业务维度字段,您可前往数据管理>元数据管理>业务维度,进行登记。
    • 未配置映射关系的事件数据在同步时将被抛弃。
  3. 配置同步设置。根据界面提示配置任务是手动触发还是每天定时周期运行。
    Image

  4. 完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。

同步Kafka数据:事件数据

  1. 配置基本信息,完成后单击下一步
    Image

    参数

    配置说明

    任务名称 & 任务描述

    自定义任务名称、任务描述,用于标识数据同步任务。

    数据连接 & topic

    选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的Kafka的topic。
    选择库表完成后,可单击预览数据表,确认所选的数据表是否正确。

    接入应用

    选择数据同步至DataFinder当前项目中的哪个应用。

  2. 配置数据模型映射,完成后单击下一步

    说明

    当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。

    1. 配置用户ID字段、事件时间字段。
      Image

      参数

      配置说明

      用户ID字段

      选择待同步的数据表中,标识用户user_unique_id、web_id、device_id的字段。
      三类用户ID字段至少配置一项。

      事件时间字段

      选择待同步的数据表中,标识事件时间的字段。

    2. 配置事件名称映射。
      Image

      参数

      配置说明

      事件名称字段

      选择待同步的topic中,标识事件名称的字段。

      事件名称映射

      配置待同步的topic中的事件,与在DataFinder中已创建的事件的映射关系。

      注意

      • 如果在下拉列表中找不到DataFinder已登记的事件,您可前往数据管理>元数据管理>一般事件,进行登记。
      • 未配置映射关系的事件数据在同步时将被抛弃。
    3. 配置事件属性映射。
      配置待同步的数据表中的事件属性与DataFinder中已登记的事件属性的映射关系。

      注意

      • 如果在下拉列表中找不到DataFinder已登记的事件属性,您可前往数据管理>元数据管理>事件属性,进行登记。
      • 未配置映射关系的事件数据在同步时将被抛弃。

      Image

  3. 配置同步设置。Kafka数据当前仅支持手动触发。
    Image

  4. 完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。

同步Kafka数据:用户属性数据

  1. 配置基本信息,完成后单击下一步
    Image

    参数

    配置说明

    任务名称 & 任务描述

    自定义任务名称、任务描述,用于标识数据同步任务。

    数据连接 & topic

    选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的Kafka的topic。
    选择库表完成后,可单击预览数据表,确认所选的数据表是否正确。

    接入应用

    选择数据同步至DataFinder当前项目中的哪个应用。

  2. 配置数据模型映射,完成后单击下一步

    说明

    当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。

    1. 配置用户ID字段字段。
      Image

      参数

      配置说明

      用户ID字段

      选择待同步的数据表中,标识用户user_unique_id、web_id、device_id的字段。
      三类用户ID字段至少配置一项。

    2. 配置用户属性映射。
      Image
      配置待同步的topic中的用户属性,与在DataFinder中已创建的用户属性的映射关系。

      注意

      • 如果在下拉列表中找不到DataFinder已登记的用户属性,您可前往数据管理>元数据管理>用户属性,进行登记。
      • 未配置映射关系的事件数据在同步时将被抛弃。
  3. 配置同步设置。Kafka数据当前仅支持手动触发。
    Image

  4. 完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。

同步Kafka数据:维度表数据

  1. 配置基本信息,完成后单击下一步
    Image

    参数

    配置说明

    任务名称 & 任务描述

    自定义任务名称、任务描述,用于标识数据同步任务。

    数据连接 & topic

    选择已创建的数据源,然后在下拉列表中选择数据源中待同步至DataFinder的Kafka的topic。
    选择库表完成后,可单击预览数据表,确认所选的数据表是否正确。

    接入应用

    选择数据同步至DataFinder当前项目中的哪个应用。

  2. 配置数据模型映射,完成后单击下一步

    说明

    当前支持手动配置、自定义配置两种配置方式,自定义配置方式为高阶用法,如果您希望使用自定义方式,可联系DataFinder技术支持人员进行支持;手动配置的配置参数详细介绍可参见下文。

    维度表的同步任务需配置关联的业务维度、业务维度的ID字段、业务维度属性映射。
    Image

    注意

    • 如果在下拉列表中找不到DataFinder已登记的业务维度,您可前往数据管理>元数据管理>业务维度,进行登记。
    • 未配置映射关系的事件数据在同步时将被抛弃。
  3. 配置同步设置。Kafka数据当前仅支持手动触发。
    Image

  4. 完成配置后单击确定并执行,即完成数据同步任务创建,后续数据同步任务即可根据配置的同步策略进行数据同步。

触发并查看任务记录

数据同步任务创建完成后,后续您可以在页面中查看已创建的同步任务列表。
Image

  • 支持度已创建的任务进行编辑、删除等操作。
  • 单击运行记录即可查看任务的运行记录,也支持在运行记录页面中手动再次触发数据同步。
    Image
  • 对于周期任务,如果您希望停止周期性运行,可再次编辑数据同步任务,将任务修改为手动触发模式即可。