You need to enable JavaScript to run this app.
导航
数仓数据集
最近更新时间:2024.09.23 16:45:52首次发布时间:2024.09.23 16:45:52

前提条件

已创建好一个外部数仓数据源,操作详情请参见外部数据源

新建数据集

您需要在数据集页面中创建临时中间表(视图)和**进组表,**A/B 实验平台在计算数仓指标时,通过将进组表与业务数据表同时存储到客户的数仓中,在指标计算时关联查询。

创建进组表

进组表用来记录用户的进组情况。

  1. 输入基本信息。
    图片

  2. 使用SQL生成进组表。
    选择一个定义好的数据连接作为查询的目标数据库,在执行SQL的代码编辑框中输入进组表查询生成的SQL命令。
    进组表的格式要求为:进组表必须包含的字段为:event_date(支持YYYYMMDD/YYYY-MM-DD格式)、user_idab_version
    例如: 数仓中有一张进组表,表名为“ab”,表字段如下:

    cust_no(客户号)

    dt(进组日期)

    ab_version(进组版本)

    time(进组时间戳)

    user_1

    20200223

    12455

    161111111111

    对应DataTester中的进组表SQL定义为:

    select
      cust_no as user_id,
      dt as event_date,
      ab_version
    from
      ab
    
  3. 点击运行,验证SQL正确性后保存进组表。

创建虚拟中间表

中间表是需要计算指标的业务表。

  1. 输入基本信息。
    图片

    • 关联进组表:选择一个需要关联的进组表, 后续的指标分析都会和所选的进组表做关联分析。
    • 数据就绪时间: 作为和数仓的SLA约束, 认为每日设置的日期后前一天的数据可以ready, 任务会在这个时间点后尝试查询前一天是否有数据,如果有数据认为前一天的数据已经ready, 指标可以开始运行离线计算的任务。
  2. SQL生成虚拟中间表。
    中间表必须包含的字段为:event_date(支持YYYYMMDD/YYYY-MM-DD格式), user_id,其余字段可以选作指标或者维度。其中event_date会作为后续指标报告计算分析的开始日期和结束日期;user_id会作为和进组表关联的join_key。
    例如: 数仓中有一张订单(order)表:

    order_no(订单号)

    amount(订单金额)

    cust_no(客户号)

    dt(订单日期)

    product_type(商品类型)

    order_222

    100

    user_1

    20200223

    电子产品

    希望使用amount字段作为订单金额计算指标,同时希望使用product_type字段作为商品类型进行维度筛选,
    对应中间表的定义:

    select
      cust_no as user_id,
      amount,
      product_type,
      dt as event_date
    from
      order
    

    因为event_date, user_id必填, 所以需要将cust_no重命名为user_id, dt重命名为event_date, 剩余字段是希望作为指标计算或者维度分析的amount、product_type。

  3. 配置字段。
    图片

    • 除了必填字段user_id和event_date,以外其他字段需要指定字段类型
    • 如果需要作为指标分析, 类型请选择int/float, 维度/指标列请选择指标
    • 如果需要作为维度筛选, 类型任选, 维度/指标列请选择维度
      点击保存, 完成中间表创建。