实时数据接入,是指支持通过对接实时数据源,将实时数据接入系统中。
注意
SaaS支持对接火山Kafka;私有化支持对接火山Kafka、开源火山Kafka和Pulsar
说明
在新建实时数据集前,请先明确后续需要使用实时明细表还是实时行为表,两者对数据格式的要求略有不同。
实时明细表
对于实时明细数据源,目前仅需要提供id字段、时间分区字段(建议再提供一个时间戳字段)。例如:
// 在该json中,uid为id字段,p_date为时间分区字段,其余均为业务字段。 {"uid":"abcd123456", "p_date":"2023-03-16", "timestamp":1678937019232, "cost":22.0, "item":"apple", "vip":"yes"}
实时行为表
对于实时行为数据源,需要提供id字段、事件字段、时间戳字段、分区字段、事件属性字段(若有)。例如:
// 在该json中,uid为id字段,p_date为时间分区字段,timestamp为时间戳字段,event为事件字段,string_map为事件属性。 // 该json代表用户abcd123456发生了一个openApp事件,appName为tiktok {"uid":"abcd123456", "p_date":"2023-03-16", "timestamp":1678937019232, "event": "openApp", "string_map":{"appName":"tiktok"}}
分区键设置示例: ①int类型时间戳,字段类型选择Int64。 ②string类型日期'2020-01-01',字段类型选择Date。 ③string类型日期'2020-01-01 00:00:00',字段类型选择DateTime。
嵌套字段提取: 当存在多层嵌套时,可输入json path提取字段。 示例:
{ "body": { "cost": { "city": "Shanghai", "country": "China" } } }
若需要提取字段city,则json.path为body.cost.city
选择上述新建数据集, 应用此表 ,进行类型设置。