数据同步完后,平台会基于默认阈值对数据进行校验,产出一份数据校验报告。
校验项分为普通校验项和重要校验项:
建议您根据业务实际情况进行调整,否则可能会出现以下问题:
平台支持对字段校验规则做自定义,您可以通过「数据探查」-「校验报告」找到右上角的「字段校验设置」入口进行校验规则的自定义。
支持定义的规则类型和适用场景如下:
规则类型 | 说明 | 规则配置方式 | 举例 |
---|---|---|---|
内置规则 | 无需配置,默认需要校验 | 如校验bhv_time为当天时间分区内的时戳,需要以秒为单位的unixtimestamp | |
字段填充率规则 | 设置该字段取值有效的规则 |
| query在search行为下不可为空 |
字段范围规则 | 设置该字段的取值范围 | 支持等于、不等于、大于、小于、属于、不属于等各种常见条件 |
|
字段关系规则 | 设置该字段与其他字段的关系 | 仅支持对数值型字段设置,校验两个字段的相对大小 | 商品表的origin_price需要大于等于current_price |
数据校验报告支持多日及单日查询,单天视图(即单日报告)是当天内的数据报告统计展示,多天视图(即整体报告)支持时间范围内的查询,可以展示多日趋势。
报告包括五个模块,各模块校验内容和常见异常原因如下:
校验项 | 说明 | 常见异常原因 |
---|---|---|
数据量统计 | 确认三个表数据量、各行为类型和各场景数据量是否符合预期 |
|
字段统计 | 确认三个表中各字段缺失情况和分布同比情况 |
|
拼接率统计 | 行为表拼商品表:行为表和商品表通过商品ID拼接的上的行为数量/总行为数量 | 一般拼接率可达95%~100%,如拼接率不达标,可结合具体拼接失败的goods_id、user_id的case来排查。
|
行为归因率统计 | 根据配置的归因逻辑,行为归因成功的数量/行为总数量,一般需要分场景校验,关注重点场景。 | 如归因率不达标,可结合具体归因失败的goods_id、user_id的case来排查。
|
业务指标统计 | 确认统计指标是否符合预期 |
|
说明
用户表和商品表均为合并之后的数据。
部分报告产出后即可进入查看,产出报告中存在阻断时,即可在同步列表中看到“严重”标记。
注意
若将天级数据传入当天分区,数据校验报告会在第二天才开始产出(天级数据任务为T+1执行)
校验项状态 | 说明 |
---|---|
合格 | 校验项在合格区间内,可以确认通过校验 |
警告 | 校验项处于警告区间,表明存在一些数据质量问题,建议检查数据传输是否有重复或遗漏,如检查无问题,可确认通过校验 |
严重 | 重要校验项处于严重区间,会严重影响推荐效果,不可确认通过校验,需要修复数据后重新同步,或确认阈值设置是否合理 |
某天的校验报告状态根据该天所有校验项的状态来确定,只存在合格和严重两种状态。只要出现一个状态为“严重”的校验项,则当天报告状态为“严重”,否则为“合格”。
对于校验状态为“严重”的报告,建议的处理步骤如下:
注意
调整阈值后,只会对当前校验状态是“严重”的报告生效。
每个阶段数据校验遇到异常问题(不阻断下游)或严重问题(阻断下游)时,平台均会通过站内信、短信、邮件的方式进行通知。您可在右上角的「消息接收管理」-「消息接收配置」中,找到「产品消息」-「产品状态提醒」,管理通知渠道以及接收人。
点击发送验证后,手机会收到确认短信,点进链接确认即可:
完毕后,所配置手机号就可以接收该租户下相关短信通知了,我们可以在 [订阅管理] 里面添加想要关心的消息类型。如果想感知阻断报警,则需勾选 [产品消息]。
测试数据、历史数据阶段都需要完成校验报告整体确认,方可进入下一阶段,增量数据阶段无校验报告确认环节,建议您关注报告短信中提示的异常问题,并登录平台查看。当前阶段所有数据报告全部生成完成后,可通过点击页面上的“确认校验通过”,进入下一阶段。
注意
校验报告确认通过后,将不可再重新同步该阶段的数据。