1 应用背景
随着公司数据规模的快速膨胀,垂直业务单元会越来越多,而基于大数据的业务所需要的数据不仅仅是某个垂直单元的,使用数据类型繁多的数据才能具备核心竞争力。
在跨垂直单元数据建设过程中,各种数据对不齐、指标集中梳理难、指标统一定义难、指标问题追溯难等问题突出,痛点不断。
指标一体化解决方案指标平台,是建设公司范围内指标视角的统一资产(元数据)中心,能够解决“灵活数据分析”场景下的找数据和找口径的问题;维护可共享、可视化、服务化的业务指标体系;通过“事后治理融入事中研发、事中治理融入事前设计”的产品理念,帮助业务从需求源头规范化数据建设,达到“统一口径、高质量、无重复”的目标,让数据真正“好找、敢用”。
通过指标平台,可以达到以下目标:
- 数据标准统一,降低研发成本
在各种场景下保证了指标/维度口径一致性,能有效减少数据生产者与消费者之间不必要的沟通,更高效支持研发工程师与业务的分工与协作,降低研发成本的同时,数据质量也有了保障。 - 降低存储与计算成本
数据指标精简、粒度清晰,去掉无用、重复的指标生产加工任务,可以极大地降低存储与计算成本。 - 数据服务化
通过指标平台可以方便地进行指标的服务化。通过指标平台对外发布的指标,其他第三方应用可以通过open api或者离线推送的方式方便快捷的获取指标数据,用于分析或者可视化;服务化之后的指标屏蔽了底层物理表,指标口径变更时使用方不需要做额外的工作。
2 功能介绍
指标平台主要包括规范定义、建模研发、管理中心三个版块。
- 规范定义
提供一套指标命名及口径管理的工具(单纯的指标定义,和物理实现无关)。
- 通过对指标进行原子、衍生、修饰词的拆解,进行结构化的管理。
- 根据指标的构建逻辑追溯指标血缘和影响范围。
- 建模研发
- 可低成本、快速创建指标(区别于规范定义创建的标准指标)。
- 可导入当前支持的数据源为模型,并在模型上构建计算逻辑关联已定义的指标。
- 管理中心
用于管理业务线、指标分类、扩展属性配置、指标服务授权等信息。
3 基本概念
指标平台以维度建模为理论基础,划分并定义业务线、指标、数据模型, 支持导入多种数据源构建模型,提供多样指标构建方式,消除指标二义性,保证指标数据出口一致性。
- 业务线
带有业务含义的相对独立的业务空间。在相同业务线内对指标进行规范化定义,保证相同业务线下,不同产品之间指标的规范化命名和一致性定义。同时,可在业务线下进行角色、资源、权限的管理设置。 - 产品
产品从属于业务线,一个产品对应唯一一个appid。如果数据不对应一个具体app产品,可选择绑定在全产品/国内全产品/国外全产品上,仅做标识作用。 - 指标
指标的元信息分为业务元信息和技术信息。
- 业务元信息包含业务定义、详细定义、业务负责人、技术负责人等(不涉及物理实现) 。
- 技术信息包含相关模型,支持在指标平台上通过数据源直接构建模型。
对于统计指标的物理实现,目前提供三种构建方式: - 根据主数据源的字段或自定义字段直接构建指标,例如活跃设备数。
- 根据该模型已有的指标,添加过滤条件(业务限定、统计周期、统计粒度)构建新的指标,例如:最近30天高龄活跃设备数=活跃设备数+ 最近30天(时间周期)+高龄(业务限定词)。
- 根据该模型已有的指标,指标间进行四则运算构建新的指标,例如:新增设备次日留存率=新增设备次日留存/新增设备数。
- 修饰词
仅通过规范定义的方式构建指标时会用到修饰词。
- 业务修饰词:统计的业务范围,筛选出符合业务规则的记录(类似于SQL中where后的条件,不包括时间区间)。
- 时间周期:用来明确数据统计的时间范围或者时间点,例如最近7天,最近30天,自然月,自然周等(类似于SQL中时间的筛选条件)。
- 统计粒度:统计分析的对象或视角,定义数据汇总的程度,可以理解为聚合运算时的分组条件(类似于SQL中group by的对象)。
- 模型
数据模型由指标字段、维度字段组成,其数据来源可以是物理数据源,也可以是关联数据源。 - 指标级别
指标有不同的重要程度,对指标进行分级定义,明确业务的核心指标,并投入更多精力维护核心指标口径的正确性,可以帮助我们更好的维护一个健壮的指标体系。
- D1:公司级指标,支撑公司战略决策,需要在公司范围内统一,例如日活、新增、留存等。
- D2:业务级核心指标,支持业务决策和拆分D1级指标,例如直播时长、直播观看人数、搜索次数等。
- D3:其他分析型指标,灵活,常用于分析和辅助业务发展,例如签约主播直播时长、主动搜索次数等。