一方面,企业内多业务条线的数据查询需求有一定差异,但仍需要保证数据一致性;另一方面,数据处理与ETL作业繁重,任务堆积乃至资源成本高的问题难以解决。
对此,智能数据洞察基于 Data Fabric(数据编织) 理念推出了 Fabric on DataWind 产品方案。在 Fabric on DataWind 方案中,提供了 Fabric模型、分析主题、自定义指标,能够在减少ETL作业,降低资源成本的同时,保证数据一致性。
架构层 | 对应能力 | 功能定义 |
---|---|---|
数据建模 | Fabric 模型 | 能力简介:Fabric 模型,构建统一的逻辑层,实现数据的自动聚合与关联,从而提高数据建设效率,降低ETL及存储成本,实现数据的统一建模。无需再重复生产大量ADS表和数据集,减少同步和存储资源的消耗。 |
查询加速 | 聚合物化 | 能力简介:聚合物化能力可以根据用户的历史查询行为,自动生成聚合物化视图,并且会依据后续的查询行为自动更新聚合物化视图的内容,无需数仓同学花费越来越多的精力来优化查询性能。 |
冷热查询 | 能力简介:冷热查询,根据业务人员的历史查询习惯,将数据区分为热数据与冷数据,从而实现无需做长周期回溯即可查询的效果,对资源利用而言,实现降本增效。 | |
数据消费 | 分析主题 | 能力简介:分析主题,支持根据业务团队或角色的数据查询需求,构建不同的分析主题,将来自同一个或者不同数据集的字段添加进一个分析主题中,并进行分类,作为集合进而可查询。在满足业务个性化需求的同时基于统一的数据模型层,保证数据的一致性。 |
自定义指标 | 能力简介:自定义指标,支持用户针对业务分析的数据计算逻辑,自定义指标,相当于预设了一种具备筛选条件的字段,在后续使用数据集查询数据时,可直接使用这些指标,不需要在额外配置筛选条件即可得到需要的数据。 |
数据编织(Data Fabric)的核心应用价值在于降低数据建设和生产成本。
对于数据开发角色而言,可以降低数据开发人力成本,让模型清晰可维护,具体体现在以下两个方面:
(1)减少数据集创建投入:无需因为业务需求的不同创建额外的数据集及ETL开发;
(2)减少数据集维护投入:减少数据集维护、回溯等成本。
对于数据消费角色而言,可以减少或收敛数据资产数量,提升业务查数体验,降低数据延时,业务消费数据无等待。