You need to enable JavaScript to run this app.
导航
Data Fabric能力概述
最近更新时间:2024.12.02 15:48:45首次发布时间:2024.12.02 15:48:45
我的收藏
有用
有用
无用
无用

1.概述

一方面,企业内多业务条线的数据查询需求有一定差异,但仍需要保证数据一致性;另一方面,数据处理与ETL作业繁重,任务堆积乃至资源成本高的问题难以解决。
对此,智能数据洞察基于 Data Fabric(数据编织) 理念推出了 Fabric on DataWind 产品方案。在 Fabric on DataWind 方案中,提供了 Fabric模型、分析主题、自定义指标,能够在减少ETL作业,降低资源成本的同时,保证数据一致性。

2. 能力列表

架构层

对应能力

功能定义

数据建模

Fabric 模型

能力简介:Fabric 模型,构建统一的逻辑层,实现数据的自动聚合与关联,从而提高数据建设效率,降低ETL及存储成本,实现数据的统一建模。无需再重复生产大量ADS表和数据集,减少同步和存储资源的消耗。
核心价值:减少建表与资源消耗。

查询加速

聚合物化

能力简介:聚合物化能力可以根据用户的历史查询行为,自动生成聚合物化视图,并且会依据后续的查询行为自动更新聚合物化视图的内容,无需数仓同学花费越来越多的精力来优化查询性能。
应用场景:对于普通用户一般有两种查询需求,一种是查数据明细,另一种则是按照一些粒度聚合或者是使用了一些复杂表达式字段的查询,所以过去很多数仓同学就会按照用户对于聚合数据的查询需求,基于明细数据集额外建设聚合后的表,这样不同需求的同学可以去查询不同的数据集。
核心价值:优化数据查询性能。

冷热查询

能力简介:冷热查询,根据业务人员的历史查询习惯,将数据区分为热数据与冷数据,从而实现无需做长周期回溯即可查询的效果,对资源利用而言,实现降本增效。
应用场景:用户可能会对一个数据集经常进行短期数据的高频查询,但是遇到季度总结或者年度总结的时候,又偶尔需要查询特别长周期的数据,如果给数据集设定很长的生命周期,那些不怎么查询的长周期数据又会占用很多的存储。用户在创建完数据集后,无需等待数据同步完成才能查询数据,减少数据查询与分析过程中的等待时间;在对于规模较大的数据集,进行长周期的数据查询时候往往需要做长周期的数据回溯,冷热区分可以减少查询成本。
核心价值:资源利用降本增效。

数据消费

分析主题

能力简介:分析主题,支持根据业务团队或角色的数据查询需求,构建不同的分析主题,将来自同一个或者不同数据集的字段添加进一个分析主题中,并进行分类,作为集合进而可查询。在满足业务个性化需求的同时基于统一的数据模型层,保证数据的一致性。
应用场景:当数据集建设完成后,就需要来考虑用户如何更好地基于数据集提供更加高效的生产服务及业务消费方式,尤其是当数据集数量和数据集中字段的数量越来越多,如何让数据生产者减少面向业务的数据集建设及维护、用户更好地找到自己需要的数据就成了重要的问题。分析主题可以理解成一个虚拟的数据集,大家可以将来自同一个或者不同数据集的字段,添加进这个分析主题中,并对这些字段进行分类,作为一些字段的集合,并支持对这些字段进行查询。
核心价值:符合业务用户的场景化查数需求。

自定义指标

能力简介:自定义指标,支持用户针对业务分析的数据计算逻辑,自定义指标,相当于预设了一种具备筛选条件的字段,在后续使用数据集查询数据时,可直接使用这些指标,不需要在额外配置筛选条件即可得到需要的数据。
应用场景:业务人员在分析数据时,往往需要根据时间周期、业务场景、分析逻辑来进行数据的计算,不同场景下的计算逻辑不同,因此往往需要设计自定义指标。
核心价值:符合业务用户的场景化查数需求。

3.价值概述

数据编织(Data Fabric)的核心应用价值在于降低数据建设和生产成本。
对于数据开发角色而言,可以降低数据开发人力成本,让模型清晰可维护,具体体现在以下两个方面:
(1)减少数据集创建投入:无需因为业务需求的不同创建额外的数据集及ETL开发;
(2)减少数据集维护投入:减少数据集维护、回溯等成本。
对于数据消费角色而言,可以减少或收敛数据资产数量,提升业务查数体验,降低数据延时,业务消费数据无等待。