概述--客户数据平台-火山引擎

文档中心

导航

概述

最近更新时间：2024.03.28 11:23:41首次发布时间：2024.03.28 11:23:41

1.功能概述

系统内置轻量级数据清洗及可视化建模能力，支持通过拖拽形式添加数据处理节点，对数据进行筛选、去重、替换等清洗操作，数据清洗完成后，可以将处理完成的数据输出到目标源中，降低深度数据治理成本。

同时，可视化建模能力还可以帮助具备开发基础的人员进行数据建模工作，例如用户意向预测等，采用机器学习的方式，推算用户的购车意向。除此之外系统还提供Catboost分类、K-Means聚类、决策树回归、ARIMA模型等多样化的机器学习算子，帮助用户完成数据建模工作。

2.使用限制

用户需具备 项目编辑 权限或者 可视化建模模块的查看/新建任务 权限，才能使用该功能。
可视化建模中部分功能为 付费能力，如有需要，请联系您的商务经理

3.核心功能

功能名称	功能说明	备注
基础版可视化建模功能	离线可视化建模任务：数据清洗：支持「字段设置」、「IDMapping算子」输出节点：支持「输出」、「输出标签」算子实时可视化建模任务：数据清洗：支持「字段设置」、「IDMapping算子」、「IDM多主体转化算子」输出节点：支持「输出」、「输出实时标签」、「分流输出」算子	凡采购客户数据平台（VeCDP）标准版产品的客户默认拥有基础版可视化建模功能，不需要额外付费使用。
数据清洗算子	- 支持筛选行、添加计算列、连接、合并、行列转置、拆分字段等数据清洗算子	该功能为付费能力，如有需要，请联系您的商务经理。
外部输出算子	- 提供外部输出算子，支持将加工好的数据输出至外部存储中，从而实现数据资产的输出能力构建。	该功能为付费能力，如有需要，请联系您的商务经理。
AI算子	- 支持二值化、列归一化、主成分分析法、笛卡尔积等特征工程算子；支持K-means聚类、线性回归、ARIMA模型、二分类评估等机器学习算子；支持生成句向量、移除停用词、分词等自然语言处理算子。	该功能为付费能力，如有需要，请联系您的商务经理。
加解密算子	- 支持根据特定的加密或解密算法，将数据源中的指定字段数据进行加密或解密的数据安全管理功能。	该功能为付费能力，如有需要，请联系您的商务经理。

4.名词解释

数据建模： 按照某种数据处理逻辑将原始数据进行清洗、加工及生产的过程叫做数据建模
数据连接： 构建与各类数据源打通的配置能力，实现数据读取的首要功能
画布： 将各功能模块按照有向流程组建成一种数据加工流程的可视化效果
算子：画布中数据读取、加工、算法、数据输出能力的集成能力，对应画布中每个方块
连线： 算子间的有向关系，指代两个算子间数据流转的通道
实时任务： 数据源数据是实时更新且数据流实时加工的可视化建模任务
离线任务： 数据源数据是天级/小时级等更新（即每天/每小时更新一次）且数据流程加工过程是定时执行或手动执行的可视化建模任务

5.应用场景

5.1 可视化数据清洗，更高效

在数据分析的开始阶段，经常需要清洗和处理原始数据，包括删除重复数据，处理缺失值和异常值，以及对数据进行转化等。通过可视化建模，用户可以直观地制定数据清洗规则，并在可视化的界面上实时查看清洗结果，提高数据质量，为后续分析打下良好的基础。

例如，客户调研时获取了海量的行为数据，但是在实际分析时并不需要那么多数据，因此希望对数据进行抽样分析，为保证抽样结果的均匀性，希望根据不同年龄分别抽取一定比例的数据。可通过「分层采样」算子进行分类抽样，如基于样例数据根据「年龄」设置不同年龄提取50%的数据进行采样分析，输出结果将只剩余50%的数据并应用于后续的算子中。

5.2 AI算子辅助数据挖掘，助力数据智能

可视化建模功能模块封装了超过30余个常见的AI算子能力，仅需了解算法的作用，即可通过可视化的方式配置算法算子的输入和训练目标，完成模型训练，并根据配置的其他数据内容快速得到预测结果，从而支持决策、优化、预测等业务目标。

例如，利用聚类算子实现客户的自动化分层，通过分析客户的多个属性数据来进行分层，包括客户的生日、保修次数以及上个月小程序的打开次数等。用户可以自行设定目标类别的数量，以此来构建训练模型。一旦模型训练完成，就可以通过添加AI预测算子来对全量待预测的数据进行分类。预测结果会生成一个新的字段「prediction用户类别」，用于表示每个用户所属的类别，相同预测值的用户将被归为同一类别。帮助企业更好地理解客户群体，实现更精准的市场细分和个性化服务。

5.3 通过加解密算子，保障数据信息安全

为了保护用户敏感的信用评分数据（如年龄、性别、工资收入和婚姻状态），用户需要在数据接入平台后对这些信息进行加密。加密过程将使用平台生成的秘钥，确保只有用户本人知道如何解密。这样，即使数据以加密形式存储，也不影响统计分析。在需要使用明文数据进行用户画像绘制时，可以通过特定的解密算子来解密这些加密数据，解密过程可以通过系统内置功能或手动输入秘钥来完成。

5.使用流程

创建可视化建模任务-->选择数据连接-->添加数据算子-->配置算子连接关系-->配置算子-->执行算子-->输出算子-->设置输出算子的存储方式。