系统内置轻量级数据清洗及可视化建模能力,支持通过拖拽形式添加数据处理节点,对数据进行筛选、去重、替换等清洗操作,数据清洗完成后,可以将处理完成的数据输出到目标源中,降低深度数据治理成本。
同时,可视化建模能力还可以帮助具备开发基础的人员进行数据建模工作,例如用户意向预测等,采用机器学习的方式,推算用户的购车意向。除此之外系统还提供Catboost分类、K-Means聚类、决策树回归、ARIMA模型等多样化的机器学习算子,帮助用户完成数据建模工作。
用户需具备 项目编辑 权限或者 可视化建模模块的查看/新建任务 权限,才能使用该功能。
可视化建模中部分功能为 付费能力,如有需要,请联系您的商务经理
功能名称 | 功能说明 | 备注 |
---|---|---|
基础版可视化建模功能 |
| 凡采购客户数据平台(VeCDP)标准版产品的客户 默认拥有 基础版可视化建模功能,不需要额外付费使用。 |
数据清洗算子 | - 支持筛选行、添加计算列、连接、合并、行列转置、拆分字段等数据清洗算子 | 该功能为 付费能力,如有需要,请联系您的商务经理。 |
外部输出算子 | - 提供外部输出算子,支持将加工好的数据输出至外部存储中,从而实现数据资产的输出能力构建。 | 该功能为 付费能力,如有需要,请联系您的商务经理。 |
AI算子 | - 支持二值化、列归一化、主成分分析法、笛卡尔积等特征工程算子;支持K-means聚类、线性回归、ARIMA模型、二分类评估等机器学习算子;支持生成句向量、移除停用词、分词等自然语言处理算子。 | 该功能为 付费能力,如有需要,请联系您的商务经理。 |
加解密算子 | - 支持根据特定的加密或解密算法,将数据源中的指定字段数据进行加密或解密的数据安全管理功能。 | 该功能为 付费能力,如有需要,请联系您的商务经理。 |
数据建模: 按照某种数据处理逻辑将原始数据进行清洗、加工及生产的过程叫做数据建模
数据连接: 构建与各类数据源打通的配置能力,实现数据读取的首要功能
画布: 将各功能模块按照有向流程组建成一种数据加工流程的可视化效果
算子:画布中数据读取、加工、算法、数据输出能力的集成能力,对应画布中每个方块
连线: 算子间的有向关系,指代两个算子间数据流转的通道
实时任务: 数据源数据是实时更新且数据流实时加工的可视化建模任务
离线任务: 数据源数据是天级/小时级等更新(即每天/每小时更新一次)且数据流程加工过程是定时执行或手动执行的可视化建模任务
在数据分析的开始阶段,经常需要清洗和处理原始数据,包括删除重复数据,处理缺失值和异常值,以及对数据进行转化等。通过可视化建模,用户可以直观地制定数据清洗规则,并在可视化的界面上实时查看清洗结果,提高数据质量,为后续分析打下良好的基础。
例如,客户调研时获取了海量的行为数据,但是在实际分析时并不需要那么多数据,因此希望对数据进行抽样分析,为保证抽样结果的均匀性,希望根据不同年龄分别抽取一定比例的数据。可通过「分层采样」算子进行分类抽样,如基于样例数据根据「年龄」设置不同年龄提取50%的数据进行采样分析,输出结果将只剩余50%的数据并应用于后续的算子中。
可视化建模功能模块封装了超过30余个常见的AI算子能力,仅需了解算法的作用,即可通过可视化的方式配置算法算子的输入和训练目标,完成模型训练,并根据配置的其他数据内容快速得到预测结果,从而支持决策、优化、预测等业务目标。
例如,利用聚类算子实现客户的自动化分层,通过分析客户的多个属性数据来进行分层,包括客户的生日、保修次数以及上个月小程序的打开次数等。用户可以自行设定目标类别的数量,以此来构建训练模型。一旦模型训练完成,就可以通过添加AI预测算子来对全量待预测的数据进行分类。预测结果会生成一个新的字段「prediction用户类别」,用于表示每个用户所属的类别,相同预测值的用户将被归为同一类别。帮助企业更好地理解客户群体,实现更精准的市场细分和个性化服务。
为了保护用户敏感的信用评分数据(如年龄、性别、工资收入和婚姻状态),用户需要在数据接入平台后对这些信息进行加密。加密过程将使用平台生成的秘钥,确保只有用户本人知道如何解密。这样,即使数据以加密形式存储,也不影响统计分析。在需要使用明文数据进行用户画像绘制时,可以通过特定的解密算子来解密这些加密数据,解密过程可以通过系统内置功能或手动输入秘钥来完成。
创建可视化建模任务-->选择数据连接-->添加数据算子-->配置算子连接关系-->配置算子-->执行算子-->输出算子-->设置输出算子的存储方式。