数据输入,是用户开始进行可视化建模的任务处理的开端,需要选择一定的数据连接,实现从数据源中获取数据输入,进而可以选择数据清洗算子或者其他处理方式。
以MySQL数据连接的数据输入为例,将输入数据集推动到画布中,点击该输入算子。可以看到数据源信息,并且设置抽取的方式,进行非分区字段筛选,目前已经支持“且”与“或”的筛选逻辑,用户可以基于数据源进一步自由过滤数据。此外还可以设置抽取参数,设置预览的数据量等。
完成以上基本的数据输入处理后,用户可以进一步选择数据清洗或者特征工程等算子,实现多样的数据加工与处理。
可视化建模支持对大部分离线存储的数据输入做自定义SQL,实现基本的数据加工。在任务创建的数据连接环节,如果用户选择了数据集,那么在左侧画布中会显示:自定义SQL(离线任务可显示)、可视化建模数据集、智能数据洞察数据集、客户数据平台数据集(如同时购买并部署该产品)。其中自定义SQL简介如下:
Hive:可视化建模输出并且数据存储为Hive类型数据集,可以写SQL,满足Hive语法即可
ClickHouse:可视化建模输出并且数据存储为Clickhouse数据集,可以写SQL,满足ClickHouse语法即可
可视化建模中自定义SQL的配置界面,用户可以进行重命名、添加描述、复制与删除等操作。通常作为首个算子节点时,不支持“执行该节点”、“执行到此处”等。
在编辑区域中,为您准备了常见函数库,包括函数用途说明、命令格式、示例等。
如果已经编辑完成,用户可点击预览进行查看。