DataWind 的 SQL 查询模块允许用户下载查询结果并进行分析。(本功能为增值模块,目前仅限私有化部署可使用,自V2.58.0及以上版本支持。如您需要使用,请联系贵公司的商务人员或客户成功经理咨询购买事宜)。
目前支持的下载格式:CSV
CSV 格式下载行数限制如下:
行数<=100W 且 文件大小 <=5G
SQL 查询结果最多显示100万条,如需跑超过100万行的全量数据,可在语句后添加"limit 一个比你所取数行数大或相等的值"。
面对大量数据无法直接下载的情况,系统支持选择写入您有权限的 Hdfs 链接并在 Hdfs 中下载数据。
Tqs 支持将结果数据直接写入 Hdfs,您可以进行如下配置:
在 Spark 写入结果后,您自行下载即可。
set tqs.query.engine.type=sparkcli; -- 目前只支持sparkcli set tqs.query.result.hdfs.enabled=true; -- 打开开关 set tqs.query.result.hdfs.path=\*\*\*; -- 指定hdfs路径 set tqs.query.result.format=csv; -- 指定csv格式 或者 parquet格式 【csv/parquet】 set tqs.query.result.partition.num=200; -- 指定生成的hdfs文件个数,可以根据结果文件大小自己调整。如果不设置 跟最后一次的shuffle数一致 select xxx from xxx; -- 直接写SELECT(不用加insert directory),结果将保存在HDFS中
注意:
下载后的 CSV 若出现直接以表格形式打开乱码/长数字(如 Uid 等)被科学计数法等问题,可按以下步骤尝试:
步骤一: 前往下载文件夹,右键单击文件,选择打开方式-文本编辑。
步骤二: 按 Ctrl(Ios 系统为 Cmd+A),全选并复制内容。
步骤三: 打开 Excel 软件,粘贴后点击粘贴选项,选择「使用文本导入向导」,分隔符号选择逗号;如有需要避免科学计数的长数字字段,在第三步选中该列字段并设为文本格式。
步骤四: 点击完成后保存即可。