DataLeap是一款字节跳动自研的一站式大数据中台解决方案,集数据集成、开发、运维、治理、资产管理能力为一身,更多介绍请查看DataLeap入门概述。
DataLeap支持以安全模式或快捷模式访问EMR,使用EMR中的Hive,Spark等引擎进行作业的执行,关于DataLeap与EMR的使用请查看DataLeap on EMR 快速入门。
如果您使用的是快捷模式,则无需配置Ranger,安全模式下需要针对Ranger进行细粒度授权,确保作业可以成功运行。
在安全模式下EMR会匹配和DataLeap同名的用户执行任务,从而进行更细粒度的权限控制。在EMR与DataLeap绑定为安全模式时,需要在Ranger中进行用户的权限配置:
HDFS权限设置:
如果想授予账号全路径权限,可直接编辑policy all-path,在 Select User时,加入账号名称。
如果需要更细粒度的控制,可新增policy。
将常用目录 /tmp, /app-logs, /apps以及自己业务所需要的目录设置进去,授予对应的读写执行权限。
YARN权限设置:
默认情况下,只有 yarn 和 hive用户有提交任务的权限,希望以自己的用户能直接提交任务到Yarn,可以点击 default_yarn policy。
将对应账号添加至all-queue policy中。
HIVE权限设置:
点击 HIVE权限配置入口,Hadoop SQL,点击 default_hive。
编辑all-database,table,colum policy将用户加入其中获得所有权限,也可基于自己业务需要进行权限的增减。
DataLeap任务会把中间结果写入到HDFS上,因此需要将用户加入all-url policy中。
DTS数据集成权限配置: