新建 HiveMetaStore 集群并运行 SparkSQL 作业--E-MapReduce-火山引擎

文档中心

E-MapReduce

请输入

最佳实践

新建 HiveMetaStore 集群并运行 SparkSQL 作业

概述

本示例将展示如何创建 HiveMetaStore 集群，并已有 Spark 集群与新集群关联以便执行 SparkSQL 作业，查询 Tos 中的数据。

进入火山引擎 EMR 控制台 -> on VKE -> 创建虚拟集群：

选择产品版本及服务，服务选择 Hive；
填写集群信息，配置专属节点及对应的名称等信息；
选择 TOS bucket 对应的下属目录作为 SparkSQL 数据存储地址（请记录该值，在后续配置 spark 中使用）。之后填写具有该 bucket 读写权限的 AK、SK；
选择 RDS 实例及库作为 HMS schema 存储表

注意

如果您无历史数据，为避免发生数据覆盖，请选择新库作为 hms schema 的初始化库。hms 部署时将创建并更新对应库内的表及数据以满足 hms 运行时需要

此处假设您已创建对应的 spark 集群，您需要将上述创建的 hive 相关配置配置到 spark 集群中以便使用。

thrift://hive-metastore.{hive 集群所在 namespace}:9083/TCP
其中 namespace 可以在服务列表中查看：

之后点击右上角保存按钮。

添加配置项 spark.sql.warehouse.dir：
- 确定对应值：该值为您创建 hms 指定的 tos bucket及文件目录值。该值您也可以在 hms 集群中的配置项中找到：

之后点击确定，然后保存。

等待重启完成。

目前 sparkSQL 作业需要进入 Spark-Operator 镜像中以进行执行。

/opt/spark/bin/spark-sql

CREATE Table demo1 (key1 int, key2 int);
INSERT INTO demo1 (key1, key2) VALUES (1, 2);
SELECT * from demo1;

最近更新时间：2024.06.24 14:43:08

这个页面对您有帮助吗？

有用

无用