本文为您介绍 Iceberg 表使用数据湖元数据的必要配置。
Spark 支持的 catalog type 有 Hive 和 Hadoop。关于 catalog 的参数配置还可参考官网。
参数 | 参数值 | 描述 |
---|---|---|
spark.sql.catalog.<catalog-name>.type |
| 底层 Iceberg catalog 实现类型, |
spark.sql.extensions |
| Spark SQL 扩展模块。固定值。 |
spark.sql.catalog.<catalog-name> |
| Catalog 名称。固定值。 |
spark.sql.catalog.<catalog-name>.uri | thrift://master-1-1:9083 | Metastore 的地址。查看 Hive 组件的配置文件 hive-site 中 |
spark.sql.catalog.<catalog-name>.warehouse | hdfs://master-1-1:8020/warehouse/path | Warehouse 地址。查看 Hive 组件的配置文件 hive-site 中 |
spark.sql.catalog.hive_prod = org.apache.iceberg.spark.SparkCatalog spark.sql.catalog.hive_prod.type = hive spark.sql.catalog.hive_prod.uri = thrift://master-1-1:9083 # omit uri to use the same URI as Spark: hive.metastore.uris in hive-site.xml
参数 | 参数值 | 描述 |
---|---|---|
spark.sql.catalog.<catalog-name>.type |
| 底层 Iceberg catalog实现类型, |
spark.sql.extensions |
| Spark SQL 扩展模块。固定值。 |
spark.sql.catalog.<catalog-name> |
| Catalog 名称。固定值。 |
spark.sql.catalog.<catalog-name>.warehouse | hdfs://master-1-1:8020/warehouse/path | Warehouse 地址。可以采用 HDFS 存储,也可以采用 TOS 存储 |
spark.sql.catalog.hadoop_prod = org.apache.iceberg.spark.SparkCatalog spark.sql.catalog.hadoop_prod.type = hadoop spark.sql.catalog.hadoop_prod.warehouse = hdfs://master-1-1:8020/warehouse/path
参数 | 参数值 | 描述 |
---|---|---|
spark.sql.catalog.<catalog-name>.catalog-impl | 底层 Iceberg catalog 实现类型。spark.sql.catalog.<catalog-name>.type 为空时,需配置该参数。 |
Hive 中支持 Iceberg 的 catalog type 有 Hive、Hadoop,也可以为空。 type 不同,配置项也不同:
参数 | 说明 |
---|---|
iceberg.catalog.<catalog_name>.type | 配置为 Hive |
iceberg.catalog.<catalog_name>.uri | Metastore 的地址。查看 Hive 组件的配置文件 hive-site 中 |
iceberg.catalog.<catalog_name>.clients | 客户端 pool 的个数 |
SET iceberg.catalog.another_hive.type=hive; SET iceberg.catalog.another_hive.uri=thrift://master-1-1:9083;
参数 | 说明 |
---|---|
iceberg.catalog.<catalog_name>.type | 配置为 hadoop |
iceberg.catalog.iceberg.clients | 客户端 pool 的个数 |
iceberg.catalog.iceberg.warehouse | Warehouse 地址 |
SET iceberg.catalog.hadoop.type=hadoop; SET iceberg.catalog.hadoop.warehouse=hdfs://master-1-1:8020/warehouse;
参数 | 说明 |
---|---|
iceberg.catalog.<catalog_name>.catalog-impl | catalog 的实现。catalog type 为空时,需配置。 |