本文汇总使用E-MapReduce过程中涉及的基本概念,方便您查询和了解相关概念。
概念 | 说明 |
---|---|
EMR | EMR 的全称是 E-MapReduce,通常指通过云服务提供的托管 Hadoop 大数据环境。在当前文档范围内,用于特指火山引擎的 E-MapReduce 大数据平台,是一个品牌概念,包含多种产品形态。 |
Serverless | 无服务器架构,是一种云计算的资源模型。开发者无需管理复杂的软硬件配置,只需关注代码和业务逻辑。EMR Serverless 由火山平台提供服务器的维护,控制资源的扩展、保障服务的可用性。 |
集群 | E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。每个E-MapReduce集群是由多个火山引擎ECS实例组成。 |
一种由CPU、内存、云盘组成的资源集合,每一种资源都会逻辑对应到数据中心的计算硬件实体。 | |
节点 | E-MapReduce集群由多个不同类型的实例节点组成,包括主实例节点(Master)、核心实例节点(Core)和计算实例节点(Task)。不同实例节点上部署的服务进程不同,负责完成的任务也不同。例如:
|
| |
| |
AK/SK | Access Key ID(简称AK)和 Secret Access Key(简称SK)是请求火山引擎API的安全凭证。在火山云官网注册云账号后,可以在AccessKey管理页面生成该信息,用于标识用户,为访问EMR、其他云产品或连接第三方工具做签名验证。请妥善保管,必须保密,如果存在泄露风险,请及时禁用或更新。 |
元数据 | 元数据(Metadata)是用来描述数据信息的数据,提供了关于数据的上下文、结构和含义的信息。本系统的元数据是由LAS Formaiton来管理和提供服务的。 |
私有网络(VPC)为您的云上环境提供内网安全隔离功能,不同VPC间私网不通。 | |
安全组是一系列安全规则的集合,具备状态检测和数据包过滤能力,可以控制安全组内云服务器实例的入流量和出流量,是云服务器重要的网络安全隔离手段。 | |
公网IP EIP(Elastic IP)提供独立的公网IP资源,包括公网IP地址与公网出口带宽服务,为云资源提供访问Internet服务。 | |
由一对键值(Key-Value)组成。使用标签标识具有相同特征的资源后,例如所属组织或用途相同的资源,您可以基于标签方便地检索和管理资源。 | |
火山引擎为客户提供的一套云资源管理方式,用于对云资源进行集中的编排管理。例如您可基于“项目”对资源进行分组,然后基于项目进行权限管理及账单查询。 | |
资源队列 | 是计算资源的提供形态,通过一种逻辑分组对资源进行隔离和控制。按量付费会开通公共队列的使用,包年包月会开通一个独占队列的使用。 |
预热能力 | 提供提前拉起的独享SparkSQL服务,提交SQL作业时,会直接提交到这个预热SparkSQL服务,跳过常规的资源申请阶段,有效的降低由于启动时间导致的秒级别作业时效失真。 |
FE (Frontend) | FE是Doris/StarRocks的前端节点,负责管理元数据,管理客户端连接,进行查询规划,查询调度等工作。每个FE节点都会在内存保留一份完整的元数据,这样每个FE节点都能够提供无差别的服务。 |
BE(Backend) | BE是Doris/StarRocks的后端节点,负责数据存储、SQL执行等工作。 |
CN(Compute Node) |
|
CU | CU是资源的计量单位,队列的容量通过CU进行表达。 1CU= 1 vCPU 4GiB Memory。在本系统中,设置资源参数时需要以CU为单位。 |
弹性资源 | 独占队列提供的一种容量类型,支持根据队列资源负载进行弹性扩容或缩容,以满足业务随时间波动的业务场景。此时业务只需要购买能满足日常保障需要的固定资源,再次基础上向上波动的资源按弹性资源购买。 |
命名空间 | Kubernetes 命名空间在多个用户和应用程序之间分配集群资源。这些命名空间是多租户环境的基础。 |
DDL | Data Definition Language,数据定义语言。例如创建表、创建视图等操作。 |
DML | Data Manipulation Language,数据操作语言。例如INSERT、UPDATE、DELETE操作。 |
DQL | Data Query Language,数据查询语言。例如SELECT等操作。 |
SQL作业 | 直接提交Spark SQL语句的作业,称之为SQL作业。支持通过界面化或JDBC连接等方式提交。 |
Spark Jar作业 | 泛指Spark Core/Pyspark/MLlib等作业类型,可以通过可视化界面提交,也可以通过系统提供的SDK提交。 |
Function(函数) | 系统提供的开源函数能力,包括Spark内置函数和用户自定义函数(UDF)。 |
概念 | 说明 |
---|---|
又称为预付费,是一种先支付费用后使用资源的付款方式,适合计算和存储资源较为固定的使用方式。EMR包年包月的购买最小时长为1个月。 | |
又称为后付费,是一种先使用资源后支付费用的付款方式,可以更加灵活的开启和关闭EMR集群。 |
b