You need to enable JavaScript to run this app.
导航
基本概念
最近更新时间:2024.11.19 20:33:34首次发布时间:2023.01.18 17:24:17

本文汇总使用E-MapReduce过程中涉及的基本概念,方便您查询和了解相关概念。

通用概念

概念

说明

EMR

EMR 的全称是 E-MapReduce,通常指通过云服务提供的托管 Hadoop 大数据环境。在当前文档范围内,用于特指火山引擎的 E-MapReduce 大数据平台,是一个品牌概念,包含多种产品形态。

Serverless

无服务器架构,是一种云计算的资源模型。开发者无需管理复杂的软硬件配置,只需关注代码和业务逻辑。EMR Serverless 由火山平台提供服务器的维护,控制资源的扩展、保障服务的可用性。

集群

E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。每个E-MapReduce集群是由多个火山引擎ECS实例组成。

ECS实例

一种由CPU、内存、云盘组成的资源集合,每一种资源都会逻辑对应到数据中心的计算硬件实体。

节点

E-MapReduce集群由多个不同类型的实例节点组成,包括主实例节点(Master)、核心实例节点(Core)和计算实例节点(Task)。不同实例节点上部署的服务进程不同,负责完成的任务也不同。例如:

  • 主实例节点(Master):集群服务部署管控等组件的节点,例如,Hadoop YARN的 ResourceManager。
  • 核心实例节点(Core):被主实例节点管理的节点。核心实例节点上会运行Hadoop HDFS的Datanode服务,并保存所有的数据。同时,核心实例节点也会部署计算服务来执行计算任务。例如,Hadoop YARN的NodeManager服务。
  • 计算实例节点(Task):专门负责计算的实例节点,不会保存HDFS数据,被计算的数据来自 Core 节点及 TOS 中,因此 Task 节点往往被作为弹性节点,可随时扩容和缩容;主要部署 NodeManager服务,可随时更改 Task 节点数,实现集群弹性伸缩,最小值为0。

地域和可用区

  • 地域(Region):是指物理数据中心所在的不同地理区域。
    • 为了降低访问时延、提高下载速度,建议您选择最靠近所需服务的地域购买ECS,资源购买成功后不支持更换地域。
  • 可用区(Availability Zone,简称AZ ):是指在同一地域内,电力和网络互相独立的物理区域。
    • 一个地域通常由多个可用区组成。只有同一地域内的不同可用区之间内网互通,且使用低时延链路相连。不同地域之间的可用区完全隔离。

云盘和本地盘

  • 云盘:数据块级别的块存储产品,采用分布式三副本机制,为ECS实例提供99.9999999%的数据可靠性保证。
  • 本地盘:ECS实例所在物理机上的本地硬盘设备,存储I/O性能、海量存储的性价比极高,但数据可靠性取决于物理机的可靠性,存在单点故障风险。

AK/SK

Access Key ID(简称AK)和 Secret Access Key(简称SK)是请求火山引擎API的安全凭证。在火山云官网注册云账号后,可以在AccessKey管理页面生成该信息,用于标识用户,为访问EMR、其他云产品或连接第三方工具做签名验证。请妥善保管,必须保密,如果存在泄露风险,请及时禁用或更新。

元数据

元数据(Metadata)是用来描述数据信息的数据,提供了关于数据的上下文、结构和含义的信息。本系统的元数据是由LAS Formaiton来管理和提供服务的。

私有网络

私有网络(VPC)为您的云上环境提供内网安全隔离功能,不同VPC间私网不通。

安全组

安全组是一系列安全规则的集合,具备状态检测和数据包过滤能力,可以控制安全组内云服务器实例的入流量和出流量,是云服务器重要的网络安全隔离手段。

公网IP

公网IP EIP(Elastic IP)提供独立的公网IP资源,包括公网IP地址与公网出口带宽服务,为云资源提供访问Internet服务。

标签

由一对键值(Key-Value)组成。使用标签标识具有相同特征的资源后,例如所属组织或用途相同的资源,您可以基于标签方便地检索和管理资源。

项目

火山引擎为客户提供的一套云资源管理方式,用于对云资源进行集中的编排管理。例如您可基于“项目”对资源进行分组,然后基于项目进行权限管理及账单查询。

资源队列

是计算资源的提供形态,通过一种逻辑分组对资源进行隔离和控制。按量付费会开通公共队列的使用,包年包月会开通一个独占队列的使用。

预热能力

提供提前拉起的独享SparkSQL服务,提交SQL作业时,会直接提交到这个预热SparkSQL服务,跳过常规的资源申请阶段,有效的降低由于启动时间导致的秒级别作业时效失真。

FE (Frontend)

FE是Doris/StarRocks的前端节点,负责管理元数据,管理客户端连接,进行查询规划,查询调度等工作。每个FE节点都会在内存保留一份完整的元数据,这样每个FE节点都能够提供无差别的服务。

BE(Backend)

BE是Doris/StarRocks的后端节点,负责数据存储、SQL执行等工作。

CN(Compute Node)

  • 存算一体架构下,CN节点仅为查询提供额外的计算资源,不做数据存储。
  • 存算分离架构下,CN本地磁盘只用于缓存热数据来加速查询。

CU

CU是资源的计量单位,队列的容量通过CU进行表达。 1CU= 1 vCPU 4GiB Memory。在本系统中,设置资源参数时需要以CU为单位。

弹性资源

独占队列提供的一种容量类型,支持根据队列资源负载进行弹性扩容或缩容,以满足业务随时间波动的业务场景。此时业务只需要购买能满足日常保障需要的固定资源,再次基础上向上波动的资源按弹性资源购买。

命名空间

Kubernetes 命名空间在多个用户和应用程序之间分配集群资源。这些命名空间是多租户环境的基础。

DDL

Data Definition Language,数据定义语言。例如创建表、创建视图等操作。

DML

Data Manipulation Language,数据操作语言。例如INSERT、UPDATE、DELETE操作。

DQL

Data Query Language,数据查询语言。例如SELECT等操作。

SQL作业

直接提交Spark SQL语句的作业,称之为SQL作业。支持通过界面化或JDBC连接等方式提交。

Spark Jar作业

泛指Spark Core/Pyspark/MLlib等作业类型,可以通过可视化界面提交,也可以通过系统提供的SDK提交。

Function(函数)

系统提供的开源函数能力,包括Spark内置函数和用户自定义函数(UDF)。

计费概念

概念

说明

包年包月

又称为预付费,是一种先支付费用后使用资源的付款方式,适合计算和存储资源较为固定的使用方式。EMR包年包月的购买最小时长为1个月。

按量付费

又称为后付费,是一种先使用资源后支付费用的付款方式,可以更加灵活的开启和关闭EMR集群。

b