You need to enable JavaScript to run this app.
导航
基本概念
最近更新时间:2024.05.13 20:14:48首次发布时间:2024.05.13 20:14:48

Serverless

无服务器架构,是一种云计算的资源模型。开发者无需管理复杂的软硬件配置,只需关注代码和业务逻辑。EMR Serverless 由火山平台提供服务器的维护,控制资源的扩展、保障服务的可用性。

AK/SK

Access Key ID(简称AK)和 Secret Access Key(简称SK)是是请求火山引擎API的安全凭证。在火山云官网注册云账号后,可以在AccessKey管理页面生成该信息,用于标识用户,为访问EMR、其他云产品或连接第三方工具做签名验证。请妥善保管,必须保密,如果存在泄露风险,请及时禁用或更新。

DDL

Data Definition Language,数据定义语言。例如创建表、创建视图等操作。

DML

Data Manipulation Language,数据操作语言。例如INSERT、UPDATE、DELETE操作。

DQL

Data Query Language,数据查询语言。例如SELECT等操作。

存储

计算引擎支持读取各种格式的数据,数据可能存储在多种存储介质中。本系统推荐使用的存储是火山对象存储TOS

元数据

元数据(Metadata)是用来描述数据信息的数据,提供了关于数据的上下文、结构和含义的信息。本系统的元数据是由LAS Formaiton来管理和提供服务的,

资源队列

是计算资源的提供形态,通过一种逻辑分组对资源进行隔离和控制。按量付费会开通公共队列的使用,包年包月会开通一个独占队列的使用。

SQL专用资源

只能执行SQL作业的队列类型,不支持提交Spark Jar作业,由于提供Driver预热能力,实现了SQL作业没有等待时间,提交后马上可以执行的能力。

预热能力

提供提前拉起的独享SparkSQL服务,提交SQL作业时,会直接提交到这个预热SparkSQL服务,跳过常规的资源申请阶段,有效的降低由于启动时间导致的秒级别作业时效失真。

通用资源

既包含SQL专用队列资源,也包含普通类型的,用于执行Spark Jar&Spark SQL作业的资源,是一种混合队列类型。用户可以根据需要分别设置两种资源的CU数量(规格)。

CU

CU是资源的计量单位,队列的容量通过CU进行表达。 1CU= 1 vCPU 4GiB Memory。在本系统中,设置资源参数时需要以CU为单位。

弹性资源

独占队列提供的一种容量类型,支持根据队列资源负载进行弹性扩容或缩容,以满足业务随时间波动的业务场景。此时业务只需要购买能满足日常保障需要的固定资源,再次基础上向上波动的资源按弹性资源购买。

SQL作业

直接提交Spark SQL语句的作业,称之为SQL作业。支持通过界面化或JDBC连接等方式提交。

Spark Jar作业

泛指Spark Core/Pyspark/MLlib等作业类型,可以通过可视化界面提交,也可以通过系统提供的SDK提交。

Function(函数)

系统提供的开源函数能力,包括Spark内置函数和用户自定义函数(UDF)。