You need to enable JavaScript to run this app.
导航
构建和使用自定义镜像
最近更新时间:2024.12.03 19:03:46首次发布时间:2024.12.03 19:03:46

构建镜像

地域说明

目前支持地域如下。

中文名

英文名

华北

cn-beijing

华东

cn-shanghai

华南

cn-guangzhou

亚太东南(柔佛)

ap-southeast-1

基础镜像-Spark

使用时把{region}替换为所在区域的英文名,参考区域说明

镜像名称

大小

其他说明

emr-serverless-online-{region}.cr.volces.com/public/spark:online-SQL-1.0.0.189-20241115192146

4.82GiB

  • Spark版本:3.5.1
  • Python:3.10
  • Hadoop版本:3.3.4
  • 操作系统:Ubuntu 20.04

基础镜像-Ray

使用时把{region}替换为所在地域的英文名,参考地域说明

Ray的版本

镜像名称

大小

备注依赖包

2.33.0

emr-vke-public-{region}.cr.volces.com/emr/ray:2.33.0-cu11.8.0-py3.11-ubuntu20.04-244-1.6.0

6.67GiB

Java 8Hadoop 3.3.4

emr-vke-public-{region}.cr.volces.com/emr/ray:2.33.0-py3.11-ubuntu20.04-244-1.6.0

1.75GiB

Java 8Hadoop 3.3.4

2.30.0

emr-vke-public-{region}.cr.volces.com/emr/ray:2.30.0-py3.11-ubuntu20.04-207-1.5.0

1.76GiB

Java 8Hadoop 3.3.4

emr-vke-public-{region}.cr.volces.com/emr/ray:2.30.0-cu11.8.0-py3.11-ubuntu20.04-207-1.5.0

6.67GiB

Java 8Hadoop 3.3.4

emr-vke-public-{region}.cr.volces.com/emr/ray:2.30.0-cu12.1.0-py3.11-ubuntu20.04-211-1.5.0

6.66GiB

Java 8Hadoop 3.3.4

2.22.0

emr-vke-public-{region}.cr.volces.com/emr/ray:2.22.0-py3.9-ubuntu20.04-178-1.5.0

1.66GiB

Java 8Hadoop 3.3.4

emr-vke-public-{region}.cr.volces.com/emr/ray:2.22.0-cu11.8.0-py3.9-ubuntu20.04-178-1.5.0

6.56GiB

Java 8Hadoop 3.3.4

2.9.3

emr-vke-public-{region}.cr.volces.com/emr/ray:2.9.3-py3.9-ubuntu20.04-1.2.0

1.66GiB

Java 8Hadoop 3.3.4

emr-vke-public-{region}.cr.volces.com/emr/ray:2.9.3-cu11.8.0-py3.9-ubuntu20.04-1.2.0

6.56GiB

Java 8Hadoop 3.3.4

其他Ray基础镜像详见:Ray镜像列表

构建自定义镜像

基于以上EMR Serverless基础镜像构建自定义镜像,然后上传到自己的私有仓库。
例如假设Dockerfile内容如下:

FROM emr-serverless-online-cn-beijing.cr.volces.com/public/spark:3.5.1-ubuntu20.04-python3.10-1180

RUN apt-get update -y
RUN apt-get install build-essential -y
RUN pip install fasttext==0.9.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
RUN pip install fasttext-langdetect==1.0.5 -i https://pypi.tuna.tsinghua.edu.cn/simple

使用如下命令打自定义镜像:

docker build -f Dockerfile -t {私有镜像仓库域名}/test/spark:3.5.1-ubuntu20.04-python3.10-1180 .

然后上传到用户的镜像仓库。

docker push {私有镜像仓库域名}/test/spark:3.5.1-ubuntu20.04-python3.10-1180

使用自定义镜像

Spark作业参数

  • EMR Serverless 控制台-作业管理-提交作业。
-- 开启自定义镜像
set serverless.customized.image.enabled=true;
-- 设置客户私有镜像
set spark.kubernetes.container.image={客户自定义镜像};
  • PySpark作业。
# 使用自定义镜像
'serverless.customized.image.enabled': 'true',
'spark.kubernetes.container.image': 'emr-serverless-online-cn-beijing.cr.volces.com/emr-serverless-spark/spark:xxx'

Ray作业参数

  • EMR Serverless 控制台>作业管理>提交作业。
# 使用自定义镜像
set serverless.customized.image.enabled=true;
set serverless.ray.image=emr-serverless-online-cn-beijing.cr.volces.com/emr-serverless-spark/spark:xxx;
  • python提交作业。
# 使用自定义镜像
'serverless.customized.image.enabled': 'true',
'serverless.ray.image': 'emr-serverless-online-cn-beijing.cr.volces.com/emr-serverless-spark/spark:xxx'