本文将为您介绍如何快速进入火山引擎 E-MapReduce(EMR)集群中,操作 Spark 服务相关的内容开发。
登陆集群节点后,进入 spark 文件目录
cd /usr/lib/emr/current/spark
调用 bin 目录下的 spark-shell 脚本启动程序,运行命令模版如下
./bin/spark-shell
调用 bin 目录下的 pyspark 脚本启动程序,运行命令模版如下
./bin/pyspark
调用 bin 目录下的 spark-sql 脚本启动程序,运行命令模版如下
./bin/spark-sql
登陆集群节点,进入 spark 文件目录
cd /usr/lib/emr/current/spark
首先需要使用 Spark 的 API 实现一个拥有入口(main)的程序,然后通过 spark-submit 提交
如运行 spark 自带 Pi 示例程序
jar包提交: ./bin/spark-submit --class org.apache.spark.examples.SparkPi examples/jars/spark-examples.jar 10 python file: ./bin/spark-submit examples/src/main/python/pi.py 10
运行成功会返回日志及 application_id 链接
如果要查看具体任务运行情况,可以登 yarn 界面搜索 application_id 查看任务
Ksana for SparkSQL是 EMR 团队自研的 SparkSQL Server,可用在生产环境下,解决了 Spark Thrift Server 的问题,默认开启端口为10005。通过 beeline 连接 Ksana for SparkSQL,部分初始化账户密码可通过集群管理界面的 OpenLDap 的配置中获取。
说明
beeline -u jdbc:hive2://emr-master-1-1:10005 -n <user> -p <password>
0: jdbc:hive2://emr-master-1-1:10005> show databases;
获取返回结果
+------------+ | namespace | +------------+ | default | +------------+