火山引擎 E-MapReduce 支持集成和管理 Hadoop、Spark、Hive、Flink 等生态组件。本文介绍如何配置 MapReduce 上的 HDFS 服务来使用文件存储 CloudFS。
在配置 MapReduce 使用 CloudFS,确保您已经完成以下准备工作:
说明
集群所有节点都要修改如下配置。
wget https://cloudfs.tos-cn-beijing.volces.com/sdk/prod/cloudfs-client-1.5.3.49.tar.gz
tar -zxvf cloudfs-client-1.5.3.49.tar.gz
将解压文件cloudfs-client/lib/cloudfs-sdk-1.5.3.49.jar
拷贝至集群/share/hadoop/hdfs
路径下。
cp {YOUR_DOWNLOAD_PATH}/cloudfs-client/lib/cloudfs-sdk-1.5.3.49.jar /opt/{Directory}/hadoop/share/hadoop/hdfs/
配置 core-site.xml。
<property> <name>fs.cfs.impl</name> <value>com.volcengine.cloudfs.fs.CfsFileSystem</value> </property> <property> <name>fs.AbstractFileSystem.cfs.impl</name> <value>com.volcengine.cloudfs.fs.CFS</value> </property> <property> <name>cfs.access.key</name> <value>AKxxxxxxxxxxx</value> </property> <property> <name>cfs.secret.key</name> <value>SKxxxxxxxxxxx</value> </property> <!-- 可选:如果使用的是 STS Token,需要填写 --> <property> <name>cfs.security.token</name> <value>STSTokenxxxxxxxx</value> </property> <!-- 可选:如果开启缓存加速,需要配置缓存加速接入的 VPC 的网段 --> <property> <name>cfs.client.network.segment</name> <value><VPC 网段,例如 192.168.0.0/16></value> </property>
说明
xxxx.cfs-cn-beijing.ivolces.com
即为大数据文件存储的挂载点地址,将其替换为文件存储实例上获取的完整挂载地址即可。此处请根据实际业务情况替换。AKxxx
和SKxxx
分别为访问密钥 ID 和私有访问密钥,详细说明请参考密钥管理。登录火山引擎 E-MapReduce 控制台。
在集群管理页面,找到需要挂载文件存储实例的目标 E-MapReduce 集群。
使用 E-MapReduce hadoop 中自带的测试包hadoop-mapreduce-examples-*.jar
进行测试。该测试包默认放置在/opt/{YOUR_PATH}/hadoop/2.x.x-1.x.x/package/hadoop-2.x.x-1.x.x/share/hadoop/mapreduce/
目录下。
执行以下命令,在/mr/input
目录下生成并查看目标数据。例如:
hadoop jar /opt/{YOUR_PATH}/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar \ teragen 100000 cfs://{YOUR_ENDPOINT}/mr/input hadoop jar /opt/tiger/current/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar \ terasort cfs://{YOUR_ENDPOINT}/mr/input cfs://{YOUR_ENDPOINT}/mr/output
说明
{YOUR_ENDPOINT}替换为您的文件存储实例上的挂载点域名(cfs://xxxx.cfs-cn-beijing.ivolces.com)。