为了账号安全,请及时绑定邮箱和手机立即绑定

Spark-yarn伪分布式搭建

标签:
Spark

配环境

1.etc/profile

export SPARK_HOME=/usr/local/spark/spark2.2export PATH=$SPARK_HOME/bin:$PATH

2.spark/conf/spark-env.sh

export JAVA_HOME=/usr/local/java/jdk1.8.0_161export SPARK_MASTER_HOST=127.0.0.1 #不是master-ip那是1.x版本的写法export HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.3export SPARK_HOME=/usr/local/spark/spark2.2export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/nativeexport LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/:$LD_LIBRARY_PATH

3.spark-default.sh

spark.master                 spark://ubuntu:7077   #这里要注意spark.ui.port                4040#提交作业的默认UI,被占用的时候依次往下推

配置spark主要配置两个文件,一个是spark-env.sh这是spark的环境变量。另外一个是spark-defauts是每次提交作业的配置,可以不用配置,默认使用默认的配置或者提交作业的时候动态配置。

在启动sparkmaster和worker的时候,在sbin目录下用./形式启动,否则运行的是hadoop的命令,那样始终看不到master和worker

master 的端口和UI的端口不是一个端口

spark-default.conf中的spark UI port是每次提交作业默认的显示端口

整个spark的UI显示端口在8080

可能踩到的坑

(1)

Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

在spark-env.sh中添加

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/:$LD_LIBRARY_PATH

(2)

WARN StandaloneAppClient$ClientEndpoint: Failed to connect to master localhost:7077

打开web UI,8080端口的那个,看上面写的master地址和端口是多少,spark-default.sh中spark.mater的值就要写多少

(3)在pycharm中使用spark的pyspark时,需要在环境变量里面把spark的python文件路径和python文件夹下lib的py4压缩文件添加进去



作者:dpengwang
链接:https://www.jianshu.com/p/36d5b90f4842


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消