Spark计算环境的搭建

标签: spark

Spark的安装与配置

Spark的下载

Spark官网下载地址: http://spark.apache.org/downloads.html.

因为前期已经配置了Hadopp,所以在Choose a package type后面需要选择Pre-build with user-provided Hadoop,然后单击Download Spark后面的without-hadoop压缩包即可,下载的文件会被默认保存在"/home/hadoop/下载"目录中。
在这里插入图片描述
选择推荐的镜像即可下载
在这里插入图片描述

sudo tar -zxf ~/下载/spark-2.4.5-bin-without-hadoop.tgz -C /usr/local/

在这里插入图片描述
为了方便目录的查看等,将解压后的文件重命名为spark

cd /usr/local
sudo mv ./spark-2.4.5-bin-without-hadoop/ ./spark

在这里插入图片描述
为文件授予权限,避免遇到文件无法创建等问题,注意更改为当前用户名

sudo chown -R hadoop:hadoop ./spark    # hadoop是当前登录Linux系统的用户名

在这里插入图片描述

Spark的配置

修改Spark的配置文件spark-env.sh
安装文件解压后,需要修改Spark的配置文件spark-env.sh,首先可以先复制一份Spark安装文件自带的配置文件模板,命令如下:

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

在这里插入图片描述
使用gedit编辑器打开spark-env.sh文件进行编辑,在该文件的第一行添加一下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

在这里插入图片描述
验证Spark安装是否成功报错:/usr/local/spark/bin/spark-class: 行 71: /usr/lib/jdk/jdk1.8.0_221/bin/java: 没有那个文件或目录(详情可见小编的上一篇博客: here.)
解决方式:
jdk找不到路径问题,/usr/local/spark/conf/spark-env.sh文件中添加如下的 Java环境信息(可加到文本末尾,注意jdk版本号),直接配置修改文件spark-env中export (导入)jdk的路径即可。
在这里插入图片描述

export JAVA_HOME=/usr/java/jdk1.8.0_221

在这里插入图片描述
有了上述的配置信息后,Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。如果没有配置上面的信息,Spark就只能读写本地数据,无法读写HDFS中的数据。

配置完成后,就可以直接使用Spark,不需要像Hadoop那样运行启动命令,通过运行Spark自带的实例,可以验证Spark是否安装成功,命令如下:

cd /usr/local/spark
./bin/run-example SparkPi

在这里插入图片描述

执行时会输出很多屏幕信息,不容易找到最终的输出结果,为了从大量的输出信息中快速找到我们想要的执行结果,可以通过grep命令进行过滤。

bin/run-example SparkPi 2>&1 | grep "Pi is roughly"

在这里插入图片描述
启动Spark shell

cd /usr/local/spark
./bin/spark-shell

在这里插入图片描述
在这里插入图片描述
在Spark shell中进行测试

scala> 7*7+8
res0: Int = 57

在这里插入图片描述
关闭shell

scala>:quit

在这里插入图片描述
至此,Spark计算环境的搭建就结束了,如果博客中有问题,欢迎各位大神们指点迷津

版权声明:本文为yxx201125原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/yxx201125/article/details/106312414