spark开发环境搭建
1.jdk
windows上环境spark开发环境搭建
windows只是为了本机开发环境搭建的,所以就一台单机版,不用考虑运维可靠等因素
前提要配置好jdk环境,没有的话,可以参考 jdk下载安装配置
2.scala环境
scala下载地址选择对应的系统版本
验证
scala -version
3.hadoop
可以参考 hadoop下载安装配置
4.spark环境
4-1.下载配置
设置环境变量SPARK_HOME
和path。
编辑变量path, 进行新建: %SPARK_HOME%/bin
4-2.log设置
将config目录下的log4j.properties.template
复制一份尾log4j.properties
打开日志
5.启动
spark启动有很多方式
- local
- standalone
- yarn
我们本地开发,只要会local和standalone即可
5-1.local启动
spark-shell
- webui接口: http://localhost:4040
5-2.standalone启动
master
spark-class2.cmd org.apache.spark.deploy.master.Master
slave
spark-class2.cmd org.apache.spark.deploy.worker.Worker spark://ip:7077
- webui接口: http://localhost:8080/
6.bat脚本
6-1.env
为了启动方便,可以做成bat,就相当于linux的sh一样。
all_bin
: 存放所有自己写的batSF_PATH
: 放所有软件
iworkh_env.bat
@echo off
set CMD_PATH=%cd%
set PRJ_HOME=%CMD_PATH:\all_bin=%
set SF_PATH=arc_sf
set JAVA_HOME=%PRJ_HOME%\%SF_PATH%\java\jdk1.8.0_144
set HADOOP_VERSION=hadoop-2.7.7
set SPARK_VERSION=spark-2.2.3-bin-hadoop2.7
for /f %%a in ('hostname') do set hostname=%%a
echo hostname:%hostname%
echo PRJ_HOME:%PRJ_HOME%
echo JAVA_HOME:%JAVA_HOME%
- set 设置变量,
%cd%
取得当前运行bat的路径- echo 打印出信息
6-2.local
spark-local-start.bat
@echo off
title spark local/shell start
call iworkh_env.bat
set SPARK_HOME=%PRJ_HOME%\%SF_PATH%\%SPARK_VERSION%
set PATH=%SPARK_HOME%\sbin;%SPARK_HOME%\bin;%PATH%
call %SPARK_HOME%\bin\spark-shell2.cmd
echo spark local/shell started.
echo ************************************************************
- title 设置标题
- call调用bat或者cmd
6-3.standalone
spark-standalone-master-start.bat
@echo off
title spark standalone master start
call iworkh_env.bat
set SPARK_HOME=%PRJ_HOME%\%SF_PATH%\%SPARK_VERSION%
set PATH=%SPARK_HOME%\sbin;%SPARK_HOME%\bin;%PATH%
call %SPARK_HOME%\bin\spark-class2.cmd org.apache.spark.deploy.master.Master
echo spark standalone maste started.
echo ************************************************************
spark-standalone-slave-start.bat
@echo off
title spark standalone slave start
call iworkh_env.bat
set SPARK_HOME=%PRJ_HOME%\%SF_PATH%\%SPARK_VERSION%
set PATH=%SPARK_HOME%\sbin;%SPARK_HOME%\bin;%PATH%
for /f "tokens=14* delims=: " %%1 in ('ipconfig^|find /i "ipv4"') do set fsip=%%2
echo %fsip%
call %SPARK_HOME%\bin\spark-class2.cmd org.apache.spark.deploy.worker.Worker spark://%fsip%:7077
pause
echo spark standalone slave started.
echo ************************************************************
注意这的fsip是多少,有时机器的ipv4过滤出来不是想要的外部ip,可能是虚拟内网(跟虚机的ip)。如果过滤不出啦,使用下面指定ip方式启动。
spark-standalone-slave-ip-start.bat
@echo off
title spark standalone slave start
call yuxl_setenv.bat
set SPARK_HOME=%PRJ_HOME%\%SF_PATH%\%SPARK_VERSION%
set PATH=%SPARK_HOME%\sbin;%SPARK_HOME%\bin;%PATH%
call %SPARK_HOME%\bin\spark-class2.cmd org.apache.spark.deploy.worker.Worker spark://192.168.120.68:7077
echo spark standalone slave started.
echo ************************************************************
直接指定ip
转载请注明来源,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 157162006@qq.com
文章标题:spark开发环境搭建
字数:629
本文作者:沐雨云楼
发布时间:2020-06-30, 19:24:51
最后更新:2020-09-12, 21:21:47
原始链接:https://iworkh.gitee.io/blog/2020/06/30/spark-install-windows/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。