spark开发环境搭建

  1. 1.jdk
  2. 2.scala环境
  3. 3.hadoop
  4. 4.spark环境
    1. 4-1.下载配置
    2. 4-2.log设置
  5. 5.启动
    1. 5-1.local启动
    2. 5-2.standalone启动
  6. 6.bat脚本
    1. 6-1.env
    2. 6-2.local
    3. 6-3.standalone

1.jdk

windows上环境spark开发环境搭建

windows只是为了本机开发环境搭建的,所以就一台单机版,不用考虑运维可靠等因素

前提要配置好jdk环境,没有的话,可以参考 jdk下载安装配置

2.scala环境

scala下载地址选择对应的系统版本

验证

scala -version

3.hadoop

可以参考 hadoop下载安装配置

4.spark环境

4-1.下载配置

spark下载地址

设置环境变量SPARK_HOME和path。

编辑变量path, 进行新建: %SPARK_HOME%/bin

4-2.log设置

将config目录下的log4j.properties.template复制一份尾log4j.properties打开日志

5.启动

spark启动有很多方式

  • local
  • standalone
  • yarn

我们本地开发,只要会local和standalone即可

5-1.local启动

spark-shell

5-2.standalone启动

master

spark-class2.cmd org.apache.spark.deploy.master.Master

slave

spark-class2.cmd org.apache.spark.deploy.worker.Worker spark://ip:7077

6.bat脚本

6-1.env

为了启动方便,可以做成bat,就相当于linux的sh一样。

all_bin: 存放所有自己写的bat
SF_PATH: 放所有软件

iworkh_env.bat

@echo off

set CMD_PATH=%cd%
set PRJ_HOME=%CMD_PATH:\all_bin=%
set SF_PATH=arc_sf
set JAVA_HOME=%PRJ_HOME%\%SF_PATH%\java\jdk1.8.0_144

set HADOOP_VERSION=hadoop-2.7.7
set SPARK_VERSION=spark-2.2.3-bin-hadoop2.7

for /f  %%a in  ('hostname') do set hostname=%%a

echo hostname:%hostname%
echo PRJ_HOME:%PRJ_HOME%
echo JAVA_HOME:%JAVA_HOME%
  • set 设置变量,%cd%取得当前运行bat的路径
  • echo 打印出信息

6-2.local

spark-local-start.bat

@echo off
title spark local/shell start

call iworkh_env.bat

set SPARK_HOME=%PRJ_HOME%\%SF_PATH%\%SPARK_VERSION%
set PATH=%SPARK_HOME%\sbin;%SPARK_HOME%\bin;%PATH%

call %SPARK_HOME%\bin\spark-shell2.cmd

echo spark local/shell started.
echo ************************************************************
  • title 设置标题
  • call调用bat或者cmd

6-3.standalone

spark-standalone-master-start.bat

@echo off
title spark standalone master start

call iworkh_env.bat

set SPARK_HOME=%PRJ_HOME%\%SF_PATH%\%SPARK_VERSION%
set PATH=%SPARK_HOME%\sbin;%SPARK_HOME%\bin;%PATH%

call %SPARK_HOME%\bin\spark-class2.cmd org.apache.spark.deploy.master.Master

echo spark standalone maste started.
echo ************************************************************

spark-standalone-slave-start.bat

@echo off
title spark standalone slave start

call iworkh_env.bat

set SPARK_HOME=%PRJ_HOME%\%SF_PATH%\%SPARK_VERSION%
set PATH=%SPARK_HOME%\sbin;%SPARK_HOME%\bin;%PATH%

for /f "tokens=14* delims=: " %%1 in ('ipconfig^|find /i "ipv4"') do set fsip=%%2

echo %fsip%

call %SPARK_HOME%\bin\spark-class2.cmd org.apache.spark.deploy.worker.Worker spark://%fsip%:7077

pause
echo spark standalone slave started.
echo ************************************************************

注意这的fsip是多少,有时机器的ipv4过滤出来不是想要的外部ip,可能是虚拟内网(跟虚机的ip)。如果过滤不出啦,使用下面指定ip方式启动。

spark-standalone-slave-ip-start.bat

@echo off
title spark standalone slave start

call yuxl_setenv.bat

set SPARK_HOME=%PRJ_HOME%\%SF_PATH%\%SPARK_VERSION%
set PATH=%SPARK_HOME%\sbin;%SPARK_HOME%\bin;%PATH%

call %SPARK_HOME%\bin\spark-class2.cmd org.apache.spark.deploy.worker.Worker spark://192.168.120.68:7077

echo spark standalone slave started.
echo ************************************************************

直接指定ip


转载请注明来源,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 157162006@qq.com

文章标题:spark开发环境搭建

字数:629

本文作者:沐雨云楼

发布时间:2020-06-30, 19:24:51

最后更新:2020-09-12, 21:21:47

原始链接:https://iworkh.gitee.io/blog/2020/06/30/spark-install-windows/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏

pgmanor iworkh gitee