hadoop开发环境搭建
windows上环境hadoop开发环境搭建
windows只是为了本机开发环境搭建的,所以就一台单机版,不用考虑运维可靠等因素
前提要配置好jdk环境,没有的话,可以参考 jdk下载安装配置
1.下载
1-1.下载hadoop
版本: 选择2.7.x的版本,因为要和spark一起使用,所以版本要选择跟其他组件一起决定
提供几个hadoop的下载地址(更多下载资源自己找吧)
- 官网
- 百度网盘
提取码:y9a4
- iworkh共享下载
路径
99-软件和源码/hadoop/
1-2.下载hadooponwindows
这个要下载,相当于windows上的一个补丁,不下载运行会报错
- hadooponwindows- github下载地址
- winutils- github-1
- winutils- github-2
下载解压之后,删掉D:\hadoop\hadoop-2.7.x 目录下的bin、etc文件夹,用刚刚解压的替换。
2.环境变量
我的电脑右键 ➡ 属性 ➡ 高级系统设置 ➡ 环境变量(高级)
设置两个
- HADOOP_HOOME
- path
3.hadoop的配置
修改安装目录下/ect/hadoop/xxx
的几个文件
- core-site.xml
用于定义系统级别的参数,如HDFS URL、Hadoop的临时目录等
- hdfs-site.xml
如名称节点和数据节点的存放位置、文件副本的个数、文件读取权限等
- mapred-site.xml
包括JobHistory Server和应用程序参数两部分,如reduce任务的默认个数、任务所能够使用内存的默认上下限等
- yarn-site.xml
配置 ResourceManager,NodeManager 的通信端口,web监控端口等
3-1.core-site
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>d:/xxx/hadoop_277</value>
<final>true</final>
</property>
</configuration>
hadoop.tmp.dir
: 临时目录 (不设置默认值是/tmp/hadoop-${user.name}
)
更多参数可以看官网 官网-core-site
3-2.hdfs-site
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>d:/xxx/hadoop_277/dfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>d:/xxx/hadoop_277/dfs/datanode</value>
</property>
</configuration>
几个参数
dfs.permissions.enabled
: 是否在HDFS中开启权限检查(本地开发就false)dfs.namenode.name.dir
: 指定namenode名称空间的存储地址 (不设置默认值是file://${hadoop.tmp.dir}/dfs/name
)dfs.datanode.data.dir
: 指定datanode数据存储地址 (不设置默认值是file://${hadoop.tmp.dir}/dfs/data
)
更多参数可以看官网 官网-hdfs-site
3-3.mapred-site
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
更多参数可以看官网 官网-mapred-site
3-4.yarn-site
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
更多参数可以看官网 官网-yarn-site
3-5.hadoop-env
文件hadoop-env.cmd
这个可以不用改,只要你jdk配置的时候设置了JAVA_HOME
因为这里面要这里要设置是jdk的的
JAVA_HOME
,默认会从系统中环境变量读取的,如果没有设置的,那么需要把全路径赋值给JAVA_HOME
...省略n行...
set JAVA_HOME==%JAVA_HOME%
...省略n行...
4.格式化
格式化HDFS文件系统
hdfs namenode -format
5.启动
启动所有hdfs和yarn
# 启
start-all
# 停
stop-all
启动hdfs
# 启
start-dfs
# 停
stop-dfs
启动yarn
# 启
start-yarn
# 停
stop-yarn
如果只需要存储功能,不需要调度,那么yarn不用启动
访问URL
localhost:50070
localhost:8088
6.bat脚本
6-1.env
为了启动方便,可以做成bat,就相当于linux的sh一样。
all_bin
: 存放所有自己写的batSF_PATH
: 放所有软件
iworkh_env.bat
@echo off
set CMD_PATH=%cd%
set PRJ_HOME=%CMD_PATH:\all_bin=%
set SF_PATH=arc_sf
set JAVA_HOME=%PRJ_HOME%\%SF_PATH%\java\jdk1.8.0_144
set HADOOP_VERSION=hadoop-2.7.7
for /f %%a in ('hostname') do set hostname=%%a
echo hostname:%hostname%
echo PRJ_HOME:%PRJ_HOME%
echo JAVA_HOME:%JAVA_HOME%
- set 设置变量,
%cd%
取得当前运行bat的路径- echo 打印出信息
6-2.hdfs
hdfs-start.bat
@echo off
title hadoop dfs
call iworkh_env.bat
set HADOOP_HOME=%PRJ_HOME%\%SF_PATH%\%HADOOP_VERSION%
set PATH=%HADOOP_HOME%\sbin;%HADOOP_HOME%\bin;%PATH%
call %HADOOP_HOME%\sbin\start-dfs.cmd
echo hdfs has been started.
echo ************************************************************
- title 设置标题
- call调用bat或者cmd
stop-hdfs.bat
@echo off
title hadoop dfs
call iworkh_env.bat
set HADOOP_HOME=%PRJ_HOME%\%SF_PATH%\%HADOOP_VERSION%
set PATH=%HADOOP_HOME%\sbin;%HADOOP_HOME%\bin;%PATH%
call %HADOOP_HOME%\sbin\stop-dfs.cmd
echo hdfs has been stopped.
echo ************************************************************
这样,每次双击start.bat或者stop.bat就可以了
6-3.yarn
start-yarn.bat
@echo off
title hadoop yarn start
call iworkh_env.bat
set HADOOP_HOME=%PRJ_HOME%\%SF_PATH%\%HADOOP_VERSION%
set PATH=%HADOOP_HOME%\sbin;%HADOOP_HOME%\bin;%PATH%
call %HADOOP_HOME%\sbin\start-yarn.cmd
echo yarn has ben started.
echo ************************************************************
stop-yarn.bat
@echo off
title hadoop yarn stop
call iworkh_env.bat
set HADOOP_HOME=%PRJ_HOME%\%SF_PATH%\%HADOOP_VERSION%
set PATH=%HADOOP_HOME%\sbin;%HADOOP_HOME%\bin;%PATH%
call %HADOOP_HOME%\sbin\stop-yarn.cmd
echo yarn has ben stopped.
echo ************************************************************
转载请注明来源,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 157162006@qq.com
文章标题:hadoop开发环境搭建
字数:1.3k
本文作者:沐雨云楼
发布时间:2020-06-30, 18:06:23
最后更新:2020-09-12, 21:21:47
原始链接:https://iworkh.gitee.io/blog/2020/06/30/hadoop-install-windows/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。