hadoop开发环境搭建

windows上环境hadoop开发环境搭建

windows只是为了本机开发环境搭建的,所以就一台单机版,不用考虑运维可靠等因素

前提要配置好jdk环境,没有的话,可以参考 jdk下载安装配置

1.下载

1-1.下载hadoop

版本: 选择2.7.x的版本,因为要和spark一起使用,所以版本要选择跟其他组件一起决定

提供几个hadoop的下载地址(更多下载资源自己找吧)

1-2.下载hadooponwindows

这个要下载,相当于windows上的一个补丁,不下载运行会报错

2.环境变量

我的电脑右键 ➡ 属性 ➡ 高级系统设置 ➡ 环境变量(高级)

设置两个

  • HADOOP_HOOME
  • path

3.hadoop的配置

修改安装目录下/ect/hadoop/xxx的几个文件

  • core-site.xml

    用于定义系统级别的参数,如HDFS URL、Hadoop的临时目录等

  • hdfs-site.xml

    如名称节点和数据节点的存放位置、文件副本的个数、文件读取权限等

  • mapred-site.xml

    包括JobHistory Server和应用程序参数两部分,如reduce任务的默认个数、任务所能够使用内存的默认上下限等

  • yarn-site.xml

    配置 ResourceManager,NodeManager 的通信端口,web监控端口等

3-1.core-site

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>   
    <property>  
            <name>hadoop.tmp.dir</name>  
            <value>d:/xxx/hadoop_277</value>  
            <final>true</final> 
    </property> 
</configuration>

hadoop.tmp.dir: 临时目录 (不设置默认值是 /tmp/hadoop-${user.name})

更多参数可以看官网 官网-core-site

3-2.hdfs-site

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions.enabled</name>   
        <value>false</value>   
    </property> 
    <property>
        <name>dfs.namenode.name.dir</name>    
        <value>d:/xxx/hadoop_277/dfs/namenode</value>    
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>    
        <value>d:/xxx/hadoop_277/dfs/datanode</value>  
    </property>
</configuration>

几个参数

  • dfs.permissions.enabled: 是否在HDFS中开启权限检查(本地开发就false)
  • dfs.namenode.name.dir: 指定namenode名称空间的存储地址 (不设置默认值是file://${hadoop.tmp.dir}/dfs/name)
  • dfs.datanode.data.dir: 指定datanode数据存储地址 (不设置默认值是file://${hadoop.tmp.dir}/dfs/data)

更多参数可以看官网 官网-hdfs-site

3-3.mapred-site

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

更多参数可以看官网 官网-mapred-site

3-4.yarn-site

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

更多参数可以看官网 官网-yarn-site

3-5.hadoop-env

文件hadoop-env.cmd这个可以不用改,只要你jdk配置的时候设置了JAVA_HOME

因为这里面要这里要设置是jdk的的JAVA_HOME,默认会从系统中环境变量读取的,如果没有设置的,那么需要把全路径赋值给JAVA_HOME

...省略n行...
set JAVA_HOME==%JAVA_HOME%
...省略n行...

4.格式化

格式化HDFS文件系统

hdfs namenode -format

5.启动

启动所有hdfs和yarn

# 启
start-all
# 停
stop-all

启动hdfs

# 启
start-dfs

# 停
stop-dfs

启动yarn

# 启
start-yarn

# 停
stop-yarn

如果只需要存储功能,不需要调度,那么yarn不用启动

访问URL

  • localhost:50070

  • localhost:8088

6.bat脚本

6-1.env

为了启动方便,可以做成bat,就相当于linux的sh一样。

all_bin: 存放所有自己写的bat
SF_PATH: 放所有软件

iworkh_env.bat

@echo off

set CMD_PATH=%cd%
set PRJ_HOME=%CMD_PATH:\all_bin=%
set SF_PATH=arc_sf
set JAVA_HOME=%PRJ_HOME%\%SF_PATH%\java\jdk1.8.0_144

set HADOOP_VERSION=hadoop-2.7.7

for /f  %%a in  ('hostname') do set hostname=%%a

echo hostname:%hostname%
echo PRJ_HOME:%PRJ_HOME%
echo JAVA_HOME:%JAVA_HOME%
  • set 设置变量,%cd%取得当前运行bat的路径
  • echo 打印出信息

6-2.hdfs

hdfs-start.bat

@echo off
title hadoop dfs

call iworkh_env.bat

set HADOOP_HOME=%PRJ_HOME%\%SF_PATH%\%HADOOP_VERSION%
set PATH=%HADOOP_HOME%\sbin;%HADOOP_HOME%\bin;%PATH%

call %HADOOP_HOME%\sbin\start-dfs.cmd

echo hdfs has been started.
echo ************************************************************
  • title 设置标题
  • call调用bat或者cmd

stop-hdfs.bat

@echo off
title hadoop dfs

call iworkh_env.bat

set HADOOP_HOME=%PRJ_HOME%\%SF_PATH%\%HADOOP_VERSION%
set PATH=%HADOOP_HOME%\sbin;%HADOOP_HOME%\bin;%PATH%

call %HADOOP_HOME%\sbin\stop-dfs.cmd

echo hdfs has been stopped.
echo ************************************************************

这样,每次双击start.bat或者stop.bat就可以了

6-3.yarn

start-yarn.bat

@echo off
title hadoop yarn start

call iworkh_env.bat

set HADOOP_HOME=%PRJ_HOME%\%SF_PATH%\%HADOOP_VERSION%
set PATH=%HADOOP_HOME%\sbin;%HADOOP_HOME%\bin;%PATH%

call %HADOOP_HOME%\sbin\start-yarn.cmd

echo yarn has ben started.
echo ************************************************************

stop-yarn.bat

@echo off
title hadoop yarn stop

call iworkh_env.bat

set HADOOP_HOME=%PRJ_HOME%\%SF_PATH%\%HADOOP_VERSION%
set PATH=%HADOOP_HOME%\sbin;%HADOOP_HOME%\bin;%PATH%

call %HADOOP_HOME%\sbin\stop-yarn.cmd

echo yarn has ben stopped.
echo ************************************************************

转载请注明来源,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 157162006@qq.com

文章标题:hadoop开发环境搭建

字数:1.3k

本文作者:沐雨云楼

发布时间:2020-06-30, 18:06:23

最后更新:2020-09-12, 21:21:47

原始链接:https://iworkh.gitee.io/blog/2020/06/30/hadoop-install-windows/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏

pgmanor iworkh gitee