900字范文 > [大数据技术与应用省赛学习记录二]——模块一（HADOOP完全分布式集群搭建）

[大数据技术与应用省赛学习记录二]——模块一（HADOOP完全分布式集群搭建）

时间：2019-08-25 07:43:10

**在操作前，先梳理一下HADOOP完全分布式需要做些什么，不然像无头的苍蝇一样，永远不知道做什么。因为我本人比赛是一台服务器Centos 7，与三台客户端Ubuntu 18.04，所以以物理机的角度来写下之后文章。

大数据平台环境搭建——HADOOP完全分布式集群搭建

一、网络配置

1.修改服务器与客户端的静态IP

Centos

有两种可更改的方式

1.图形页面更改

Centos图形界面右上角，找到Wired Connected

点击Wired中的齿轮图案，出现下图

修改参数Adress、Netmask、Gateway、DNS；单击Apply，在回到第一个图点Turn off，过一会再单击Turn on 重启网卡。

2.终端文件编辑更改

[hadoop@master ～]$ vim /etc/sysconfig/network-scripts/ifcfg-xxxx#打开后进入ifcfg-xxxx文件添加如下参数BOOTPROTO=dhcp #修改为staticONBOOT=no #修改为yesIPADDR=你的IP地址NETMASK=255.255.255.0GATEWAY=你的网关地址DNS1=8.8.8.8

ubuntu

1.图形界面更改同centos原理；2.终端代码更改

过程中遇到的问题：在修改文件中使用上下键打出ABCD
解决方案：终端中输入以下代码；

[hadoop@master ～]$ sudo cp /etc/vim/vimrc ~/.vimrc[hadoop@master ～]$ sudo vi /etc/network/interfaces #打开配置文件打开后添加以下内容：# interfaces(5) file used by ifup(8) and ifdown(8)auto loiface lo inet loopbackauto ensxx ##你的网络端口名称iface ensxx inet static#改为静态address 192.168.xxx.xxxnetmask 255.255.255.0gateway 192.168.xxx.x

修改后，重启网卡

[hadoop@master ～]$ systemctl restart network[hadoop@master ～]$ ifconfig #查看确认是否配置成功

提前关闭防火墙(后面可以省好多事)

centos

[hadoop@master ～] systemctl stop firewalld.service #关闭当前systemctl disable firewalld.service #关闭自启动systemctl status firewalld.service #查看当前状态

ubuntu 把上述中的firewalld换成ufw即可

二、SSH安装

[hadoop@master ～]$ sudo vim /etc/host #把客户端的主机名与IP地址写进去格式：主机名 IP地址[hadoop@master ～]$ ssh localhost[hadoop@master ～]$ cd ~/.ssh[hadoop@master .ssh]$ ssh-keygen -t rsa[hadoop@master .ssh]$ cat id_rsa.pub >> authorized_keys[hadoop@master .ssh]$ ssh-copy-id 主机名/IP地址 #连接需要与master互通的主机

三、JDK安装及配置

相关安装包链接可以参考上一个帖子，里面都有相关linux版本需要的软件；

【大数据技术与应用省赛学习记录一】——软件准备

1.压缩tar包

[hadoop@master Downloads]$ tar -zxf ./jdk-8u311-linux-x64.tar.gz -C /usr/lib#-z， - gzip， - gunzip， - ungzip通过gzip过滤存档#-x， --extract， --get从存档中提取文件#-f， --file = ARCHIVE 使用存档文件或设备存档#-C，--directory=DIR 更改到目录DIR

2.配置全局

[hadoop@master Downloads]sudo vim /etc/profile添加如下内容,添置完后 Esc ： wq；export JAVA_HOME=/usr/lib/jdk1.8.0_162export jRE_HOME=$JAVA_HOME/jreexport PATH=${JAVA_HOME}/bin

测试是否安装及配置成功

[hadoop@master Downloads] java -versionjava version "1.8.0_162"Java(TM) SE Runtime Environment (build 1.8.0_162-b12)Java HotSpot(TM) 64-Bit Server VM (build 25.162-b12, mixed mode)[hadoop@master Downloads] echo $JAVA_HOME/usr/lib/jdk1.8.0_162

四、HADOOP安装及配置

1.下载并安装Hadoop

[hadoop@master Downloads] cd /[hadoop@master /] sudo mkdir software[hadoop@master /] sudo chown -R hadoop:hadoop ./software[hadoop@master /] cd Downloads[hadoop@master Downloads] tar -zxf ./hadoop-2.7.7.tar.gz -C /software[hadoop@master Downloads] sudo mv /software/hadoop2.7.7 hadoop

2.配置全局变量

[hadoop@master Downloads] vim /etc/profile添置以下内容：export HADOOP_HOME=/software/hadoopexport PATH=export PATH="$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin

:wq 保存退出后查看是否安装成功

[hadoop@master Downloads] echo $HADOOP_HOME

3.配置hadoop相关文件

在hadoop/etc/hadoop目录下

core-site.xml

#在<configuration>内添置以下内容<property><name>fs.defaultFS</name><value>hdfs://master:9000</value>#更换成自己的IP地址或主机名</property><property><name>hadoop.tmp.dir</name><value>/software/hadoop/tmp/dfs/data</value>#更换为自己安装hadoop目录下的相关文件夹，文件夹需自己创建</property><property><name>ha.zookeeper.quorum</name><value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value>#后面配置zookeeper，开启kafka及flume需要。</property>

2.hdfs-site.xml

#在<configuration>内添置以下内容<property><name>dfs.replication</name>#备份数，我的开发端有三个。<value>3</value></property><property><name>dfs.namenode.name.dir</name><value>/software/hadoop/tmp/dfs/name</value>#namenode节点name文件存放处</property><property><name>dfs.datanode.data.dir</name><value>/software/hadoop/tmp/dfs/data</value>#datanode节点data文件存放处</property><property><name>dfs.namenode.http.address</name><value>master:50070</value>#web端页面namenode端口指定</property><property><name>dfs.namenode.secondary.http-address</name><value>hadoop1:50090</value>#web端页面secondarynamenode端口指定</property>

3.yarn-site.xml

#在<configuration>内添置以下内容<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>master</value>#指定resourcemanager在客户端上</property><property><name>yarn.resourcemanager.address</name><value>192.168.9.105</value>#resoucemanger所在主机IP地址</property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><property><name>yarn.nodemanager.vmem-pmem-ratio</name><value>3.0</value></property><property><name>yarn.nidemanager.vmem-check-enabled</name><value>false</value></property><property><name>mapred.child.java.opts</name><value>-Xmx2056m</value></property><property><name>yarn.log.server.url</name><value>http://master:19888/jobhistory/logs</value>#指定yarn历史日志端口号</property><property><name>yarn.resourcemanager.webapp.address</name><value>master:8088</value>#指定RM网页端口号</property><property><name>yarn.resourcemanager.webapp.https.address</name><value>master:8090</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>10240</value></property><property><name>yarn.scheduler.minimum-allocation-mb</name><value>1024</value></property><property><name>yarn.scheduler.maximum-allocation-mb</name><value>10240</value></property>

4.mapred-site.xml

#在<configuration>内添置以下内容<property><name>mapreduce.framework.name</name><value>yarn</value>#MR的处理框架，一般为yarn;</property><property><name>mapreduce.jobhistory.address</name><value>master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>master:19888</value>#MR(hadoop)历史日志端口</property>

5.hadoop-env.sh &&6.yarn-env.sh

export JAVA_HOME=/usr/lib/jdk1.8.0_162

7.slaves(你的集群)

hadoop1hadoop2hadoop3

配置完hadoop需要分发至slave上

这里建议用户名统一为hadoop（实在是太省事情了）

[hadoop@master ～] scp -r /software/hadoop 主机名：/所要存放的位置

4.初始化HADOOP（集群所有都要格式化哦）

[hadoop@master ~]hadoop namenode -formot

内容中出现“successfully formatted”即为格式化成功

5.启动与关闭HADOOP(比较懒的做法，嘿嘿)

[hadoop@master ~] start-all.sh[hadoop@master ~] stop-all.sh[hadoop@master sbin] mr-jobhistory-daemon.sh start historyserver#启动历史服务器：在hadoop/sbin目录下启动