`
xuyuanshuaaa
  • 浏览: 387901 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论

hodoop 伪分布式环境配置

阅读更多
一. 概要
       经过几天的调试,终于在Linux Cent OS 5.5下成功搭建Hadoop测试环境。本次测试在一台服务器上进行伪分布式搭建。Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器。虽然Hadoop的安装步骤并不复杂,但是我在安装期间还是遇到了很多琐碎的问题,现将自己搭建Hadoop的详细过程和遇到的问题记录下来。完全分布式就是一个hadoop集群,有n台机器组成,一般组织方式是:一台机器作为master,上面 运行    namenode和jobtracker,另外的机器作为slave,上面运行datanode和tasktracker,至于secondaryname,可以运行在master上,也可以运行在另外一台机器上。secondaryname是namenode的一个备份里面同样保存了名字空间,和文件到文件块的map关系。建议运行在另外一台机器上,这样master死掉之后,还可以通过secondaryname所在的机器找回名字空间,和文件到文件块得map关系数据,恢复namenode。

二. 环境搭建
      搭建测试环境所需的软件包括:jdk1.6.0_20、hadoop-0.20.2.tar.gz。测试服务器操作系统Linux Cent OS 5.5。
网上说使用专门的用户hadoop操作,但是这里我是完全使用的root,方便而已。
总体的流程如下:
    1、实现linux的ssh无密码验证配置.
    2、在linux下安装jdk,并配好环境变量
    3、修改linux的机器名,并配置 /etc/hosts
    4、在windows下下载hadoop 0.20.0,并修改hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,masters,slaves文件的配置
    5、把修改好的hadoop整个文件夹传到linux下
    6、把hadoop的bin加入到环境变量
    7、格式化hadoop,启动hadoop
    8、验证是否启动,并执行wordcount

具体如下:
   1.  SSH无密码验证配置
     Hadoop 需要使用SSH 协议,namenode 将使用SSH 协议启动 namenode和datanode 进程,伪分布式模式数据节点和名称节点均是本身,必须配置 SSH localhost无密码验证。
    用root用户登录,在家目录下执行如下命令:ssh-keygen -t rsa
[root@master ~]# ssh-keygen -t  rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa):  & 按回车默认路径 &
Created directory '/root/.ssh'.  &创建/root/.ssh目录&
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38 root@master
     通过以上命令将在/root/.ssh/ 目录下生成id_rsa私钥和id_rsa.pub公钥。进入/root/.ssh目录在namenode节点下做如下配置:
[root@master .ssh]# cat id_rsa.pub > authorized_keys
配置完毕,可通过ssh 本机IP 测试是否需要密码登录。
原理:
Hadoop需要使用SSH协议,namenode将使用SSH协议启动namenode和datanode进程,(datanode向namenode传递心跳信息可能也是使用SSH协议,这是我认为的,还没有做深入了解)。许多教程上介绍Hadoop集群配置时只说明了namenode上SSH无密码登录所有datanode,我在配置时发现必须使datanode上也能SSH无密码登录到namenode,Hadoop集群才能正常启动(也许这不是必须的)
以namenode到datanode为例子:Namenode作为客户端,要实现无密码公钥认证,连接到服务端datanode上时,需要在namenode上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到datanode上。当namenode通过ssh连接datanode时,datanode就会生成一个随机数并用namenode的公钥对随机数进行加密,并发送给namenode。namenode收到加密数之后再用私钥进行解密,并将解密数回传给datanode,datanode确认解密数无误之后就允许namenode进行连接了。这就是一个公钥认证过程,其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到datanode上
   2. JDK安装及Java环境变量的配置
2.1 JDK安装
     root 用户登陆,新建文件夹 /usr/program ,下载 JDK 安装包
jdk-6u13-linux-i586.bin,复制到目录/usr/ program 下,在命令行进入该目录,执行命令“./ jdk-6u20-linux-i586.bin”,命令运行完毕,将在目录下生成文件夹jdk1.6.0_20,安装完毕。
2.2 java环境变量配置
        root 用户登陆,命令行中执行命令“vi /etc/profile”,并加入以下内容,配置环境变量(注意/etc/profile 这个文件很重要,后面 Hadoop 的配置还会用到)。
# set java environment
   export JAVA_HOME=/usr/program/jdk1.6.0_20
   export JRE_HOME=/usr/program/jdk1.6.0_20/jre
   export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
   export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
在vi编辑器增加以上内容后保存退出,并执行以下命令使配置生效
    chmod +x  /etc/profile ;增加执行权限
    source  /etc/profile ;
配置完毕后,在命令行中输入java -version,如出现下列信息说明java环境安装成功。
java version "1.6.0_20"
Java(TM) SE Runtime Environment (build 1.6.0_20-b02)
Java HotSpot(TM) Server VM (build 16.3-b01, mixed mode)
再有就是修改linux的机器名
最好修改机器名为其ip地址,要不后来hdfs上传put文件的时候可能会出现无法连接的错误。
命令:
hostname ip
重启无效
   2. Hadoop配置
   下载 hadoop-0.20.2.tar.gz,将其解压到/usr/local/hadoop 目录下,解压后目录形式是/usr/local/hadoop/hadoop-0.20.2。使用如下命令:
  tar zxvf  hadoop-0.19.1.tar.gz 进行hadoop压缩文件解压。
2.1   进入/usr/local/hadoop/hadoop-0.20.2/conf, 配置Hadoop配置文件
2.1.1 配置hadoop-env.sh文件
添加 # set java environment
             export JAVA_HOME=/usr/program/jdk1.6.0_20
编辑后保存退出。
2.1.2 配置core-site.xml
[root@master conf]# vi core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
   <property>
     <name>fs.default.name</name>
     <value>hdfs://202.173.253.36:9000/</value>
     默认的namenode的端口为8020
   </property>
   <property>
     <name>hadoop.tmp.dir</name>
     <value>/usr/local/hadoop/hadooptmp</value>
   </property>
</configuration>


2.1.3 配置hdfs-site.xml
[root@master conf]# vi  hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
     <name>dfs.name.dir</name>
     <value>/usr/local/hadoop/hdfs/name</value>
  </property>
  <property>
     <name>dfs.data.dir</name>
     <value>/usr/local/hadoop/hdfs/data</value>
  </property>
  <property>
     <name>dfs.replication</name>
     <value>1</value>
  </property>
</configuration>

   
2.1.4 配置mapred-site.xml
[root@master conf]# vi mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
     <name>mapred.job.tracker</name>
     <value>202.173.253.36:9001</value>
  </property>
  <property>
     <name>mapred.local.dir</name>
     <value>/usr/local/hadoop/mapred/local</value>
  </property>
  <property>
     <name>mapred.system.dir</name>
     <value>/tmp/hadoop/mapred/system</value>
  </property>
</configuration>

1、其实core-site.xml 对应有一个core-default.xml, hdfs-site.xml对应有一个hdfs-default.xml,

mapred-site.xml对应有一个mapred-default.xml。这三个defalult文件里面都有一些默认配置,现在我们修改这三个site文件,目的就覆盖default里面的一些配置,
2、hadoop分布式文件系统的两个重要的目录结构,一个是namenode上名字空间的存放地方,一个是datanode数据块的存放地方,还有一些其他的文件存放地方,这些存放地方都是基于hadoop.tmp.dir目录的,比如namenode的名字空间存放地方就是 ${hadoop.tmp.dir}/dfs/name, datanode数据块的存放地方就是 ${hadoop.tmp.dir}/dfs/data,所以设置好hadoop.tmp.dir目录后,其他的重要目录都是在这个目录下面,这是一个根目录。我设置的是 /usr/local/hadoop/hadooptmp,当然这个目录必须是存在的。
3、fs.default.name,这个是设置namenode位于哪个机器上,端口号是什么hdfs://192.168.133.128:9000,格式一定要这样写,网上很多资料说ip地址写localhost也行,笔者建议最好写ip,因为后期讲到windows下 eclipse连接hadoop 的时候,如果写localhost,就会连接不到。
4、mapred.job.tracker,这个是设置jobtracker位于哪个机器上,端口号是什么,192.168.133.128:9001,格式和上一个不一样,这个也必须这样写,同样localhost和ip的分别和上述一样
5、dfs.replication,这个是设置数据块的复制次数,默认是3,因为笔者这里就一台机器,所以只能存在一份,就改成了1

2.1.5 配置masters文件和slaves文件
[root@master conf]# vi masters
202.173.253.36
[root@master conf]# vi slaves
202.173.253.36
注:因为在伪分布模式下,作为master的namenode与作为slave的datanode是同一台服务器,所以配置文件中的ip是一样的。

2.1.6 编辑主机名
[root@master ~]# vi /etc/hosts
# Do not remove the following line, or various programs
that require network functionality will fail.
127.0.0.1                      localhost
202.173.253.36            master
202.173.253.36            slave
注:因为是在伪分布模式下,所以master与slave是一台机

2.2 Hadoop启动
2.2.1 进入 /usr/local/hadoop/hadoop-0.20.2/bin目录下,格式化namenode
[root@master bin]# hadoop namenode -format
10/07/19 10:46:41 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = master/202.173.253.36
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 0.20.2
STARTUP_MSG:   build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20 -r 911707; compiled by 'chrisdo' on Fri Feb 19 08:07:34 UTC 2010
************************************************************/
Re-format filesystem in /usr/local/hadoop/hdfs/name ? (Y or N) Y
10/07/19 10:46:43 INFO namenode.FSNamesystem: fsOwner=root,root,bin,daemon,sys,adm,disk,wheel
10/07/19 10:46:43 INFO namenode.FSNamesystem: supergroup=supergroup
10/07/19 10:46:43 INFO namenode.FSNamesystem: isPermissionEnabled=true
10/07/19 10:46:43 INFO common.Storage: Image file of size 94 saved in 0 seconds.
10/07/19 10:46:43 INFO common.Storage: Storage directory /usr/local/hadoop/hdfs/name has been successfully formatted.
10/07/19 10:46:43 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at master/202.173.253.36
************************************************************/
2.2.2 启动hadoop所有进程
在/usr/local/hadoop/hadoop-0.20.2/bin 目录下,执行start-all.sh命令
启动完成后,可用jps命令查看hadoop进程是否启动完全。正常情况下应该有如下进程:
10910 NameNode
11431 Jps
11176 SecondaryNameNode
11053 DataNode
11254 JobTracker
11378 TaskTracker 
启动之后,在/usr/local/hadoop/hadooptmp 下的dfs文件夹里会生成 data目录,这里面存放的是datanode上的数据块数据,因为笔者用的是单机,所以name 和 data 都在一个机器上,如果是集群的话,namenode所在的机器上只会有name文件夹,而datanode上只会有data文件夹。
搭建过程中,在此环节出现的问题最多,经常出现启动进程不完整的情况,要不是datanode无法正常启动,就是namenode或是TaskTracker启动异常。解决的方式如下:
1.在Linux下关闭防火墙
1) 重启后生效
开启: chkconfig iptables on
关闭: chkconfig iptables off
2) 即时生效,重启后失效
开启: service iptables start
关闭: service iptables stop
需要说明的是对于Linux下的其它服务都可以用以上命令执行开启和关闭操作。
在开启了防火墙时,做如下设置,开启相关端口,
修改/etc/sysconfig/iptables 文件,添加以下内容:
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 22 -j ACCEPT
开始我使用的是service方式,但是总不好用,最后使用了chkconfig重启方式,生效!
2.再次对namenode进行格式化:在/usr/local/hadoop/hadoop-0.20.2/bin 目录下执行hadoop namenode -format命令
3.对服务器进行重启
4.查看datanode或是namenode对应的日志文件,日志文件保存在/usr/local/hadoop/hadoop-0.20.2/logs目录下。仔细查看日志报错的原因,(上次日志报错的信息忘记了)解决方法是进入/usr/local/hadoop/hdfs/name 和usr/local/hadoop/hdfs/data目录下,将目录下的文件全部删除。
5.再次在/bin目录下用start-all.sh命令启动所有进程,通过以上的几个方法应该能解决进程启动不完全的问题了。

2.2.3  查看集群状态
在 bin目录下执行:hadoop dfsadmin  -report
[root@master bin]# hadoop dfsadmin -report
Configured Capacity: 304427253760 (283.52 GB)
Present Capacity: 282767941632 (263.35 GB)
DFS Remaining: 282767904768 (263.35 GB)
DFS Used: 36864 (36 KB)
DFS Used%: 0%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
-------------------------------------------------
Datanodes available: 1 (1 total, 0 dead)
Name: 202.173.253.36:50010
Decommission Status : Normal
Configured Capacity: 304427253760 (283.52 GB)
DFS Used: 36864 (36 KB)
Non DFS Used: 21659312128 (20.17 GB)
DFS Remaining: 282767904768(263.35 GB)
DFS Used%: 0%
DFS Remaining%: 92.89%
Last contact: Mon Jul 19 11:07:22 CST 2010

2.3 在WEB页面下查看Hadoop工作情况
启动后可以通过以下两个页面查看节点状况和job状况
http://localhost:50070;

http://localhost:50030。
可以查看任务的执行情况
   3. Hadop使用
一个测试例子wordcount
      计算输入文本中词语数量的程序。WordCount在Hadoop主目录下的java程序包hadoop-0.20.2-examples.jar 中,执行步骤如下:
在/usr/local/hadoop/hadoop-0.20.2/bin/目录下进行如下操作:
执行 hadoop fs -ls命令,查看当前hdfs分布式文件系统的 文件目录结构,刚执行会说no such dictionary,
你要先建一个文件夹,用命令 haoop fs -mkdir testdir ,然后再执行hadoop fs -ls,就会展示/user/root/testdir
当前用户是root,所以hdfs的根目录就是  /user/root

hadoop fs -mkdir  okdir(新建目录名称,可任意命名)
离开hodoop的安全模式
bin/hadoop dfsadmin -safemode leave
在这个目录里放入文件:hadoop fs -put /usr/test_in/*.txt okdir(把本地/usr/test_in目录里的所有txt文件copy到 hdfs分布式文件系统的 /user/root/inputdir 目录里面,因为当前目录就是root 所以 直接写input 就代表/user/root/inputdir)
在/usr/local/hadoop/hadoop-0.20.2下执行:
[root@master hadoop-0.20.2]# hadoop jar hadoop-0.20.2-examples.jar wordcount okdir output (提交作业,此处需注意okdir与output是一组任务,下次再执行wordcount程序,还要新建目录,不能跟okdir与output重名)
11/05/28 22:02:34 INFO input.FileInputFormat: Total input paths to process : 0
11/05/28 22:02:34 INFO mapred.JobClient: Running job: job_201105282107_0005
11/05/28 22:02:35 INFO mapred.JobClient:  map 0% reduce 0%
11/05/28 22:02:46 INFO mapred.JobClient:  map 0% reduce 100%
11/05/28 22:02:48 INFO mapred.JobClient: Job complete: job_201105282107_0005
11/05/28 22:02:48 INFO mapred.JobClient: Counters: 8
11/05/28 22:02:48 INFO mapred.JobClient:   Job Counters 
11/05/28 22:02:48 INFO mapred.JobClient:     Launched reduce tasks=1
11/05/28 22:02:48 INFO mapred.JobClient:   Map-Reduce Framework
11/05/28 22:02:48 INFO mapred.JobClient:     Reduce input groups=0
11/05/28 22:02:48 INFO mapred.JobClient:     Combine output records=0
11/05/28 22:02:48 INFO mapred.JobClient:     Reduce shuffle bytes=0
11/05/28 22:02:48 INFO mapred.JobClient:     Reduce output records=0
11/05/28 22:02:48 INFO mapred.JobClient:     Spilled Records=0
11/05/28 22:02:48 INFO mapred.JobClient:     Combine input records=0
11/05/28 22:02:48 INFO mapred.JobClient:     Reduce input records=0

执行完毕后,
[root@hadoopName hadoop-0.20.2]# hadoop fs -ls output
Found 2 items
drwxr-xr-x   - root supergroup          0 2011-05-08 05:20 /user/root/output/_logs
-rw-r--r--   1 root supergroup       1688 2011-05-08 05:21 /user/root/output/part-r-00000

可以查看运行结果
# bin/hadoop dfs -cat hellooutput/part-r-00000
a       1
are     1
day     1
fine    1
fridey  1
is      3
name    1
not     1
today   4
you     1
your    1

也可进入web界面刷新查看running job及completed job的显示。

分享到:
评论
1 楼 wxyjuly 2012-01-03  

相关推荐

    hadoop 伪分布式环境配置

    hadoop伪分布式环境配置教程 已亲测,按步骤执行,完胜!且有详细的原理解释

    实验1.hadoop伪分布式配置.docx

    实验1.hadoop伪分布式配置.docx

    hadoop伪分布式配置教程.doc

    如果用的是 CentOS/RedHat 系统,请查看相应的CentOS安装Hadoop教程_单机伪分布式配置。 本教程基于原生 Hadoop 2,在 Hadoop 2.6.0 (stable) 版本下验证通过,可适合任何 Hadoop 2.x.y 版本,如 Hadoop 2.7.1、...

    Hadoop完全分布式环境搭建步骤

    Hadoop完全分布式环境搭建文档,绝对原创,并且本人亲自验证并使用,图文并茂详细介绍了hadoop完全分布式环境搭建所有步骤,条例格式清楚,不能成功的,请给我留言!将给与在线支持!

    Hadoop伪分布式搭建配置文件

    如何搭建hadoop伪分布式,https://blog.csdn.net/lzw2016/article/details/84197986 该资源是文中所提的配置文件,建议看完文章后,下载使用。

    Hadoop伪分布式配置.txt

    Hadoop的安装分为单机方式、伪分布式方式和完全分布式方式。 这里主要讲解在CentOS6.5环境中Hadoop的伪分布式安装配置。

    第3章hadoop伪分布式环境的搭建.docx

    hadoop是大数据学习的基础,而且hadoop的伪分布式操作是入门的基础。本文档详细介绍了hadoop目前企业所用的版本的安装配置。

    2、大数据环境-安装Hadoop2.5.2伪分布式傻瓜教程

    2、大数据环境-安装Hadoop2.5.2伪分布式傻瓜教程 原创

    Linux下Hadoop伪分布式配置及操作命令

    这是在单机上的Cent-OS 系统中以Hadoop伪分布式形式进行安装和配置的过程,并收集和整理了Hadoop运维常用操作命令。 非常适合没有集群环境的初学者入门使用。

    伪分布式基于hadoop3.1.3生态环境大数据集群

    1.本机虚拟机镜像为ova格式,大小为2.9G,仅限VirtualBox使用,本机无图形界面!请注意! 2.本机为ubuntu16.04服务器版本,无图形...5.使用hadoop集群前,需要根据本地虚拟机的IP地址修改/etc/hosts文件中的host配置。

    【Hadoop离线基础总结】CDH版本Hadoop 伪分布式环境搭建

    CDH版本Hadoop 伪分布式环境搭建 服务规划 步骤 第一步:上传压缩包并解压 cd /export/softwares/ tar -zxvf hadoop-2.6.0-cdh5.14.0.tar.gz -C ../servers/ 第二步:查看Hadoop支持的压缩方式以及本地库 cd /...

    hadoop的伪分布式模式配置与安装

    Hadoop版本:hadoop-0.20.2-cdh3u4.tar.gz 硬件环境: 三台主机:分别为 gdy192 192.168.61.192 gdy194 192.168.61.194 gdy195 192.168.61.195 本次部署模型为: gdy192上部署:NameNode和JobTracker gdy194上...

    从零起步搭建Hadoop单机和伪分布式开发环境图文教程.

    王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第二讲Hadoop图文训练课程:全球最详细(不放过任何一个细节)的从零起步搭建Hadoop单机和伪分布式开发环境图文教程.pdf

    Windows7下eclipse调试Fedora虚拟机的hadoop+hbase伪分布式

    公司进行战略调整阶段,终于可以闲下心来潜心研究分布式应用Hadoop。至于hadoop的应用结构,在这里不必多说,大家网上搜索相关文章即可。 既然研究hadoop,就需要基础的环境搭建。由于资源有限,只能在本机windows...

    hadoop伪分布式搭建centos6.5+hadoop2.7

    在VMware虚拟机上,安装hadoop集群,采用的是伪分布式搭建,从安装jdk到hadoop的环境配置,全套都有,依据这个文档可以在个人Vmware上搭建自己的hadoop集群,这个集群有一个主节点,两个从节点。按照这个文档搭建后...

    超详细解说Hadoop伪分布式搭建1

    第一步: 安装 JDK 第二步: 配置环境变量 第四步: 配置 Hadoop 环境变量 第五步: 设置 SSH(安全外壳协议) 第六步: 配置 Hadoop 伪

    linux下安装hadoop伪分布与完全分布式安装

    Hadoop Hadoop Hadoop Hadoop Hadoop Hadoop Hadoop 伪分布式模是在单机上拟 伪分布式模是在单机上拟 伪分布式模是在单机上拟 伪分布式模是在单机上拟 伪分布式模是在单机上拟 伪分布式模是在单机上拟 伪分布式模是...

    Hadoop完全分布式配置.txt

    Hadoop的安装分为单机方式、伪分布式方式和完全分布式方式。 a. 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件...

    Hadoop2.6(伪分布式)+Spark1.6环境搭建

    这一两年Spark技术很火,自己也凑一下热闹,主要是为了搭建Spark,但是Spark需要Hadoop的hdfs和yarn,...本教程在Ubutnu 14.04 64位,Hadoop 2.6.0下验证通过,这里只列出命令与配置,不作详细说明,方便有基础的读者。

    全球最详细的从零起步搭建Hadoop单机和伪分布式开发环境图文教程

    本文从零起步构建Hadoop单机版本和伪分布式的开发环境,涉及: 1, 开发Hadoop需要的基本软件; 2, 安装每个软件; 3, 配置Hadoop单机模式并运行Wordcount示例;...4, 配置Hadoop伪分布式模式并运行Wordcount示例;

Global site tag (gtag.js) - Google Analytics