Big Data Cloud Computing

Hadoop使用——Linux Ubuntu 14.04 Hadoop 2.7.1伪分布式运行使用

顿搜

2015-11-24

0 评论

795 阅读

正在检测是否收录...

11/24

一、开启Hadoop

执行如下代码开启Hadoop。（注：我是因为已经配置了PATH，所以所有命令前面的bin/都省略了）

start-dfs.sh

start-yarn.sh

二、创建用户目录

伪分布式读取的是 HDFS 上的数据。要使用 HDFS，首先需要创建用户目录。

执行以下命令，创建用户目录。

hdfs dfs -mkdir -p /user/hadoop

三、准备输入文件

将/etc/hadoop/中的文件作为输入文件复制到分布式文件系统中。即将/opt/software/hadoop-2.7.1/etc/hadoop复制到分布式文件系统中的/user/hadoop/input中。目录/user/hadoop/已经在上一步创建好了。因此命令中就可以使用相对目录如 input，其对应的绝对路径就是 /user/hadoop/input

执行以下命令

hdfs dfs -mkdir input   #常见input目录

#将输入文件拷贝到input目录中

hdfs dfs -put /opt/software/hadoop-2.7.1/etc/hadoop/*.xml input

hdfs dfs -ls input       #查看拷贝的文件

四、运行程序

现在我们可以执行Hadoop例子了。Hadoop 附带了丰富的例子（运行 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar 可以看到所有例子），包括 wordcount、terasort、join、grep 等。

此处我们选择运行 grep 例子，即将 input 文件夹中的所有文件作为输入，筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数，最后输出结果到 output 文件夹中。

输入以下命令执行

hadoop jar /opt/software/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

可以看到Map和Reduce的过程

五、查看执行结果

输入以下命令查看运行结果（查看的是位于 HDFS 中的输出结果）

hdfs dfs -cat /user/hadoop/output/*

六、注意事项

Hadoop运行程序时，默认输出目录不能存在，因此再次运行需要执行如下命令删除 output文件夹

hdfs dfs -rm -r /user/hadoop/output

七、关闭Hadoop

如果要关闭hadoop，执行如下命令

stop-yarn.sh

stop-dfs.sh

朗读

赞 · 0

版权属于：

IT技术分享

本文链接：

https://idunso.com/archives/1087/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

IT技术分享

Hadoop使用——Linux Ubuntu 14.04 Hadoop 2.7.1伪分布式运行使用

一、开启Hadoop

二、创建用户目录

三、准备输入文件

四、运行程序

五、查看执行结果

六、注意事项

七、关闭Hadoop

人生倒计时

今日天气

热门文章

历史今天

最新回复

顿搜

绿水本无忧，因风皱面

青山原不老，为雪白头