基于VMware搭建Hadoop伪分布式实验平台

栏目：城建环卫发布：2022-11-11浏览：2457下载181次收藏

摘要：hadoop是一个能够对大量数据进行分布式处理的软件框架，为了满足大数据技术专业学生实验的需要，采用vmware虚拟机在单机环境下搭建hadoop伪分布式实验平台，通过实驗过程操作和程序运行可以看出，伪分布式平台搭建可以支持轻量级的大数据学习需要。

关键词：hadoop;伪分布式;实验平台

一、hadoop概述

hadoop实现了一个分布式文件系统（hadoop distributed file system），简称hdfs。hdfs有高容错性的特点，并且设计用来部署在低廉的硬件上，而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。

二、hadoop安装方式

（1）单机模式

hadoop 默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。非分布式即单 java 进程，方便进行调试。

（2）伪分布式模式

hadoop 可以在单节点上以伪分布式的方式运行，hadoop 进程以分离的 java 进程来运行，节点既作为 namenode 也作为 datanode，同时，读取的是 hdfs 中的文件。

（3）分布式模式

使用多个节点构成集群环境来运行hadoop，实验中通常在虚拟机下建立三个节点（一个主节点和两个丛节点）。

三、hadoop伪分布式模式搭建过程

（1）实验环境

本文使用ubuntu 14.04 64位作为系统环境，安装所需软件包有：hadoop-2.7.1.tar.gz、 jdk-8u162-linux-x64.tar.gz。

（2）创建hadoop用户

在终端环境下，创建新用户hadoop：sudo useradd –m hadoop –s /bin/bash;设置hadoop用户密码：sudo passwd hadoop;为 hadoop 用户增加管理员权限，方便部署：sudo adduser hadoop sudo。

（3）安装ssh、配置ssh无密码登陆

ubuntu 默认已安装 ssh client，还需要安装 ssh server：sudo apt-get install openssh-server;使用如下命令登陆本机：ssh localhost;利用 ssh-keygen 生成密钥：ssh-keygen -t rsa;加入授权：cat ./id_rsa.pub >> ./authorized_keys

（4）安装java环境

创建/usr/lib/jvm目录用来存放jdk文件：sudo mkdir /usr/lib/jvm;将下载好的jdk安装包jdk-8u162-linux-x64.tar.gz解压到上面创建的目录下：sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -c /usr/lib/jvm;编辑环境变量配置文件：vim ～/.bashrc，在文件开头位置添加如下几行内容：export java_home=/usr/lib/jvm/jdk1.8.0_162和export path=${java_home}/bin：$path;执行配置文件，使其立即生效：source ～/.bashrc;查看java版本信息：执行java –version命令。

（5）安装hadoop

将下载好的hadoop-2.7.1.tar.gz解压到/usr/local：sudo tar –zxvf? ～/hadoop-2.7.1.tar.gz -c /usr/local;将解压后的文件夹名改为hadoop：sudo mv ./hadoop-2.7.1/ ./hadoop;修改文件权限：sudo chown -r hadoop ./hadoop;hadoop 解压后即可使用，输入如下命令来检查 hadoop 是否可用，成功会显示 hadoop 版本信息：执行cd /usr/local/hadoop和./bin/hadoop version命令。

（6）伪分布式安装配置

hadoop 的配置文件位于/usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件core-site. 和 hdfs-site. ，见图1;配置完成后，执行 namenode 的格式化命令：cd /usr/local/hadoop和./bin/hdfs namenode –format命令，成功的话会看到“successfully formatted”。

（7）启动hadoop

执行cd /usr/local/hadoop和./sbin/start-dfs.sh命令，即可启动hadoop。

四、实例应用

以计算数学中pi的值为实例，在hadoop伪分布式平台上运行，在运行实例之前需要完成mapreduce相关配置。

切换到hadoop配置文件目录：cd /usr/local/hadoop/etc/hadoop;将mapreduce的配置文件mapred-site. .template，重命名为mapred-site. ：mv mapred-site. .template mapred-site. ;修改配置文件mapred-site. 和yarn-site. ，见图3;启动yarn组件：cd /apps/hadoop/sbin/和./start-yarn.sh命令;切换到/usr/local/hadoop/share/hadoop/mapreduce目录，在该目录下运行一个mapreduce程序：

hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar pi 3 3，计算出pi的值，见图2。

参考文献：

[1]崔文斌.hadoop大数据平台的搭建与测试[j].山东农业大学学报（自然科学版），2013，44（4）：550-551.

[2]汪庆.伪分布式大数据平台搭建实验综述[j].福建电脑，2020，36（10）：131-132.

[3]周晴红.hadoop大数据开发技术课程实践教学[j].办公自动化杂志，2021（457）：20-21.

[4]梁天友，邱敏.基于hadoop技术的大数据就业岗位数据分析[j].电脑知识与技术，2021（31）：47.

[5]张雪.基于hadoop技术的联通大数据采集研究[j].信息与电脑，2021（24）：199-200.

[作者简介]孙爱婷（1984-），女，汉族，辽宁大连人，讲师，硕士，辽宁轻工职业学院，信息工程系大数据技术专业主任，主要研究方向：大数据技术。

基于VMware搭建Hadoop伪分布式实验平台

点击下载

上一篇：智能交互在新能源汽车中的应用及思考下一篇：智能网联汽车节能优化关键问题与研究进展

本文2022-11-11 21:37:39发表“城建环卫”栏目。
本文链接：https://www.wenmi123.com/article/431452.html

阅读排行

热门标签