电脑桌面
添加文秘网到电脑桌面
安装后可以在桌面快捷访问

基于VMware搭建Hadoop伪分布式实验平台

栏目:城建环卫发布:2022-11-11浏览:2457下载181次收藏

摘要:hadoop是一个能够对大量数据进行分布式处理的软件框架,为了满足大数据技术专业学生实验的需要,采用vmware虚拟机在单机环境下搭建hadoop伪分布式实验平台,通过实驗过程操作和程序运行可以看出,伪分布式平台搭建可以支持轻量级的大数据学习需要。

关键词:hadoop;伪分布式;实验平台

一、hadoop概述

hadoop实现了一个分布式文件系统(hadoop distributed file system),简称hdfs。hdfs有高容错性的特点,并且设计用来部署在低廉的硬件上,而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

二、hadoop安装方式

(1)单机模式

hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 java 进程,方便进行调试。

(2)伪分布式模式

hadoop 可以在单节点上以伪分布式的方式运行,hadoop 进程以分离的 java 进程来运行,节点既作为 namenode 也作为 datanode,同时,读取的是 hdfs 中的文件。

(3)分布式模式

使用多个节点构成集群环境来运行hadoop,实验中通常在虚拟机下建立三个节点(一个主节点和两个丛节点)。

三、hadoop伪分布式模式搭建过程

(1)实验环境

本文使用ubuntu 14.04 64位作为系统环境,安装所需软件包有:hadoop-2.7.1.tar.gz、 jdk-8u162-linux-x64.tar.gz。

(2)创建hadoop用户

在终端环境下,创建新用户hadoop:sudo useradd –m hadoop –s /bin/bash;设置hadoop用户密码:sudo passwd hadoop;为 hadoop 用户增加管理员权限,方便部署:sudo adduser hadoop sudo。

(3)安装ssh、配置ssh无密码登陆

ubuntu 默认已安装 ssh client,还需要安装 ssh server:sudo apt-get install openssh-server;使用如下命令登陆本机:ssh localhost;利用 ssh-keygen 生成密钥:ssh-keygen -t rsa;加入授权:cat ./id_rsa.pub >> ./authorized_keys

(4)安装java环境

创建/usr/lib/jvm目录用来存放jdk文件:sudo mkdir /usr/lib/jvm;将下载好的jdk安装包jdk-8u162-linux-x64.tar.gz解压到上面创建的目录下:sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -c /usr/lib/jvm;编辑环境变量配置文件:vim ~/.bashrc,在文件开头位置添加如下几行内容:export java_home=/usr/lib/jvm/jdk1.8.0_162和export path=${java_home}/bin:$path;执行配置文件,使其立即生效:source ~/.bashrc;查看java版本信息:执行java –version命令。

(5)安装hadoop

将下载好的hadoop-2.7.1.tar.gz解压到/usr/local:sudo tar –zxvf? ~/hadoop-2.7.1.tar.gz -c /usr/local;将解压后的文件夹名改为hadoop:sudo mv ./hadoop-2.7.1/ ./hadoop;修改文件权限:sudo chown -r hadoop ./hadoop;hadoop 解压后即可使用,输入如下命令来检查 hadoop 是否可用,成功会显示 hadoop 版本信息:执行cd /usr/local/hadoop和./bin/hadoop version命令。

(6)伪分布式安装配置

hadoop 的配置文件位于/usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件core-site. 和 hdfs-site. ,见图1;配置完成后,执行 namenode 的格式化命令:cd /usr/local/hadoop和./bin/hdfs namenode –format命令,成功的话会看到“successfully formatted”。

(7)启动hadoop

执行cd /usr/local/hadoop和./sbin/start-dfs.sh命令,即可启动hadoop。

四、实例应用

以计算数学中pi的值为实例,在hadoop伪分布式平台上运行,在运行实例之前需要完成mapreduce相关配置。

切换到hadoop配置文件目录:cd /usr/local/hadoop/etc/hadoop;将mapreduce的配置文件mapred-site. .template,重命名为mapred-site. :mv mapred-site. .template mapred-site. ;修改配置文件mapred-site. 和yarn-site. ,见图3;启动yarn组件:cd /apps/hadoop/sbin/和./start-yarn.sh命令;切换到/usr/local/hadoop/share/hadoop/mapreduce目录,在该目录下运行一个mapreduce程序:

hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar pi 3 3,计算出pi的值,见图2。

参考文献:

[1]崔文斌.hadoop大数据平台的搭建与测试[j].山东农业大学学报(自然科学版),2013,44(4):550-551.

[2]汪庆.伪分布式大数据平台搭建实验综述[j].福建电脑,2020,36(10):131-132.

[3]周晴红.hadoop大数据开发技术课程实践教学[j].办公自动化杂志,2021(457):20-21.

[4]梁天友,邱敏.基于hadoop技术的大数据就业岗位数据分析[j].电脑知识与技术,2021(31):47.

[5]张雪.基于hadoop技术的联通大数据采集研究[j].信息与电脑,2021(24):199-200.

[作者简介]孙爱婷(1984-),女,汉族,辽宁大连人,讲师,硕士,辽宁轻工职业学院,信息工程系大数据技术专业主任,主要研究方向:大数据技术。

基于VMware搭建Hadoop伪分布式实验平台

点击下载
分享:
热门文章
    热门标签
    确认删除?
    QQ
    • QQ点击这里给我发消息
    回到顶部