Jinsi ya Kufunga na Kusanidi Apache Hadoop kwenye Nodi Moja katika CentOS 7


Apache Hadoop ni muundo wa Open Source kwa ajili ya kuhifadhi Data Kubwa na kuchakata data kwenye makundi ya kompyuta. Mradi unategemea vipengele vifuatavyo:

  1. Hadoop Common - ina maktaba za Java na huduma zinazohitajika na moduli zingine za Hadoop.
  2. HDFS – Mfumo wa Faili Zilizosambazwa za Hadoop – Mfumo wa faili wa Java unaosambazwa katika sehemu nyingi.
  3. Kupunguza Ramani - Mfumo wa UZI kwa uchakataji mkubwa wa data.
  4. UZI wa Hadoop: Mfumo wa usimamizi wa rasilimali za nguzo.

Nakala hii itakuongoza jinsi unavyoweza kusakinisha Apache Hadoop kwenye nguzo moja ya nodi katika CentOS 7 (pia inafanya kazi kwa matoleo ya RHEL 7 na Fedora 23+). Aina hii ya usanidi pia inarejelewa kama Hali ya Usambazaji wa Uongo wa Hadoop.

Hatua ya 1: Sakinisha Java kwenye CentOS 7

1. Kabla ya kuendelea na usakinishaji wa Java, ingia kwanza na mtumiaji wa mizizi au mtumiaji aliye na haki za mizizi sanidi jina la mpangishi wa mashine yako kwa amri ifuatayo.

# hostnamectl set-hostname master

Pia, ongeza rekodi mpya katika faili ya seva pangishi ukitumia mashine yako ya FQDN ili kuelekeza kwenye Anwani yako ya IP ya mfumo.

# vi /etc/hosts

Ongeza mstari hapa chini:

192.168.1.41 master.hadoop.lan

Badilisha jina la mpangishi na rekodi za FQDN na mipangilio yako mwenyewe.

2. Kisha, nenda kwenye ukurasa wa upakuaji wa Oracle Java na unyakue toleo jipya zaidi la Java SE Development Kit 8 kwenye mfumo wako kwa usaidizi wa curl amri:

# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Baada ya upakuaji wa binary wa Java kukamilika, sakinisha kifurushi kwa kutoa amri iliyo hapa chini:

# rpm -Uvh jdk-8u92-linux-x64.rpm

Hatua ya 2: Sakinisha Mfumo wa Hadoop katika CentOS 7

4. Kisha, fungua akaunti mpya ya mtumiaji kwenye mfumo wako bila nguvu za mizizi ambayo tutaitumia kwa njia ya usakinishaji ya Hadoop na mazingira ya kazi. Saraka mpya ya nyumbani ya akaunti itakaa katika saraka ya /opt/hadoop.

# useradd -d /opt/hadoop hadoop
# passwd hadoop

5. Katika hatua inayofuata tembelea ukurasa wa Apache Hadoop ili upate kiungo cha toleo la hivi punde thabiti na upakue kumbukumbu kwenye mfumo wako.

# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Toa kumbukumbu nakili maudhui ya saraka kwenye njia ya nyumbani ya akaunti ya hadoop. Pia, hakikisha umebadilisha ruhusa za faili zilizonakiliwa ipasavyo.

#  tar xfz hadoop-2.7.2.tar.gz
# cp -rf hadoop-2.7.2/* /opt/hadoop/
# chown -R hadoop:hadoop /opt/hadoop/

7. Kisha, ingia kwa mtumiaji wa hadoop na usanidi Vigeu vya Mazingira vya Hadoop na Java kwenye mfumo wako kwa kuhariri faili ya .bash_profile.

# su - hadoop
$ vi .bash_profile

Ongeza mistari ifuatayo mwishoni mwa faili:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Sasa, anzisha anuwai za mazingira na uangalie hali yao kwa kutoa amri zilizo hapa chini:

$ source .bash_profile
$ echo $HADOOP_HOME
$ echo $JAVA_HOME

9. Hatimaye, sanidi uthibitishaji wa msingi wa ufunguo wa ssh kwa akaunti ya hadoop kwa kutekeleza amri zilizo hapa chini (badilisha jina la mpangishaji au FQDN dhidi ya ssh-copy-id amri ipasavyo).

Pia, acha neno la siri likiwa wazi ili kuingia kiotomatiki kupitia ssh.

$ ssh-keygen -t rsa
$ ssh-copy-id master.hadoop.lan