Jinsi ya Kufunga na Kusanidi Apache Spark kwenye Ubuntu/Debian


Apache Spark ni mfumo wa ukokotoaji uliosambazwa wa chanzo huria ambao umeundwa kutoa matokeo ya hesabu ya haraka. Ni injini ya kukokotoa ya kumbukumbu, kumaanisha kwamba data itachakatwa kwenye kumbukumbu.

Spark inasaidia API mbalimbali za utiririshaji, usindikaji wa grafu, SQL, MLLib. Pia inasaidia Java, Python, Scala, na R kama lugha zinazopendekezwa. Spark husakinishwa zaidi katika makundi ya Hadoop lakini pia unaweza kusakinisha na kusanidi cheche katika hali ya pekee.

Katika nakala hii, tutakuwa tunaona jinsi ya kusanikisha Apache Spark katika usambazaji wa msingi wa Debian na Ubuntu.

Weka Java na Scala kwenye Ubuntu

Ili kusakinisha Apache Spark katika Ubuntu, unahitaji kuwa na Java na Scala iliyosanikishwa kwenye mashine yako. Usambazaji mwingi wa kisasa huja na Java iliyosanikishwa na chaguo-msingi na unaweza kuithibitisha kwa kutumia amri ifuatayo.

$ java -version

Ikiwa hakuna matokeo, unaweza kusakinisha Java kwa kutumia makala yetu ya jinsi ya kusakinisha Java kwenye Ubuntu au endesha tu amri zifuatazo ili kusakinisha Java kwenye Ubuntu na usambazaji wa msingi wa Debian.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Ifuatayo, unaweza kusanikisha Scala kutoka kwa hazina inayofaa kwa kutekeleza amri zifuatazo kutafuta scala na kuisakinisha.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Ili kuthibitisha usakinishaji wa Scala, endesha amri ifuatayo.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Weka Apache Spark katika Ubuntu

Sasa nenda kwa amri rasmi ya wget kupakua faili moja kwa moja kwenye terminal.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Sasa fungua terminal yako na ubadilishe hadi mahali faili yako iliyopakuliwa imewekwa na endesha amri ifuatayo ili kutoa faili ya tar ya Apache Spark.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Hatimaye, sogeza saraka ya Spark iliyotolewa kwenye saraka ya /opt.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Sanidi Vigezo vya Mazingira kwa Spark

Sasa inabidi uweke vigeu vichache vya mazingira katika faili yako ya .profile kabla ya kuanzisha cheche.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Ili kuhakikisha kuwa anuwai hizi mpya za mazingira zinaweza kufikiwa ndani ya ganda na zinapatikana kwa Apache Spark, ni lazima pia kutekeleza amri ifuatayo ili kutekeleza mabadiliko ya hivi majuzi.

$ source ~/.profile

Binari zote zinazohusiana na cheche kuanza na kusimamisha huduma ziko chini ya folda ya sbin.

$ ls -l /opt/spark

Anzisha Apache Spark huko Ubuntu

Tekeleza amri ifuatayo ili kuanza huduma kuu ya Spark na huduma ya watumwa.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Mara tu huduma inapoanzishwa, nenda kwa kivinjari na chapa ukurasa wa cheche wa ufikiaji wa URL ufuatao. Kutoka kwa ukurasa, unaweza kuona huduma ya bwana na mtumwa imeanzishwa.

http://localhost:8080/
OR
http://127.0.0.1:8080

Unaweza pia kuangalia ikiwa spark-shell inafanya kazi vizuri kwa kuzindua amri ya spark-shell.

$ spark-shell

Hiyo ni kwa makala hii. Tutakupata na nakala nyingine ya kupendeza hivi karibuni.