Jinsi ya Kufunga na Kusanidi Apache Spark kwenye Ubuntu/Debian
Apache Spark ni mfumo wa ukokotoaji uliosambazwa wa chanzo huria ambao umeundwa kutoa matokeo ya hesabu ya haraka. Ni injini ya kukokotoa ya kumbukumbu, kumaanisha kwamba data itachakatwa kwenye kumbukumbu.
Spark inasaidia API mbalimbali za utiririshaji, usindikaji wa grafu, SQL, MLLib. Pia inasaidia Java, Python, Scala, na R kama lugha zinazopendekezwa. Spark husakinishwa zaidi katika makundi ya Hadoop lakini pia unaweza kusakinisha na kusanidi cheche katika hali ya pekee.
Katika nakala hii, tutakuwa tunaona jinsi ya kusanikisha Apache Spark katika usambazaji wa msingi wa Debian na Ubuntu.
Weka Java na Scala kwenye Ubuntu
Ili kusakinisha Apache Spark katika Ubuntu, unahitaji kuwa na Java na Scala iliyosanikishwa kwenye mashine yako. Usambazaji mwingi wa kisasa huja na Java iliyosanikishwa na chaguo-msingi na unaweza kuithibitisha kwa kutumia amri ifuatayo.
$ java -version
Ikiwa hakuna matokeo, unaweza kusakinisha Java kwa kutumia makala yetu ya jinsi ya kusakinisha Java kwenye Ubuntu au endesha tu amri zifuatazo ili kusakinisha Java kwenye Ubuntu na usambazaji wa msingi wa Debian.
$ sudo apt update $ sudo apt install default-jre $ java -version
Ifuatayo, unaweza kusanikisha Scala kutoka kwa hazina inayofaa kwa kutekeleza amri zifuatazo kutafuta scala na kuisakinisha.
$ sudo apt search scala ⇒ Search for the package $ sudo apt install scala ⇒ Install the package
Ili kuthibitisha usakinishaji wa Scala, endesha amri ifuatayo.
$ scala -version Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Weka Apache Spark katika Ubuntu
Sasa nenda kwa amri rasmi ya wget kupakua faili moja kwa moja kwenye terminal.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Sasa fungua terminal yako na ubadilishe hadi mahali faili yako iliyopakuliwa imewekwa na endesha amri ifuatayo ili kutoa faili ya tar ya Apache Spark.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Hatimaye, sogeza saraka ya Spark iliyotolewa kwenye saraka ya /opt.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Sanidi Vigezo vya Mazingira kwa Spark
Sasa inabidi uweke vigeu vichache vya mazingira katika faili yako ya .profile kabla ya kuanzisha cheche.
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile $ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile $ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Ili kuhakikisha kuwa anuwai hizi mpya za mazingira zinaweza kufikiwa ndani ya ganda na zinapatikana kwa Apache Spark, ni lazima pia kutekeleza amri ifuatayo ili kutekeleza mabadiliko ya hivi majuzi.
$ source ~/.profile
Binari zote zinazohusiana na cheche kuanza na kusimamisha huduma ziko chini ya folda ya sbin.
$ ls -l /opt/spark
Anzisha Apache Spark huko Ubuntu
Tekeleza amri ifuatayo ili kuanza huduma kuu ya Spark na huduma ya watumwa.
$ start-master.sh $ start-workers.sh spark://localhost:7077
Mara tu huduma inapoanzishwa, nenda kwa kivinjari na chapa ukurasa wa cheche wa ufikiaji wa URL ufuatao. Kutoka kwa ukurasa, unaweza kuona huduma ya bwana na mtumwa imeanzishwa.
http://localhost:8080/ OR http://127.0.0.1:8080
Unaweza pia kuangalia ikiwa spark-shell inafanya kazi vizuri kwa kuzindua amri ya spark-shell.
$ spark-shell
Hiyo ni kwa makala hii. Tutakupata na nakala nyingine ya kupendeza hivi karibuni.