Cara Menginstal Apache Hadoop di Ubuntu 22.04 LTS

Cara Menginstal Apache Hadoop di Ubuntu 22.04 LTS

Instal Apache Hadoop di Ubuntu 22.04

Dalam tutorial ini, kami akan menunjukkan cara menginstal Apache Hadoop di Ubuntu 22.04 LTS. Bagi Anda yang belum tahu, Apache Hadoop adalah platform perangkat lunak open source berbasis Java yang dapat digunakan untuk mengelola dan memproses kumpulan data besar untuk aplikasi yang memerlukan pemrosesan data yang cepat dan skalabel. Ini didasarkan pada Java dan menggunakan HDFS (Hadoop Distributed File System) untuk menyimpan datanya. Hadoop dirancang untuk digunakan di jaringan yang terdiri dari ratusan atau lebih dari 1000 server khusus. Mereka semua bersama-sama menangani dan memproses sejumlah besar dan berbagai kumpulan data.

Artikel ini mengasumsikan Anda memiliki setidaknya pengetahuan dasar tentang Linux, tahu cara menggunakan shell, dan yang paling penting, Anda meng-host situs Anda di VPS Anda sendiri. Instalasi cukup sederhana dan mengasumsikan Anda berjalan di akun root, jika tidak, Anda mungkin perlu menambahkan ‘sudo‘ ke perintah untuk mendapatkan hak akses root. Saya akan menunjukkan kepada Anda langkah demi langkah instalasi Apache Hadoop di Ubuntu 22.04 (Jammy Jellyfish). Anda dapat mengikuti instruksi yang sama untuk Ubuntu 22.04 dan distribusi berbasis Debian lainnya seperti Linux Mint, Elementary OS, Pop!_OS, dan banyak lagi.

Prasyarat

  • Server yang menjalankan salah satu sistem operasi berikut: Ubuntu 22.04, 20.04, dan distribusi berbasis Debian lainnya seperti Linux Mint.
  • Disarankan agar Anda menggunakan instalasi OS baru untuk mencegah potensi masalah apa pun.
  • Akses SSH ke server (atau cukup buka Terminal jika Anda menggunakan desktop).
  • SEBUAH non-root sudo useratau akses ke root user. Kami merekomendasikan bertindak sebagai non-root sudo usernamun, karena Anda dapat membahayakan sistem Anda jika Anda tidak berhati-hati saat bertindak sebagai root.

Instal Apache Hadoop di Ubuntu 22.04 LTS Jammy Jellyfish

Langkah 1. Pertama, pastikan semua paket sistem Anda mutakhir dengan menjalankan yang berikut: apt perintah di terminal.

sudo apt update
sudo apt upgrade
sudo apt install wget apt-transport-https gnupg2 software-properties-common

Langkah 2. Menginstal Java OpenJDK.

Apache Hadoop berbasis Java, jadi Anda perlu menginstal Java JDK di server Anda. Mari kita jalankan perintah di bawah ini untuk menginstal default JDK versi 11:

sudo apt install default-jdk

Verifikasi versi Java menggunakan perintah berikut:

java --version

Untuk sumber daya tambahan tentang menginstal dan mengelola Java OpenJDK, baca posting di bawah ini:

Langkah 3. Buat Pengguna untuk Hadoop.

Jalankan perintah berikut untuk membuat pengguna baru dengan nama Hadoop:

sudo adduser hadoop

Selanjutnya, beralih ke akun yang baru dibuat dengan menjalankan perintah di bawah ini:

su - hadoop

Sekarang konfigurasikan akses SSH tanpa kata sandi untuk pengguna Hadoop yang baru dibuat. Buat pasangan kunci SSH terlebih dahulu:

ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 640 ~/.ssh/authorized_keys

Setelah itu, verifikasi SSH tanpa kata sandi dengan perintah berikut:

ssh localhost

Jika Anda masuk tanpa kata sandi, Anda dapat melanjutkan ke langkah berikutnya.

Langkah 4. Menginstal Apache Hadoop di Ubuntu 22.04.

Secara default, Apache Hadoop tersedia di repositori dasar Ubuntu 22.04. Sekarang jalankan perintah berikut di bawah ini untuk mengunduh versi terbaru Hadoop ke sistem Ubuntu Anda:

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

Selanjutnya, ekstrak file yang diunduh:

tar xzf hadoop-3.3.4.tar.gz
mv hadoop-3.3.4 ~/hadoop

Sekarang konfigurasikan Hadoop dan Java Environment Variables di sistem Anda. Buka ~/.bashrc file di editor teks favorit Anda:

nano ~/.bashrc

Tambahkan konten berikut di bagian bawah file:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Simpan dan tutup file, lalu muat konfigurasi baru:

source ~/.bashrc

Anda juga perlu mengonfigurasi Java_HOME di hadoop-env.sh mengajukan. Edit file variabel lingkungan Hadoop di editor teks:

nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Tambahkan baris berikut:

###
# Generic settings for HADOOP
Many sites configure these options outside of Hadoop,
# such as in /etc/profile.d
# The java implementation to use. By default, this environment
# variable is REQUIRED on ALL platforms except OS X!export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

Langkah 5. Konfigurasi Apache Hadoop.

Kami siap mengonfigurasi Hadoop untuk mulai menerima koneksi. Pertama, buat dua folder (namenode dan datanode) di dalam hdfs direktori:

mkdir -p ~/hadoopdata/hdfs/{namenode,datanode}

Selanjutnya, edit core-site.xml berkas di bawah ini:

nano $HADOOP_HOME/etc/hadoop/core-site.xml

Ubah nama berikut sesuai nama host sistem Anda:

See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. --><configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

Selanjutnya, edit hdfs-site.xml mengajukan:

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Ubah jalur direktori NameNode dan DataNode seperti yang ditunjukkan di bawah ini:

See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. --><configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
        <name>dfs.name.dir</name>
        <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
        <name>dfs.data.dir</name>
        <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</configuration>

Selanjutnya, edit mapred-site.xml mengajukan:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Lakukan perubahan berikut:

See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. --><configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

Selanjutnya, edit yarn-site.xml mengajukan:

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Buat properti konfigurasi untuk benang:

See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
--><configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

Kita harus memulai cluster Hadoop untuk mengoperasikan Hadoop. Untuk ini, kami akan memformat “namenode” pertama:

hdfs namenode -format

Selanjutnya, jalankan perintah di bawah ini untuk memulai Hadoop:

start-all.sh

Keluaran:

Starting namenodes on [localhost]
Starting datanodes
Starting secondary namenodes [Ubuntu2204]
Ubuntu2204: Warning: Permanently added 'ubuntu2204' (ED10019) to the list of known hosts.
Starting resourcemanager
Starting nodemanagers

Langkah 7. Konfigurasi Firewall.

Sekarang kami menyiapkan Uncomplicated Firewall (UFW) dengan Apache untuk mengizinkan akses publik pada port web default untuk 8088 dan 9870:

sudo firewall-cmd --permanent --add-port=8088/tcp
sudo firewall-cmd --permanent --add-port=9870/tcp
sudo firewall-cmd --reload

Langkah 8. Mengakses Antarmuka Web Apache Hadoop.

Setelah berhasil diinstal, buka browser web Anda dan akses wizard instalasi Apache Hadoop menggunakan URL http://your-IP-address:9870. Anda akan diarahkan ke halaman berikut:

Instal Apache Hadoop di Ubuntu 22.04

Anda juga dapat mengakses DataNodes individu menggunakan URL http://your-IP-address:8088. Anda akan melihat layar berikut:

Instal Apache Hadoop di Ubuntu 22.04 LTS

Untuk mengakses YARN Resource Manager, gunakan URL http://your-IP-address:8088. Anda akan melihat layar berikut:

Instal Apache Hadoop di Ubuntu 22.04 LTS

Selamat! Anda telah berhasil menginstal Apache Hadoop. Terima kasih telah menggunakan tutorial ini untuk menginstal Apache Hadoop pada sistem Ubuntu 22.04 LTS Jammy Jellyfish. Untuk bantuan tambahan atau informasi berguna, kami sarankan Anda memeriksa situs web resmi Apache Hadoop.

Penawaran Layanan Kelola VPS

Jika Anda tidak punya waktu untuk melakukan semua hal ini, atau jika ini bukan bidang keahlian Anda, kami menawarkan layanan untuk melakukan “Penawaran Layanan Kelola VPS”, mulai dari $10 (pembayaran Paypal). Silahkan hubungi kami untuk mendapatkan penawaran terbaik!
Tags: Apache Hadoop

Admin Tamvan, disegala Arah dan Cuaca..

You might also like