Cara Menginstal Apache Hadoop di Ubuntu 22.04 LTS
Dalam tutorial ini, kami akan menunjukkan cara menginstal Apache Hadoop di Ubuntu 22.04 LTS. Bagi Anda yang belum tahu, Apache Hadoop adalah platform perangkat lunak open source berbasis Java yang dapat digunakan untuk mengelola dan memproses kumpulan data besar untuk aplikasi yang memerlukan pemrosesan data yang cepat dan skalabel. Ini didasarkan pada Java dan menggunakan HDFS (Hadoop Distributed File System) untuk menyimpan datanya. Hadoop dirancang untuk digunakan di jaringan yang terdiri dari ratusan atau lebih dari 1000 server khusus. Mereka semua bersama-sama menangani dan memproses sejumlah besar dan berbagai kumpulan data.
Artikel ini mengasumsikan Anda memiliki setidaknya pengetahuan dasar tentang Linux, tahu cara menggunakan shell, dan yang paling penting, Anda meng-host situs Anda di VPS Anda sendiri. Instalasi cukup sederhana dan mengasumsikan Anda berjalan di akun root, jika tidak, Anda mungkin perlu menambahkan ‘sudo
‘ ke perintah untuk mendapatkan hak akses root. Saya akan menunjukkan kepada Anda langkah demi langkah instalasi Apache Hadoop di Ubuntu 22.04 (Jammy Jellyfish). Anda dapat mengikuti instruksi yang sama untuk Ubuntu 22.04 dan distribusi berbasis Debian lainnya seperti Linux Mint, Elementary OS, Pop!_OS, dan banyak lagi.
Prasyarat
- Server yang menjalankan salah satu sistem operasi berikut: Ubuntu 22.04, 20.04, dan distribusi berbasis Debian lainnya seperti Linux Mint.
- Disarankan agar Anda menggunakan instalasi OS baru untuk mencegah potensi masalah apa pun.
- Akses SSH ke server (atau cukup buka Terminal jika Anda menggunakan desktop).
- SEBUAH
non-root sudo user
atau akses keroot user
. Kami merekomendasikan bertindak sebagainon-root sudo user
namun, karena Anda dapat membahayakan sistem Anda jika Anda tidak berhati-hati saat bertindak sebagai root.
Instal Apache Hadoop di Ubuntu 22.04 LTS Jammy Jellyfish
Langkah 1. Pertama, pastikan semua paket sistem Anda mutakhir dengan menjalankan yang berikut: apt
perintah di terminal.
sudo apt update sudo apt upgrade sudo apt install wget apt-transport-https gnupg2 software-properties-common
Langkah 2. Menginstal Java OpenJDK.
Apache Hadoop berbasis Java, jadi Anda perlu menginstal Java JDK di server Anda. Mari kita jalankan perintah di bawah ini untuk menginstal default JDK versi 11:
sudo apt install default-jdk
Verifikasi versi Java menggunakan perintah berikut:
java --version
Untuk sumber daya tambahan tentang menginstal dan mengelola Java OpenJDK, baca posting di bawah ini:
Langkah 3. Buat Pengguna untuk Hadoop.
Jalankan perintah berikut untuk membuat pengguna baru dengan nama Hadoop:
sudo adduser hadoop
Selanjutnya, beralih ke akun yang baru dibuat dengan menjalankan perintah di bawah ini:
su - hadoop
Sekarang konfigurasikan akses SSH tanpa kata sandi untuk pengguna Hadoop yang baru dibuat. Buat pasangan kunci SSH terlebih dahulu:
ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 640 ~/.ssh/authorized_keys
Setelah itu, verifikasi SSH tanpa kata sandi dengan perintah berikut:
ssh localhost
Jika Anda masuk tanpa kata sandi, Anda dapat melanjutkan ke langkah berikutnya.
Langkah 4. Menginstal Apache Hadoop di Ubuntu 22.04.
Secara default, Apache Hadoop tersedia di repositori dasar Ubuntu 22.04. Sekarang jalankan perintah berikut di bawah ini untuk mengunduh versi terbaru Hadoop ke sistem Ubuntu Anda:
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
Selanjutnya, ekstrak file yang diunduh:
tar xzf hadoop-3.3.4.tar.gz mv hadoop-3.3.4 ~/hadoop
Sekarang konfigurasikan Hadoop dan Java Environment Variables di sistem Anda. Buka ~/.bashrc
file di editor teks favorit Anda:
nano ~/.bashrc
Tambahkan konten berikut di bagian bawah file:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Simpan dan tutup file, lalu muat konfigurasi baru:
source ~/.bashrc
Anda juga perlu mengonfigurasi Java_HOME di hadoop-env.sh
mengajukan. Edit file variabel lingkungan Hadoop di editor teks:
nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Tambahkan baris berikut:
### # Generic settings for HADOOP Many sites configure these options outside of Hadoop, # such as in /etc/profile.d # The java implementation to use. By default, this environment # variable is REQUIRED on ALL platforms except OS X!export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
Langkah 5. Konfigurasi Apache Hadoop.
Kami siap mengonfigurasi Hadoop untuk mulai menerima koneksi. Pertama, buat dua folder (namenode
dan datanode
) di dalam hdfs
direktori:
mkdir -p ~/hadoopdata/hdfs/{namenode,datanode}
Selanjutnya, edit core-site.xml
berkas di bawah ini:
nano $HADOOP_HOME/etc/hadoop/core-site.xml
Ubah nama berikut sesuai nama host sistem Anda:
See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --> <!-- Put site-specific property overrides in this file. --><configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
Selanjutnya, edit hdfs-site.xml
mengajukan:
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Ubah jalur direktori NameNode dan DataNode seperti yang ditunjukkan di bawah ini:
See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --> <!-- Put site-specific property overrides in this file. --><configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </configuration>
Selanjutnya, edit mapred-site.xml
mengajukan:
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Lakukan perubahan berikut:
See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --> <!-- Put site-specific property overrides in this file. --><configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Selanjutnya, edit yarn-site.xml
mengajukan:
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Buat properti konfigurasi untuk benang:
See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --><configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Kita harus memulai cluster Hadoop untuk mengoperasikan Hadoop. Untuk ini, kami akan memformat “namenode
” pertama:
hdfs namenode -format
Selanjutnya, jalankan perintah di bawah ini untuk memulai Hadoop:
start-all.sh
Keluaran:
Starting namenodes on [localhost] Starting datanodes Starting secondary namenodes [Ubuntu2204] Ubuntu2204: Warning: Permanently added 'ubuntu2204' (ED10019) to the list of known hosts. Starting resourcemanager Starting nodemanagers
Langkah 7. Konfigurasi Firewall.
Sekarang kami menyiapkan Uncomplicated Firewall (UFW) dengan Apache untuk mengizinkan akses publik pada port web default untuk 8088 dan 9870:
sudo firewall-cmd --permanent --add-port=8088/tcp sudo firewall-cmd --permanent --add-port=9870/tcp sudo firewall-cmd --reload
Langkah 8. Mengakses Antarmuka Web Apache Hadoop.
Setelah berhasil diinstal, buka browser web Anda dan akses wizard instalasi Apache Hadoop menggunakan URL http://your-IP-address:9870
. Anda akan diarahkan ke halaman berikut:
Anda juga dapat mengakses DataNodes individu menggunakan URL http://your-IP-address:8088
. Anda akan melihat layar berikut:
Untuk mengakses YARN Resource Manager, gunakan URL http://your-IP-address:8088
. Anda akan melihat layar berikut:
Selamat! Anda telah berhasil menginstal Apache Hadoop. Terima kasih telah menggunakan tutorial ini untuk menginstal Apache Hadoop pada sistem Ubuntu 22.04 LTS Jammy Jellyfish. Untuk bantuan tambahan atau informasi berguna, kami sarankan Anda memeriksa situs web resmi Apache Hadoop.
Penawaran Layanan Kelola VPS