PROMO PUNCAK LEBARAN DISKON 99%
Belajar Data Science 6 Bulan BERSERTIFIKAT hanya Rp 99K!

1 Hari 2 Jam 14 Menit 24 Detik

Hadoop Adalah: Mengulas Secara Lengkap Software Pengelolaan Big Data

Belajar Data Science di Rumah 10-Mei-2021
https://dqlab.id/files/dqlab/cache/9d66a9a50b0132f8d727e917238ba1a5_x_Thumbnail800.jpg

Saat ini Big Data mulai jadi tren teknologi khususnya di era digital transformasi. Salah satu software platform yang bisa digunakan untuk mengelola Big Data adalah Hadoop. Hadoop adalah library software yang menyerupai framework open source dari bahasa pemrograman Java di bawah lisensi Apache yang digunakan untuk melakukan pemrosesan Big Data menggunakan model pemrograman sederhana. Hadoop telah banyak dikenal oleh perusahaan-perusahaan besar seperti Microsoft, Oracle, IBM dan sejenisnya. Secara ringkas Hadoop adalah software yang mampu menghubungkan banyak komputer untuk dapat bekerja sama dan saling terhubung untuk menyimpan dan mengelola data dalam satu kesatuan.

Mengapa banyak perusahaan yang menggunakan Hadoop? Dilihat dari sifat sebuah data, Hadoop juga cocok untuk data satu kali tulis namun sering dibaca seperti melakukan data mining pada web log. Melalui artikel ini DQLab akan menjelaskan sekilas tentang apa itu Hadoop dan beberapa hal lainnya yang perlu kamu ketahui tentang Hadoop untuk kamu yang antusias belajar dan ingin menjadi seorang praktisi data. Masih belum paham mengenai Apache Hadoop? Simak pembahasan berikut ini, Yuk!


1. Sejarah dan Pengertian Hadoop

Hadoop tercipta dari sebuah inspirasi setelah terbitnya paper Google File System (GFS) pada Oktober 2003. Paper tersebut berisikan gambaran tentang Big Data yang digunakan untuk menampung data milik Google yang sangat besar. Pada tahun 2005, Doug Cutting dan Mike Cafarella mengembangkan Hadoop saat bekerja pada perusahaan Yahoo!. Perbedaan dari Big Data yang dimiliki Google dan Hadoop terlihat dari sifatnya yang closed source dan open source.

Mengenal Hadoop dalam Big Data | Portal Data LAN

Software Hadoop atau sebutan resminya adalah Apache Hadoop ini merupakan salah satu implementasi dari teknologi Big Data. Software yang bekerja lebih dari sekedar perangkat lunak ini, dapat diakses secara terbuka atau open source. Seperti yang sudah dijelaskan secara singkat di atas, Hadoop sendiri merupakan sekumpulan software yang mampu menyelesaikan permasalahan dari sekumpulan data dengan jumlah yang besar.

Dengan banyaknya aliran data dalam perkembangan internet saat ini, Hadoop dapat menjadi solusi saat diperlukan model penyimpanan dan pengelolaan data dalam jumlah yang sangat besar. Selain itu, dengan besarnya volume dan banyaknya variasi data yang diperoleh suatu perusahaan serta kebutuhan akses data yang harus cepat pula, Hadoop diharapkan dapat menyelesaikan permasalahan tersebut.

Berdasarkan penjabaran terkait pengertian Hadoop atas, terdapat tiga prinsip penting pada software yang identik dengan logo gajah berwarna kuning ini. Pertama, software Hadoop mampu menggabungkan banyak komputer menjadi satu kesatuan, dimana dengan banyaknya penggabungan ini maka data akan disebar ke seluruh komputer yang ada untuk saling menjaga data di dalamnya agar tetap aman. Kedua, Hadoop memiliki sistem yang dapat membagi proses perhitungan atau komputasi yang biasanya memakan waktu yang sangat lama. Secara teknis, pada proses ini Hadoop menggunakan teknik map reduce yang dikoordinasikan dengan job tracker. Dan yang terakhir, sistem pada Hadoop mampu membagi beban penyimpanan ke berbagai komputer guna menyelamatkan data jika ada komputer yang mati. Sistem tersebut biasa dikenal dengan sebutan Hadoop Distributed File System (HDFS).


Baca Juga: Big Data Hadoop : Mengulas Lengkap Tentang Teknologi di Balik Hadoop


2. Kelebihan dan Kekurangan Hadoop

Kelebihan Hadoop yang membuat platform ini digunakan oleh banyak perusahaan-perusahaan besar karena Hadoop merupakan solusi yang dapat menjawab tantangan Big Data. Terdapat 3 tantangan utama Big Data yang dapat diatasi oleh keberadaan Hadoop. Pertama Volume, yaitu kebutuhan untuk menyimpan dan mengelola data dalam jumlah yang sangat besar dan terus bertambah dari waktu ke waktu. Selanjutnya Velocity, yaitu kebutuhan untuk bisa mengakses data dalam jumlah besar dengan cepat. Dan yang terakhir adalah Variety, yaitu tantangan terhadap data yang bervariasi saat ini, sehingga teknologi Relational Database Management System (RDBMS) sudah tidak mungkin menanganinya lagi.

Dibalik kelebihannya, Hadoop juga memiliki beberapa limitasi, seperti tidak cocoknya Hadoop untuk OLTP (Online Transaction Processing), OLAP (Online Analytical Processing), dan juga DSS (Decision Support System).


3. Implementasi Hadoop

Seperti yang telah dijelaskan diatas, banyaknya perusahaan-perusahaan besar yang menggunakan Hadoop untuk mengelola data mereka yang pastinya berjumlah sangat banyak. Contoh perusahaan yang menggunakan Hadoop diantaranya seperti Yahoo! Amazon, New York Times, Facebook dan lainnya. Salah satunya Facebook mengklaim bahwa mereka memiliki cluster Hadoop terbesar di dunia, yakni per 13 Juni 2012 mereka memiliki 100 petabyte dan per tanggal 8 November 2012, penggunaan data di Facebook naik kurang lebih setengah Petabyte per hari.


Baca Juga: Kenali Hadoop, Software Platform untuk Mengelola Big Data


4. Framework atau Model Hadoop

Framework Hadoop pada awalnya terdiri atas empat modul/komponen utama, yaitu:

1. Hadoop HDFS adalah sebuah sistem file terdistribusi.

2. Hadoop MapReduce adalah sebuah model programming/Algoritma untuk pengelolaan data untuk menentukan bagaimana data tersebut dijadikan input dan output untuk diterapkan.

3. Hadoop YARN adalah sebuah platform resource-management yang bertanggung jawab untuk mengelola resources dalam clusters dan melakukan scheduling

4. Hadoop Common, berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya.


5. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!


Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Buka academy.dqlab.id dan pilih menu redeem voucher

  3. Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.

  4. Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.


    Penulis : Salsabila Miftah

    Editor : Annissa Widya Davita


      Mulai Karier
      sebagai Praktisi
      Data Bersama
      DQLab

      Daftar sekarang dan ambil langkah
      pertamamu untuk mengenal
      Data Science.

      Buat Akun


      Atau

      Sudah punya akun? Login