JULY SPECIAL ! DISKON 96%
Belajar Data Science Bersertifikat, 12 Bulan hanya 180K!
1 Hari 15 Jam 58 Menit 4 Detik

Mengenal Kerangka Hadoop pada Tools Data Science

Belajar Data Science di Rumah 07-Oktober-2023
https://dqlab.id/files/dqlab/cache/1-longtail-jumat-05-2023-10-07-101733_x_Thumbnail800.jpg

Data Science adalah bidang yang luas yang melibatkan pengumpulan, analisis, interpretasi, dan penerapan informasi dari data untuk mengambil keputusan yang insightful. Untuk melakukan pekerjaan ini, para profesional Data Science menggunakan berbagai alat dan perangkat lunak agar lebih efisien dalam menuntaskan tugas-tugasnya.


Salah satu tools data science yang digunakan dalam proses pengolahan big data adalah Hadoop. Hadoop adalah kerangka kerja yang dibuat oleh Google dan Apache Software Foundation untuk menyederhanakan pekerjaan yang berkaitan dengan analisis big data.


Kerangka kerja Hadoop diciptakan untuk mengatasi berbagai tantangan yang muncul dalam pengolahan big data yang sebelumnya dilakukan secara konvensional. 


Kehadiran kerangka kerja Hadoop telah membantu para pengolah big data, seperti data engineer, untuk mengelola dan menganalisis data dalam jumlah besar dengan lebih efisien. Sebagaimana yang disebutkan oleh AWS, Hadoop merupakan kerangka kerja sumber terbuka yang sangat efektif untuk menyimpan dan memproses dataset dalam skala besar, mulai dari gigabyte hingga petabyte.


Alih-alih bergantung pada komputer dengan penyimpanan besar, Hadoop memungkinkan pengguna untuk menggabungkan banyak komputer untuk menganalisis data besar secara bersamaan dan lebih cepat. Dalam Hadoop terdapat berbagai komponen ekosistem yang tersedia dalam melakukan pengolahan data science.


Apa saja ekosistemnya? Simak yuk sahabat DQLab!


1. Presto

Presto adalah SQL query engine terdistribusi bersifat open source yang biasa digunakan untuk analisis data ad hoc low latency. Menggunakan Ekosistem Hadoop ini, kamu bisa memproses data dari berbagai sumber yang berbeda-beda termasuk Amazon dan HDFS. 

Data Science

Sumber Gambar: Insight Software


Baca juga : Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science!


2. HDFS

Hadoop Distributed File System (HDFS) adalah sistem file terdistribusi yang dirancang khusus untuk menyimpan dan mengelola data yang sangat besar (big data) di dalam kluster komputer yang terdistribusi.


HDFS adalah salah satu komponen inti dalam ekosistem Hadoop dan memiliki karakteristik utama yakni membagi data menjadi blok-blok yang besar (biasanya 128 MB atau 256 MB) dan menyimpan beberapa salinan blok ini dalam kluster. Blok-blok besar ini mengurangi overhead yang terkait dengan mengelola sejumlah besar file kecil.


3. HBase

HBase adalah basis data terdistribusi yang dirancang untuk menyimpan dan mengelola data yang sangat besar, terutama data semi-struktural atau tidak terstruktur. HBase adalah proyek open source yang berjalan di atas Apache Hadoop, dan ini adalah salah satu komponen ekosistem Hadoop yang penting.


HBase sering digunakan dalam berbagai kasus penggunaan, termasuk pemantauan aplikasi real-time, analisis data, pengolahan log, dan aplikasi yang memerlukan penyimpanan data berskala besar dengan tingkat konsistensi yang tinggi.

Data Science

Sumber Gambar: Amazon AWS


4. MapReduce

Selanjutnya adalah MapReduce. MapReduce merupakan model pemrograman dan sistem pemrosesan data terdistribusi yang digunakan untuk mengolah data besar di dalam kluster Hadoop. MapReduce mengizinkan Anda untuk membagi pekerjaan pemrosesan menjadi tugas-tugas yang lebih kecil dan mendistribusikannya ke berbagai node dalam kluster.


Baca juga : 3 Contoh Penerapan Data Science yang Sangat Berguna di Dunia Perindustrian


5. Spark

Spark adalah processing system terdistribusi yang sifatnya open source yang digunakan untuk big data, Ekosistem Hadoop ini bisa beroperasi dengan cepat dan bisa melakukan streaming analytics, machine learning, hoc query, batch processing, hingga graph database. 


Jangan khawatir jika kamu pemula yang tidak memiliki background STEM karena gelar bukan halangan untuk menguasai ilmu data scientist agar bisa berkarir di industri 4.0. Buruan gabung bersama DQLab dengan Sign Up sekarang untuk #MulaiBelajarData di DQLab:


  • Buat Akun Gratis dengan Signup di DQLab.id/signup

  • Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

  • Subscribe DQLab.id untuk Akses Semua Module Premium!


Penulis: Reyvan Maulid


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login