PAYDAY SUPER SALE!! DISKON 98%
Belajar Data Science Bersertifikat, 6 BULAN hanya Rp 100K!
0 Hari 18 Jam 24 Menit 8 Detik

Exploratory Data Analysis : Pahami Lebih Dalam untuk Siap Hadapi Industri Data

Belajar Data Science di Rumah 20-Agustus-2025
https://dqlab.id/files/dqlab/cache/e037c90a428a9a3f512b02bdfa4f088b_x_Thumbnail800.jpg

Dalam dunia machine learning, dataset ibarat bahan bakar yang menentukan seberapa jauh sebuah model bisa melaju. Model secanggih apa pun akan sulit bekerja optimal jika tidak didukung oleh dataset yang tepat. Pertanyaannya, bagaimana cara memilih dataset yang benar-benar sesuai dengan kebutuhan proyek machine learning? Banyak pemula sering asal ambil data publik dari internet, padahal belum tentu cocok untuk tujuan yang ingin dicapai. Oleh karenanya, kali ini Min Q akan mengajak kamu untuk mengupas tuntas bagaimana memilih dataset yang relevan, pentingnya eksplorasi data (Exploratory Data Analysis/EDA), hingga hal-hal teknis yang wajib diperhatikan agar model yang dibangun tidak sekadar “canggih” di atas kertas, tetapi juga berguna di dunia nyata!


1. Apa Itu Dataset dalam Machine Learning?

Secara sederhana, dataset adalah kumpulan data yang digunakan untuk melatih dan menguji model machine learning. Dataset ini bisa berupa angka, teks, gambar, suara, atau gabungan dari berbagai jenis data tergantung pada jenis masalah yang ingin diselesaikan. Menurut Goodfellow et al. dalam buku Deep Learning (MIT Press, 2016), kualitas dataset sering kali menjadi faktor paling krusial dalam menentukan performa model. Dataset bukan sekadar bahan mentah, melainkan fondasi yang akan membentuk cara kerja algoritma dalam mengenali pola, membuat prediksi, atau mengambil keputusan.

Jika dianalogikan, dataset adalah bahan masakan. Resep masakan bisa sama, tetapi kualitas bahan akan sangat memengaruhi hasil akhirnya. Sama halnya, dua orang bisa menggunakan algoritma yang sama, tetapi dataset yang berbeda bisa menghasilkan akurasi model yang jauh berbeda.


2. Mengapa Memilih Dataset yang Tepat Itu Penting?

Banyak kasus di mana sebuah model machine learning gagal bukan karena algoritmanya buruk, tetapi karena dataset yang digunakan tidak representatif. IBM dalam artikelnya The Importance of Data Quality in AI (2023) menekankan bahwa dataset yang bias, kotor, atau tidak relevan bisa membuat model menghasilkan prediksi yang menyesatkan.

Sebagai contoh, bayangkan kita ingin membangun model untuk mendeteksi penyakit dari data medis. Jika dataset hanya berisi data dari kelompok usia tertentu atau dari satu wilayah saja, model cenderung bias dan gagal menggeneralisasi ke populasi yang lebih luas. Hal ini bisa berbahaya jika digunakan untuk pengambilan keputusan medis.

Selain itu, dataset yang buruk juga bisa membuat waktu pelatihan lebih lama, biaya komputasi lebih tinggi, dan model yang tidak efisien. Oleh karena itu, pemilihan dataset yang tepat bukan hanya soal akurasi, tetapi juga efisiensi, fairness, dan keandalan.


Baca juga: Bootcamp Machine Learning & AI for Beginner


3. Bagaimana Cara Memilih Dataset yang Tepat?

Ada beberapa tahapan penting dalam memilih dataset untuk machine learning agar tidak salah langkah:

  1. Menentukan Tujuan Proyek

Sebelum berburu dataset, jelas dulu apa tujuan machine learning yang ingin dicapai. Apakah untuk klasifikasi gambar, prediksi harga, analisis sentimen, atau rekomendasi produk? Setiap tujuan membutuhkan jenis data yang berbeda. McKinsey (2022) menyoroti bahwa kesalahan paling umum di tahap awal proyek AI adalah tidak adanya kejelasan problem statement, sehingga dataset yang dipilih akhirnya tidak relevan.

  1. Sumber Dataset

Dataset bisa diperoleh dari berbagai sumber: dataset publik seperti Kaggle, UCI Machine Learning Repository, atau Google Dataset Search, hingga data internal perusahaan. Dataset publik sering dipakai pemula karena mudah diakses, sedangkan data internal biasanya lebih kaya konteks tetapi membutuhkan effort ekstra dalam pembersihan.

  1. Exploratory Data Analysis (EDA)

Tahap paling krusial setelah mendapatkan dataset adalah melakukan EDA. Praktik ini membantu memahami distribusi data, menemukan outlier, melihat korelasi antar fitur, hingga memahami struktur data. Misalnya, histogram bisa digunakan untuk melihat distribusi variabel numerik, boxplot untuk mendeteksi outlier, dan heatmap korelasi untuk memahami hubungan antar fitur. Menurut jurnal Exploratory Data Analysis for Machine Learning (Springer, 2020), EDA bukan hanya membantu dalam memahami data, tetapi juga mengarahkan keputusan apakah dataset layak digunakan atau perlu ditambah dengan data lain.

  1. Evaluasi Kualitas Dataset

Kualitas dataset ditentukan oleh beberapa aspek: kelengkapan (completeness), konsistensi, akurasi, dan relevansi. Dataset yang penuh missing value atau banyak duplikasi akan sulit dipakai. Oleh karena itu, tahap data cleaning sering berjalan beriringan dengan evaluasi dataset.

  1. Validasi Dataset

Sebelum benar-benar dipakai melatih model, dataset perlu divalidasi. Teknik validasi bisa berupa train-test split, cross-validation, atau membandingkan hasil model pada dataset yang berbeda. Tujuannya untuk memastikan dataset tidak hanya cocok dengan model tertentu, tetapi juga bisa menghasilkan prediksi yang stabil di luar data training.


Baca juga: Mengenal NLP, Salah Satu Produk Machine Learning


4. Hal-hal yang Perlu Diperhatikan dalam Pemilihan Dataset

Selain teknik, ada aspek etis dan praktis yang sering dilupakan. Pertama, masalah privasi. Dataset medis, finansial, atau data personal sering terikat regulasi seperti GDPR di Eropa atau UU Perlindungan Data Pribadi di Indonesia. Mengabaikan aspek ini bisa berakibat fatal bagi perusahaan maupun peneliti.

Kedua, masalah bias. Dataset yang hanya mencerminkan satu kelompok tertentu bisa membuat model diskriminatif. Kasus klasik adalah bias gender dalam dataset rekrutmen yang membuat model cenderung lebih memilih kandidat pria. Menurut penelitian AI Now Institute (2019), bias dalam dataset adalah salah satu penyebab utama kegagalan implementasi AI di dunia nyata. Ketiga, ukuran dataset. Tidak selalu dataset besar berarti lebih baik. Dataset kecil tapi berkualitas bisa lebih efektif dibanding dataset besar yang penuh noise.


FAQ

Q: Apakah dataset publik seperti di Kaggle bisa langsung dipakai untuk proyek serius?
A: Bisa, tetapi perlu evaluasi lebih lanjut. Dataset publik sering dibuat untuk keperluan pembelajaran, sehingga mungkin kurang representatif untuk aplikasi industri.

Q: Apakah EDA wajib dilakukan?
A: Sangat wajib. Tanpa EDA, kita tidak tahu distribusi data, potensi outlier, atau adanya bias dalam dataset. EDA adalah fondasi sebelum melangkah ke modeling.

Q: Bagaimana cara tahu dataset sudah cukup baik untuk machine learning?
A: Dataset dianggap cukup baik jika lengkap, relevan dengan problem statement, minim missing value, bebas dari bias yang mencolok, dan sudah tervalidasi dengan teknik pembagian data.


Nah, jadi gimana? Kamu tertarik untuk mempelajari machine learning secara lebih dalam, serta menerapkannya untuk upgrade karir kamu? Yuk, segera Sign Up ke DQLab! Disini kamu bisa banget belajar dengan modul berkualitas dan tools sesuai kebutuhan industri dari dasar hingga advanced meskipun kamu nggak punya background IT, lho. Dilengkapi studi kasus yang membantu para pemula belajar memecahkan masalah secara langsung dari berbagai industri.

Tidak cuma itu, DQLab juga sudah menerapkan metode pembelajaran HERO (Hands-On, Experiential Learning & Outcome-based) yang dirancang ramah untuk pemula, dan telah terbukti mencetak talenta unggulan yang sukses berkarier di bidang data. Jadi, mau tunggu apa lagi? Yuk, segera persiapkan diri dengan modul premium atau kamu juga bisa mengikuti Bootcamp Machine Learning and AI for Beginner sekarang juga!


Penulis: Lisya Zuliasyari

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Daftar Gratis & Mulai Belajar

Mulai perjalanan karier datamu bersama DQLab

Daftar dengan Google

Sudah punya akun? Kamu bisa Sign in disini