Kursus Belajar Data: Mengenal Apa Itu Missing Value
Sahabat data tentunya pasti familiar dengan missing value. Menurut definisinya, Missing Value adalah hilangnya beberapa data yang telah diperoleh. Dalam dunia data science, missing value erat kaitannya dalam proses perselisihan data (data wrangling) sebelum nantinya akan dilakukan analisis dan prediksi data. Data wrangling merupakan kegiatan penyeragaman data atau pembersihan data (cleaning data) dari data kotor (mentah) menjadi data yang nantinya siap digunakan untuk analisis. Data kotor (mentah) yang dimaksud adalah data yang terindikasi masih terdapat ketidakseragaman format, muncul missing values pada data, dan masih juga ditemukan adanya tambahan sufiks, prefiks dan lain-lain. Biasanya, seorang data scientist menghabiskan 60% waktunya dalam melakukan proses ini. Karena fakta menunjukkan bahwa 75% data yang dimiliki oleh perusahaan adalah data kotor. Sehingga, biasanya materi-materi seputar data wrangling selalu diajarkan dalam kursus belajar data science. Hal ini pun diberikan kepada peserta kursus belajar data untuk mengaplikasikan contoh dataset dalam menghindari missing value.
Salah satu alasan terjadinya missing value adalah tidak terkumpulnya beberapa informasi. Misalnya beberapa orang menolak untuk mengisi data berat badan, pendapatan bulanan, keterangan usia, dan lain-lain. Kondisi ini menyebabkan informasi yang dikumpulkan belum clear sehingga sulit untuk dilakukan analisis. Dalam dunia data, kasus-kasus mengenai data wrangling banyak dijumpai. Hal ini membuat banyak sekali spekulasi atau alasan tertentu mengapa data tidak dapat dianalisis. Mulai dari corrupt data, kegagalan dalam memuat suatu informasi, ketidakseragaman satuan pengukuran, munculnya missing values pada data, data tidak terdistribusi normal, tambahan yang seringkali mengganggu seperti adanya prefiks, affiks dan suffiks dan masih banyak masalah lainnya. Oleh karena itu, bagi kalian peserta kursus belajar data science perlu memahami bagaimana penanganan missing value yang tepat agar menghasilkan insight yang valuable. Pada artikel DQLab kali ini, kita akan membahas tentang apa itu missing value dan cara penanganannya. Tentunya, adanya missing value pada data harus bisa diminimalkan dan bisa dikurangi agar menghasilkan robustness model. Bagi kalian sahabat data yang penasaran dengan bahasannya, pastikan kalian simak baik-baik dan baca selengkapnya artikel berikut ini!
1.Tipe Missing Value
Dalam prosedur statistika modern, untuk data hilang, ketidaklengkapan suatu data diasumsikan mengikuti suatu mekanisme tertentu, Menurut Rubin, tipe data hilang terbagi kedalam tiga tipe, yaitu :
Missing at Random (MAR)
Jika mekanisme data hilang terdistribusi secara acak untuk sebagian unit observasi. Dengan kata lain, Missing at Random (MAR), berarti terjadinya missing data hanya berkaitan dengan variabel respon/pengamatan. Contohnya seseorang yang memiliki rasa was-was yang tinggi cenderung tidak akan melaporkan pendapatan mereka, rasa was was akan berhubungan pada pelaporan pendapatan. Namun, peluang penderita rasa waswas sendiri untuk melaporkan pendapatan tidak berhubungan dengan tingkat pendapatan, maka data dapat digolongkan dengan MAR. Jika data adalah MCAR atau MAR, dapat dikatakan missingness diabaikan.
Missing completely at random (MCAR)
Jika mekanisme data hilang yang terdistribusi secara acak untuk seluruh unit observasi. Dengan kata lain, Missing Completely at Random (MCAR) yang berarti bahwa terjadinya missing data tidak berkaitan dengan nilai semua variabel, apakah itu variabel dengan missing values atau dengan variabel pengamatan. Hal ini berarti missing data terjadi secara acak.
Missing Not at Random (MNAR)
Mekanisme data hilang yang tidak terdistribusi secara random. Dengan kata lain, Missingness Is Non-Ignorable bahwa terjadinya missing data pada suatu variabel berkaitan dengan variabel itu sendiri, sehingga ini tidak bisa diprediksi dari variabel lain pada suatu dataset.
Sebagai catatan, Missing data pada dasarnya tidak bermasalah bagi keseluruhan data, apalagi jika jumlahnya hanya sedikit, misalnya hanya 1 % dari seluruh data. Namun jika persentase data yang hilang tersebut cukup besar, maka perlu dilakukan pengujian apakah data yang mengandung banyak missing tersebut masih layak diproses lebih lanjut ataukah tidak.
Baca juga : Awali Kursus Data Science Gratis Di Era Pandemi Bersama DQLab
2.Faktor yang Menyebabkan Terjadinya Missing Value
Faktor non sampling error yang dimaksud adalah interviewer recording error, respondent inability error, dan respondent unwillingness error. Interviewer recording error terjadi akibat kelalaian petugas pengumpul data (pewawancara), misalnya ada sejumlah pertanyaan yang terlewatkan. Respondent inability error terjadi akibat ketidakmampuan responden dalam memberikan jawaban akurat, misalnya karena tidak memahami pertanyaan, bosan atau kelelahan (respondent fatigue) akhirnya responden mengosongkan sejumlah pertanyaan atau berhenti mengisi kuesioner di tengah jalan. Unwillingness respondent error terjadi karena responden tidak berkenan memberikan jawaban yang akurat, misalnya pertanyaan soal penghasilan, usia, berat badan, pengalaman melakukan pelanggaran hukum, dll. Seperti halnya pada respondent inability error, responden bisa mengosongkan jawaban atau menghentikan proses pengisian kuesioner.
Baca juga : Kursus Data Science Jakarta: Tips Cermat Belajar Data Science bersama DQLab!
3.Cara Penanganan Missing Value
Metode dalam menangani missing data secara umum dapat dilakukan dengan cara berikut ini,
Mengabaikan dan membuang missing data
Contoh metode yang sering digunakan pada kategori ini adalah metode Listwise deletion dan Pairwise deletion
Estimasi parameter
Contohnya algoritma Expectation-Maximization (EM Algorithm) yang digunakan untuk mengestimasi parameter dari missing data
Imputasi
Proses pengisian atau penggantian nilai-nilai yang hilang (missing values) pada sekumpulan data (dataset) dengan nilai-nilai yang mungkin (plausible values) berdasarkan informasi yang didapatkan pada dataset tersebut
4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!
Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:
Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.
Penulis : Reyvan Maulid
Editor : Annissa Widya Davita