Handling Missing Values dengan Wrangling Python

Belajar Data Science di Rumah 15-Februari-2021

https://dqlab.id/files/dqlab/cache/c5b0f758920de9efbf3042b04540c64e_x_Thumbnail800.jpg

Data wrangling merupakan kegiatan penyeragaman data atau pembersihan data (cleaning data) dari data kotor (mentah) menjadi data yang nantinya siap digunakan untuk analisis. Data kotor (mentah) yang dimaksud adalah data yang terindikasi masih terdapat ketidakseragaman format, muncul missing values pada data, dan masih juga ditemukan adanya tambahan sufiks, prefiks dan lain-lain. Hal tersebut membuat data yang dimiliki susah dilakukan analisis dan tidak bisa terdeteksi oleh aplikasi pengolah data. Oleh karena itu, tujuan data wrangling sebenarnya adalah melakukan pengolahan data agar data yang didapat berkualitas dan berguna. Biasanya, data analyst atau data scientist seringkali menghabiskan waktunya lebih banyak dalam proses Data Wrangling. Jika dikalkulasikan sekitar 60% dari 100% waktu mereka terkhusus hanya untuk tahapan Data Wrangling. Bahkan, waktu analisis data dan modeling justru lebih cepat pengerjaanya jika dibandingkan dengan data wrangling. Maka dari itu, data wrangling sangat memegang peranan penting dari keseluruhan tahapan data science.

Dalam dunia data, kasus-kasus mengenai data wrangling banyak dijumpai. Hal ini membuat banyak sekali spekulasi atau alasan tertentu mengapa data tidak dapat dianalisis. Mulai dari corrupt data, kegagalan dalam menemukan suatu informasi atau insight, ketidakseragaman satuan pengukuran, munculnya missing values pada data, data tidak terdistribusi secara normal, tambahan yang seringkali mengganggu seperti adanya prefiks, infiks dan sufiks dan masih banyak masalah lainnya. Salah satu cara yang dilakukan untuk kegiatan data wrangling adalah handling missing value. Data analyst dan data scientist seringkali melakukannya melalui Wrangling Python. Data wrangling python dinilai efektif karena selain aplikasi dan library open source, juga mampu mendeteksi adanya kesalahan atau error pada data. Wrangling Python juga menjadi salah satu cara yang tepat oleh seorang analis atau ilmuwan data. Hal ini dikarenakan mereka memiliki tantangan besar dalam membuat keputusan terkait penanganan data yang nantinya akan menghasilkan data yang akurat dan model yang robust atau kuat. Pada artikel DQLab kali ini, kita akan membahas tentang data wrangling pada Python dan cara menangani data agar terhindar dari missing value. Tentunya, adanya missing value pada data harus bisa diminimalkan dan bisa dikurangi agar menghasilkan robustness model. Bagi kalian sahabat data yang penasaran dengan cara penanganannya, pastikan kalian simak baik-baik dan baca selengkapnya artikel berikut ini.

1.Menghapus Baris Data

Kalian pasti pernah mengetahui, jika pada data ditemukan kondisi "nilai null". Salah satu cara sederhana yang bisa dilakukan agar terhindar dari nilai null adalah menghapus baris data yang tidak diperlukan. Menghapus baris tertentu dapat dilakukan jika memiliki nilai null untuk fitur tertentu dan kolom tertentu yang kalkulasinya memiliki lebih dari 70-75% nilai yang hilang (missing value). Metode ini disarankan hanya sampel dalam kumpulan data yang cukup. Kita harus memastikan bahwa setelah kita menghapus data, tidak ada penambahan bias. Menghapus data akan menyebabkan hilangnya informasi yang tidak akan memberikan hasil yang diharapkan saat memprediksi keluaran atau output.

Pada kasus ini, data analyst dan data scientist disarankan untuk menghapus baris data daripada menghapus data secara keseluruhan. Namun, metode ini ternyata memiliki pros and cons dalam penanganannya. Pros atau keuntungannya adalah penghapusan total data dengan nilai yang hilang menghasilkan model yang kuat dan sangat akurat. Selain itu, lebih baik menghapus baris atau kolom tertentu tanpa informasi spesifik, karena tidak memiliki bobot yang tinggi. Kelemahannya adalah jika kehilangan informasi atau kehilangan data maka akan berakibat buruk dan fatal. Hal ini dikarenakan tidak ditemukannya output atau hasil keluaran mengenai goals yang ingin dicapai atau hasil analisisnya. Oleh karena itu, data analyst dan data scientist disarankan untuk tidak melakukan penghapusan data secara keseluruhan.

2.Menggantinya dengan Nilai Mean/Median/Modus

Strategi ini dapat diterapkan pada fitur yang memiliki data numerik seperti usia seseorang atau tarif tiket. Kita dapat menghitung mean, median atau mode fitur dan menggantinya dengan missing values. Hal ini dinilai merupakan perkiraan yang dapat menambah varian ke kumpulan data. Tetapi hilangnya data dapat ditiadakan dengan metode ini yang memberikan hasil yang lebih baik dibandingkan dengan penghapusan baris dan kolom. Mengganti dengan tiga pendekatan di atas adalah pendekatan statistik untuk menangani nilai yang hilang atau missing values. Metode ini disebut juga dengan membocorkan data saat dilakukan training data. Cara lain adalah dengan memperkirakannya dengan deviasi nilai variabel lainnya. Cara ini bekerja lebih baik jika datanya linier.

3.Memprediksi Missing Value

Untuk memprediksi seberapa besar missing value yang terjadi pada data, kita dapat memprediksi null dengan bantuan machine learning. Metode ini dinilai dapat menghasilkan akurasi yang lebih baik. Namun, hal ini terkecuali bilamana missing value diharapkan memiliki varian yang sangat tinggi. Misalnya, kita akan menggunakan regresi linier untuk mengganti null dalam fitur "usia, dengan menggunakan fitur lain yang tersedia. Seseorang dapat bereksperimen dengan algoritma yang berbeda dan memeriksa mana yang memberikan akurasi terbaik yang pada akhirnya memakai satu algoritma. Pada kasus ini, kita bisa menggunakan wrangling python dengan mengimport library sklearn.linear_model dan LinearRegression. Kita akan mengecualikan data usia dan data usia untuk menilai berapa besar missing value yang terjadi.

Namun, metode ini ternyata memiliki pros and cons dalam penanganannya. Kelebihannya adalah memasukkan variabel yang hilang merupakan perbaikan selama bias dari yang sama lebih kecil daripada bias variabel yang dihilangkan. Selain itu, menghasilkan estimasi yang tidak bias dari parameter model. Kekurangannya, bias juga muncul ketika satu set pengkondisian yang tidak lengkap digunakan untuk variabel kategori dan dianggap hanya sebagai proxy untuk nilai sebenarnya.

4. Yuk, TEMUKAN SUMBER DATA UNTUK BANGUN PORTFOLIO GRATIS DI DQLAB SELAMA 1 BULAN!

Gunakan Kode Voucher "DQTRIAL", dan simak informasi dibawah ini mendapatkan 30 Hari FREE TRIAL:

Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.

Penulis: Reyvan Maulid Pradistya

Editor: Annissa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Handling Missing Values dengan Wrangling Python

1.Menghapus Baris Data

2.Menggantinya dengan Nilai Mean/Median/Modus

3.Memprediksi Missing Value

4. Yuk, TEMUKAN SUMBER DATA UNTUK BANGUN PORTFOLIO GRATIS DI DQLAB SELAMA 1 BULAN!

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab