JULY SPECIAL ! DISKON 96%
Belajar Data Science Bersertifikat, 12 Bulan hanya 180K!
1 Hari 12 Jam 43 Menit 31 Detik

Panduan Pemrograman Python untuk Data Cleansing

Belajar Data Science di Rumah 07-Desember-2023
https://dqlab.id/files/dqlab/cache/1-longtail-kamis-01-2023-12-07-195016_x_Thumbnail800.jpg

Sebagai tools populer bagi praktisi data, Python sering digunakan untuk melakukan berbagai tahapan yang dibutuhkan selama proses analisis data. Salah satunya adalah data cleansing. Secara sederhana, proses ini diperlukan untuk mengidentifikasi dan membersihkan adanya kesalahan dalam sebuah dataset. Dengan proses ini, diharapkan data siap untuk digunakan ke tahap analisis dan menghasilkan insight yang lebih akurat.


Ada banyak tahapan data cleansing yang bisa kalian dengan Python. Mulai dari mengidentifikasi data duplikat, hingga menghapus kolom atau sejumlah data yang tidak diperlukan. Masing-masing tahapan ini memiliki syntax tersendiri. Ingin tahu bagaimana cara melakukan data cleansing dengan mudah melalui Python? Langsung simak panduannya di sini!


1. Apa itu Data Cleansing?

Data cleansing, atau sering disebut juga data cleaning, merupakan proses identifikasi, deteksi, dan koreksi kesalahan atau ketidakakuratan yang terdapat dalam kumpulan data. Tujuan utamanya untuk meningkatkan kualitas dan keakuratan data agar dapat digunakan secara efektif dan dapat diandalkan dalam analisis data.


Bagaimana bisa data memuat banyak kesalahan? Kesalahan dalam data dapat berasal dari berbagai sumber, seperti human error, kesalahan input, atau perubahan kondisi bisnis. Oleh karena itu, data cleansing menjadi aspek penting dalam proses manajemen data, membantu memastikan integritas data tetap berjalan lancar.


Salah satu contoh konkret dari proses data cleansing adalah penanganan duplikasi data. Proses data cleansing dalam hal ini mencakup identifikasi data yang memiliki kemiripan atau kesamaan, serta menghapus atau menggabungkan entitas yang serupa tersebut.


Misalnya, dalam database pelanggan, jika terdapat dua entitas yang memiliki informasi yang mirip atau identik (seperti nama dan alamat), data cleansing akan melibatkan pemilihan entitas yang benar, menggabungkan informasi yang relevan, dan menghapus duplikasi tersebut. 


Baca juga : Mengenal Perbedaan R Python dan SQL


2. Tahapan Umum pada Data Cleansing

Proses data cleansing melibatkan beberapa tahapan umum untuk mengidentifikasi, mengatasi, dan menghapus kesalahan atau ketidakakuratan dalam data. Beberapa tahapan tersebut yaitu:

  • Pemahaman data: Tahap awal melibatkan pemahaman mendalam terhadap data yang dimiliki, termasuk struktur data, pola, dan karakteristiknya.

  • Deteksi kesalahan: Identifikasi dan penanganan kesalahan data, seperti missing values, outlier, atau format yang tidak sesuai. Pendeteksian ini dapat melibatkan analisis statistik atau metode visualisasi.

  • Normalisasi data: Memastikan konsistensi dalam representasi data, seperti format tanggal yang seragam, penulisan huruf besar atau kecil, dan standarisasi unit pengukuran.

  • Penanganan duplikasi: Identifikasi dan penghapusan data duplikat atau serupa untuk memastikan setiap entitas unik direpresentasikan hanya satu kali dalam kumpulan data.

  • Koreksi Kesalahan: Melibatkan koreksi nilai yang salah atau tidak sesuai dengan aturan bisnis atau konteks data. Misalnya, koreksi kesalahan ketik atau nilai yang ekstrim yang tidak mungkin.

  • Validasi data: Memastikan bahwa data memenuhi aturan bisnis, batasan referensial, dan standar kualitas yang telah ditetapkan.

  • Dokumentasi proses: Mencatat semua langkah yang diambil selama proses data cleansing, termasuk tindakan koreksi yang dilakukan, untuk mendukung transparansi dan auditabilitas.


3. Pemrograman Python untuk Data Cleansing

Supaya paham bagaimana menggunakan Python untuk data cleansing, perhatikan beberapa contoh berikut ini. 

3.1 Menghapus data duplikat

Python


Pada bagian di atas, kita mengimpor library Pandas sebagai pd dan membuat DataFrame (df) dengan data yang berisi kolom "Nama", "Usia", dan "Kota". Kemudian kita menggunakan metode drop_duplicates() untuk menghapus baris yang memiliki nilai yang sama di semua kolom. Metode ini secara default mempertahankan baris pertama yang ditemui dan menghapus baris duplikat yang berikutnya.


3.2 Mengganti nilai yang hilang

Python


Pada bagian di atas, kita mengimpor library Pandas sebagai pd dan membuat DataFrame (df) dengan data yang berisi kolom "Nama", "Usia", dan "Kota". Beberapa nilai dalam kolom "Usia" dan "Kota" diatur sebagai None, yang menunjukkan nilai yang hilang. Selanjutnya, kita menggunakan metode fillna() untuk mengganti nilai yang hilang.


Di sini, kita memilih kolom "Usia" dan mengisi nilai yang hilang dengan nilai rata-rata dari kolom tersebut. Penggunaan inplace=True memastikan bahwa perubahan diterapkan langsung pada DataFrame asli. Kita juga melakukan hal yang sama untuk kolom "Kota", tetapi mengganti nilai yang hilang dengan string "Unknown".


3.3 Menghapus kolom yang tidak diperlukan

Python


Pertama, kita mengimpor library Pandas sebagai pd dan membuat DataFrame (df) dengan data yang berisi kolom "Nama", "Usia", dan "Gaji". Selanjutnya, kita menggunakan metode drop() untuk menghapus kolom "Gaji". Argumen ['Gaji'] adalah daftar kolom yang akan dihapus, dan axis=1 menunjukkan bahwa yang dihapus adalah kolom, bukan baris. Hasilnya akan diassign kembali ke DataFrame asli (df), sehingga DataFrame tersebut akan kehilangan kolom "Gaji".


Baca juga : Bootcamp Data Analyst with SQL and Python


Tertarik untuk belajar Python lebih lanjut? DQLab siap membantu kalian! DQLab adalah platform belajar online yang memiliki metode  HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula.


Menariknya lagi, DQLab juga mengintegrasikan modulnya dengan fitur ChatGPT nih! Fungsinya untuk apa?

  • Membantumu mendapatkan penjelasan dari code yang sedang dipelajari.

  • Membantumu menemukan code yang salah atau tidak sesuai. 

  • Memberikan alternatif solusi dari problem/error yang kalian temukan.


Jadi, tunggu apalagi? Nikmati pengalaman belajar praktis dan menyenangkan di DQLab dengan Sign Up segera di sini atau ikuti Bootcamp Data Analyst with SQL and Python!


Penulis : Dita Feby 

Editor : Annissa Widya

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login