Sering Dipakai Ini Coding Python Data Transformation
Python merupakan salah satu bahasa pemrograman yang sederhana dan mudah dipahami untuk berbagai kebutuhan. Salah satunya untuk data transformation. Proses ini dibutuhkan oleh praktisi data untuk melakukan data manipulasi, mengubah format, dan membersihkan data sehingga nantinya siap digunakan untuk kebutuhan lanjutan seperti analisis atau pemodelan.
Coding python untuk kebutuhan data transformation pun juga beragam. Ada beberapa fungsi yang bisa langsung kalian gunakan tanpa harus membuat sintaks yang panjang. Misalnya untuk mencari nilai duplikat, kalian hanya menggunakan duplicate() dan nanti secara langsung python akan mendeteksi nilai-nilai yang sama. Apalagi ya coding python lain yang bisa kalian gunakan untuk keperluan data transformation? Yuk simak dan praktikkan contoh di bawah ini!
1. Mencari Duplicate Value
Duplicate value akan sering kalian temukan pada dataset karena beberapa faktor seperti proses eksport data yang tidak sempurna atau human error sehingga ada ketidaktelitian. Nah, data analyst perlu melakukan proses data transformation untuk memastikan bahwa dataset yang dimiliki sudah bersih dari duplicate value. Berikut coding python sederhana yang bisa kalian coba gunakan untuk menghilangkan duplicate value.
Misalkan terdapat dataset seperti di bawah ini.
Selanjutnya ketikkan coding berikut untuk mencari apakah terdapat baris data yang duplikat.
Output dari coding di atas adalah boolean atau nilai True/False. Dapat dilihat terdapat data yang duplikat, ditandai dengan nilai boolean True. Selanjutnya, bersihkan data yang duplikat dengan metode drop. Ketikkan coding di bawah ini.
Dapat dilihat bahwa data telah terupdate tanpa ada duplicate value lagi.
Baca juga : Belajar Python: Mengenal Array pada Bahasa Pemrograman Python
2. Replace Suatu Nilai
Dataset tidak hanya mengandung duplicate value, namun juga bisa memiliki missing value. Berikut contoh dataset dengan adanya missing value.
Data yang berisi missing value dapat menyebabkan perhitungan yang sangat signifikan. Sehingga penting bagi kalian untuk bisa memutuskan cara yang tepat dalam mengolah missing value. Ada beberapa yang digunakan seperti mengganti (replace) nilai tersebut dengan mean, nilai tertentu, atau 0. Misal, missing value di atas akan diganti dengan nilai 0. Kalian bisa menggunakan metode fillna() atau replace(). Berikut contoh menggunakan fillna().
Cara menggunakan fillna() pada dataset yang sudah berbentuk data frame adalah dengan memilih secara khusus kolom yang mengandung missing value. Dari data di atas, kita ingin mengganti missing value pada kolom Set_of_Numbers, maka sebutkan kolom tersebut.
Kalian juga bisa menggunakan replace() untuk mengganti missing value. Perhatikan contoh berikut.
Kita akan menggunakan replace() pada data di atas.
Baca juga : Array Python : Array VS List Serupa Namun Tak Sama, Yuk, Kenali Perbedaannya
3. Rename Kolom atau Index
Coding python selanjutnya yang juga sering digunakan dalam data transformation adalah mengubah nama pada kolom atau index dataset. Misal kita akan menggunakan dataset berikut ini.
Kalian bisa mengganti nama kolom di atas menggunakan rename(). Perhatikan contoh berikut.
Terlihat nama kolom sebelumnya yang berupa ‘Number_set_1’ berubah menjadi ‘Nilai_1’ sesuai yang dibutuhkan.
4. Convert Data Kategorik Menjadi Dummy Variabel
Jika kalian nanti telah belajar tentang pemodelan machine learning, data kategorikal harus diubah dulu dalam bentuk numerik. Mengapa? Karena mesin hanya dapat memproses sebuah model apabila data tersebut memiliki nilai. Salah satu caranya adalah dengan convert data tersebut menjadi dummy variabel. Perhatikan contoh data kategorik berikut.
Dengan menggunakan get_dummies() maka data di atas akan berubah menjadi sebuah matriks yang berisi nilai 0 dan 1.
Nilai 1 menunjukkan nilai tersebut benar untuk kolom dan indeks yang bersesuaian. Contoh untuk kolom ‘a’ pada indeks ‘0’, bernilai 1 atau benar karena kolom dan indeks tersebut pada data kategorik memang bernilai ‘a’.
Masih banyak loh bentuk coding python untuk data transformation. Contoh di atas adalah bentuk-bentuk sederhana yang bisa kalian praktikkan langsung agar terbiasa dengan sintaks python. Nah kalau ingin belajar lebih dalam bagaimana? Belajar di DQLab!
DQLab adalah platform belajar online yang memiliki metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Menariknya lagi, DQLab juga mengintegrasikan modulnya dengan fitur ChatGPT nih! Fungsinya untuk apa?
Membantumu mendapatkan penjelasan dari code yang sedang dipelajari.
Membantumu menemukan code yang salah atau tidak sesuai.
Memberikan alternatif solusi dari problem/error yang kalian temukan.
Jadi, tunggu apalagi? Nikmati pengalaman belajar praktis dan menyenangkan di DQLab dengan Sign Up segera di sini!