Python : Bisa Digunakan untuk Data Wrangling
Data wrangling merupakan kegiatan penyeragaman datau atau pembersihan data kotor sehingga menjadi data bersih yang siap digunakan untuk proses analisis data. Data kotor seperti data yang tidak lengkap, tidak konsisten, terdapat banyak missing value, dan lain-lain akan mempersulit proses analisis data dan menghasilkan output yang kurang sesuai. Dengan besarnya jumlah data yang tersedia dan berkembang dengan sangat cepat pada masa kini maka kita perlu pula mengorganisir data tersebut agar mudah dianalisis.
Proses ini akan membutuhkan waktu yang cukup lama dikarenakan harus dilakukan dengan cara yang benar sampai data tersebut bersih. Namun akan lebih lama lagi waktu yang diperlukan jika kita memiliki hambatan dalam permasalahan data di tengah-tengah proses analisis. Oleh karena itu lamanya proses tersebut sebanding dengan kemudahan dalam analisis data nantinya. Jika proses pembersihan data sudah selesai maka data dapat dilakukan proses analisis data sesuai dengan tujuan kegiatan atau penelitian data tersebut.
Pada sesi kali ini kita akan mengulas mengenai data wrangling dengan Python
1. Library dalam Python
Library dalam bahasa pemrograman memiliki arti berbeda dengan library (perpustakaan). Dalam bahasa pemrograman, library merupakan sebutan untuk kode program tambahan yang dapat digunakan untuk kebutuhan tertentu. Python sendiri memiliki sangat banyak library, yaitu lebih dari 140.000 library. Dari sekian banyak library dalam Python terdapat beberapa library yang cukup sering digunakan untuk analisis data seperti NumPy, Matplotlib, SciPy, TensorFlow, PyBrain dan Pandas. Setiap library memiliki kegunaan masing-masing dalam proses analisis data.
Baca juga : Belajar Data Science: Kenali Dasar Bahasa Pemrograman Python yang Cocok bagi Pemula
2. Proses Data Wrangling
Terdapat beberapa proses data wrangling yang dapat dilakukan, yaitu:
Mengenali data yang digunakan
Memahami struktur data mentah
Membersihkan data
Menyimpan data yang telah dibersihkan
Memvalidasi data yang digunakan
Menyiapkan data dan mendokumentasikan proses data wangling agar lebih mudah dipahami.
3. Fungsi Data Wrangling pada Python
Terdapat beberapa fungsi yang cukup sering digunakan antara lain
fungsi .shape yang digunakan untuk melihat ukuran dataset
fungsi .info untuk melihat apakah dalam data terdapat missing value atau tidak
fungsi .describe untuk melihat statistika deskripsi dari data
fungsi .columns untuk melihat nama kolom pada dataset
Baca juga : Python : Kenali 3 Buku yang Akan Mempercepat Kamu Dalam Belajar Python
4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!
Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:
Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.
Penulis: Latifah Uswatun
Editor : Annissawd