Buat Akun DQLab & Akses Kelas Data Science Python, R, dan Excel GRATIS
 SIGN UP  

Hal-hal Penting Pada Proses Wrangling Python yang Wajib Kamu Tahu

Belajar Data Science di Rumah 16-Maret-2021
https://dqlab.id/files/dqlab/cache/e550f9baf565647c85428fbb6ab57240_x_Thumbnail800.png

Data Wrangling Python merupakan salah satu skill wajib yang harus dimiliki seorang Data Scientist. Selain data wrangling sebenarnya masih banyak skill lainnya yang harus dimiliki oleh seorang Data Scientist. Data wrangling sendiri merupakan suatu proses transformasi dan pemetaan data dari satu "raw" bentuk data ke format lain dengan maksud untuk membuat proses analisa menjadi lebih mudah. Data mentah ini berisikan berbagai tipe data. Untuk itu perlu dilakukan data wrangling dimana data mentah akan diseragamkan tujuannya adalah agar data tersebut lebih mudah dianalisis.

Pada Python terdapat salah satu library yang sering digunakan dalam melakukan proses data wrangling yaitu pandas. Pandas merupakan toolkit yang memiliki kemampuan dalam membaca berbagai macam tipe data dan sering digunakan sebagai analisis data di awal hingga pengenalan struktur dataset dalam Python. Pada artikel ini kita akan membahas beberapa hal yang dilakukan oleh data wrangling, simak penjelasan berikut ini!

1. Proses Data Wrangling

Dalam melakukan proses data wrangling secara umum terdapat enam tahapan yang dilakukan. Pertama, kenali terlebih dahulu data yang digunakan, misalnya ketika kita ingin melakukan data wrangling data pelanggan, ketahui apa yang dibeli dan cabang mana yang akan dikunjungi. Kedua, memahami struktur data mentahnya. Dengan ini, proses data wrangling akan lebih mudah dilakukan. Tahap selanjutnya adalah membersihkan data. Agar tujuan proses data wrangling tercapai, kamu harus membersihkan data mentah tersebut contohnya menghapus nilai Null pada data lalu menyimpan data yang telah dibersihkan. Setelah itu melakukan validasi data yang dan menyiapkan data dan mendokumentasikan proses data wrangling agar mudah dipahami.

Baca juga : Belajar Data Science: Kenali Dasar Bahasa Pemrograman Python yang Cocok bagi Pemula  

2. Handling Missing Value

Pada kenyataannya, missing value merupakan hal yang banyak dijumpai oleh seseorang yang bekerja di bidang data. Jika suatu set data memiliki beberapa pengamatan dengan missing value atau record dengan beberapa nilai atribut yang hilang, maka terdapat beberapa cara untuk mengatasinya. Solusi pertama ketika terdapat missing value adalah dengan melakukan trace kembali ke sumber data atau memeriksa ulang record. Solusi lain dari handling missing value adalah dengan mean dan median. Akan tetapi terdapat kekurangan pada mean yaitu mean sangat rentan dengan outlier.

3. Normalisasi Data

Normalisasi data penting dilakukan ketika ada range nilai yang berbeda dalam dataset. Misalnya kolom A memiliki nilai puluhan dan kolom B memiliki nilai jutaan. Mungkin ini terlihat sederhana dan tidak terlalu berpengaruh, namun saat ingin melakukan klasterisasi dengan algoritma K-Means ini akan sangat berpengaruh. Perhitungan akan cenderung berdasarkan kolom B yang memiliki nilai lebih besar. Kolom A dan kolom lainnya yang digunakan dalam perhitungan tidak akan berpengaruh sehingga hasil analisis yang diinginkan bisa saja tidak tercapai. Ada beberapa metode normalisasi seperti MinMax, Zscore, Decimal Scaling, Sigmoid, dan Softmax. Penggunaan metode ini tergantung pada jenis data dan analisis yang diinginkan.


Baca juga :  Python : Kenali 3 Buku yang Akan Mempercepat Kamu Dalam Belajar Python


4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!       


Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Buka academy.dqlab.id dan pilih menu redeem voucher 

  3. Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi. 

  4. Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.

    Penulis : Salsabila Miftah

    Editor : Annissawd


    Postingan Terkait

    Sign Up & Mulai Belajar Gratis di DQLab!