MIDYEAR PROMO! Segera Beli Paket Premium Belajar Data Science 6 Bulan hanya Rp. 99.000. DAFTAR

Pakai Kode: DQMIDYEAR. Berakhir 0 Days 7 Jam : 7 Menit : 20 Detik

Wrangling Python: Langkah Penting Dalam Proses Manipulasi Data

Belajar Data Science di Rumah 23-Desember-2020
https://dqlab.id/files/dqlab/cache/9e3514f2928b0d2350acd76124be21e8_x_Thumbnail800.jpg

Data wrangling adalah proses transformasi data agar menjadi lebih rapi. Data bisa terdiri dari berbagai tipe data dan bisa berasal dari berbagai sumber. Bentuk ini disebut dengan data mentah atau raw data. Karena isinya yang bervariasi, data mentah perlu diseragamkan agar dapat diolah dan didapatkan informasi yang bermanfaat. Sebagai praktisi data, data wrangling adalah skill yang penting dikuasai.


Python menyediakan library yang bisa digunakan dalam proses wrangling yaitu Pandas. Library Pandas sendiri bisa dikombinasikan dengan berbagai method yang berfungsi membaca serta mengolah dataset. Langkah awal ketika menggunakan Pandas adalah memanggil library tersebut. Pada python tuliskan import diikuti nama library yang ingin dipanggil dan inisial library.

Nama pd biasa digunakan untuk inisial library Pandas agar lebih mudah diterapkan ketika dikombinasikan dengan method lainnya. Nah, setelah memanggil library yang dibutuhkan, dalam artikel ini akan membahas beberapa langkah penting dalam proses wrangling.

Penasaran? Yuk, simak dibawah ini!

1. Mengakses Data

Pertama-tama yang perlu dilakukan adalah mengakses data yang akan digunakan. Data dapat berupa file csv, tsv, excel, atau sql database. Misalnya untuk membaca file csv gunakan pd.read_csv() di python. Kemudian eksplorasi data yang telah diakses. Apakah eksplorasi ini penting dilakukan? Tentu penting. Karena wrangling termasuk dalam manipulasi data, kita perlu mengetahui bentuk dari dataset, jumlah data, dan sebagainya agar dapat memilih elemen mana yang akan digunakan dalam proses wrangling ini. Terdapat method .head() yang digunakan untuk menampilkan isi dari dataset. 

Baca juga : Python Array : Memahami Kegunaan Array Dalam Python


2. Handling Missing Value

Ketika mengolah data, terkadang kita berhadapan dengan dataset yang tidak lengkap. Jika data yang tidak lengkap itu dibiarkan, maka akan mempengaruhi proses lainnya. Perlakuan terhadap data ini disebut juga dengan handling missing value. Dataset yang memiliki data yang tidak lengkap perlu ditelusuri kembali ke data sumbernya agar nanti tidak mengganggu proses analisis. Ada beberapa metode dalam menangani missing value ini seperti mengecek nilai NULL yang terdapat dalam dataset. Ini akan memudahkan kita untuk menemukan missing value pada semua baris data. Solusi yang dapat dilakukan untuk missing value ini adalah  dengan mengisi kolom yang terdapat missing value atau menghapusnya. Tentunya ini bergantung pada data yang kita punya. Kita bisa menghapus data yang terdapat missing value ketika dengan mengisi missing value akan memberikan pengaruh yang kurang bagus untuk analisis atau dengan menghapus ini tidak akan terlalu memberikan banyak pengaruh dalam analisis. Sedangkan untuk solusi dengan mengisi missing value bergantung pada permasalahannya.

3. Normalisasi Data

Normalisasi data penting dilakukan ketika ada range nilai yang berbeda dalam dataset. Misalnya kolom A memiliki nilai puluhan dan kolom B memiliki nilai jutaan. Mungkin ini terlihat sederhana dan tidak terlalu berpengaruh, namun saat ingin melakukan klasterisasi dengan algoritma K-Means ini akan sangat berpengaruh. Perhitungan akan cenderung berdasarkan kolom B yang memiliki nilai lebih besar. Kolom A dan kolom lainnya yang digunakan dalam perhitungan tidak akan berpengaruh sehingga hasil analisis yang diinginkan bisa saja tidak tercapai. Ada beberapa metode normalisasi seperti MinMax, Zscore, Decimal Scaling, Sigmoid, dan Softmax. Penggunaannya tergantung pada jenis data dan analisis yang diinginkan. 

Baca juga : 3 Metode Numpy Array Python Sebagai Dasar Proses Manipulasi Data


4. Yuk Belajar Gratis Tentang Data Wrangling Dengan Python Sekarang!

Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industri data yang sebenarnya! Sign up sekarang untuk #MulaiBelajarData di DQLab!

Simak informasi di bawah ini untuk mengakses gratis module ‘Introduction to Data Science’:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

  4. Subscribe DQLab.id untuk Akses Semua Module Premium!


Penulis : Dita Kurniasari

Editor : Annissa Widya


Share

Postingan Terkait

Mulai Bangun Karirmu Bersama DQLab!