ENJOY PAYDAY DEAL! SPECIAL OFFER BELAJAR DATA SCIENCE 6 BULAN HANYA RP. 129.000  DAFTAR

Pakai Kode: PAYDAYBerakhir 2 Days 3 Jam : 9 Menit : 25 Detik

3 Trik Pandas Python yang Akan Memudahkan Pekerjaanmu Sebagai Data Scientist

3 Trik Pandas Python yang Akan Memudahkan Pekerjaanmu Sebagai Data Scientist

Belajar Data Science di Rumah 09-Oktober-2020
https://dqlab.id/files/dqlab/cache/f09a7da5393de007141b02f9c58b1d1b_100_persen.jpg

Sebagai Data Scientist, pekerjaan sehari-hari kita terdiri dari menarik data, memahami data, membersihkan data, mengubah data, dan membuat fitur atau variabel baru. Apabila kamu perhatikan, tidak disertakan pembuatan model pembelajaran mesin barusan, kenapa? Karena membuat model akan menjadi hal terakhir yang kita lakukan sebagai Data Scientist, dan itu belum tentu pekerjaan yang kita lakukan sehari-hari. Membersihkan data, bagaimanapun, adalah pekerjaan sehari-hari.

Untuk alasan di atas, pada artikel kali ini DQLab ingin menyajikan kepada sahabat data sekalian tentang tiga trik cantik dari Pandas untuk membuat data yang kita miliki bekerja sedikit lebih mudah. Mengapa harus trik Pandas? Sebab, sebagaimana yang sudah beberapa kali dibahas pada artikel DQLab sebelumnya, salah satu Library yang sangat kuat untuk menuntaskan pekerjaan Data Cleaning adalah Pandas. Penasaran apa saja ke-3 trik tersebut? Mari kita kupas satu persatu!

1. Menggunakan Query Untuk Pemilihan Data 

Pemilihan data adalah aktivitas paling penting yang akan kita lakukan sebagai Data Scientist. Namun pemilihan data atau Data Selection adalah salah satu hal yang paling merepotkan untuk dilakukan, terutama bila dilakukan berulang kali. Perhatikan contoh berikut!


Di atas adalah contoh data yang akan kita gunakan. Katakanlah semisal kita ingin memilih baris yang memiliki mpg kurang dari 11 atau tenaga kuda kurang dari 50 dan model_year sama dengan 73. Artinya kita perlu menulis kode seperti di bawah ini.


Ini adalah cara yang biasa dilakukan untuk memilih data, tetapi terkadang merepotkan karena kondisinya yang bertele-tele. Dalam kasus ini, kita bisa menggunakan metode query dari objek Pandas Data Frame. Jadi, apa yang dimaksud dengan metode query ini? Metode query adalah metode pemilihan dari Pandas Data Frame dengan kata yang lebih manusiawi. Mari saya tunjukkan contoh di bawah ini.


Hasilnya persis sama dengan metode seleksi biasa, bukan? Satu-satunya perbedaan adalah dengan kueri, kita memiliki kondisi yang tidak bertele-tele, dan kita menuliskannya dalam string di mana metode query menerima string kata-kata bahasa Inggris seperti pada contoh.


Baca Juga : Belajar Python : 3 Fungsi Pandas Python yang Jarang Diketahui

2. Menyembunyikan Indeks dan / atau Kolom yang Tidak Dibutuhkan

Akan ada saat di mana Anda ingin mempresentasikan Data Frame Anda, dan Anda tidak ingin konten mengganggu audiens (sering terjadi pada saya, terutama nilai indeks). Misalnya, saya ingin menunjukkan lima teratas dari kumpulan data mpg.


Hasil di atas menunjukkan kepada kita seluruh tabel, dengan indeks yang ada di tabel. Ada saatnya saya mempresentasikan tabel seperti diatas dan ditanya tentang nomor disamping tabel dan perlu waktu untuk menjelaskannya kepada semua orang. Hal ini tentunya membuang-buang waktu saja. Itulah mengapa kami dapat mencoba menyembunyikan indeks dengan kode berikut

3. Mengganti Nilai Dengan Replace, Mask dan Where

Saat kita bekerja dengan data, saya yakin ada saat di mana kita perlu mengganti beberapa nilai di kolom pada data yang kita miliki dengan nilai spesifik lainnya. Bisa sangat merepotkan jika kita melakukannya secara manual. Katakanlah dalam dataset mpg kita sebelumnya kita ingin mengganti semua nilai bilangan bulat silinder menjadi nilai string kata. Izinkan saya memberi Anda contoh cara menggantinya secara manual.


Dalam kasus yang paling sederhana, kita perlu menggunakan metode apply dari objek Pandas Data Frame, atau mungkin kita bisa melakukannya secara manual dengan menggunakan metode for loop. Dengan cara apa pun, akan merepotkan untuk melakukannya setiap kali kita perlu mengganti nilai.

Dalam kasus ini, kita bisa menggunakan metode replace dari objek Pandas Data Frame. Ini adalah metode yang secara khusus digunakan untuk membantu kita mengganti nilai-nilai tertentu di Data Frame. Perhatikan contoh di bawah ini.


Hasilnya sama, satu-satunya perbedaan adalah seberapa pendek garis yang kita gunakan untuk mengganti nilai. Dalam contoh saya di atas, saya menggunakan objek dictionary untuk menentukan kolom mana yang ingin saya ganti nilainya dan dictionary lain di dalam kamus untuk memilih nilai mana yang ingin saya ganti dan nilai pengganti. Dengan kata lain, ini bisa diringkas seperti {nama kolom: {nilai dalam kolom: nilai pengganti}}.

Baca Juga : Sudah Install Python? Kenali 3 Lingkungan Pengembangan Terpadu (IDE) Berikut Untuk Digunakan


4. Yuk Dalami Lagi Proses Pembersihan Data Menggunakan Pandas Bersama DQLab!

Ingin mempelajari Python lebih dalam? Ayo mulai belajar bersama DQLab secara GRATIS! Yuk, bergabung di DQLab! Kamu bisa membangun portofolio datamu dengan belajar data science di DQLab. Untuk kamu yang ingin mulai belajar data science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.

Dengan belajar di DQLab, kamu bisa:

  • Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial

  • Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring

  • Bangun portofolio data langsung dari praktisi data Industri

  • Akses Forum DQLab untuk berdiskusi. 

Simak informasi di bawah ini untuk mengakses gratis module ‘Introduction to Data Science’:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

Semangat belajar sahabat Data DQLab!

 

Penulis : Jihar Gifari

Editor : Annissa Widya Davita


Share

Postingan Terkait

Mulai Bangun Karirmu Bersama DQLab!