DQLab Super Giveaway! Belajar Data Science 6 Bulan hanya Rp.99.000! DAFTAR

Pakai Kode: KUPON99K. Berakhir 2 Days 16 Jam : 40 Menit : 29 Detik

Belajar Python : Tingkatkan Kemampuan Data Manipulation Kamu Dengan 3 Metode Pandas Berikut!

Belajar Data Science di Rumah 08-September-2020
https://dqlab.id/files/dqlab/cache/1754c3cc3c7970c856f777f2440f5680_x_Thumbnail800.jpg

Seorang data scientist yang menggunakan Python sebagai bahasa pemrograman utama, pasti memahami bahwa Pandas merupakan Library yang tidak dapat dipisahkan dalam kehidupan sehari-hari. Dari awal mulai mempelajari Data Science menggunakan Python hingga berkarir secara profesional, mengetahui setiap hal kecil yang ditawarkan Pandas tidak akan merugikan Data Scientist manapun sama sekali. Meskipun, ada beberapa fungsi yang secara umum lebih sering digunakan daripada yang lain khususnya untuk memanipulasi data.

Pada artikel ini, DQLab akan berbagi mengenai 3 metode di dalam Pandas yang sangat berguna dan juga sering digunakan untuk melakukan Data Manipulation. Dengan mengetahui ke-3 metode ini, pembaca dapat meningkatkan kemampuan Data Manipulation yang dimiliki menggunakan Library Pandas yang tersedia dalam Python. Apa saja ke-3 metode tersebut? Yuk simak penjelasan berikut!

    1. get_dummies

    Dalam mengerjakan proyek Data Science dan Machine Learning, kita akan sangat sering berhadapan dengan variabel kategorikal. Fungsi get_dummies digunakan untuk mengubah variabel kategorikal menjadi variabel numerikal dengan melakukan proses One-Hot-Encode terhadap variabel kategorikal. Bagi kamu yang belum tahu apa itu One-Hot-Encode, One-Hot-Encode adalah proses untuk membuat kolom baru dari variabel kategorikal kita di mana setiap kategori menjadi kolom baru dengan nilai 0 atau 1 (0 mewakili tidak ada dan 1 mewakili ada).

    Mengapa kita ingin mengubah variabel kategorikal menjadi variabel numerik? Pasalnya, banyak teknik statistik atau persamaan machine learning yang hanya menerima nilai numerik, bukan nilai kategorik. Perhatikan contoh berikut untuk memahami lebih dalam penggunaan dari get_dummies dalam pandas.


    Di atas adalah variabel ‘origin’ dari data set mpg. Ini adalah variabel kategorikal dengan 3 kategori ('usa', 'eropa', dan 'jepang'). Di sini saya akan menggunakan fungsi get_dummies untuk One-Hot-Encode variabel ini. Perhatikan contoh berikut :


    Pada contoh di atas, kita telah melakukan proses One-Hot-Encode terhadap variabel origin, sehingga telah dihasilkan kolom-kolom baru yang memberikan keterangan dari nilai origin pada suatu indeks. Misal, pada indeks ke-1, originnya adalah dari USA, karena kolom yang berisi nilai 1 adalah USA, bukan yang lain.

    Baca Juga : Implementasi Teknologi Big Data untuk Membantu Ekspansi Industri Bisnis

      2. crosstab

      Crosstab adalah fungsi yang tersedia di dalam Library Pandas untuk menghitung tabulasi silang dari dua (atau lebih) faktor. Apa yang dimaksud dengan tabulasi silang? Seperti namanya, tabulasi silang atau yang biasa disebut dengan cross-tabulation adalah suatu cara manipulasi data dengan membuat matriks yang berisi nilai dari pertemuan antara indeks dengan kolom. Untuk lebih mudah memahami apa itu cross-tabulation, mari kita perhatikan contoh berikut. 


      Di atas adalah contoh dari tabulasi silang. Hasil dari pd.Crosstab masih berupa objek DataFrame. Pada metode ini, kita menentukan indeks dan kolom tabel dari variabel kategorikal dalam dataset yang kita miliki. Pada contoh di atas, penulis menggunakan variabel kategorikal 'origin' dan 'model_year'. Sehingga dataframe di atas menunjukkan jumlah mobil dari setiap ‘origin’ atau asal nya dan dari setiap tahun modelnya. Secara default, fungsi tabulasi silang akan menghitung frekuensi faktor dan menampilkannya pada tabulasi silang. Meskipun demikian, kita dapat mengubahnya dengan memasukkan faktor lain, yang seringkali merupakan variabel kontinu.

      3. Concat

      Di antara fungsi Pandas yang paling sering dihunakan untuk manipulasi data adalah fungsi concat. Fungsi ini diambil dari kepanjangannya yaitu “concatenates” yang artinya adalah “bersambung”. Lalu, apa yang digabungkan fungsi ini? Fungsi ini menggabungkan antar objek pandas (Seri atau DataFrame). Di sini, penulis akan tunjukkan sebuah contoh. Katakanlah saya hanya ingin kolom 'mpg' ditampilkan dengan variabel origin_dummies yang baru saja saya buat sebelumnya. Bagaimana cara melakukannya dalam python? Kita dapat melakuaknnya dengan menggunakan metode concat di dalam Pandas! Perhatikan contoh berikut!


      Menggunakan concat,kita telah menggabungkan 2 objek Pandas (Series dan DataFrame) menjadi 1 DataFrame. Dalam fungsinya, Pada contoh di atas, penulis menentukan parameter “axis” dengan nilai 1 karena penulis ingin menggabungkan objek Pandas agar kolom terlihat seperti ditempelkan dari sisi ke sisi. Parameter axis ini hanya menerima 2 hal; 0 atau 1. Tergantung pada bagaimana kita ingin menggabungkan objek Pandas, atur nilainya menjadi 0 apabila kita ingin menggabungkan objek Pandas seperti menumpuk objek (menggabungkan objek seperti menambahkan baris baru) sehubungan dengan kolom atau 1 ketika kita ingin objek dari sisi ke sisi sehubungan dengan indeks.

      Baca juga : Analysis ToolPak, Statistik Tools Excel yang Mempermudah Pengelolaan Datamu!

        4. Yuk Terapkan Dan Dalami Ilmunya Bersama DQLab!

        Ingin mempelajari Python lebih dalam? Ayo mulai belajar bersama DQLab secara GRATIS! Yuk, bergabung di DQLab! Kamu bisa membangun portofolio datamu dengan belajar data science di DQLab. Untuk kamu yang ingin mulai belajar data science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.

        Dengan belajar di DQLab, kamu bisa:

        • Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial

        • Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring

        • Bangun portofolio data langsung dari praktisi data Industri

        • Akses Forum DQLab untuk berdiskusi. 

        Simak informasi di bawah ini untuk mengakses gratis module ‘Introduction to Data Science’:

        1. Buat Akun Gratis dengan Signup di DQLab.id/signup

        2. Akses module Introduction to Data Science

        3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

        Semangat belajar sahabat Data DQLab!

         

        Penulis : Jihar Gifari

        Editor : Annissa Wdiya Davita


        Share

        Postingan Terkait

        Mulai Bangun Karirmu Bersama DQLab!