Menggabungkan Data dengan Pandas Python Untuk Pengolahan Data
Pandas adalah library open source Python yang menyediakan tools analisis dan manipulasi data berkinerja tinggi menggunakan struktur datanya yang kuat. Nama Pandas berasal dari kata Panel Data yang artinya sebuah Ekonometrika dari data Multidimensional. Pada tahun 2008, Wes McKinney, seorang developer mulai mengembangkan panda ketika membutuhkan alat yang fleksibel dan berkinerja tinggi untuk analisis data. Sebelum Pandas, Python sebagian besar digunakan untuk munging dan persiapan data.
Dengan menggunakan Pandas, kita dapat menyelesaikan lima langkah umum dalam pemrosesan dan analisis data, mulai dari loading data, data preparation, memanipulasi, memodelkan, dan menganalisis data. Python dengan Pandas digunakan dalam berbagai bidang termasuk bidang akademik dan komersial termasuk keuangan, ekonomi, Statistik, analitik, dan lain sebagainya.
Salah satu fungsi Pandas Python adalah untuk menggabungkan beberapa data frame menjadi satu dataframe untuk membuat data frame berukuran lebih besar dengan berbagai metode. Dalam berbagai kasus, data analyst sering kali menggunakan beberapa metode untuk menggabungkan data dengan Pandas Python. Penasaran apa saja metode tersebut? Yuk kita simak bersama!
1. Metode appned()
Metode append() dapat digunakan pada data frame atau seri yang ditujukan untuk menambah baris-nya saja. Jika di SQL memiliki 2 tabel atau lebih maka dapat digabungkan secara vertikal dengan Union. Jadi SQL Union ekuivalen dengan metode .append() di Pandas. Pertama kita buat dahulu data framenya yang didefinisikan dengan s1 dan s2 seperti gambar di bawah ini. Kemudian, kita gabungkan kedua data frame tersebut menggunakan metode append().
Baca juga: Coding Python Sederhana untuk Beginner yang Baru Mengenal Python
2. Metode concat()
Metode .concat() dapat digunakan pada data frame yang ditujukan untuk penggabungan baik dalam row-wise (dalam arah) atau column-wise. Pada metode ini, pada contoh berikut ini, kita akan menempati posisi kedua dataframe dibawah dan gabungkan dengan concat. Pertama, kita buat data framenya terlebih dahulu dengan df 1 dan df2 kemudian digabungkan menjadi concat().
3. Metode merge()
Metode .merge() digunakan untuk menggabungkan Series atau Data Frame yang bentuknya mirip dengan syntax join di SQL, specify left and right tables, join key dan how to join (left, right, inner, full outer). Metode ini bisa digunakan untuk data frame dengan index tunggal maupun multiindex. Pada artikel kali ini kita akan mencoba menggabungkan data frame dengan index tunggal. Pertama kita definisikan data frame menjadi df1 dan df2, kemudian kita gabungkan data frame untuk left, right, inner, dan full outer.
4. Metode join()
Metode .join() digunakan pada data frame untuk menggabungkan kedua data dengan set index pada kedua tabel tersebut sebagai join key. Tanpa index, hal ini tidak akan berhasil. Metode ini memiliki beberapa tipe seperti right, left, inder, outer, dan lain sebagainya. Pada contoh kali ini, kita akan menggabungkan data frame menggunakan tipe outer join. Pertama, kita definisikan data frame menjadi df1 dan df 2 kemudian kita gabungkan dengan metode outer join.
Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python
5. Perdalam Pengetahuan Pandas Python
Ingin memperdalam penggunaan python untuk pengolahan dan manipulasi data? Yuk belajar dengan modul dari DQLab! Klik button di bawah ini atau sign up melalui DQLab.id dan nikmati FREE modul dari DQLab serta ebook GRATIS yang bisa diakses 24 jam. Yuk mulai asah dan tingkatkan skill python sebagai bekal berkarir di era big data. Selamat belajar!
Penulis: Galuh Nurvinda K
Editor: Annissa Widya Davita