PROMO 10.10 BEJIBUN, MANTUL!
Belajar Data Science 6 BULAN Bersertifikat hanya Rp 100K!
0 Hari 2 Jam 47 Menit 8 Detik

Mengenal Library Pandas Python untuk Data Wrangling

Belajar Data Science di Rumah 22-Juli-2022
https://dqlab.id/files/dqlab/cache/ce86f8be1ae1e8b69a9f42ecfb308635_x_Thumbnail800.jpg

Python adalah bahasa pemrograman tingkat tinggi yang bersifat open source yang dapat digunakan oleh siapa saja untuk pengembangan program seperti aplikasi berbasis web, mobile, data science, machine learning, dan lainnya.


Python menjadi skill yang wajib dimiliki praktisi data seperti Data Scientist dan Data Analyst karena bahasa pemrograman ini memiliki banyak fungsi yang mendukung proses data science, mulai dari analisis statistik, visualisasi data, dan machine learning. Selain itu juga Python mudah dipelajari dan dipahami bahkan oleh pemula sekalipun. 


Setiap library pada Python tentu memiliki fungsinya masing-masing. Misalnya untuk mengakses data, manipulasi data, dan lainnya. Ada beberapa library yang sering digunakan untuk data science, salah satunya adalah Pandas. Sebelum melakukan analisis, data merupakan hal utama yang harus dikumpulkan terlebih dahulu.


Nah, kita bisa menggunakan Pandas untuk mengakses database. Disamping itu, Pandas juga bisa untuk melakukan data wrangling. Apa itu data wrangling? Bagaimana penggunaan Pandas untuk data wrangling? Kita akan bahas di artikel kali ini. Simak artikel ini sampai akhir, ya!


1. Library Pandas Python

python

Pandas adalah library open source pada Python yang sering digunakan untuk memproses data yang meliputi pembersihan data, manipulasi data, hingga melakukan analisis data. Ketika melakukan suatu analisis, kita tidak bisa menggunakan data mentah.


Data mentah harus diproses lebih dulu hingga layak untuk dianalisis. Untuk tahap tersebut disebut juga dengan data wrangling. Wrangling merupakan proses dimana data di manajemen dan dibentuk menjadi lebih tertata. 


Proses ini cukup krusial karena diperlukan ketelitian dan harus bisa menjawab permasalahan yang ingin diselesaikan. Library Pandas dapat mengolah data berbentuk csv, txt, excel, html, dan sebagainya.


Penggunaan Pandas umumnya disingkat menjadi pd. Format penulisan saat akan memanggil library Pandas adalah import pandas as pd. Ingat untuk selalu import library yang akan digunakan terlebih dahulu. 


Baca juga: Tutorial Membuat Array Python & List Pada Python untuk Pemula


2. Series dan Data Frame Pandas

Komponen dasar dari Pandas adalah series dan data frame. Apa itu series dan data frame? Mari kita bahas satu persatu.


Series 

python

Series merupakan struktur dasar dari Pandas yang berbentuk array 1-dimensi yang mampu menyimpan data integer, float, boolean, dan lainnya. Sedangkan dataframe adalah struktur data yang berbentuk tabel 2-dimensi. Untuk membuat suatu Series dengan Pandas kamu bisa menggunakan perintah berikut:


pandas.Series(data, index, dtype, copy)


Parameter data untuk menampung data bisa berupa data integer, float, dan string. Kemudian parameter index diisi dengan index dari Series yang mana jumlahnya harus sesuai dengan jumlah data. Jika tidak diisi, maka index pada Series akan sama dengan array seperti biasanya. Parameter dtype berisikan tipe data series. Lalu copy untuk duplikat data yang secara default akan bernilai false. 


Data Frame

python

Data Frame adalah tabel yang berisikan array dua dimensi berupa baris dan kolom. Pada data frame, kolom merupakan objek dari Series, dan baris berisikan elemen yang dimiliki Series. Berikut ini sintaks untuk membuat data frame:


pandas.DataFrame(data, index, columns, dtype, copy)


Perintah diatas diisikan seperti keterangan berikut:

  • index adalah label untuk baris

  • columns adalah label untuk kolom

  • dtype adalah tipe data untuk setiap kolom

  • copy digunakan untuk menyalin data yang mana defaultnya berupa False


3. Merge dan Grouping Database

Saat melakukan analisis data, terkadang satu sumber data saja kurang cukup. Untuk memperoleh informasi secara lengkap kita bisa menggunakan banyak sumber data yang relevan. Agar memudahkan proses analisis selanjutnya, data dari berbagai sumber ini perlu dilakukan manajemen data. Pandas menyediakan fungsi merge dan grouping database untuk memudahkan proses manipulasi data. 


Merge 

python

Merge dilakukan ketika akan menggabungkan atau join database yang berasal dari berbagai sumber tersebut. Seperti pada SQL, merge pada Pandas juga dapat melakukan berbagai jenis merge yaitu sebagai berikut:

  • inner merge adalah metode untuk menggabungkan data dimana data yang dikembalikan hanya akan berisi nilai-nilai dari kolom gabungan yang sama antara Data Frame.

  • left merge adalah metode untuk menampilkan seluruh data pada Data Frame kiri yang cocok atau berkaitan dengan Data Frame kanan.

  • right merge memiliki fungsi yang sama dengan left merge namun nilainya diletakkan di Data Frame kanan.

  • outer merge berfungsi untuk menampilkan nilai dari Data Frame kiri dan kanan. Jika ada nilai yang tidak berkaitan, maka akan menghasilkan NaN di kedua kolomnya. 


Grouping

python

Grouping merupakan proses dimana dataset dikelompokkan lebih spesifik. Fungsi yang digunakan yaitu groupby(column_name). Misalnya ingin mengumpulkan data penjualan berdasarkan lokasi cabang toko (nama kolom : Cabang).


Maka kita bisa menggabungkan data dengan fungsi groupby(). Kita bisa menuliskan groupby("Cabang"). Dengan ini kita bisa tahu penjualan yang dihasilkan oleh tiap cabang dan akan mempermudah analisis demi meningkatkan strategi marketing di masa mendatang. 


4. Mengkombinasikan Data dengan Pandas

python

Seperti yang sudah dibahas di poin sebelumnya, komponen dasar dari Pandas adalah series dan data frame. Kita bisa menggabungkan series dan data frame menggunakan fungsi yang disediakan Pandas Python. Untuk mengkombinasikan series dan data frame yaitu dengan fungsi concat. Fungsi ini sering digunakan untuk data preparation dalam proses analisis data. 


Beberapa parameter penting dalam menggunakan fungsi concat yaitu axis, keys, dan ignore_index. Ketika mengkombinasikan dataframe kita perlu mendefinisikan axis seperti axis=0 ketika akan mengkombinasikan baris data, dan axis=1 untuk mengkombinasikan kolom data. Untuk menampilkan hasil concat, caranya sama dengan mengakses data frame. 


Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python


Bagi pemula mungkin belajar pemrograman akan sedikit membingungkan. Padahal untuk menjadi praktisi data, pemrograman adalah skill wajib. Sebelumnya kamu bisa memulai dengan memahami jenis data, tools pemrograman, dan hal dasar lainnya. Selanjutnya kamu bisa praktek menerapkan code pemrograman. 


Bingung gimana caranya? Yuk, gabung di DQLab.id! Kamu bisa belajar coding anti ribet dengan fitur live code yang disediakan DQLab. Jadi, kamu tidak perlu repot menginstall tools pemrogramannya lebih dulu untuk belajar code. 


Kamu juga bisa sharing dengan member lainnya jika mengalami kesulitan dalam penyelesaian module di Discord. 


Penulis: Dita Kurniasari

Editor: Annissa Widya

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login