PROMO 10.10 BEJIBUN, MANTUL!
Belajar Data Science 6 BULAN Bersertifikat hanya Rp 100K!
0 Hari 3 Jam 0 Menit 35 Detik

Serba Serbi Library Pandas dalam Python

Belajar Data Science di Rumah 30-Juli-2022
https://dqlab.id/files/dqlab/cache/ca612e0e2e4791c30b70572acb3e9119_x_Thumbnail800.jpg

Python merupakan salah satu tools pengolahan data yang bersifat general purpose atau dapat digunakan secara fleksibel untuk menyelesaikan banyak pekerjaan. Mulai dari proses pengolahan data, pembuatan Machine Learning dan model, mendeploy model, membuat aplikasi yang berbasis web maupun mobile, dan masih banyak lagi. Tentunya untuk bisa menyelesaikan banyak pekerjaan, Python ini didukung oleh banyak library yang tersedia.


Meskipun dalam Python ada banyak sekali library yang bisa dimanfaatkan, namun library yang umum digunakan dalam menyelesaikan permasalahan Data Science bisa dihitung jari. Salah satu library tersebut adalah Pandas. Pandas ini bersifat open source yang artinya dapat digunakan oleh siapa saja secara bebas dan gratis, dimana library ini dapat digunakan untuk menyediakan berbagai struktur data serta memanipulasi data. Library Pandas pada dasarnya dibangun di atas library NumPy.


Tertarik untuk melihat penjelasan mengenai Pandas? Yuk, simak artikel berikut! 


1. Sejarah Pandas

Python

Awalnya, Pandas mulai dikembangkan untuk pertama kali di tahun 2008 oleh Wes McKinney. Saat itu dia bekerja di AQR Capital Management. Dia berusaha untuk meyakinkan AQR agar mengizinkannya membuat Pandas menjadi bersifat open source. Pada tahun 2012, karyawan AQR lainnya, yaitu Chang She ikut bergabung sebagai kontributor utama kedua library ini. Pandas terus dikembangkan untuk menjawab kebutuhan pengguna. Seiring berjalannya waktu, sudah banyak versi Pandas yang telah dirilis. Hingga saat ini versi terbaru dar Pandas adalah 1.4.1.


Baca juga: Belajar Coding Python Ramah Pemula Bersama DQLab


2. Kelebihan Pandas

Python

Pandas menjadi salah satu library yang masih terus digunakan hingga saat ini, bahkan library ini bisa disebut sebagai library dasar sehingga akan terus digunakan dalam proses pengolahan data. Namun hal itu juga tidak luput dari kelebihan-kelebihan yang dimiliki Pandas. Beberapa kelebihan tersebut adalah:

  • Cepat dan efisien dalam proses manipulasi dan analisis data.

  • Dapat memuat data yang berasal dari objek file yang berbeda.

  • Penanganan data yang hilang dengan mudah (diwakili sebagai NaN) dalam data floating point maupun non-floating point.

  • Perubahan ukuran data dengan mudah, dimana kolom dapat dimasukkan dan dihapus dari DataFrame dan objek dimensi yang lebih tinggi.

  • Dapat digunakan untuk melakukan join dan merge dataset.

  • Mampu untuk melakukan reshaping dan pivoting dataset

  • Menyediakan fungsionalitas time series.

  • Grup yang kuat berdasarkan fungsionalitas untuk melakukan operasi split-apply-combine pada kumpulan data.


3. Hubungan Pandas dan Data Science

Python

Pandas merupakan salah satu library yang dapat digunakan untuk menyelesaikan pekerjaan Data Science. Tapi kira-kira kenapa ya library yang fungsinya hanya untuk manipulasi data menjadi sangat penting dalam Data Science? Hal ini karena Pandas akan digunakan secara bersamaan dengan library lainnya yang berhubungan erat dengan Data Science. Selain itu, Pandas sendiri memang dibangun di atas library Numpy sehingga banyak struktur NumPy yang juga digunakan dan direplikasi di Pandas. 


Data yang dihasilkan oleh Pandas sering digunakan sebagai input untuk merencanakan visualisasi di fungsi Matplotlib, analisis statistika di SciPy, dan algoritma Machine Learning di Scikit-learn. Pandas memang dapat dijalankan di berbagai teks editor, namun akan lebih baik jika dijalankan dengan menggunakan Jupyter Notebook karena Jupyter diberikan kemampuan untuk mengeksekusi kode dalam sel tertentu daripada mengeksekusi seluruh file. Jupyter juga menyediakan cara mudah untuk memvisualisasikan bingkai dan plot data Pandas.


4. Mulai Menggunakan Pandas

Tahapan yang paling pertama untuk menggunakan Pandas adalah kita harus memastikan apakah library ini sudah terinstal dan tersimpan di folder Python atau belum. Jika memang belum terinstall, kita bisa menginstall nya dengan menggunakan perintah pip. Ketik perintah cmd di kotak pencarian dan cari folder menggunakan perintah cd tempat file python-pip telah diinstal. Setelah menemukannya, ketik perintah:

pip install pandas

Setelah berhasil diinstal di system, maka untuk bekerja dengan Pandas kita harus melakukan import library untuk memanggilnya. 

import pandas as pd

Panda umumnya menyediakan dua struktur data untuk memanipulasi data, yaitu:

  • Series, merupakan array satu dimensi yang berlabel dimana array ini mampu menampung data jenis apa pun (integer, string, float, objek python, dll.).

  • DataFrame, merupakan struktur data yang berbentuk tabular dalam dua dimensi yang dapat berubah ukuran dan berpotensi heterogen dengan axis label (baris dan kolom)


Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python


Sahabat DQ bisa mempelajari coding Python yang lebih mendalam dan detail dengan mengakses modul Premium yang tersedia di DQLab. Ada banyak sekali pembahasan yang dituang dalam berbagai modul dengan menggunakan bahasa pemrograman Python. Tidak hanya itu, begitu Sahabat DQ berlangganan modul premium, maka kalian juga bisa menikmati modul pembelajaran dengan menggunakan bahasa pemrograman lainnya, seperti R dan SQL.


Namun bagi kamu si pecinta gratisan, tenang saja. DQLab juga sudah menyediakan free modul yang bisa kamu jadikan dasar pembelajaran Python mu. Yuk, tunggu apa lagi? Buruan sign up di DQLab!


Penulis : Gifa Delyani Nursyafitri


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login