GIMANA MEMULAI KARIER JADI DATA ANALYST?
Simak caranya di webinar GRATIS dan raih DOORPRIZE menarik!
DAFTAR SEKARANG!
Pendaftaran ditutup dalam 1 Hari 1 Jam 25 Menit 16 Detik 

Mengulik Pandas Python, Library Powerful dalam Pengolahan Data

Belajar Data Science di Rumah 09-Juni-2022
https://dqlab.id/files/dqlab/cache/95b3a41d3c3cd332bc4ea2543f7e3401_x_Thumbnail800.jpg

Python adalah salah satu bahasa pemrograman andalan praktisi data. Sayangnya banyak orang yang belum tahu bahwa Python menyediakan library yang sangat powerful. Penggunaan library dalam bahasa Python ini memungkinkan praktisi data untuk menyelesaikan tahapan analisis data yang begitu rumit menjadi sederhana. Salah satu library Python yang powerful dalam pengolahan data adalah Pandas Python. 


Pandas adalah paket Python open source yang paling sering dipakai untuk menganalisis data serta membangun sebuah machine learning. Pandas dibuat berdasarkan satu package lain bernama Numpy, yang mendukung arrays multi dimensi. Sebagai salah satu paket kode Python, Pandas juga dapat digunakan secara optimal denga modul data science yang lain dalam ekosistem Python.


python


Cara kerja Pandas cukup menarik. Data berpa CSV, TSV, atau SQL diubah menjadi obyek Python dengan rows dan column yang disebut sebagai data frame. Objek ini terlihat sangat mirip dengan tabel yang terdapat pada software statistika seperti Excel atau SPSS. Data yang sudah diolah akan sangat mudah dianalisis karena berbentuk daftar library. Nah, bagaimana sahabat DQLab semuanya? Sangat powerful bukan library Python yang satu ini. 


Penggunaan Pandas dalam python juga sangat penting karena kita bisa improve skill coding kita pastinya. 


1. Apa itu Pandas Python

Pandas merupakan singkatan dari Python Data Analysis Library. Pandas adalah sebuah open source python package/library dengan lisensi BSD yang menyediakan banyak perkakas untuk kebutuhan analisis data, manipulasi dan pembersihan data. 

python

Pandas mendukung pembacaan dan penulisan data dengan media berupa excel spreadsheet, CSV, dan SQL yang nantinya dijadikan sebagai objek python dengan rows dan columns. Gabungan rows dan columns ini kerap disebut sebagai dataframe dalam objek Python. Dataframe ini bentuknya seperti tabel statistik. 


Baca juga: 6 Cara Jitu untuk Improve Skill Coding Python Pemula


2. Keunggulan Library Pandas dalam Python

Pandas menjadi salah satu library yang paling sering dipakai oleh data scientist. Hal ini karena Pandas dapat digunakan bersamaan dengan library lain dalam data science. Karena dibuat menggunakan NumPy, artinya ada banyak struktur library yang digunakan atau direplika di dalam Pandas. Selain itu, data yang diproduksi oleh Pandas sering kali digunakan sebagai input plotting functions untuk Matplotlib, analisis statistik di SciPy, serta algoritma machine learning dalam Scikit-learn.

python


Program library Pandas dalam Python sendiri dapat dijalankan menggunakan berbagai text editor, namun sangat disarankan untuk menggunakan Jupyter Notebook. Hal ini disebabkan karena kemampuan Jupyter untuk meng-execute kode dari satu cell tertentu tanpa perlu menjalankan file secara keseluruhan. Selain itu, Jupyter juga menyediakan cara yang mudah untuk memvisualisasikan data frames dan plot yang dibuat oleh Pandas.


3. Perbedaan Pandas dengan Numpy Python

NumPy dengan sendirinya adalah alat tingkat yang cukup rendah, dan akan sangat mirip dengan menggunakan MATLAB. pandas di sisi lain menyediakan fungsionalitas deret waktu yang kaya, penyelarasan data, statistik ramah-NA, groupby, penggabungan dan penggabungan metode, dan banyak kemudahan lainnya. 

python

Pandas memadukan library NumPy yang memiliki kemampuan manipulasi data yang fleksibel dengan database relasional (seperti SQL). Sehingga memudahkan kita untuk melakukan reshape, slice dan dice, agregasi data, dan mengakses subset dari data.


4. Objek Pandas: Series vs DataFrame

Jika kita berbicara tentang Objek Pandas maka ada dua objek dalam library ini yaitu Series dan DataFrame. Keduanya adalah suatu objek dalam Python tempat kita nantinya akan melakukan penyimpanan data secara terstruktur. Perbedaan mendasar dari kedua objek ini terletak pada struktur, atribut dan tidak metode-metode yang mereka miliki. 


Jika series lebih merujuk pada objek 1 dimensi, sedangkan DataFrame adalah suatu objek dua dimensi. Bisa dibilang DataFrame ini strukturnya mirip seperti tabel. Jika sahabat DQ penasaran dengan perbedaan antara Series vs DataFrame. Kita langsung aja jabarkan masing-masing melalui penjelasan dibawah ini.


Series

Series merupakan suatu objek satu dimensi yang dapat menyimpan berbagai jenis tipe data seperti integer, string, dan berbagai jenis tipe lainnya. Terkadang ketika kita ingin melakukan pengolahan data dalam Python harus seragam tipenya. Berikut adalah cara membuat list dalam Python dengan menggunakan objek series

python

Dalam series, ada beberapa hal yang perlu diperhatikan. Salah satunya series ini memiliki satu sumbu saja. Nah, kalau dilihat dari contoh di atas terdapat empat angka yang berjajar yaitu 8,4,2,6. Dengan menggunakan Series, kita bisa melakukan pengubahan sumbunya. Caranya gimana?

python

Terlihat kan bahwa sumbunya sudah mulai berubah. Jika pada gambar sebelumnya lebih berfokus pada angka. Namun pada contoh di atas, sumbu tersebut berpindah jadi huruf abcd.

Note: Jumlah indeks harus sama dengan jumlah data. Contoh ketika jumlah data ada 6 maka indeks yang dibuat juga 6.


Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python


DataFrame

Dataframe adalah suatu objek 2 dimensi yang mana nantinya akan digunakan sebagai tempat menyimpan data dengan lebih terstruktur. Dataframe memiliki 2 indeks yaitu indeks baris dan indeks kolom. Aturannya sama seperti series bahwa dataframe juga harus memiliki tipe data yang sama. Tapi antar kolomnya bisa memiliki jenis data yang berbeda. Pastinya sahabat DQLab sudah bisa membayangkan ya bahwa DataFrame bentuknya hampir mirip seperti tabel. Berikut adalah cara membuat list dalam Python dengan menggunakan objek DataFrame. 

python

Seperti yang telah dijelaskan sebelumnya, dalam Dataframe bisa memiliki jenis data yang berbeda. Jika dilihat dari contoh diatas bahwa di kolom sebelah kiri memiliki tipe data integer alias bilangan bulat. Sedangkan pada kolom sebelah kanan memiliki tipe data string alias karakter. 


Pandas merupakan salah satu library powerful yang dimiliki oleh Python. Pandas akan menjadi langkah besar kamu dalam perjalanan mempelajari data science. Kini Sahabat Data DQLab sudah tidak perlu khawatir lagi. Kamu bisa langsung belajar dari sekarang karena dataset yang telah disediakan sudah sudah terintegrasi dengan live code editor. Jika kamu penasaran dengan python dan ingin belajar python secara langsung, caranya mudah banget. 


Coba juga free module Introduction to Data Science with Python untuk menguji kemampuan data science kamu gratis isi form dibawah ini ya sekarang!


Penulis: Reyvan Maulid

Postingan Terkait

Sign Up & Mulai Belajar Gratis di DQLab!