PROMO 10.10 BEJIBUN, MANTUL!
Belajar Data Science 6 BULAN Bersertifikat hanya Rp 100K!
0 Hari 3 Jam 50 Menit 13 Detik

Kenali 4 Fungsi Penting Pandas Python untuk Pengolahan Data

Belajar Data Science di Rumah 14-Juli-2022
https://dqlab.id/files/dqlab/cache/233dc4d1ae298eca3fa3277eb01ced89_x_Thumbnail800.jpg

Sebagai salah satu bahasa pemrograman tingkat tinggi yang berorientasi objek dengan semantik yang dinamis. Python memiliki library yang cukup lengkap yang bisa digunakan untuk membuat program Python menjadi semakin lebih sederhana dan nyaman bagi programmer karena tidak perlu menulis kode yang sama berulang kali untuk program yang berbeda.


Saat ini, Python memiliki lebih dari 137.000 library yang dapat membantu kamu dalam membuat program baik untuk Data Analysis, Artificial Intelligence (AI), Machine Learning, tapi juga sangat powerfull untuk web apps dan GUI.


Salah satu library yang sering digunakan adalah pandas Python. Pandas adalah paket Python open source yang paling sering dipakai untuk menganalisis data serta membangun sebuah Machine Learning. Pandas dibuat berdasarkan satu package lain bernama Numpy, yang mendukung array multi dimensi. Sebagai salah satu paket kode Python, Pandas juga dapat digunakan secara optimal dengan modul Data Science yang lain dalam ekosistem Python.


Cara kerja Pandas cukup menarik. Data berpa CSV, TSV, atau SQL diubah menjadi obyek Python dengan rows dan column yang disebut sebagai data frame. Objek ini terlihat sangat mirip dengan tabel yang terdapat pada software statistika seperti Excel atau SPSS.


Data yang sudah diolah akan sangat mudah dianalisis karena berbentuk daftar library. Nah, bagaimana sahabat DQLab semuanya? Sangat powerful bukan library Python yang satu ini.


Pada artikel kali ini, DQLab kembali berbagi kepada sahabat data semua mengenai 4 fungsi pandas yang sangat berguna, akan tetapi jarang diketahui. Penasaran apa saja 4 fungsi yang jarang diketahui tersebut? Baca terus artikel ini sampai habis ya!


1. Sekilas Tentang Library Pandas

python

Pandas adalah salah satu library yang wajib dipelajari pemula dalam belajar Python. Dengan berdasarkan sistem dataframe, modul ini dapat memuat sebuah file ke dalam tabel virtual menyerupai spreadsheet. Pandas juga berfungsi mengolah suatu data seperti teknik join, distinct, group by, agregasi, dan teknik lainnya seperti pada SQL. Bedanya, ini dilakukan pada tabel. Kelebihan dari library ini juga dapat membaca file dari berbagai format seperti .txt, .csv, dan .tsv. 


Pada dasarnya ada tiga jenis struktur data di library Pandas ini, yaitu Series (satu dimensi dan merupakan array homogen), DataFrame (dua dimensi dengan kolom yang bersifat heterogen), serta Panel (tiga dimensi, array size mutable).


Untuk menggunakan library ini, kita perlu mengimport nya terlebih dahulu. Biasanya library Pandas disingkat dengan "pd".


Contoh penggunaan library Pandas adalah seperti berikut,

python


Baca juga: Tutorial Menggunakan Fungsi Array Python, Ilmu Dasar Bagi Pemula


2. Cara Import Library Pandas

Dalam Python memang library pandas belum secara default terinstall. Jadi, kita perlu menginstalnya terlebih dahulu sebelum menggunakannya. Untuk dapat menginstall pandas, kamu bisa menjalankan perintah dengan menggunakan pip ataupun bisa menggunakan Anaconda


Dengan menggunakan pip:

pip install pandas


Dengan menggunakan library Anaconda, kita bisa menginstallnya dengan perintah berikut,

conda install pandas


Jika sudah berhasil melakukan instalasi Pandas, kita dapat menggunakannya untuk melakukan manipulasi data dengan cara import modul tersebut pada projek yang akan kita buat.

import pandas as pd
import numpy as np

 python


3. Membaca Data CSV

Pandas memungkinkan kita untuk membaca dan menganalisis dari berbagai jenis data seperti CSV, JSON, XLSX, HTML, XML. Kali ini kita akan sama-sama belajar bagaimana cara membaca data dari sumber data tersebut dengan menggunakan library pandas dan fungsi read_csv() untuk membaca file format CSV. Untuk membaca file CSV kita gunakan fungsi read_csv() umumnya nilai dalam format CSV dipisahkan oleh koma (,) sehingga parameter separator fungsi read_csv() adalah koma.

python


Membuat Series dengan Pandas

Series merupakan struktur data dasar dalam Pandas. Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan index tersebut dapat kita kontrol dari setiap elemen tersebut.  Perintah dasar untuk membuat sebuah series dengan Pandas adalah,

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)


  • Parameter data, diisi dengan data yang akan dibuat series. Struktur data yang bisa ditampung berupa integer, float, dan juga string. 

  • Parameter index, diisi dengan index dari series. Jumlah index harus sama dengan jumlah data. Jika kita tidak mengisi parameter index, maka series akan memiliki index integer seperti halnya array biasa. 

  • Parameter dtype, diisi dengan tipe data dari series.

  • Dan parameter copy untuk copy data, secara default akan bernilai false.


Berdasarkan sintaks di atas, kita akan membuat contoh series menggunakan Python list ataupun numpy sebagai contoh data untuk membuat series.

python


Mengatur Indeks

Untuk mengatur indeks dari series, kita bisa menggunakan parameter index. Contohnya disini kita akan melakukan pengaturan indeks pada data numpy array yang sudah kita buat sebelumnya dengan indeks [12,13,14,15].

python

Terlihat bahwa indeks dari series berubah menjadi [12,13,14,15]. Perlu diingat bahwa pengaturan indeks harus sesuai dengan panjang dari data yang ada, bila tidak sesuai akan menimbulkan error panjang dari indeks tidak sesuai.


Membuat Dataframe dengan Pandas

Dataframe merupakan tabel atau data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada dataframe merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.

Untuk membuat dataframe, digunakan sintaks berikut: 

pandas.DataFrame(data, index, columns, dtype, copy)
  • index, merupakan label untuk baris.

  • columns, merupakan label untuk kolom.

  • dtype, merupakan tipe data per kolom.

  • copy, digunakan untuk menyalin data, defaultnya False.

Berikut contoh untuk menunjukkan pembuatan Data Frame yang sederhana,

python


Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python


Sudahkah kamu berhasil download dan install Python di perangkatmu? Sekarang kamu bisa menjalankannya dan coba membuat program sederhana dengan Python. Terdapat banyak macam library yang digunakan dalam Data Science selain Pandas sesuai dengan fungsinya masing-masing.


Pahami penggunaan masing-masing library tersebut bersama DQLab. Kamu juga bisa membuat database sederhana untuk proses pengolahan data atau mengambil dataset dengan download dari Kaggle atau web scraping.


Yuk, mulai belajar Python bareng para mentor data dengan daftar di DQLab.id! Banyak event yang bisa kamu ikuti dan juga job connector, loh!


Penulis : Salsabila MR

Editor : Annisa Widya Davita



Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login