Belajar Python Mengenal Pandas dan Series untuk Meningkatkan Kompetensi Data

Belajar Data Science di Rumah 08-Juli-2021
https://dqlab.id/files/dqlab/cache/604d423f84cb75ad4b1df04b32a2a12a_x_Thumbnail800.jpg

Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. 

 

Library Pandas memiliki dua tipe struktur data untuk versi terbaru yaitu Series dan Data Frame serta satu deprecated struktur data yaitu Panel (deprecated). Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut. Sedangkan data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data dalam bentuk tabel/data tabular. Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah. Untuk lebih memahami apa saja yang ada dalam library Pandas, yuk kita bahas bersama!

 

1. Menginstall Pandas

Pandas secara default tidak tersedia pada modul standar disaat pertama kali instalasi Python dan kita diharuskan untuk melakukan instalasi terlebih dahulu sebelum menggunakan. Untuk dapat menginstall pandas, kita bisa menjalankan perintah dengan menggunakan pip ataupun bisa menggunakan Anaconda

Dengan menggunakan pip:


pip install pandas

 

Dengan menggunakan library Anaconda, kita bisa menginstallnya dengan perintah berikut,

 

conda install pandas


Jika sudah berhasil melakukan instalasi Pandas, kita dapat menggunakannya untuk melakukan manipulasi data dengan cara import modul tersebut pada projek yang akan kita buat.

import pandas as pd

import numpy as np


Baca juga : Belajar Data Science: Kenali Dasar Bahasa Pemrograman Python yang Cocok bagi Pemula


2. Mencoba Series

Series merupakan struktur data dasar dalam Pandas. Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan index tersebut dapat kita kontrol dari setiap elemen tersebut.  Perintah dasar untuk membuat sebuah series dengan Pandas adalah


pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)


Parameter  data, diisi dengan data yang akan dibuat series. Struktur data yang bisa ditampung berupa integer, float, dan juga string. parameter index, diisi dengan index dari series. Jumlah index harus sama dengan jumlah data. Jika kita tidak mengisi parameter index, maka series akan memiliki index integer seperti halnya array biasa. Parameter dtype, diisi dengan tipe data dari series, dan parameter copy untuk copy data, secara default akan bernilai false.

Berdasarkan sintaks di atas, kita akan membuat contoh series menggunakan Python list ataupun numpy sebagai contoh data untuk membuat series. 


 

3. Mengatur Indeks

Untuk mengatur indeks dari series, kita bisa menggunakan parameter index. Contohnya disini kita akan melakukan pengaturan indeks pada data numpy array yang sudah kita buat sebelumnya dengan indeks [12,13,14,15].


Terlihat bahwa indeks dari series berubah menjadi [12,13,14,15]. Perlu diingat bahwa pengaturan indeks harus sesuai dengan panjang dari data yang ada, bila tidak sesuai akan menimbulkan error panjang dari indeks tidak sesuai.


4. Mencoba Data Frame

Data frame merupakan tabel/data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada data frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.

Untuk membuat data frame, digunakan sintaks berikut: 


pandas.DataFrame(data, index, columns, dtype, copy)

 

Dengan keterangan:

  • index merupakan label untuk baris

  • columns merupakan label untuk kolom

  • dtype merupakan tipe data per kolom

  • copy digunakan untuk menyalin data, defaultnya False


Berikut contoh untuk menunjukkan pembuatan Data Frame yang sederhana:



Baca juga :  Pengindeksan Dasar Pada Data Menggunakan NumPy Array Python

5. Mulai Belajar Python dan Terapkan Ilmunya Sekarang untuk Siap Berkarir di Industri!

Tertarik berkarir di bidang data? Yuk, bergabung di DQLab! Kamu bisa membangun portofolio datamu dengan belajar Python di DQLab. Untuk kamu yang ingin mulai belajar Data Science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu sekarang juga. Buat Akun Gratis dengan Signup di DQLab.id/signup dan ikuti kelas GRATIS "Introduction to Data Science with Python".

 

Penulis : Salsabila Miftah R

Editor : Annissa Widya


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login