PROMO 10.10 BEJIBUN, MANTUL!
Belajar Data Science 6 BULAN Bersertifikat hanya Rp 100K!
0 Hari 2 Jam 44 Menit 6 Detik

Belajar Pandas Python, Library Penting untuk Proses Analisis Data

Belajar Data Science di Rumah 14-Mei-2022
https://dqlab.id/files/dqlab/cache/f3788b424c61af37509f6cfaf16a1f2a_x_Thumbnail800.jpg

Ketika membahas tentang data science, Python adalah bahasa pemrograman yang wajib dipelajari. Selain sintaks yang mudah dipahami oleh pemula sekalipun, Python juga memiliki banyak library. Library ini digunakan untuk memudahkan pekerjaan seperti membangun machine learning, membuat aplikasi web, melakukan analisis data, hingga membuat visualisasi data. Seperti yang kita tahu data saat ini menjadi hal yang sangat penting. Dari data kita bisa memperoleh informasi yang berguna di masa mendatang.


Beberapa library yang sering digunakan dalam proses analisis data yaitu Pandas, Numpy, dan Matplotlib. Setiap library memiliki fungsinya masing-masing seperti Numpy untuk memproses data angka, dan Matplotlib untuk visualisasi data. Nah, sebelum memproses data tentu kita perlu mengumpulkan data yang dibutuhkan misalnya dengan mengakses dari database. Pandas adalah library dengan fungsi untuk mempermudah pekerjaan tersebut. Tidak hanya itu, Pandas masih punya fungsi lainnya, loh. Di artikel kali ini kita akan bahas mengenai library Pandas di Python. Simak sampai akhir, yuk!


1. Apa itu Pandas?

Python

Pandas adalah library open source pada Python yang sering digunakan untuk memproses data yang meliputi pembersihan data, manipulasi data, hingga melakukan analisis data. Ketika melakukan suatu analisis, kita tidak bisa menggunakan data mentah. Data mentah harus diproses lebih dulu hingga layak untuk dianalisis. 


Disinilah library Pandas bekerja. Pandas dapat digunakan untuk membuat tabel, mengecek data, dan lainnya. Pandas juga berfungsi mengakses data sumber yang akan digunakan untuk penelitian. Pandas dapat membaca format file csv, tsv, dan txt. Dengan library ini kita juga dapat melakukan proses seperti pada SQL seperti agregasi, join, group by, dan lain-lain. 


Baca juga: Belajar Coding Python untuk Beginner Non IT


2. Cara Install Pandas Python

Python

Pandas secara default belum tersedia ketika menginstall Python. Jadi jika ingin menggunakannya kita harus menginstalnya terlebih dahulu. Untuk menginstall Python kita bisa menuliskan perintah berikut di command prompt:


pip install pandas

Bisa juga menggunakan Anaconda dengan perintah berikut:

conda install pandas


Jika instalasi sudah berhasil sekarang kamu bisa menggunakan library Pandas untuk mengakses data, manipulasi data, dan lainnya. Perintah untuk memanggil library Pandas yaitu seperti berikut:

import pandas as pd


Untuk mengakses data kamu bisa menambahkan sintaks berikut setelah memanggil library Pandas:

nama_database = pd.read(data_sumber)


3. Series dengan Pandas

Apa itu Series? Series merupakan struktur data pada Pandas. Series ini dapat kita ibaratkan sebagai array satu dimensi, hanya saja bedanya index pada Series dapat dikontrol dari setiap elemennya. Untuk membuat suatu Series dengan Pandas kamu bisa menggunakan perintah berikut:


pandas.Series(data, index, dtype, copy)


Parameter diatas dengan data yang dibuat dalam Series. Untuk data bisa menampung data integer, float, dan string. Kemudian parameter index diisi dengan index dari Series dimana jumlah index harus sama dengan jumlah data. Jika tidak diisi, maka index pada Series akan sama dengan array seperti biasanya. Parameter dtype berisikan tipe data series. Yang terakhir yaitu copy untuk duplikat data yang secara default akan bernilai false


4. Data Frame dengan Pandas

Python

Sahabat DQ pasti sering mendengar data frame. Data Frame adalah tabel yang berisikan array dua dimensi berupa baris dan kolom. Bentuk ini adalah bentuk yang paling sering digunakan untuk menyimpan suatu data. Pada data frame, kolom merupakan objek dari Series, dan baris berisikan elemen yang dimiliki Series. Gunakan sintax berikut untuk membuat data frame:


pandas.DataFrame(data, index, columns, dtype, copy)


Perintah diatas diisikan seperti keterangan berikut:

  • index adalah label untuk baris

  • columns adalah label untuk kolom

  • dtype adalah tipe data untuk setiap kolom

  • copy digunakan untuk menyalin data yang mana defaultnya berupa False


Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python

Tahukah kamu, profesi Data Scientist dan Data Analyst menjadi profesi yang banyak dicari saat ini oleh berbagai perusahaan dengan kualifikasi yang berbeda-beda. Setiap perusahaan punya tools andalannya tersendiri seperti talent data harus menguasai Python, R, Excel, Tableau, dan lain sebagainya. 


Pemula yang ingin berkarir di bidang data wajib hukumnya memahami dasar-dasar pemrograman seperti mengenal library-library Python yang digunakan untuk analissi data. Ini bisa kamu dapatkan salah satunya dengan mengikuti kursus data science. 


DQLab adalah lembaga kursus data science yang memberikan modul terstruktur dan di mentori oleh praktisi data senior sehingga mudah dipahami dan dipelajari. Kamu juga bisa menggali kemampuanmu dengan mengikuti data challenge dan mendapat feedback langsung dari mentor. 


Tunggu apa lagi? Yuk, daftarkan dirimu di DQLab.id!


Penulis: Dita Kurniasari

Editor: Annissa Widya


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login