Belajar Pandas Python, Library Penting untuk Proses Analisis Data
Ketika membahas tentang data science, Python adalah bahasa pemrograman yang wajib dipelajari. Selain sintaks yang mudah dipahami oleh pemula sekalipun, Python juga memiliki banyak library. Library ini digunakan untuk memudahkan pekerjaan seperti membangun machine learning, membuat aplikasi web, melakukan analisis data, hingga membuat visualisasi data. Seperti yang kita tahu data saat ini menjadi hal yang sangat penting. Dari data kita bisa memperoleh informasi yang berguna di masa mendatang.
Beberapa library yang sering digunakan dalam proses analisis data yaitu Pandas, Numpy, dan Matplotlib. Setiap library memiliki fungsinya masing-masing seperti Numpy untuk memproses data angka, dan Matplotlib untuk visualisasi data. Nah, sebelum memproses data tentu kita perlu mengumpulkan data yang dibutuhkan misalnya dengan mengakses dari database. Pandas adalah library dengan fungsi untuk mempermudah pekerjaan tersebut. Tidak hanya itu, Pandas masih punya fungsi lainnya, loh. Di artikel kali ini kita akan bahas mengenai library Pandas di Python. Simak sampai akhir, yuk!
1. Apa itu Pandas?
Pandas adalah library open source pada Python yang sering digunakan untuk memproses data yang meliputi pembersihan data, manipulasi data, hingga melakukan analisis data. Ketika melakukan suatu analisis, kita tidak bisa menggunakan data mentah. Data mentah harus diproses lebih dulu hingga layak untuk dianalisis.
Disinilah library Pandas bekerja. Pandas dapat digunakan untuk membuat tabel, mengecek data, dan lainnya. Pandas juga berfungsi mengakses data sumber yang akan digunakan untuk penelitian. Pandas dapat membaca format file csv, tsv, dan txt. Dengan library ini kita juga dapat melakukan proses seperti pada SQL seperti agregasi, join, group by, dan lain-lain.
Baca juga: Belajar Coding Python untuk Beginner Non IT
2. Cara Install Pandas Python
Pandas secara default belum tersedia ketika menginstall Python. Jadi jika ingin menggunakannya kita harus menginstalnya terlebih dahulu. Untuk menginstall Python kita bisa menuliskan perintah berikut di command prompt:
pip install pandas
Bisa juga menggunakan Anaconda dengan perintah berikut:
conda install pandas
Jika instalasi sudah berhasil sekarang kamu bisa menggunakan library Pandas untuk mengakses data, manipulasi data, dan lainnya. Perintah untuk memanggil library Pandas yaitu seperti berikut:
import pandas as pd
Untuk mengakses data kamu bisa menambahkan sintaks berikut setelah memanggil library Pandas:
nama_database = pd.read(data_sumber)
3. Series dengan Pandas
Apa itu Series? Series merupakan struktur data pada Pandas. Series ini dapat kita ibaratkan sebagai array satu dimensi, hanya saja bedanya index pada Series dapat dikontrol dari setiap elemennya. Untuk membuat suatu Series dengan Pandas kamu bisa menggunakan perintah berikut:
pandas.Series(data, index, dtype, copy)
Parameter diatas dengan data yang dibuat dalam Series. Untuk data bisa menampung data integer, float, dan string. Kemudian parameter index diisi dengan index dari Series dimana jumlah index harus sama dengan jumlah data. Jika tidak diisi, maka index pada Series akan sama dengan array seperti biasanya. Parameter dtype berisikan tipe data series. Yang terakhir yaitu copy untuk duplikat data yang secara default akan bernilai false
4. Data Frame dengan Pandas
Sahabat DQ pasti sering mendengar data frame. Data Frame adalah tabel yang berisikan array dua dimensi berupa baris dan kolom. Bentuk ini adalah bentuk yang paling sering digunakan untuk menyimpan suatu data. Pada data frame, kolom merupakan objek dari Series, dan baris berisikan elemen yang dimiliki Series. Gunakan sintax berikut untuk membuat data frame:
pandas.DataFrame(data, index, columns, dtype, copy)
Perintah diatas diisikan seperti keterangan berikut:
index adalah label untuk baris
columns adalah label untuk kolom
dtype adalah tipe data untuk setiap kolom
copy digunakan untuk menyalin data yang mana defaultnya berupa False
Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python
Tahukah kamu, profesi Data Scientist dan Data Analyst menjadi profesi yang banyak dicari saat ini oleh berbagai perusahaan dengan kualifikasi yang berbeda-beda. Setiap perusahaan punya tools andalannya tersendiri seperti talent data harus menguasai Python, R, Excel, Tableau, dan lain sebagainya.
Pemula yang ingin berkarir di bidang data wajib hukumnya memahami dasar-dasar pemrograman seperti mengenal library-library Python yang digunakan untuk analissi data. Ini bisa kamu dapatkan salah satunya dengan mengikuti kursus data science.
DQLab adalah lembaga kursus data science yang memberikan modul terstruktur dan di mentori oleh praktisi data senior sehingga mudah dipahami dan dipelajari. Kamu juga bisa menggali kemampuanmu dengan mengikuti data challenge dan mendapat feedback langsung dari mentor.
Tunggu apa lagi? Yuk, daftarkan dirimu di DQLab.id!
Penulis: Dita Kurniasari
Editor: Annissa Widya