6 Function Favorit Pandas Python Idaman Praktisi Data
Siapa yang tidak kenal dengan Pandas Python? Paket library Python yang satu ini benar-benar sangat powerful dalam melakukan pengolahan data. Pandas Python harus diketahui oleh siapapun yang ingin belajar bahasa pemrograman. Baik yang ingin berkarir menjadi seorang praktisi di bidang data ataupun menjadi seorang programmer dalam bahasa pemrograman Python.
Pandas python seringkali digunakan karena kemampuan untuk mengelola data berbentuk tabel (lebih lanjut disebut dengan dataframe) dimana sebagian besar data science project menggunakan data berbasis tabel. Sebagai Python Data Scientist maupun pemula yang baru mempelajari data science, sangat penting untuk menguasai fungsi-fungsi dasar yang ada dalam Pandas library.
Untuk bisa menggunakan fungsi-fungsi Pandas library, kita perlu mengimpornya terlebih dahulu. Caranya adalah kalian mengetikkan import pandas as pd. Dengan perintah di atas, kita telah berhasil mengimpor Pandas library. Dalam Pandas sendiri ada 6 fungsi yang ingin kita bahas dalam artikel kali ini. Bocorannya keenam fungsi yang ada pada Pandas Python ini sering dipakai oleh praktisi data. Mau tahu apa saja fungsi Pandas yang sering dipakai? Simak artikel ini sampai selesai ya!
1. Mengenal Apa itu Pandas?
Pandas adalah sebuah paket library pada python yang digunakan untuk mempermudah dalam mengolah dan menganalisa data-data terstruktur. Pandas merupakan paket penting yang wajib diketahui untuk seorang data engineer, data analyst dan data scientist jika ingin mengolah dan manganalisa data menggunakan python. Jika kamu telah terbiasa menggunakan SQL, maka tidak akan sulit untuk membiasakan diri menggunakan fungsi-fungsi pada Pandas.
Baca juga: Easy Way Array Python untuk Analisis Korelasi
2. Persiapan Data
Oke deh daripada kalian penasaran, langsung aja yuk kita praktek bareng-bareng. Kebetulan aku sudah siapkan nih datanya buat mengaplikasikan library Pandas ke bahasa pemrograman Python. Tapi sebelumnya kita kasih tau dulu, kalau misalnya kalian perlu untuk melakukan pemanggilan library berikut.
Yang pertama adalah Pandas yang ingin kita butuhkan untuk melakukan analisis data. Kedua ada Numpy untuk melakukan operasi matematika pada data. Karena nanti kita akan sama-sama menghitung nilai mahasiswa. Maka dari itu, penggunaan operasi statistik sangat diperlukan. Makanya kita butuh library Numpy ini teman-teman. Sekarang kita masuk ke datanya aja yuk.
Jadi, kali ini kita akan melakukan operasi statistika terhadap nilai mahasiswa Agribisnis di beberapa mata kuliah. Ada lima mata kuliah yang ingin kita input. Pertama ada Manajemen Agribisnis, kedua ada Perilaku Konsumen, ketiga Metode Kuantiatif, keempat Manajemen Keuangan, dan terakhir ada Manajemen Pemasaran Agribisnis. Masing-masing mata kuliah akan diambil nilainya sebanyak 2 kali ujian yaitu nilai UTS dan nilai UAS.
Setiap mata kuliah memiliki jumlah mahasiswa yang berbeda-beda. Oleh karena itu, nantinya kita akan mengambil rata-rata kelas dari setiap mata kuliah yang telah ditempuh. Berikut adalah datanya
Nah, kalau misalnya sudah tahu bentuk datanya. Sekarang kita akan mulai untuk menerapkan library Pandas pada data tersebut.
3. Head()
Kita mulai dengan function yang pertama yaitu head(). Head() digunakan untuk menampilkan data awal dari sekumpulan data yang ada. Perintah head() juga digunakan untuk menampilkan data teratas. Default-nya jika kita tidak memberikan argumen di dalam tanda kurung (), data yang akan ditampilkan adalah 5 baris teratas. Namun, kita juga dapat menentukan berapa baris data yang ingin ditampilkan dengan memberikan argumen berupa bilangan integer.
Kali ini, kita akan coba untuk menampilkan lima data teratas dari data nilai mahasiswa yang ada. Berikut adalah sintaksnya yang bisa kalian gunakan:
Nah untuk menampilkan lima data teratas, caranya mudah banget sahabat DQLab. Kalian tinggal isi aja yang ada di dalam kurung. Kemudian tinggal kamu ganti dengan 5. Berikut adalah hasil tampilannya menggunakan perintah head().
Jika kita lihat berdasarkan hasil output diatas maka yang akan muncul nantinya adalah lima data teratas. Adapun lima data itu adalah Manajemen Agribisnis, Perilaku Konsumen, Metode Kuantitatif, Manajemen Keuangan, Manajemen Pemasaran Agribisnis untuk nilai UTS.
4. Tail()
Selain head() untuk menampilkan data teratas dalam sekumpulan data, ada juga tail(). Dalam bahasa Inggris, tail sendiri adalah ekor. Jadi perintah tail() ini digunakan untuk menampilkan data terbawah pada dataframe yang telah disediakan. Sama dengan perintah head() sebelumnya, kali ini mimin akan tampilkan lima data yang paling bawah.
Kali ini, kita akan coba untuk menampilkan lima data terbawah dari data nilai mahasiswa yang ada. Berikut adalah sintaksnya yang bisa kalian gunakan:
Nah untuk menampilkan lima data terbawah, caranya mudah banget sahabat DQLab. Kalian tinggal isi aja yang ada di dalam kurung. Kemudian tinggal kamu ganti dengan 5. Berikut adalah hasil tampilannya menggunakan perintah tail().
Jika kita lihat berdasarkan hasil output diatas maka yang akan muncul nantinya adalah lima data teratas. Adapun lima data itu adalah Manajemen Agribisnis, Perilaku Konsumen, Metode Kuantitatif, Manajemen Keuangan, Manajemen Pemasaran Agribisnis untuk nilai UAS.
5. Info()
Function yang ketiga adalah info(). digunakan untuk menampilkan informasi detail tentang dataframe, seperti jumlah baris data, nama-nama kolom berserta jumlah data dan tipe datanya, dan sebagainya. Ibaratnya dengan fungsi pandas yang satu ini, kita akan tahu banyak informasi seputar data yang kita masukkan. Sama dengan perintah head() dan tail() sebelumnya, kali ini mimin akan tampilkan informasinya dari semua data. Kesimpulannya seperti apa sih.
Kali ini, kita akan coba untuk menampilkan info lengkap dari data nilai mahasiswa yang ada. Berikut adalah sintaksnya yang bisa kalian gunakan:
Berikut adalah hasil tampilannya dengan menggunakan perintah info()
Berdasarkan hasil output yang telah ditampilkan maka perintah info() ini menginformasikan mata kuliah yang telah ditempuh oleh mahasiswa, tipe ujian yang telah ditempuh mahasiswa baik UTS ataupun UAS, jumlah mahasiswa pada masing-masing mata kuliah yang ditempuh mahasiswa dan nilai rata-rata yang dimiliki tiap kelas di beberapa mata kuliah.
Untuk yang bertanya, kenapa jumlah mahasiswa kok nilainya 9? padahal yang lainnya nilainya 10. Jawabannya adalah pada mata kuliah Manajemen Keuangan pada tipe ujian UAS tidak keluar dalam kolom jumlah mahasiswa.
6. Describe()
Fungsi selanjutnya adalah describe(). Fungsi Pandas ini digunakan untuk menampilkan informasi terkait statistik deskriptif pada data. Nantinya dalam info ini akan ditampilkan komponen-komponennya. Mulai dari jumlah datanya, berapakah rata-ratanya, berapakah standar deviasinya dan lain-lain. Sama dengan perintah library Pandas sebelumnya, kali ini mimin akan tampilkan informasinya dari semua data untuk perintah describe(). Kesimpulannya seperti apa sih.
Kali ini, kita akan coba untuk menampilkan info lengkap dari data nilai mahasiswa yang ada. Berikut adalah sintaksnya yang bisa kalian gunakan:
Berikut adalah hasil tampilannya dengan menggunakan perintah describe()
Berdasarkan hasil output yang telah ditampilkan maka perintah describe() ini menginformasikan jumlah data (disimbolkan dengan count), rata-rata suatu data (disimbolkan dengan mean), standar deviasi suatu data, nilai minimal dan nilai maksimal. Selain itu ada juga nilai yang dibedakan atas persentasenya. Mulai dari 25%, 50% hingga 75 persen. Nilai tersebut dibedakan antara jumlah mahasiswa dan nilai rata-rata kelas.
7. Sample()
Fungsi terakhir adalah fungsi sample. Dari istilahnya kita sudah bisa menebak-nebak dong. Sample sendiri artinya adalah contoh data. Jadi disini kita akan menampilkan contoh dari data yang telah disediakan. Namun contohnya bisa ditampilkan secara acak. kita dapat memberikan bilangan integer sebagai argumen jika menginginkan sampel data lebih dari 1.
Kali ini, kita akan coba untuk menampilkan lima data sample dari data nilai mahasiswa yang ada. Berikut adalah sintaksnya yang bisa kalian gunakan:
Nah untuk menampilkan lima data contoh, caranya mudah banget sahabat DQLab. Kalian tinggal isi aja yang ada di dalam kurung. Kemudian tinggal kamu ganti dengan 5. Berikut adalah hasil tampilannya menggunakan perintah sample().
Berdasarkan output yang telah dihasilkan bahwa dari kelima sample contoh berikut menggambarkan perbedaan. Jika 4 dari 5 data memiliki tipe ujian UTS sedangkan 1 dari 5 adalah UAS.
Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python
Nah, jadi sahabat DQLab sudah pada tahu kan? Fungsi pandas itu bervariasi loh. Mulai dari head to toe, semuanya lengkap. Kira-kira kalian excited banget nggak nih buat belajar coding lebih banyak seputar Python? Come on guys, yuk belajar coding Python Bersama DQLab! Kamu bisa loh untuk coba bikin akun gratisnya kesini di DQLab.id dan lakukan signup untuk dapatkan info-info terbaru serta belajar python.
Cobain juga free module Introduction to Data Science with Python untuk upskill data analysis kamu secara gratis!
Penulis: Reyvan Maulid