Pengertian 25%, 50%, dan 75% pada Fungsi Python pandas describe()
Saat bekerja dengan data pada bahasa pemrograman Python menggunakan library pandas, fungsi describe() merupakan alat yang sangat berguna untuk memberikan ringkasan statistik deskriptif dari sebuah DataFrame atau seri data. Salah satu informasi yang sering dilihat dalam output describe() adalah persentil: 25%, 50%, dan 75%. Ketiga persentil ini memberikan gambaran lebih mendalam tentang distribusi data yang sedang dianalisis.
Lantas, apa maksud dari 25%, 50%, dan 75% dalam konteks output dari pandas describe() pada bahasa pemrograman Python? Simak penjelasannya lebih lanjut sahabat DQLab buat kamu yang semangat banget belajar Python!
1. 25% (Kuartil Pertama)
25% atau kuartil pertama adalah nilai yang memisahkan 25% data terendah dalam dataset dari sisa data lainnya. Ini menunjukkan bahwa 25% dari data berada di bawah nilai ini. Kuartil pertama memberikan gambaran tentang distribusi data pada bagian bawah. Jika data terdistribusi normal, 25% ini akan berada lebih dekat dengan median. Namun, jika distribusinya miring atau terdistorsi, nilai 25% akan berada jauh dari median atau bahkan lebih rendah.
Baca juga : Bootcamp Data Analyst with SQL and Python
2. 50% (Median)
50% atau median adalah nilai tengah dari dataset. Ini adalah nilai yang memisahkan data menjadi dua bagian yang sama, di mana 50% data berada di bawah nilai median dan 50% berada di atasnya. Median memberikan gambaran yang jelas tentang posisi tengah data tanpa terpengaruh oleh nilai ekstrim (outliers). Ini sering digunakan untuk mengukur pusat distribusi data, terutama ketika data tidak terdistribusi secara simetris.
3. 75% (Kuartil Ketiga)
75% atau kuartil ketiga adalah nilai yang memisahkan 75% data dari nilai lebih tinggi. Dengan kata lain, 75% dari data berada di bawah kuartil ketiga ini. Kuartil ketiga menggambarkan batas atas dari data untuk separuh kedua. Menggabungkan nilai 25%, 50%, dan 75% memberikan kita gambaran yang lebih lengkap mengenai persebaran data, serta bagaimana data terdistribusi di sekitar titik tengahnya.
Agar lebih jelas, Misalnya kita memiliki DataFrame df yang berisi beberapa data numerik dan kita ingin mendapatkan ringkasan statistik deskriptif:
Maka output dari df.describe() akan terlihat seperti ini:
Pada output di atas:
25% pada kolom A adalah 20, yang menunjukkan bahwa 25% dari nilai kolom A berada di bawah 20.
50% (median) pada kolom A adalah 30, yang membagi data kolom A menjadi dua bagian yang sama.
75% pada kolom A adalah 40, yang berarti 75% dari data berada di bawah 40
Baca juga : Mengenal Perbedaan R Python dan SQL
4. Mengapa 25%, 50%, dan 75% Penting?
Seorang analis data tentu perlu paham terkait makna dan interpretasi dari tiga nilai secara berurutan ini yaitu 25%, 50%, dan 75%. Dengan melihat ketiga kuartil ini, kamu bisa memahami bagaimana data tersebar dan apakah ada kecenderungan tertentu dalam distribusinya.
Misalnya, jika nilai 25% dan 75% cukup dekat dengan nilai median (50%), maka data tersebut cenderung terdistribusi secara merata. Namun, jika terdapat jarak yang besar antara 25% dan median, atau antara median dan 75%, itu bisa mengindikasikan adanya skewness atau distribusi data yang tidak simetris.
Dengan pemahaman ini, seorang analis data bisa membuat keputusan yang lebih baik dalam memilih teknik analisis lebih lanjut, seperti penggunaan transformasi data atau penanganan outlier, serta memberikan wawasan yang lebih jelas tentang struktur data yang ada.
Kuartil pertama dan ketiga dapat membantu dalam mendeteksi outlier menggunakan aturan IQR (Interquartile Range). Outlier biasanya dianggap sebagai nilai yang berada di luar rentang yang dihitung dengan rumus:
Ketiga persentil ini memberikan gambaran yang lebih jelas mengenai pusat dan sebaran data, yang lebih berguna dibandingkan hanya melihat nilai rata-rata. Fungsi describe() pada pandas memberikan informasi statistik yang penting seperti 25%, 50%, dan 75% untuk membantu kita memahami distribusi data. Ketiga nilai ini memberikan wawasan lebih mendalam tentang bagaimana data tersebar, apakah ada kemiringan, serta apakah terdapat outlier yang mungkin mempengaruhi analisis lebih lanjut.
Mau tahu fungsi lainnya dalam bahasa pemrograman Python? Yuk pelajari berbagai library python bersama DQLab! DQLab adalah platform edukasi pertama yang mengintegrasi fitur ChatGPT yang memudahkan beginner untuk mengakses informasi mengenai data science secara lebih mendalam.
DQLab juga menggunakan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Jadi sangat cocok untuk kamu yang belum mengenal data science sama sekali, atau ikuti Bootcamp Machine Learning and AI for Beginner.
Penulis: Reyvan Maulid