Tutorial Python untuk Membuat Ringkasan Statistik Otomatis
Data analyst sering kali harus membuat ringkasan statistik sebelum melakukan analisis lebih lanjut. Ringkasan statistik membantu memahami karakteristik data, mulai dari nilai rata-rata, nilai minimum dan maksimum, hingga persebaran data. Jika dilakukan secara manual di spreadsheet, proses ini bisa memakan waktu. Apalagi, jumlah data yang dimiliki juga sangat besar.
Python menawarkan cara yang jauh lebih efisien. Melalui Pandas (library Python), kamu dapat menghasilkan ringkasan statistik hanya beberapa baris kode saja. Bahkan, proses yang biasanya membutuhkan banyak rumus di Excel dapat diselesaikan dalam hitungan detik. Kali ini, DQLab akan membahas langkah-langkah membuat ringkasan statistik secara otomatis menggunakan Python. Cocok banget buat kamu yang ingin belajar data analysis atau kamu yang bercita-cita menjadi seorang data analyst. Stay tune!
1. Instalasi Python dan Pandas
Jika Python belum terpasang di komputer, unduh dan instal terlebih dahulu. Setelah itu, pasang library Pandas melalui terminal atau Command Prompt:
pip install pandas
Setelah instalasi selesai, buka Jupyter Notebook, Google Colab, atau editor Python favoritmu.
Baca Juga: Bootcamp Data Analyst with Python & SQL
2. Membuat Dataset Sederhana
Sebagai contoh, kita akan menggunakan data penjualan sederhana.
Output:

Dataset tersebut berisi delapan nilai penjualan yang akan digunakan untuk membuat ringkasan statistik otomatis.
3. Menggunakan fungsi describe()
Cara paling mudah membuat ringkasan statistik di Python adalah menggunakan fungsi describe()
print(df.describe())
Output

Hasil tersebut memberikan berbagai informasi penting secara otomatis. Misalnya:
count = 8 (menunjukkan bahwa terdapat delapan observasi dalam sebuah dataset)
mean = 180.625 (menunjukkan rata-rata penjualan sekitar 181 unit)
std = 33.06 (semakin besar nilainya maka semakin besar variasi data terhadap rata-ratanya)
min dan max = 120 dan 220 (data penjualan terendah adalah 120 dan tertinggi 220)
Baca Juga: Data Analyst vs Data Scientist
4. Membaca Data dari File Excel
Dalam praktiknya, data biasanya berasal dari file Excel.

Python akan langsung menghasilkan ringkasan statistik dari seluruh kolom numerik yang ada pada file tersebut. Jika ingin melihat statistik hanya pada satu kolom maka:

Hasil ringkasan juga dapat disimpan kembali ke Excel untuk dibagikan kepada tim atau klien.

Setelah kode dijalankan, file Excel baru akan dibuat secara otomatis.
Membuat ringkasan statistik otomatis merupakan salah satu kemampuan dasar yang wajib dimiliki oleh data analyst. Melalui Pandas, proses menghitung jumlah data, rata-rata, median, nilai minimum, nilai maksimum, hingga standar deviasi dapat dilakukan secara cepat dan akurat. Fungsi describe() menjadi titik awal yang sangat baik bagi pemula karena mampu menghasilkan banyak informasi hanya dengan satu perintah
FAQ
1. Apa fungsi describe() dalam Pandas?
Fungsi describe() digunakan untuk menghasilkan ringkasan statistik secara otomatis pada data numerik. Output yang ditampilkan meliputi jumlah data (count), rata-rata (mean), standar deviasi (std), nilai minimum (min), kuartil (25%, 50%, 75%), dan nilai maksimum (max). Dengan satu perintah, data analyst dapat memperoleh gambaran awal mengenai kondisi dataset.
2. Apakah saya harus menguasai statistik terlebih dahulu untuk menggunakan Pandas?
Tidak harus. Pemula tetap dapat menggunakan Pandas untuk membuat ringkasan statistik otomatis. Namun, memahami konsep dasar seperti rata-rata, median, dan standar deviasi akan membantu dalam menginterpretasikan hasil analisis dengan lebih tepat dan menghasilkan insight yang lebih bermanfaat.
3. Bisakah Python membuat ringkasan statistik dari file Excel?
Bisa. Dengan fungsi read_excel() dari Pandas, kamu dapat membaca data langsung dari file Excel dan menghasilkan ringkasan statistik menggunakan describe(). Hasil analisis juga dapat disimpan kembali ke file Excel menggunakan fungsi to_excel(), sehingga memudahkan proses pelaporan dan berbagi data dengan tim.
Kalau kamu tertarik untuk berkarir sebagai Data Analyst yang menguasai teknik Data Cleaning secara handal, ini adalah saat yang tepat! Yuk, segera Sign Up ke DQLab! Di sini, kamu bisa belajar dari dasar hingga tingkat lanjut dengan materi dan tools yang relevan dengan kebutuhan industri, bahkan tanpa latar belakang IT. Belajar kapan saja dan di mana saja dengan fleksibilitas penuh, serta didukung oleh fitur eksklusif Ask AI Chatbot 24 jam!
Tidak cuma itu, DQLab juga sudah menerapkan metode pembelajaran HERO (Hands-On, Experiential Learning & Outcome-based) yang dirancang ramah untuk pemula, dan telah terbukti mencetak talenta unggulan yang sukses berkarier di bidang data. Jadi, mau tunggu apa lagi?
Jadi, tunggu apa lagi? Segera persiapkan diri untuk menguasai keterampilan di bidang data dan teknologi dengan subscribe modul premium, atau ikuti Bootcamp Data Analyst with SQL and Python sekarang juga!
Penulis: Reyvan Maulid
Mulai Karier
sebagai Praktisi
Data Bersama
DQLab
Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Daftar Gratis & Mulai Belajar
Mulai perjalanan karier datamu bersama DQLab
Sudah punya akun? Kamu bisa Sign in disini
