PROMO PUNCAK LEBARAN DISKON 99%
Belajar Data Science 6 Bulan BERSERTIFIKAT hanya Rp 99K!

1 Hari 23 Jam 53 Menit 18 Detik

Pahami Aturan 80/20 Dalam Data Science

Belajar Data Science di Rumah 27-April-2023
https://dqlab.id/files/dqlab/cache/da2f591489f810f292d3f23631034e60_x_Thumbnail800.jpeg

Dalam mengerjakan tugas-tugas yang berhubungan dengan data science tentunya banyak hal yang diprioritaskan. Mulai dari melakukan eksplorasi data, mencari data berdasarkan sumber yang tepat, memilih algoritma yang cocok berdasarkan data yang ingin kita analisis dengan tujuan kita melakukan riset dalam suatu proyek dan mengerjakan daily activities seorang praktisi data. Namun pertanyaan yang seringkali muncul adalah dari serentetan aktivitas, manakah yang kira-kira diprioritaskan terlebih dahulu? Adapun teknik umum yang bisa diaplikasikan dalam menunjang tugas-tugas yang berhubungan dengan data science adalah aturan 80-20.


Aturan 80/20, juga dikenal sebagai Hukum Pareto, adalah prinsip umum yang dapat diterapkan dalam berbagai bidang, termasuk data science. Konsep ini juga dikenal dengan sebutan "hukum Pareto", dan berasal dari nama ekonom Italia bernama Vilfredo Pareto. Konsep ini diterapkan pada berbagai bidang, termasuk ekonomi, bisnis, dan data science. Aturan ini menyatakan bahwa sekitar 80% hasil diperoleh dari 20% input yang diberikan. Dalam data science, aturan ini dapat digunakan untuk memahami pola yang muncul dalam data dan membantu mengoptimalkan proses analisis data.


Dalam konteks data science, aturan 80/20 dapat diterapkan pada berbagai tahapan proses data science, seperti pemrosesan data, eksplorasi data, pemodelan data, dan evaluasi model. Terus kira-kira hubungan aturan 80/20 dengan tugas-tugas yang berhubungan dengan data science itu apa ya? 


1. Mengenal Prinsip 80/20

Sebelum kita membahas tentang penerapan aturan 80/20, kita sama-sama cari tahu dulu darimana aturan ini berasal? Aturan 80/20 atau yang dikenal dengan Hukum Pareto (Prinsip Pareto) dikembangkan oleh ahli ekonom Italia, Vilfredo Pareto, pada tahun 1896. Pareto mengamati bahwa 80 persen tanah di Italia ternyata hanya dimiliki oleh 20 persen populasi. Dia juga melihat hal yang serupa terjadi pada tanaman di kebunnya. Dimana dari 20 persen tanaman yang dibudidayakan ternyata menghasilkan 80 persen buah. Hubungan ini dapat diilustrasikan secara matematis sebagai distribusi hukum pangkat antara dua kuantitas, dimana perubahan dalam satu variabel secara kuantitas akan menghasilkan perubahan yang relevan pada kuantitas lainnya secara bersamaan.


Data Science


Aturan 80/20 bukanlah suatu persamaan matematika secara resmi, melainkan fenomena umum yang dapat diamati dalam berbagai bidang. Mulai dari bidang ekonomi, bisnis, manajemen, olahraga dan lain-lain. Dalam kesehariannya, aturan 80-20 memiliki contoh umum sebagai berikut:

  • 20 persen tanaman memiliki 80 persen buah

  • 80 persen keuntungan perusahaan berasal dari 20 persen pelanggan

  • 20 persen pemain mencetak 80 persen poin


Aturan 80/20 juga dapat diterapkan pada data science. Aturan ini menyatakan bahwa 80 persen hasil diperoleh dari 20 persen input yang diberikan. Penggunaan aturan 80/20 digunakan sebagai acuan dalam memahami pola yang muncul dalam data dan membantu dalam mengoptimalkan proses analisis data.


Baca juga : Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science!


2. Pemrosesan Data

Dalam tahap pemrosesan data, aturan 80/20 dapat digunakan untuk mengurangi jumlah data yang perlu diproses. Sebagai contoh, jika dataset memiliki jutaan baris data, kita mungkin hanya perlu memproses 20% data tersebut untuk mendapatkan informasi yang cukup. Dalam hal ini, kita dapat menggunakan teknik seperti pengambilan sampel atau pemilihan fitur untuk mengurangi jumlah data yang perlu diproses.


Data Science


3. Eksplorasi Data

Dalam tahap eksplorasi data, aturan 80/20 dapat diaplikasikan untuk mengidentifikasi variabel atau fitur yang paling berpengaruh pada target yang ingin diprediksi. Kita dapat menggunakan teknik seperti analisis korelasi atau analisis regresi untuk menentukan variabel mana yang paling berpengaruh pada target.


Data Science


4. Pemodelan Data

Dalam tahap pemodelan data, aturan 80/20 dapat digunakan untuk memilih algoritma atau model yang paling efektif untuk memprediksi target. Sebagai contoh, jika kita ingin memprediksi kelas tertentu dalam dataset, kita mungkin hanya perlu menggunakan beberapa algoritma seperti Naive Bayes, Random Forest, atau SVM, karena algoritma tersebut telah terbukti efektif dalam memprediksi kelas (klasifikasi).

Data Science


Baca juga : 3 Contoh Penerapan Data Science yang Sangat Berguna di Dunia Perindustrian


5. Pengembangan Model

Aturan 80/20 dapat membantu dalam menentukan prioritas dalam pengembangan model. Dalam banyak kasus, waktu dan sumber daya yang terbatas dapat menjadi kendala dalam pengembangan model. Dengan mengetahui variabel yang paling berpengaruh, dapat ditentukan prioritas dalam pengembangan model yang dapat memberikan hasil yang optimal.

Data Science


6. Evaluasi Model

Dalam tahap evaluasi model, aturan 80/20 dapat digunakan untuk memilih subset data yang paling representatif untuk diuji. Sebagai contoh, kita dapat memilih 20% data untuk diuji, sementara 80% data digunakan untuk melatih model. Hal ini dapat menghemat waktu dan sumber daya yang diperlukan untuk menguji model.

Data Science

Namun, perlu diingat bahwa aturan 80/20 tidak selalu berlaku untuk semua kasus. Pada beberapa kasus, kita mungkin perlu memproses seluruh data untuk mendapatkan hasil yang akurat dan representatif. Oleh karena itu, aturan 80/20 harus digunakan dengan hati-hati dan dengan mempertimbangkan konteks spesifik dari setiap kasus


Dari penjelasan diatas, pastinya kamu sudah sedikit lebih paham bukan soal konsep dasar dari data science. Biar lebih penasaran lagi untuk belajar data science dan upskill kemampuanmu dalam bidang data, yuk belajar bareng bersama DQLab


Kebetulan DQLab adalah platform belajar online yang berfokus pada pengenalan Data Science & Artificial Intelligence (AI) dengan menggunakan bahasa pemrograman populer seperti Python dan SQL, serta platform edukasi pertama yang mengintegrasi fitur ChatGPT & mengutamakan pembelajaran praktik langsung yang dapat diterapkan di dunia nyata. 


Kapan lagi kan belajar data science sambil chat bareng layaknya platform ChatGPT? Dijamin bakalan seru abis. Yuk langsung aja belajar bareng di DQLab yaa! 


Penulis: Reyvan Maulid


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login