JULY SPECIAL ! DISKON 96%
Belajar Data Science Bersertifikat, 12 Bulan hanya 180K!
1 Hari 12 Jam 18 Menit 24 Detik

Atasi Over Plotting pada Portofolio Data Scientist

Belajar Data Science di Rumah 10-Desember-2023
https://dqlab.id/files/dqlab/cache/3-longtail-jumat-02-2023-12-09-110023_x_Thumbnail800.jpg

Seorang calon data scientist tentunya membutuhkan portofolio sebagai justifikasi kepada pihak rekruter apabila kamu memiliki hardskill dalam bidang data science. Portofolio data scientist menunjukkan keberagaman proyek yang pernah dikerjakan untuk klien berkaitan dengan pemecahan masalah yang ingin diangkat. Kebanyakan bagian dari portofolio yang dibuat memuat visualisasi data.


Visualisasi data tentunya menjadi daya tarik yang memikat pihak rekruter agar mereka dapat menarik kesimpulan dari seluruh analisis yang telah dijalankan. Namun permasalahannya adalah seringkali visualisasi data yang ditampilkan cenderung tumpang tindih atau bahasa lainnya adalah over plotting.


Over plotting adalah permasalahan umum dalam visualisasi data yang sering dihadapi calon data scientist. Hal ini terjadi karena adanya banyak data yang ditempatkan dalam satu plot sehingga titik data menjadi tumpang tindih dan tidak tersebar satu sama lain. Sebagai orang awam, kondisi tersebut membuat mereka sulit untuk memahami pola dan hubungan di antara data.


Dalam portofolio yang disusun oleh seorang calon data scientist, kemampuan dalam mengatasi over plotting merupakan keterampilan yang menjadi nilai plus agar visualisasi jadi terlihat menarik dan secara visual tentunya eye-catching. Lalu bagaimana cara mengatasi over plotting dalam portofolio data scientist? Simak yuk penjelasannya sahabat DQLab!


1. Menggunakan Plot yang Tepat

Memilih plot yang tepat merupakan langkah awal dalam mengatasi over plotting pada visualisasi data. Beberapa jenis plot lebih cocok untuk data yang padat daripada lainnya. Misalnya jika kamu memiliki banyak titik pada data, lebih baik menggunakan visualisasi seperti density plot, atau box plot daripada scatter plot.


Penggunaan scatter plot akan menjadi berantakan dan tumpang tindih apabila dipakai dalam visualisasi data titik. Maka dari itu, penggunaan scatter plot sebaiknya dihindari karena dapat mempersulit interpretasi data.


Baca juga : Mengenal Profesi Data Scientist


2. Menggunakan Transparansi

Salah satu cara sederhana untuk mengatasi over plotting dalam scatter plot adalah dengan mengatur transparansi titik data. Kita dapat mengatur parameter transparansi sehingga titik-titik yang tumpang tindih akan menjadi lebih tersebar daripada yang tidak tumpang tindih.


Hal ini akan membantu pihak rekruter dalam melihat pola yang mungkin tersembunyi di bawah titik-titik yang tumpang tindih. Jika kamu menggunakan python, kamu bisa mengatasinya dengan terlebih dahulu mengimpor library matplotlib.pyplot untuk mengaplikasikan transparansi pada titik dalam diagram scatterplot.


Berikut adalah contoh sintaksnya:

Data Scientist


3.  Menggunakan Subplots

Ketika kamu memiliki banyak data yang berbeda dan ingin membandingkannya dalam satu plot, kamu bisa menggunakan subplot. Hal ini memungkinkan kamu untuk membagi plot menjadi beberapa bagian kecil, masing-masing mewakili data yang berbeda. Dengan menggunakan subplot, kamu dapat menghindari over plotting dan membuat data lebih mudah untuk dipahami.


Berikut adalah contoh sintaks yang bisa digunakan dalam membuat subplots

Data Scientist


Baca juga : Yuk Kenal Role Data Scientist, Profesi Menarik Dengan Gaji Besar


4. Menerapkan Teknik Agregasi

Jika kamu memiliki data yang sangat padat dan sulit untuk dilihat dengan jelas dalam bentuk scatter plot, kamu bisa mengakalinya dengan menggunakan teknik agregasi seperti heatmap atau hexbin plot. Heatmap menggambarkan kepadatan titik data dalam bentuk warna, sedangkan hexbin plot mempartisi area plot menjadi heksagon dan menghitung jumlah titik data dalam setiap heksagon.


Berbeda dengan cara sebelumnya yang menggunakan library matplotlib, pada teknik agregasi ini kamu bisa menggunakan library seaborn untuk memunculkan visualisasi yang advanced. Berikut adalah contoh sintaksnya:

Data Scientist


Ayo mulai perjalanan kamu dalam mengasah keterampilan Data Scientist dan bergabunglah dengan kursus yang tepat untuk membantu mencapai kesuksesan dalam karir ini!


DQLab sebagai platform belajar online yang berfokus pada pengenalan Data Science & Artificial Intelligence (AI) dengan menggunakan bahasa pemrograman populer seperti Python dan SQL, serta platform edukasi pertama yang mengintegrasi fitur ChatGPT siap membantu kamu menggeluti karir di industri data. 


Metode HERO (Hands-On, Experiential Learning & Outcome-based) yang ramah pemula juga membantu kamu untuk bisa merasakan pengalaman belajar yang praktis & aplikatif! Tunggu apa lagi? sign up sekarang di DQLab.id!


Penulis: Reyvan Maulid

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login