PAYDAY SALE! DISKON 95%
Belajar Data Bersertifikat 12 Bulan hanya 180K!
0 Hari 2 Jam 37 Menit 58 Detik

4 Bagian Penting dalam Portfolio Data Science

Belajar Data Science di Rumah 05-Maret-2024
https://dqlab.id/files/dqlab/cache/longtail-selasa-05-2024-03-07-200030_x_Thumbnail800.jpg

Sebagai data science, membangun portfolio sangat penting untuk dilakukan. Baik untuk pemula maupun profesional. Portfolio digunakan oleh pemula untuk menjadi jurnal perjalanan belajar data science. Kalian bisa melihat perkembangan kemampuan kalian dari beragam kasus yang kalian selesaikan sebagai portfolio. Ini juga bisa menjadi nilai tambah bagi kalian yang ingin melamar pekerjaan, loh. Dengan portfolio, rekruter beranggapan bahwa kemampuan kalian tidak sekadar teori, namun juga telah diaplikasikan dalam berbagai permasalahan.


Bagi data science profesional, portfolio digunakan untuk menunjukkan kemampuan khusus yang dimiliki. Seseorang yang berpengalaman juga perlu mendokumentasikan kemampuannya sebagai personal branding dan pembuktian hasil berkarirnya. Lantas, bagaimana portfolio yang memukau pembaca? Adakah bagian-bagian penting yang tidak boleh terlewatkan ketika membangun portfolio? Yuk, simak penjelasan berikut!


1. Data Cleaning

Data Science

Data cleaning adalah suatu prosedur untuk memastikan kebenaran, konsistensi, dan kegunaan suatu data yang ada dalam dataset. Caranya dengan mendeteksi adanya error atau corrupt pada data, kemudian memperbaiki atau menghapus data jika memang diperlukan. Terkadang, saat kalian menggabungkan beberapa data sources sekaligus, ada kemungkinan data terduplikasi atau bahkan salah label. Situasi seperti ini juga memerlukan data cleaning agar tidak muncul masalah yang lebih rumit. 


Data berkualitas buruk akan memberikan hasil dan algoritma yang tidak bisa dijamin kebenaranya meski proses analisisnya benar. Berikut adalah beberapa alasan mengapa data cleaning harus dilakukan:

  • Menghilangkan kesalahan dan inkonsistensi yang muncul saat beberapa data sources dikumpulkan dalam satu dataset.

  • Meningkatkan efisiensi kerja karena proses ini akan memudahkan praktisi data dalam mengolah data yang kemudian diubah menjadi insight.

  • Membantu memetakan beberapa fungsi data yang berbeda. Proses ini juga akan membuat kalian lebih mengenal kegunaan data dan mempelajari asalnya.


Baca juga : Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science!


2. Exploratory Data Analysis

Secara umum, Exploratory data analysis mencakup tentang proses kritis uji investigasi awal pada sebuah data untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis, dan memeriksa asumsi melalui statistik ringkasan dan representasi grafis (visual). EDA dapat membantu mendeteksi kesalahan, mengidentifikasi outlier dalam kumpulan data, memahami hubungan antar data, menggali faktor-faktor penting, menemukan pola dalam data, dan memberikan wawasan baru. EDA sangat bermanfaat untuk analisis statistik. Data profesional sering kali menggunakan EDA untuk menemukan hasil yang valid dan relevan sebagai arah tujuan bisnis yang diinginkan.


Setidaknya ada empat teknik Exploratory Data Analysis yang umum digunakan, yaitu:

  • Univariate Non Graphical. Tujuan EDA teknik ini adalah untuk mengetahui distribusi/data sampel yang mendasari dan melakukan pengamatan tentang populasi. Deteksi outlier juga merupakan bagian dari analisis. Ciri-ciri distribusi populasi antara lain: Central tendency (mean, median, dan modus), spread (variabilitas, varian dan standar deviasi), bentuk distribusi (skewness dan kurtosis).

  • Univariate Graphical. Bila Non-graphical data tidak menunjukan visualisasi lengkap mengenai data yang diolah, maka dalam metode graphical, peneliti akan menampilkan data secara visual. Data yang ditunjukkan dapat berupa stem-and-leaf plots, box plots, dan histogram.

  • Multivariate Non Graphical. Multivariate data memiliki beberapa variabel. Metode ini menunjukkan hubungan antara dua data variabel atau lebih menggunakan statistik atau tabulasi silang.

  • Multivariate Graphical. Teknik EDA ini menggunakan grafik untuk menunjukkan hubungan antara dua data set atau lebih. Grafis multivariate yang paling sering digunakan antara lain adalah bar chart, bar plot, heat map, bubble chart, run chart, multivariate chart, dan scatter plot.


3. Data Visualization

Data Science

Data visualization adalah penggambaran data menjadi berbagai bentuk visual, seperti grafik, peta, atau bagan. Dalam bisnis, penggunaan visualisasi data sangat penting, terutama ketika menganalisis banyak informasi yang ada. Dari visualisasi data, kalian bisa membuat keputusan yang tepat. Semakin baik visualisasi data ditampilkan, maka akan semakin bagus dan berguna untuk menetapkan suatu keputusan yang tepat. Produktivitas pun bisa mengalami peningkatan pesat apabila pengambilan keputusannya tepat.


Agar bisa mendapatkan hasil maksimal dalam visualisasi data, berikut langkah-langkah yang perlu dilakukan.

  • Menentukan pertanyaan berkaitan dengan data. Sebelum membuat visualisasi data, bayangkan bagaimana visualisasi data yang dibuat akan membantu para pembacanya. Identifikasilah data yang tersedia sampai kalian benar-benar memahami isinya dan mengetahui visualisasi data seperti apa yang akan digunakan untuk memudahkan pembacaan data tersebut. Hal ini diperlukan untuk menghindari terjadinya kesalahan pembacaan data. 

  • Pahami data dan tentukan bentuk visualisasinya. Kalian bisa menggunakan diagram batang, diagram alur, diagram sebar, peta, jaringan, atau lainnya. Pemilihan visualisasi dasar ini tergantung pada isi data apa yang akan divisualisasikan.

  • Identifikasi pesan yang ingin disampaikan. Buatlah indikator yang paling informatif dari data yang ditampilkan. Pastikan kalian memahami bahwa hal terpenting dari visualisasi data adalah mengetahui kumpulan data dengan baik serta memahami isi dari setiap variabel data.

  • Kreasikan sehingga lebih menarik. Anda bisa menggunakan warna, ukuran, skala, label, atau variasi bentuk untuk membedakan setiap variabel data. Kreasikan agar visualisasi data Anda menarik perhatian pembaca. Hal ini juga akan memudahkan pembaca saat melihat dan memahami visualisasi data tersebut.


Baca juga : 3 Contoh Penerapan Data Science yang Sangat Berguna di Dunia Perindustrian


4. Machine Learning

Data Science

Machine learning adalah sebuah mesin yang diciptakan agar dapat belajar layaknya manusia. Teknologi ini mampu menangkap data dan memungkinkan mesin melakukan pembelajaran serta menciptakan suatu sistem atau algoritma. Algoritma yang tercipta dari data nyata ini akan  membentuk suatu model.


Model inilah yang nantinya akan menentukan kelas dan tipe dari data baru. Hal ini bertujuan agar mesin dapat menciptakan sebuah prediksi atau keputusan dari data yang diperoleh. Ada beberapa teknik yang dimiliki oleh machine learning, namun secara luas ML memiliki dua teknik dasar belajar, yaitu supervised dan unsupervised.

  • Teknik supervised learning merupakan teknik yang bisa kalian terapkan pada pembelajaran mesin yang bisa menerima informasi yang sudah ada pada data dengan memberikan label tertentu. Diharapkan teknik ini bisa memberikan target terhadap output yang dilakukan dengan membandingkan pengalaman belajar di masa lalu. 

  • Teknik unsupervised learning merupakan teknik yang bisa kalian terapkan pada machine learning yang digunakan pada data yang tidak memiliki informasi untuk diterapkan secara langsung. Diharapkan teknik ini dapat membantu menemukan struktur atau pola tersembunyi pada data yang tidak memiliki label.


Apakah kalian sudah ada gambaran akan membuat portfolio tentang topik apa? Bagi kalian yang masih kebingungan memulai membangun portfolio, bisa coba akses DQLab nih. DQLab menyediakan beragam studi kasus yang sering ditemukan di berbagai industri untuk kalian selesaikan.


Dengan menyelesaikan seluruh modul pembelajarannya, pemahaman dan keahlian kalian di bidang data science juga meningkat. Bahkan DQLab diintegrasikan dengan ChatGPT. Manfaatnya apa?

  • Membantu kalian menjelaskan lebih detail code yang sedang dipelajari

  • Membantu menemukan code yang salah atau tidak sesuai

  • Memberikan solusi atas problem yang dihadapi pada code

  • Membantu kalian belajar kapanpun dan dimanapun


Selain itu, DQLab juga menggunakan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Tunggu apa lagi, segera Sign Up dan kembangkan kemampuan kalian dalam mengaplikasikan data science! 


Penulis : Dita Feby 

Editor : Annissa Widya

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login