4 Hal Penting Agar Portfolio Data Science Memukau
Sebagai data science, membangun portfolio sangat penting untuk dilakukan. Baik untuk pemula maupun profesional. Portfolio digunakan oleh pemula untuk menjadi jurnal perjalanan belajar data science. Kalian bisa melihat perkembangan kemampuan kalian dari beragam kasus yang kalian selesaikan sebagai portfolio. Ini juga bisa menjadi nilai tambah bagi kalian yang ingin melamar pekerjaan, loh. Dengan portfolio, rekruter beranggapan bahwa kemampuan kalian tidak sekadar teori, namun juga telah diaplikasikan dalam berbagai permasalahan.
Bagi data science profesional, portfolio digunakan untuk menunjukkan kemampuan khusus yang dimiliki. Seseorang yang berpengalaman juga perlu mendokumentasikan kemampuannya sebagai personal branding dan pembuktian hasil berkarirnya. Lantas, bagaimana portfolio yang memukau pembaca? Adakah bagian-bagian penting yang tidak boleh terlewatkan ketika membangun portfolio? Yuk, simak penjelasan berikut!
1. Data Cleaning
Data cleaning adalah suatu prosedur untuk memastikan kebenaran, konsistensi, dan kegunaan suatu data yang ada dalam dataset. Caranya dengan mendeteksi adanya error atau corrupt pada data, kemudian memperbaiki atau menghapus data jika memang diperlukan. Terkadang, saat kalian menggabungkan beberapa data sources sekaligus, ada kemungkinan data terduplikasi atau bahkan salah label. Situasi seperti ini juga memerlukan data cleaning agar tidak muncul masalah yang lebih rumit.
Data berkualitas buruk akan memberikan hasil dan algoritma yang tidak bisa dijamin kebenaranya meski proses analisisnya benar. Berikut adalah beberapa alasan mengapa data cleaning harus dilakukan:
Menghilangkan kesalahan dan inkonsistensi yang muncul saat beberapa data sources dikumpulkan dalam satu dataset.
Meningkatkan efisiensi kerja karena proses ini akan memudahkan praktisi data dalam mengolah data yang kemudian diubah menjadi insight.
Membantu memetakan beberapa fungsi data yang berbeda. Proses ini juga akan membuat kalian lebih mengenal kegunaan data dan mempelajari asalnya.
Baca juga : Kenapa Data Science Penting? Ini Dia Manfaatnya di Era Digital
2. Exploratory Data Analysis
Secara umum, Exploratory data analysis mencakup tentang proses kritis uji investigasi awal pada sebuah data untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis, dan memeriksa asumsi melalui statistik ringkasan dan representasi grafis (visual). EDA dapat membantu mendeteksi kesalahan, mengidentifikasi outlier dalam kumpulan data, memahami hubungan antar data, menggali faktor-faktor penting, menemukan pola dalam data, dan memberikan wawasan baru. EDA sangat bermanfaat untuk analisis statistik. Data profesional sering kali menggunakan EDA untuk menemukan hasil yang valid dan relevan sebagai arah tujuan bisnis yang diinginkan.
Setidaknya ada empat teknik Exploratory Data Analysis yang umum digunakan, yaitu:
Univariate Non Graphical. Tujuan EDA teknik ini adalah untuk mengetahui distribusi/data sampel yang mendasari dan melakukan pengamatan tentang populasi. Deteksi outlier juga merupakan bagian dari analisis. Ciri-ciri distribusi populasi antara lain: Central tendency (mean, median, dan modus), spread (variabilitas, varian dan standar deviasi), bentuk distribusi (skewness dan kurtosis).
Univariate Graphical. Bila Non-graphical data tidak menunjukan visualisasi lengkap mengenai data yang diolah, maka dalam metode graphical, peneliti akan menampilkan data secara visual. Data yang ditunjukkan dapat berupa stem-and-leaf plots, box plots, dan histogram.
Multivariate Non Graphical. Multivariate data memiliki beberapa variabel. Metode ini menunjukkan hubungan antara dua data variabel atau lebih menggunakan statistik atau tabulasi silang.
Multivariate Graphical. Teknik EDA ini menggunakan grafik untuk menunjukkan hubungan antara dua data set atau lebih. Grafis multivariate yang paling sering digunakan antara lain adalah bar chart, bar plot, heat map, bubble chart, run chart, multivariate chart, dan scatter plot.
3. Data Visualization
Data visualization adalah penggambaran data menjadi berbagai bentuk visual, seperti grafik, peta, atau bagan. Dalam bisnis, penggunaan visualisasi data sangat penting, terutama ketika menganalisis banyak informasi yang ada. Dari visualisasi data, kalian bisa membuat keputusan yang tepat. Semakin baik visualisasi data ditampilkan, maka akan semakin bagus dan berguna untuk menetapkan suatu keputusan yang tepat. Produktivitas pun bisa mengalami peningkatan pesat apabila pengambilan keputusannya tepat.
Agar bisa mendapatkan hasil maksimal dalam visualisasi data, berikut langkah-langkah yang perlu dilakukan.
Menentukan pertanyaan berkaitan dengan data. Sebelum membuat visualisasi data, bayangkan bagaimana visualisasi data yang dibuat akan membantu para pembacanya. Identifikasilah data yang tersedia sampai kalian benar-benar memahami isinya dan mengetahui visualisasi data seperti apa yang akan digunakan untuk memudahkan pembacaan data tersebut. Hal ini diperlukan untuk menghindari terjadinya kesalahan pembacaan data.
Pahami data dan tentukan bentuk visualisasinya. Kalian bisa menggunakan diagram batang, diagram alur, diagram sebar, peta, jaringan, atau lainnya. Pemilihan visualisasi dasar ini tergantung pada isi data apa yang akan divisualisasikan.
Identifikasi pesan yang ingin disampaikan. Buatlah indikator yang paling informatif dari data yang ditampilkan. Pastikan kalian memahami bahwa hal terpenting dari visualisasi data adalah mengetahui kumpulan data dengan baik serta memahami isi dari setiap variabel data.
Kreasikan sehingga lebih menarik. Anda bisa menggunakan warna, ukuran, skala, label, atau variasi bentuk untuk membedakan setiap variabel data. Kreasikan agar visualisasi data Anda menarik perhatian pembaca. Hal ini juga akan memudahkan pembaca saat melihat dan memahami visualisasi data tersebut.
Baca juga : Cara Mudah Belajar Data Science untuk Kembangkan Bisnis Online Shop
4. Machine Learning
Machine learning adalah sebuah mesin yang diciptakan agar dapat belajar layaknya manusia. Teknologi ini mampu menangkap data dan memungkinkan mesin melakukan pembelajaran serta menciptakan suatu sistem atau algoritma. Algoritma yang tercipta dari data nyata ini akan membentuk suatu model. Model inilah yang nantinya akan menentukan kelas dan tipe dari data baru. Hal ini bertujuan agar mesin dapat menciptakan sebuah prediksi atau keputusan dari data yang diperoleh. Ada beberapa teknik yang dimiliki oleh machine learning, namun secara luas ML memiliki dua teknik dasar belajar, yaitu supervised dan unsupervised.
Teknik supervised learning merupakan teknik yang bisa kalian terapkan pada pembelajaran mesin yang bisa menerima informasi yang sudah ada pada data dengan memberikan label tertentu. Diharapkan teknik ini bisa memberikan target terhadap output yang dilakukan dengan membandingkan pengalaman belajar di masa lalu.
Teknik unsupervised learning merupakan teknik yang bisa kalian terapkan pada machine learning yang digunakan pada data yang tidak memiliki informasi untuk diterapkan secara langsung. Diharapkan teknik ini dapat membantu menemukan struktur atau pola tersembunyi pada data yang tidak memiliki label.
Apakah kalian sudah ada gambaran akan membuat portfolio tentang topik apa? Bagi kalian yang masih kebingungan memulai membangun portfolio, bisa coba akses DQLab nih. DQLab menyediakan beragam studi kasus yang sering ditemukan di berbagai industri untuk kalian selesaikan. Dengan menyelesaikan seluruh modul pembelajarannya, pemahaman dan keahlian kalian di bidang data science juga meningkat. Ini akan membuat kalian semakin percaya diri untuk mencoba beragam topik studi kasus lainnya. Bahkan DQLab menyediakan pembelajaran untuk beragam bahasa pemrograman juga, loh. Diantaranya Python, R, SQL, dan Excel.
Selain lengkap, DQLab juga memiliki Live Code Editor. Sehingga kalian tidak perlu khawatir untuk install aplikasi lagi selama mempersiapkan portofolio. Penjelasan di setiap langkahnya pun juga dikemas dengan bahasa yang mudah kalian pahami. Jika kesulitan, DQLab juga memiliki komunitas yang dapat digunakan untuk berdiskusi serta mentor yang siap membantu.
Nah, tunggu apalagi? Segera daftarkan diri kalian dengan Sign Up dan siapkan portofolio data science terbaik kalian!
Penulis : Dita Feby
Editor : Annissa Widya