Tips Pilih Dataset Relevan untuk Portofolio Data Science
Portofolio data science yang menarik tidak hanya mengandalkan kemampuan teknis yang kuat, tetapi juga bagaimana seorang data scientist dapat memilih dan menggunakan dataset yang relevan. Memilih dataset yang tepat adalah langkah kunci untuk menunjukkan kemampuan analisis data, pemodelan, serta kemampuan problem-solving dalam konteks nyata (real-case) di hadapan rekruter saat proses rekrutmen berlangsung.
Bagi kamu yang saat ini sedang menimbang-nimbang untuk menggunakan dataset mana yang cocok, artikel ini sepertinya pantas untuk kamu baca lebih lanjut. Penasaran, gimana sih strateginya memilih dataset yang tepat untuk kebutuhan portofolio data science kamu? Berikut adalah beberapa strategi untuk memilih dataset yang relevan untuk portofolio Data Science. Jangan lupa simak ya sahabat DQLab!
1. Pilih Dataset yang Sesuai dengan Bidang yang Ingin Kamu Tekuni
Jika kamu ingin menekuni industri tertentu seperti keuangan dan perbankan, kesehatan, atau e-commerce, penting untuk memilih dataset yang relevan dengan bidang yang ingin kamu tekuni. Misalnya jika kamu tertarik dalam industri kesehatan maka pilih dataset yang mencakup informasi pasien tren penyakit atau data-data medis lainnya.
Dataset yang sesuai dengan industri yang akan kamu tekuni tidak hanya menunjukkan kemampuan teknis bahwa kamu mampu untuk menyelesaikan semua persoalan dengan data yang sudah kamu kumpulkan tapi juga memberikan kesan bahwa kamu memang memahami Proses bisnis di dalamnya.
Adapun sumber-sumber dataset yang direkomendasikan meliputi Kaggle Healthcare Dataset maupun World Bank Financial Dataset. Selain dua sumber ini, kamu juga bisa untuk mencari dataset sesuai kebutuhan.
Baca juga : Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science!
2. Sesuaikan Dataset dengan Keterampilan yang Ingin Ditonjolkan
Setiap proyek portofolio adalah kesempatan untuk menampilkan keahlian spesifik yang kamu miliki. Apabila ingin menonjolkan keterampilan dalam hal machine learning, pilih dataset yang cukup besar dan memiliki pola-pola yang bisa dimanfaatkan untuk membuat model prediksi.
Sebaliknya, jika kamu ingin menunjukkan keahlian dalam visualisasi data maka pilihlah dataset yang lebih kecil dan kaya informasi deskriptif agar bisa menjadi pilihan yang lebih bijak untuk proses rekrutmen di dunia data science.
3. Pilih Dataset yang Menggambarkan Masalah Nyata
Jika ingin menonjolkan kemampuan data science yang kamu miliki, jangan tanggung-tanggung. Pilih dataset yang memang menggambarkan masalah nyata. Bukan cuma berkedok dataset simulasi atau demo semata. Justru dengan dataset yang kamu miliki kemudian disesuaikan dengan kasus terkini maupun real-case industry tentu membuat kamu semakin tertantang untuk menemukan jalan penyelesaiannya.
Rekruter juga akan melihat seberapa mampu kandidat ini bisa menyelesaikannya dengan baik dan menghasilkan inovasi yang solutif atas permasalahan yang terjadi. Adapun dataset yang bisa kamu pilih antara lain data pemasaran pada usaha X yang semrawut atau tidak lengkap, data sensor untuk analisis IoT, atau data transaksi untuk memerangi fraud. Kamu bisa kumpulkan seluruh sumber dataset dengan UCI Machine Learning Repository maupun Open Data Government.
4. Perhatikan Ukuran Dataset
Ukuran dataset juga penting saat mempertimbangkan dataset untuk portofolio. Dataset yang terlalu kecil mungkin tidak memberikan cukup tantangan, sementara dataset yang terlalu besar mungkin membutuhkan sumber daya komputasi yang signifikan dan sulit dikelola. Pilih dataset yang sesuai dengan keterampilan kamu dan memang dataset tersebut mampu diolah dengan baik menggunakan tools yang kamu sudah kuasai.
Tips:
Untuk pemula, dataset berukuran kecil hingga sedang (500-5000 baris) mungkin lebih mudah dikelola.
Bagi yang lebih berpengalaman, dataset besar yang membutuhkan teknik seperti parallel processing atau distributed computing dapat memberikan tantangan yang menarik.
Baca juga : 3 Contoh Penerapan Data Science yang Sangat Berguna di Dunia Perindustrian
5. Portofolio yang kuat biasanya memuat narasi yang memikat
Portofolio yang kuat biasanya didukung oleh narasi yang kuat. Pilih dataset yang dapat membantumu dalam merangkai sebuah cerita yang menarik. Misalnya, bagaimana data menunjukkan tren penting dalam perubahan iklim, atau bagaimana analisis data dapat meningkatkan strategi pemasaran. Ini tidak hanya akan menunjukkan keterampilan teknis yang kamu punya tetapi juga kemampuan untuk mengkomunikasikan hasil secara efektif.
Memilih dataset yang relevan untuk portofolio Data Science tak hanya sebatas mengumpulkan data, tetapi juga tentang memilih dataset yang menunjukkan keterampilan dan kemampuan kamu dalam menyelesaikan masalah real case industry. Berbekal strategi yang tepat, kamu dapat menyusun portofolio yang tidak hanya menonjolkan aspek teknis, tetapi juga relevan dan berdampak bagi industri yang ingin kamu tekuni lebih jauh.
Kalau kamu ingin mengejar karir sebagai praktisi data, kalian perlu mempersiapkan diri nih! Semua materi bisa kalian pelajari di DQLab.
Modul ajarnya lengkap dan bervariasi. Bahkan diintegrasikan dengan ChatGPT. Manfaatnya apa?
Membantu kalian menjelaskan lebih detail code yang sedang dipelajari
Membantu menemukan coding yang salah atau tidak sesuai
Memberikan solusi atas problem yang dihadapi pada code
Membantu kalian belajar kapanpun dan dimanapun
Selain itu, DQLab juga menggunakan live code editor dan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Tunggu apa lagi, segera Sign Up dan siapkan diri untuk berkarir di industri impian kalian!
Penulis: Reyvan Maulid