JULY SPECIAL ! DISKON 96%
Belajar Data Science Bersertifikat, 12 Bulan hanya 180K!
1 Hari 13 Jam 33 Menit 58 Detik

Public Dataset untuk Perkaya Portfolio Data Scientist

Belajar Data Science di Rumah 02-Oktober-2023
https://dqlab.id/files/dqlab/cache/2-longtail-jumat-02-2023-10-02-174506_x_Thumbnail800.jpg

Untuk bisa membangun portfolio data scientist yang baik dan berkualitas, kalian tentu memerlukan dataset yang merepresentasikan kondisi nyata, bukan sekedar data dummy. Oleh karena itu kalian juga perlu akses ke sejumlah platform dataset yang terjamin kualitasnya. Tak perlu khawatir, saat ini sudah banyak platform yang menyediakan public dataset sehingga bisa diakses dengan mudah bahkan gratis.

Apa saja platform tersebut? Nah, artikel kali ini akan memberikan sejumlah rekomendasi platform dataset yang bisa kalian gunakan untuk membangun portfolio data scientist.

Dengan ini, kalian jadi lebih punya banyak pengalaman menyelesaikan berbagai permasalahan data science dan semakin terampil serta profesional di bidang data. Yuk langsung simak rekomendasinya!


1. Google Dataset Search

Data Scientist


Google Dataset Search adalah versi Google yang dikhususkan untuk mencari dataset dari berbagai bidang. Di sini telah terindeks sekitar 25 juta dataset yang semuanya dapat diakses dengan mudah.Sebagian besar dataset yang tersedia di internet dapat diakses melalui standar terbuka schema.org. Dengan demikian, dataset ini dapat diunduh dan digunakan oleh siapa saja untuk tujuan penelitian, analisis bisnis, dan pelatihan model pembelajaran.

Mencari dataset dengan Google Dataset Search sama mudahnya seperti mencari apa pun di Google Search. Kalian hanya perlu memasukkan topik yang ingin dicari dan klik “Cari”.Misalnya, jika ingin menemukan dataset tentang COVID-19, ketikkan "COVID-19" dan semua dataset yang berkaitan akan muncul. Kalian juga dapat menyesuaikan pencarian berdasarkan kebutuhan lain seperti waktu update, format unduh, perizinan komersial, dan sebagainya.


Baca juga : Mengenal Profesi Data Scientist


2. World Bank Open Data

Data Scientist


World Bank Open Data adalah platform yang didesain Bank Dunia untuk menyediakan akses bebas dan terbuka ke data ekonomi global. Jadi berbagai jenis data ekonomi, sosial, lingkungan, dan keuangan dari negara-negara di seluruh dunia dapat kalian temukan di sini. World Bank Open Data mencakup informasi tentang pertumbuhan ekonomi, pendidikan, kesehatan, kemiskinan, investasi, dan banyak indikator lainnya.


Untuk mengakses dataset melalui World Bank Open Data, buka situs webnya. Di halaman beranda, kalian akan melihat berbagai pilihan dan tautan. Pilih dataset berdasarkan indikator tertentu seperti pertumbuhan ekonomi, pendidikan, kesehatan, atau memilih data dari negara tertentu. Setelah memilih indikator atau negara, kalian juga dapat memilih tahun, dan format data yang diinginkan. World Bank Open Data menyediakan berbagai format seperti Excel, CSV, atau JSON.


3. Data.world

Data Scientist

Data.world adalah sebuah platform kolaboratif yang menyediakan akses ke berbagai dataset. Keunikan dari platform ini dibandingkan platform lainnya adalah fokus pada kolaborasi. Jadi, tidak hanya mengunduh dataset, kalian juga bisa berkolaborasi secara langsung pada dataset tersebut, memberi komentar, berdiskusi, dan berbagi insight. Untuk memanfaatkannya, kalian cukup akses ke website. Kemudian gunakan fungsi pencarian untuk mencari dataset berdasarkan topik atau kata kunci tertentu. Misalnya, jika ingin mencari dataset tentang iklim, cukup ketik "iklim" di kolom pencarian. Kalian akan langsung melihat sejumlah daftar dataset yang relevan dengan kata kunci yang dimasukkan.


Gunakan filter dan kategori yang disediakan agar hasil pencarian lebih spesifik dan sesuai kebutuhan. Setelah menemukan dataset yang kalian inginkan, klik dataset tersebut untuk melihat detailnya. Sebagian besar dataset di Data.world dapat diakses secara gratis. Beberapa dataset juga bisa diimpor langsung ke alat analisis data seperti Python, R, atau bahkan Excel untuk analisis lebih lanjut.


Baca juga : Yuk Kenal Role Data Scientist, Profesi Menarik Dengan Gaji Besar


4. Kaggle Salah Satu Rekomendasi Data Set untuk Project Sentiment Analyst

Data Scientist


Kaggle adalah sebuah platform daring yang menyediakan berbagai dataset dan kompetisi bagi komunitas data science. Dalam Kaggle, kalian dapat menemukan dan membagikan dataset, berpartisipasi dalam kompetisi ilmu data, berkolaborasi dalam proyek-proyek open source, dan belajar dari sumber daya belajar yang dibagikan orang lain.

Untuk menemukan berbagai dataset yang tersedia di Kaggle, kalian bisa mengunjungi halaman "Datasets". Di sana, kalian dapat mencari dataset berdasarkan topik, kategori, atau kata kunci tertentu.

Klik pada dataset yang kalian inginkan untuk membuka halaman dataset. Di halaman ini, klik tombol "Download". Beberapa dataset dapat diunduh secara langsung tanpa memerlukan persetujuan. Sementara lainnya membutuhkan persetujuan dari pemilik dataset atau harus ikut serta dalam kompetisi terkait. Biasanya topik-topik dataset yang ada di platform tersebut lebih cocok bagi para ahli data science yang sudah memiliki dasar pemahaman yang kuat. Lalu bagaimana dengan para pemula? DQLab solusinya! DQLab merupakan platform pembelajaran online yang berfokus pada data science.


5. Rekomendasi Data Set untuk project Machine Learning


Dataset MNIST merupakan dataset yang terdiri dari gambar-gambar digit tulisan tangan yang ditulis oleh berbagai orang. Terdiri dari 60.000 gambar dalam set pelatihan dan 10.000 gambar dalam set pengujian, setiap gambar memiliki ukuran 28x28 piksel. Tujuan utama dari dataset ini adalah untuk menyediakan standar bagi peneliti dan praktisi dalam bidang pengolahan gambar dan pembelajaran mesin untuk mengembangkan dan membandingkan kinerja algoritma klasifikasi gambar. Meskipun dataset ini sering digunakan sebagai contoh latihan dalam pembelajaran mesin, tantangannya adalah beberapa gambar mungkin sulit untuk diklasifikasikan oleh algoritma yang kurang rumit. Namun, dataset MNIST tetap menjadi sumber daya yang berharga dalam pengembangan dan evaluasi algoritma pembelajaran mesin untuk pengenalan dan klasifikasi gambar.


6. Rekomendasi Data Set untuk Project Geospatial Analysis


Dataset dari NASA Earth Observations yang dapat diakses melalui neo.gsfc.nasa.gov merupakan kumpulan data observasi Bumi yang luas dan bervariasi. Data ini mencakup berbagai parameter atmosfer, lautan, daratan, dan faktor-faktor lain yang relevan dengan pemantauan lingkungan Bumi. Dengan akses terbuka untuk peneliti, ilmuwan, dan masyarakat umum, dataset ini memainkan peran penting dalam pemahaman kita tentang perubahan iklim, dinamika lingkungan, dan dampak manusia terhadap planet kita. Dengan memanfaatkan dataset ini, peneliti dapat melakukan analisis mendalam, membangun model prediksi, dan mengembangkan solusi untuk tantangan lingkungan global yang kompleks. Selain itu, dataset ini juga mendukung pendidikan dan advokasi lingkungan dengan memberikan akses yang mudah untuk informasi penting tentang Bumi dan lingkungannya kepada masyarakat luas.

Selain menyediakan kursus dan pelatihan interaktif, situs ini juga menyediakan proyek-proyek data science yang dapat kalian kerjakan. Kalian dapat memanfaatkan studi kasus tersebut sebagai sumber inspirasi dan ide untuk portofolio. 

Platform ini juga memiliki berbagai tingkat kesulitan. Mulai dari pemula hingga tingkat lanjutan, sehingga kalian dapat memilih ide kasus yang paling sesuai dengan kemampuan kalian. Dengan mengerjakan proyek-proyek di DQLab, pasti kalian akan memperoleh pengalaman praktis dan membangun portofolio yang kuat.

Yuk bangun portfolio rekomendasi data set dari DQLab! Atau kamu bisa ikuti Bootcamp Data Analyst with SQL and Python, untuk bangun portfolio secara maksimal dan dibimbing oleh mentor profesional di bidang data. 

Tunggu apa lagi? Yuk, join bootcampnya sekarang untuk mahir data!


Penulis : Dita Feby 

Editor : Annissa Widya




Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login