Top 3 Dataset dalam Machine Learning yang Bisa Kamu Gunakan untuk Latihan!
Untuk membangun suatu model dengan Machine Learning, salah satu hal utama yang dibutuhkan adalah dataset. Sebelum kamu memulai dengan algoritma apapun, kamu harus memiliki pemahaman yang cukup mengenai data. Dataset Machine Learning ini pada dasarnya digunakan untuk tujuan penelitian. Dan sebagian besar kumpulan datanya bersifat homogen. Data digunakan bisa untuk data latih dan untuk mengevaluasi model yang dihasilkan nantinya.
Pada artikel ini kamu akan menemukan 3 contoh teratas dataset Machine Learning yang dapat kamu gunakan sebagai latihan untuk memperdalam keahlianmu dalam mengolah data. Dengan banyak berlatih kamu dapat mengerjakan project yang ada di DQLab dan juga membangun portofolio sebanyak mungkin! Yuk, kita lihat bersama!
1. Iris Dataset
Dataset Iris merupakan dataset multivariate yang diperkenalkan oleh ahli statistika dan biologi inggris, Ronald Fisher, pada tahun 1936. Dataset bunga Iris ini sangat terkenal di dunia Machine Learning yang digunakan untuk klasifikasi. Dataset ini terdiri dari 3 spesies Iris yaitu Iris Setosa, Iris Virginica, dan Iris Versicolor dan tiap spesiesnya memiliki 50 sampel. Dalam data Iris terdapat 4 atribut yang dapat mempengaruhi klasifikasi yaitu, sepal length, sepal width, petal length, dan petal width dalam centimeter yang berbeda-beda.
Baja juga: 3 Dataset Yang Harus Kamu Coba Untuk Menambah Portofolio Data Kamu
2. Twitter Sentiment Analysis Dataset
Sentiment Analysis merupakan salah satu aplikasi populer dalam Natural Language Processing (NLP) dan untuk membangun model analisis sentiment, dataset ini akan sangat membantu. Dataset inu pada dasarnya berupa pemrosesan teks pada data dengan bantuan Machine Learning dalam membangun model. Pada dasarnya dataset ini terdiri dari tiga kolom utama yaitu, ItemID, Sentimen, dan SentimenText. Dan terdiri dari tiga jenis data yaitu netral, positif, dan negatif.
3. Youtube Dataset
Dataset video Youtube didasarkan pada informasi video-video yang ada di Youtube. Dataset ini membantu dalam membuat model klasifikasi video menggunakan algoritma Machine Learning. Kumpulan data ini akan membantu meningkatkan kualitas dari anotasi dan pelabelan yang dihasilkan dari database. Dataset ini memiliki kumpulan data berlabel dengan skala yang besar dan berkualitas tinggi. Dalam kumpulan data tersebut, video akan diambil sampelnya secara seragam. Dataset ini tersedia dalam format CSV (Comma-separated value)
4. Yuk, Latih dan Asah Kemampuan Datamu dengan Terapkan 3 Dataset di atas bersama DQLab Sekarang!
Terapkan ilmunya sekarang dengan bergabung bersama platform belajar online DQLab! Selain bisa meningkatkan ilmu data yang dimiliki, kamu juga bisa membangun portofolio datamu di DQLab guna mempersiapkan dirimu berkarir di industri data.
Sign up sekarang di DQLab.id dan nikmati module GRATIS "Introduction to Data Science" untuk menikmati pengalaman belajar yang seru menyenangkan serta aplikatif pada industri nyata! Untuk kamu yang ingin mulai belajar Data Science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.
Dengan belajar di DQLab, kamu bisa:
Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial
Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring
Bangun portofolio data langsung dari praktisi data Industri
Akses Forum DQLab untuk berdiskusi.
Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":
Buat Akun Gratis dengan Signup di DQLab.id/signup
Akses module Introduction to Data Science
Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab
Penulis : Salsabila Miftah Rezkia
Editor : Annissa Widya Davita