BANGUN KETERAMPILAN ILMU DATA SCIENCE SECARA ONLINE
Buat Akun DQLab, dan akses kelas R & Python GRATIS DAFTAR DISINI

3 Dataset Yang Harus Kamu Coba Untuk Menambah Portofolio Data Kamu

Belajar Data Science di Rumah 27-Agustus-2020
https://dqlab.id/files/dqlab/cache/2940f4dad11e10898ccfa40101494c9b_x_Thumbnail800.jpg

Ada banyak cara yang dapat kita gunakan untuk belajar Data Science. Di antara cara yang paling baik dalam melakukannya adalah dengan terjun langsung ke dalam proyek-proyek Data Science. Dengan terjun langsung dalam proyek yang kita kerjakan sendiri akan memberikan kita pengalaman dan pemahaman yang lebih kuat terhadap suatu konsep maupun teori tertentu. Selain akan membuat kita lebih banyak belajar dan memiliki pemahaman yang lebih baik, mengerjakan proyek Data Science kita sendiri dapat memperkuat portfolio yang kita miliki sehingga akan meningkatkan kepercayaan recruiter saat hendak mencari talent baru. 

Dalam mengerjakan proyek Data Science, pertama-tama kita harus menetapkan proyek macam apa yang ingin kita kerjakan? Apakah supervised learning? Atau unsupervised learning? Apakah regression, atau classification? Setelah menetapkan jenis proyek yang ingin kita pelajari dan kerjakan, pertanyaan selanjutnya adalah “Dataset apa yang akan saya gunakan dalam proyek ini?” Dataset adalah bagian yang paling krusial dalam setiap proyek Data Science manapun.

Dataset apa saja yang harus kamu gunakan untuk memperkuat portfolio Datamu? Pada artikel ini, DQLab akan berbagi contoh 3 dataset yang bisa kamu gunakan untuk memperkuat pemahaman kamu sekaligus dapat menambah portfolio data mu, yuk simak penjelasannya ya!

1. Data Harga Rumah

Data harga rumah merupakan salah satu dataset yang sangat sering digunakan oleh banyak praktisi data untuk mempelajari penerapan model Machine Learning khususnya untuk model Regression. Menggunakan dataset ini kita dapat melatih kemampuan kita dalam membuat model Regression untuk memprediksi harga rumah berdasarkan berbagai features atau variabel bebas. 


Terdapat banyak data harga rumah yang dapat kita temukan secara online dari berbagai sumber. Salah satu contoh tautannya adalah Housing Price Dataset. Dataset ini memiliki 81 columns, dengan data lebih dari 1400 harga rumah. Menggunakan dataset ini kita dapat mempelajari banyak hal mulai dari Data Cleaning, Exploratory Data Analysis, Data Visualization, Feature Engineering, Machine Learning using Regression Models, Evaluation Metrics, dan lain sebagainya. 

Baca Juga : Bagaimana Peran Data dalam Menghadapi Big Data pada Industri 4.0

2. Data Fraud Pada Kartu Kredit

Dataset selanjutnya yang dapat kalian gunakan sebagai bahan belajar adalah Credit Card Fraud Detection Dataset. Dataset ini berisi transaksi yang dilakukan dengan kartu kredit pada September 2013 oleh pemegang kartu dari Eropa. Dataset ini menyajikan transaksi yang terjadi dalam dua hari, di mana terdapat 492 penipuan dari 284.807 transaksi. Dataset sangat tidak seimbang (Imbalance Data), kelas positif (penipuan) menyumbang 0,172% dari semua transaksi.

Data ini memang memiliki banyak kondisi yang menyulitkan kita untuk membuat model machine learning. Namun, justru dengan demikian kita dapat lebih banyak belajari. Dengan menggunakan dataset ini, kita dapat belajar untuk membuat model Machine Learning khususnya Classification Models, handling imbalanced dataset, Dimensionality reduction, data scaling, dan berbagai teknik lainnya yang penting untuk dipelajari dalam dunia Data Science.

3. E-Commerce Dataset

Selanjutnya, dataset yang juga sangat sering digunakan dalam dunia Data Science untuk belajar konsep-konsep penting di dalamnya adalah UK E-Commerce Data. Biasanya dataset e-commerce adalah hak milik perusahaan, akibatnya sulit ditemukan data e-commerce yang tersedia untuk umum. Namun, UCI Machine Learning Repository telah membuat dataset ini dapat kita akses secara gratis. Dataset ini berisi transaksi aktual dari tahun 2010 dan 2011. Dataset tersebut disimpan di situs mereka, di mana ia dapat ditemukan dengan judul "Online Retail".

Dengan menggunakan dataset ini ada banyak hal yang dapat kita lakukan dan pelajari. Semisal, kita dapat belajar untuk membuat model Clustering, salah satu penerapan dari Unsupervised Learning. Pada Clustering, kita dapat membuka pola yang tersembunyi dalam dataset kita, sehingga kita dapat melihat mana saja customer yang masuk ke dalam golongan yang sama. Selain itu, kita juga dapat menerapkan model Machine Learning lainnya seperti Market Basket Analysis. Menggunakan dataset ini kita dapat menerapkan algoritma Apriori dan konsep Association Rules untuk mencari fakta tentang mana barang yang sering dibeli secara bersamaan. Dari sini kita dapat membuat strategi marketing seperti discount, promo, atau product bundling dengan berbasis data. 

Baca Juga : [BARU] Mulai Belajar Data Science dengan Akses “Introduction To Data Science With Python” GRATIS!

4. Yuk Mulai Belajar Untuk Mengeksplor Semua Data Tersebut Bersama DQLab!

Yuk mulai membangun portofolio data kamu sekarang bersama DQLab! Selain bisa meningkatkan ilmu data yang dimiliki, kamu juga bisa membangun portofolio datamu di DQLab guna mempersiapkan dirimu berkarir di industri data. 

Sign Up untuk nikmati module GRATIS “Introduction to Data Science” dengan pengalaman belajar yang seru menyenangkan serta aplikatif pada industri nyata! Untuk kamu yang ingin mulai belajar Data Science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.

Dengan belajar di DQLab, kamu bisa:

  • Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial

  • Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring

  • Bangun portofolio data langsung dari praktisi data Industri

  • Akses Forum DQLab untuk berdiskusi.

Simak informasi di bawah ini untuk mengakses gratis module ‘Introduction to Data Science’:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

Penulis : Jihar Gifari

Editor : Annissa Widya Davita


Share

Postingan Terkait

Mulai Bangun Karirmu Bersama DQLab!