Dalami Klasifikasi dengan Machine Learning Model

Belajar Data Science di Rumah 19-Maret-2024

https://dqlab.id/files/dqlab/cache/longtail-selasa-07-2024-03-19-171904_x_Thumbnail800.jpg

Machine learning memiliki beragam model karena setiap permasalahan perlu diselesaikan dengan pendekatan yang berbeda pula. Misalnya permasalahan prediksi data diskrit tentunya diselesaikan dengan pendekatan yang berbeda dengan prediksi data kontinu. Hal inilah yang perlu dipahami oleh seorang data scientist sehingga dapat memilih algoritma yang tepat. Algoritma yang tepat akan menghasilkan model yang tepat pula.

Sebagai contoh machine learning model untuk kasus klasifikasi dibedakan menjadi 4 jenis. Ini tergantung dari jumlah klasifikasi atau label yang diberikan. Diantaranya yaitu binary, multiclass, multi-label, dan imbalanced classification. Apa perbedaan dari keempat model tersebut? Algoritma apa saja yang sering digunakan untuk masing-masing model? Yuk simak penjelasan berikut ini!

1. Apa Itu Klasifikasi Pada Machine Learning?

Machine Learning

Klasifikasi adalah metode supervised pada machine learning di mana model mencoba memprediksi label dengan benar dari data masukan yang diberikan. Dalam klasifikasi, model sepenuhnya dilatih menggunakan train data, dan kemudian dievaluasi pada test data sebelum digunakan untuk melakukan prediksi pada data baru yang belum diketahui. Misalnya, algoritma dapat belajar memprediksi apakah email tertentu adalah spam atau bukan spam seperti yang diilustrasikan di bawah ini.

Sebelum memahami konsep klasifikasi, pertama-tama kita akan memahami perbedaan antara dua tipe pembelajar dalam klasifikasi: lazy learner dan eager learner. Sehingga kalian akan memahami perbedaan antara klasifikasi dan regresi.

Eager learner adalah algoritma machine learning yang dimulai dengan membangun model dari kumpulan training dataset sebelum membuat prediksi apapun pada kumpulan data. Algoritma jenis ini lebih banyak menggunakan waktu untuk menggeneralisasi data selama proses training dataset dibandingkan untuk membuat prediksi. Contoh algoritma yang termasuk eager learner adalah logistic regression, support vector machine, decision tree, dan artificial neural network.
Lazy learner adalah algoritma machine learning yang tidak membuat model dari training dataset, melainkan hanya mengingat training dataset. Ketika dibutuhkan sebuah prediksi, maka algoritma ini akan mencari jarak terdekat dari keseluruhan training dataset yang membuat algoritma sangat lambat dalam membuat prediksi. Contoh algoritma dari jenis ini adalah K-Nearest neighbor dan case-based reasoning.

Jika kalian mendengar pembahasan prediksi, mungkin ada sedikit kesulitan membedakan regresi dan klasifikasi? Meski keduanya termasuk supervised algoritma dan menghasilkan output berupa prediksi, regresi dan klasifikasi adalah konsep yang berbeda.

Permasalahan prediksi dikatakan klasifikasi ketika target variabelnya adalah diskrit. Sebagai contoh mengidentifikasi suatu teks untuk mengetahui sentimen atau emosi yang ada.
Permasalahan prediksi dikatakan regresi ketika target variabelnya adalah kontinu. Misalnya memprediksi harga dari suatu produk berdasarkan histori penjualan tahun lalu, ulasan pelanggan, rating yang diberikan pelanggan, dan nilai di market.

2. Binary Classification

Tujuan dari binary classification adalah mengklasifikasikan data yang dimasukkan menjadi dua kategori berbeda. Training dataset dalam kasus ini dilabeli menjadi dua hal misalnya TRUE atau FALSE, 0 atau 1, positif atau negatif, spam atau bukan spam, dan lainnya. Berikut contohnya kita ingin mendeteksi apakah gambar yang diberikan merupakan truk atau perahu.

Algoritma logistic regression dan algoritma support vector machine dirancang untuk permasalahan binary classification. Ada juga beberapa algoritma yang bisa diterapkan lainnya yaitu K-Nearest Neighbor dan Decision Tree.

3. Multiclass Classification

Multiclass classification adalah model klasifikasi yang memiliki setidaknya dua label berbeda, di mana tujuannya adalah untuk memprediksi klasifikasi mana yang tepat untuk data yang diberikan. Dalam kasus berikut, diberikan 3 gambar dan machine learning perlu mengidentifikasinya dengan benar.

Beberapa contoh algoritma yang bisa digunakan untuk permasalahan multi-class classification adalah random forest, naive bayes, gradient boosting, dan K-Nearest Neighbor.

Penyelesaian multi-class classification juga bisa dilakukan dengan menggunakan pendekatan binary classification, yaitu one-versus-one dan one-versus-rest.

One-versus-one

Cara ini dilakukan dengan melatih sebanyak mungkin data yang dimasukkan menjadi pasangan label. Jika kita memiliki 3 kelas klasifikasi maka kita akan memasangkan setiap kelas tersebut. Berikut ilustrasinya. Setiap kelas akan dilatih menjadi binary classification sampai semua kelas telah diuji. Cara ini sangat tepat dilakukan jika menggunakan algoritma SVM.

One-versus-rest

pada tahap ini, kalian mulai dengan mempertimbangkan setiap label sebagai label independen dan mempertimbangkan gabungan lainnya hanya sebagai satu label. Dengan 3 kelas, kita akan memiliki tiga pengklasifikasi.

4. Multi-label Classification

Pada permasalahan multi-label classification, kita akan memprediksi 0 atau lebih kelas klasifikasi untuk setiap input yang diberikan. Pada kasus ini, input yang diberikan bisa jadi memiliki lebih dari satu label. Contohnya, setiap teks yang diberikan bisa jadi membahas topik yang beragam, atau setiap gambar yang diberikan memiliki beragam objek. Sebagai contoh, diberikan satu gambar yang memiliki beragam objek seperti truk, anjing, pesawat, dan kapal seperti berikut.

Hal ini tidak bisa diselesaikan dengan binary atau multi-class classification. Contoh algoritma yang sering digunakan pada multi-label classification adalah multi-label decision tree, multi-label gradient boosting, dan multi-label random forest.

5. Imbalanced Classification

Dalam kasus ini, jumlah setiap kelas yang diberikan tidak sama. Sebagai contoh seperti gambar berikut. Diberikan data yang terdiri dari 60% objek truk, 25% objek pesawat, dan 15% objek kapal.

Skenario imbalanced classification sering ditemui pada fraud detection atau deteksi kecurangan pada bidang industri, customer churn analysis pada e-commerce, atau diagnosis pada penyakit langka. Teknik yang digunakan untuk menyelesaikan permasalahan ini cukup berbeda dibandingkan 3 model lainnya. Pendekatan yang bisa digunakan yaitu dengan teknik sampling dan algoritma cost-sensitive.

Model machine learning sangat beragam sehingga perlu dipahami secara mendasar terlebih dahulu. Ini penting bagi data scientist sebelum menguasai teknik lainnya agar model yang dibangun sesuai dengan kasus yang ada. Apakah kalian mulai tertarik mempelajarinya?

Kalian bisa mulai dengan memperkuat praktik machine learning dulu di DQLab. Modul ajarnya lengkap dan bervariasi. Semua skill yang dibutuhkan akan diajarkan. Dilengkapi studi kasus yang membantu kalian belajar memecahkan masalah dari berbagai industri. Bahkan diintegrasikan dengan ChatGPT. Manfaatnya apa?

Membantu kalian menjelaskan lebih detail code yang sedang dipelajari
Membantu menemukan code yang salah atau tidak sesuai
Memberikan solusi atas problem yang dihadapi pada code
Membantu kalian belajar kapanpun dan dimanapun

Selain itu, DQLab juga menggunakan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Tunggu apa lagi, segera Sign Up dan persiapkan diri untuk menguasai machine learning dengan mengikuti DQLab LiveClass Bootcamp Machine Learning & AI for Beginner !

Penulis : Dita Feby

Editor : Annissa Widya

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.