Kuasai Ragam Machine Learning untuk Data Scientist

Belajar Data Science di Rumah 26-Juli-2023

https://dqlab.id/files/dqlab/cache/kv-2-banner-longtail-selasa-07-2023-07-26-212500_x_Thumbnail800.jpg

Pada dasarnya algoritma machine learning dibagi menjadi tiga yaitu supervised learning, unsupervised learning, dan reinforcement learning. Algoritma supervised learning memodelkan hubungan antara variabel independen dengan label atau target pada serangkaian pengamatan. Beberapa contoh algoritma supervised learning adalah klasifikasi dengan variabel target diskrit atau regresi dengan variabel target kontinu. Unsupervised learning merupakan algoritma untuk membentuk model yang hanya menggunakan variabel independen saja tanpa adanya variabel target. Contoh algoritma unsupervised learning yang paling banyak digunakan adalah clustering.

Tipe algoritma machine learning yang terakhir adalah reinforcement learning. Algoritma reinforcement learning bekerja berdasarkan prinsip action and reward. Artinya, seorang agen belajar untuk mencapai tujuan dengan menghitung reward secara berulang-ulang dari action yang telah ia lakukan. Pada beberapa tahun kedepan, algoritma machine learning diprediksi akan semakin banyak digunakan oleh perusahaan. Pada artikel kali ini DQLab akan merangkum model-model machine learning yang wajib dipelajari oleh calon data scientist. Penasaran apa saja model-model tersebut? Yuk simak artikel ini sampai selesai!

1. Model KNN

Machine Learning

Model K-Nearest Neighbor atau biasa disingkat dengan KNN adalah model machine learning yang sederhana. Langkah pertama pada model ini adalah mengklasifikasikan data yang akan digunakan. Setelah data berhasil diklasifikasi berdasarkan kelompok tertentu, kita tambah data baru pada kelompok tersebut dan melakukan klasifikasi lagi dengan melihat k titik terdekat. Pemilihan k titik ini sedikit tricky karena apabila nilai k terlalu rendah, maka dapat menyebabkan pencilan. Namun, jika nilai k diatur terlalu tinggi, maka mungkin akan mengabaikan kelas dan hanya menggunakan beberapa sampel.

2. Model SVM

Support Vector Machine atau biasa disingkat dengan SVM adalah salah satu model dari algoritma supervised classification yang cukup rumit tetapi memiliki tingkat keakuratan yang cukup baik. Model Support Vector Machine akan menemukan hyperplane atau batas antara dua kelas atau lebih dengan memaksimalkan margin di antara kelas-kelas tersebut. Ada banyak batas yang bisa memisahkan kelas-kelas tersebut, tetapi hanya ada satu batas yang dapat memaksimalkan margin atau jarak antar kelas.

Machine Learning

3. Model Random Forest

Machine Learning

Sebelum memahami model ini, ada beberapa istilah yang harus kamu ketahui. Istilah pertama adalah ensemble learning. Ensemble learning adalah metode dimana beberapa model digunakan secara bersamaan. Tujuan ensemble learning adalah agar sistem dapat membuat prediksi yang lebih akurat daripada hanya menggunakan satu algoritma. Istilah kedua adalah bootstrap sampling. Bootstrap sampling adalah metode resampling yang menggunakan algoritma random sampling yang diganti beberapa kali. Istilah terakhir adalah begging. Begging adalah istilah yang digunakan saat kita menggunakan kumpulan data bootstrap untuk membuat keputusan. Random forest adalah model ensemble learning yang dibangun dari pohon keputusan. Model machine learning ini membuat beberapa pohon keputusan menggunakan data bootstrap dan secara acak memilih subset variabel di setiap pohon keputusan.

4. Model XGBoost

Machine Learning

Model XGBoost merupakan salah satu algoritma yang paling populer dan paling banyak digunakan karena model ini termasuk model machine learning yang powerful. Pada dasarnya, model ini sama dengan algoritma gradient boost hanya saja menggunakan beberapa proses tambahan sehingga lebih powerful. Proses tersebut adalah pemangkasan, newton boosting, dan parameter pengacakan ekstra. Proses pemangkasan atau penyusutan proporsional simpul daun digunakan untuk meningkatkan generalisasi model. Proses newton boosting adalah proses untuk menyediakan rute langsung sehingga tidak memerlukan penurunan gradient. Proses pengacakan parameter bertujuan untuk mengurangi korelasi antar tree sehingga dapat meningkatkan kekuatan algoritma ensemble.

Bcaa juga : Bootcamp Machine Learning and AI for Beginner

Yuk perdalam skill data scientist kamu bersama DQLab! DQLab adalah platform belajar online yang berfokus pada pengenalan Data Science dan Artificial Intelligence dengan menggunakan bahasa pemrograman populer seperti R dan Python. Menariknya, DQLab adalah platform edukasi pertama yang mengintegrasi fitur ChatGPT yang memudahkan beginner untuk mengakses informasi mengenai data science secara lebih mendalam.

DQLab juga menggunakan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Jadi sangat cocok untuk kamu yang belum mengenal data science sama sekali. Untuk bisa merasakan pengalaman belajar yang praktis dan aplikatif, yuk sign up sekarang di DQLab.id atau ikuti DQLab LiveClass Bootcamp Machine Learning and AI for Beginner untuk informasi lebih lengkapnya! Ingin bangun portfolio? Yuk signup sekarang!

Penulis: Galuh Nurvinda K

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Kuasai Ragam Machine Learning untuk Data Scientist

1. Model KNN

2. Model SVM

3. Model Random Forest

4. Model XGBoost

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab