PROMO PUNCAK LEBARAN DISKON 99%
Belajar Data Science 6 Bulan BERSERTIFIKAT hanya Rp 99K!

1 Hari 8 Jam 34 Menit 39 Detik

Algoritma Machine Learning yang Harus Kamu Pelajari di Tahun 2021

Belajar Data Science di Rumah 04-Januari-2021
https://dqlab.id/files/dqlab/cache/ea781925a61a6ee6f3685b1f381584fa_x_Thumbnail800.jpg

Di dunia teknologi, istilah machine learning bukan hal yang baru. Namun, di era perkembangan teknologi yang semakin pesat beberapa tahun terakhir menyebabkan istilah machine learning kian melambung dan mulai banyak dipelajari. Salah satu fungsi machine learning adalah untuk mendapatkan "value" dari kumpulan data. Hal ini menyebabkan banyak perusahaan dari berbagai industri mulai tertarik untuk mengaplikasikan teknologi machine learning. Machine learning menggunakan algoritma untuk mengubah data menjadi model yang sesuai dengan tujuan perusahaan. Algoritma yang digunakan pun berbeda-beda bergantung pada jenis masalah yang akan diselesaikan, sumber daya komputasi, sifat data, dan lain sebagainya. 

Pada dasarnya algoritma machine learning dibagi menjadi tiga yaitu supervised learning, unsupervised learning, dan reinforcement learning. Algoritma supervised learning memodelkan hubungan antara variabel independen dengan label atau target pada serangkaian pengamatan. Beberapa contoh algoritma supervised learning adalah klasifikasi dengan variabel target diskrit atau regresi dengan variabel target kontinu. Unsupervised learning merupakan algoritma untuk membentuk model yang hanya menggunakan variabel independen saja tanpa adanya variabel target. Contoh algoritma unsupervised learning yang paling banyak digunakan adalah clustering. tipe algoritma machine learning yang terakhir adalah reinforcement learning. Algoritma reinforcement learning bekerja berdasarkan prinsip action and reward. Artinya, seorang agen belajar untuk mencapai tujuan dengan menghitung reward secara berulang-ulang dari action yang telah ia lakukan. Pada tahun 2021 algoritma machine learning diprediksi akan semakin banyak digunakan oleh perusahaan. Pada artikel kali ini DQLab akan merangkum algoritma-algoritma yang wajib kamu pelajari di tahun 2021. Penasaran apa saja algoritma-algoritma itu? Yuk simak artikel ini sampai selesai!

1. Regresi Linier, Regresi Logistik, dan K-Nearest Neighbor

Regresi linier adalah salah satu algoritma dasar yang digunakan untuk memodelkan hubungan antara variabel dependen dengan satu atau lebih variabel independen. Cara kerja regresi linier adalah dengan meminimalkan jarak kuadrat residu (selisih nilai prediksi dengan nilai sebenarnya yang dikuadratkan). Regresi logistik hampir mirip dengan regresi linier namun digunakan untuk memodelkan peluang sejumlah hasil yang berbeda. Sekilas regresi logistik lebih rumit jika dibandingkan dengan regresi linier, tetapi sebenarnya regresi logistik hanya memerlukan satu langkah tambahan. Pertama kita harus menghitung skor menggunakan persamaan garis yang paling cocok untuk regresi linier. Langkah tambahan yang dimaksud adalah memberi bobot pada skor yang sebelumnya dihitung dalam fungsi sigmoid sehingga kita mendapatkan probabilitas baru yang akan diubah menjadi bilangan biner (1 atau 0). Algoritma K-Nearest Neighbor atau biasa disingkat dengan KNN adalah tipe algoritma yang sederhana. Langkah pertama pada algoritma ini adalah mengklasifikasikan data yang akan digunakan. Setelah data berhasil diklasifikasi berdasarkan kelompok tertentu, kita tambah data baru pada kelompok tersebut dan melakukan klasifikasi lagi dengan melihat k titik terdekat. Pemilihan k titik ini sedikit tricky karena apabila nilai k terlalu rendah, maka dapat menyebabkan pencilan. Namun, jika nilai k diatur terlalu tinggi, maka mungkin akan mengabaikan kelas dan hanya menggunakan beberapa sampel. 

Baca juga : 3 Jenis Algoritma Machine Learning yang Dapat Digunakan di Dunia Perbankan

2. Support Vector Machine, Random Forest, dan AdaBoost

Support Vector Machine atau biasa disingkat dengan SVM adalah teknik supervised classification yang cukup rumit tetapi memiliki tingkat keakuratan yang cukup baik. Algoritma Support Vector Machine akan menemukan hyperplane atau batas antara dua kelas atau lebih dengan memaksimalkan margin di antara kelas-kelas tersebut. Ada banyak batas yang bisa memisahkan kelas-kelas tersebut, tetapi hanya ada satu batas yang dapat memaksimalkan margin atau jarak antar kelas. 

Algoritma kedua yang wajib kamu pelajari di tahun 2021 adalah algoritma random forest. Namun sebelum memahami algoritma ini, ada beberapa istilah yang harus kamu ketahui. Istilah pertama adalah ensemble learning. Ensemble learning adalah metode dimana  beberapa algoritma digunakan secara bersamaan. Tujuan ensemble learning adalah agar sistem dapat membuat prediksi yang lebih akurat daripada hanya menggunakan satu algoritma. Istilah kedua adalah bootstrap sampling. Bootstrap sampling adalah metode resampling yang menggunakan algoritma random sampling yang diganti beberapa kali. Istilah terakhir adalah begging. Begging adalah istilah yang digunakan saat kita menggunakan kumpulan data bootstrap untuk membuat keputusan. Random forest adalah algoritma ensemble learning yang dibangun dari pohon keputusan. Algoritma ini membuat beberapa pohon keputusan menggunakan data bootstrap dan secara acak memilih subset variabel di setiap pohon keputusan. 

AdaBoost atau Adaptive Boost merupakan algoritma ensemble yang memanfaatkan bagging dan boosting untuk mengembangkan peningkatan akurasi prediktor. Sama seperti random forest, algoritma ini juga menggunakan beberapa pohon keputusan untuk memperoleh data prediksi. Walaupun mirip dengan random forest, ternyata ada perbedaan antara algoritma AdaBoost dengan random forest. Perbedaan pertama adalah algoritma AdaBoost membangun stumps forest. Stumps adalah pohon yang hanya terbuat dari satu cabang dan dua daun. Kedua, stumps yang dibangun tidak memiliki bobot yang sama pada prediksi akhir. Artinya, stumps yang memiliki error besar memiliki pengaruh yang kecil saat pengambilan keputusan. Perbedaan yang terakhir adalah urutan pembuatan stumps sangat penting karena setiap stumps bertujuan untuk mengurangi error yang dihasilkan oleh stumps sebelumnya. 

3. Gradient Boost, XGBoost, dan LightGBM

Sama seperti AdaBoost, gradient boost juga termasuk ke dalam algoritma ensemble yang menggunakan peningkatan akurasi prediktor. Beberapa perbedaan algoritma gradient boost dengan adaboost adalah gradient boost membangun tree dengan 8 sampai 32 daun, sedangkan adaboost membangun stumps dengan dua daun. Perbedaan kedua adalah gradient boost menggunakan boosting untuk proses pengoptimalan dengan menggunakan loss function untuk meminimalisir kesalahan. Algoritma ini disebut algoritma gradient boost karena terinspirasi dari penurunan gradien. Perbedaan yang terakhir adalah tree digunakan untuk memprediksi sisa sampel (hasil prediksi dikurangi aktual). Intinya, cara kerja algoritma gradient boost adalah membangun satu tree untuk menyesuaikan data, lalu tree berikutnya dibangun untuk mengurangi residual (error). 

Algoritma XGBoost merupakan salah satu algoritma yang paling populer dan paling banyak digunakan karena algoritma ini termasuk algoritma yang powerful. Pada dasarnya, algoritma ini sama dengan algoritma gradient boost hanya saja menggunakan beberapa proses tambahan sehingga lebih powerful. Proses tersebut adalah pemangkasan, newton boosting, dan parameter pengacakan ekstra. Proses pemangkasan atau penyusutan proporsional simpul daun digunakan untuk meningkatkan generalisasi model. proses newton boosting adalah proses untuk menyediakan rute langsung sehingga tidak memerlukan penurunan gradient. Proses pengacakan parameter bertujuan untuk mengurangi korelasi antar tree sehingga dapat meningkatkan kekuatan algoritma ensemble. 

Sama seperti XGBoost, LightGBM juga merupakan algoritma powerful bahkan terkadang bisa lebih cepat dan lebih akurat jika dibandingkan dengan XGBoost. Hal ini karena logaritma Light GBM menggunakan teknik unik yang disebut dengan Gradient-based One-Side Sampling (GOSS) untuk memfilter data sampel untuk menemukan nilai pemisah sedangkan algoritma XGBoost menggunakan proses pra-filter dan berbasis histogram untuk menemukan nilai pemisah terbaik. 

Seorang data scientist menggunakan pendekatan hybrid untuk menggunakan algoritma machine learning. Kedua teknologi ini sama-sama banyak digunakan di era modern seperti saat ini. Data science merupakan ilmu yang saat ini sedang banyak dibutuhkan oleh perusahaan. Uniknya ilmu ini dapat dipelajari oleh siapapun mulai dari kalangan pelajar hingga kalangan profesional.

Baca juga : Belajar Data Science: Pahami Penggunaan Machine Learning pada Python

4. Yuk, Mulai Belajar Data Science bersama DQLab secara GRATIS!

Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industi! Sign up sekarang untuk #MulaiBelajarData di DQLab!

Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

  4. Subscribe DQLab.id untuk Akses Semua Module Premium!


Penulis: Galuh Nurvinda Kurniawati

Editor: Annissa Widya Davita






Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login