Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Yuk Pelajari Algoritma Machine Learning bagi Pemula!

Belajar Data Science 18-Januari-2021
https://dqlab.id/files/dqlab/cache/6c68bf9f3aae185f439395b4c4f14fdf_x_Thumbnail800.jpg

Di era serba digital, pemanfaatan machine learning semakin meningkat seiring dengan perkembangan teknologi dan ilmu pengetahuan. Beberapa tahun terakhir, algoritma machine learning semakin banyak diaplikasikan di berbagai sektor industri. Algoritma machine learning dikelompokkan dalam tiga kategori, yaitu supervised learning, unsupervised learning, dan reinforcement learning. Algoritma supervised learning memodelkan hubungan antara variabel independen dengan target dari serangkaian pengamatan. Model tersebut digunakan untuk memprediksi label observasi baru. Beberapa contoh algoritma yang tergolong supervised learning adalah klasifikasi dan regresi. Algoritma unsupervised learning sangat berbeda dengan algoritma supervised learning. Jika algoritma supervised learning menggunakan data berlabel, algoritma unsupervised learning justru mencoba menemukan struktur data yang tidak berlabel. Contoh algoritma unsupervised learning yang paling terkenal adalah clustering. Algoritma reinforcement learning bekerja dengan action-reward principle. Agen akan belajar untuk mencapai tujuan dengan menghitung reward dari tindakan secara berulang-ulang.

Selain beberapa algoritma yang telah disebutkan sebelumnya, masih banyak algoritma machine learning yang bisa dimanfaatkan oleh industri. Algoritma-algoritma ini bisa dimanfaatkan untuk menganalisis market, prediksi produksi dan permintaan, pengelompokan dan segmentasi konsumen, dan lain sebagainya. Penasaran apa saja algoritma-algoritma tersebut? DQLab akan membahasnya khusus untukmu! So, simak artikel ini sampai habis ya!

1. Regresi Linier dan Regresi Logistik

Dalam machine learning, terdapat dua jenis data, yaitu data variabel input atau biasa disimbolkan dengan x dan data variabel output yang biasa dilambangkan dengan y. Variabel input ini akan digunakan untuk menentukan variabel output. Tujuan dari regresi linier adalah untuk mengukur hubungan antara variabel input dan variabel output. Dalam algoritma regresi linier, hubungan antara variabel input dan output dinyatakan dalam bentuk persamaan y=a+bx. Dari persamaan tersebut, algoritma regresi linier akan menghitung nilai koefisien a dan b. Koefisien a adalah titik potong dan koefisien b adalah kemiringan garis. 

Regresi logistik hampir mirip dengan regresi linier, hanya saja nilai variabel outputnya 0 atau 1 (bilangan biner). Angka 1 menunjukkan kelas default. Misalnya, dalam memprediksi suatu kejadian apakah akan terjadi atau tidak, hanya ada dua kemungkinan yaitu terjadi yang dinyatakan dengan angka 1 dan tidak terjadi yang dinyatakan dengan angka 0. Regresi logistik menggunakan fungsi transformasi yang disebut dengan fungsi logistik h(x) = 1/(1+e^-x). Jika dibuat kurva, maka bentuk kurvanya akan menyerupai huruf S. Perbedaan regresi linier dan regresi logistik adalah pada nilai prediksinya. Prediksi regresi linier bernilai kontinu, misalnya curah hujan dalam cm, sedangkan prediksi regresi logistik bernilai diskrit, misalnya siswa lulus ujian atau tidak.

Baca juga : 3 Jenis Algoritma Machine Learning yang Dapat Digunakan di Dunia Perbankan

2. CART, Naive Bayes, dan KNN

CART merupakan singkatan dari Classification and Regression Trees. Algoritma ini merupakan salah satu implementasi dari decision trees. Node non-terminal dari classification and regression trees adalah simpul akar dan simpul internal. Node terminal adalah node daun. Setiap node terminal mewakili satu variabel input (x) dan titik pemisah pada variabel tersebut, sedangkan simpul daun mewakili variabel output (y). Model ini digunakan untuk memprediksi. 

Naive bayes merupakan algoritma yang digunakan untuk menghitung peluang hipotesis (h) benar berdasarkan informasi sebelumnya (d), kita bisa menggunakan teorema bayes dengan persamaan sebagai berikut

P(h|d) = (P(d|h)P(h))/P(d)

Keterangan:

  • P (h|d) adalah probabilitas posterior, probabilitas hipotesis h benar berdasarkan data d, dengan P(h|d) = P(d1|h) P(d2|h)...P(dn|h)P(d)

  • P (d|h) adalah probabilitas data d berdasarkan hipotesis h benar

  • P(d) adalah probabilitas penduga sebelumnya, probabilitas data yang terlepas dari hipotesis

Algoritma ini disebut dengan "naive" karena mengasumsikan bahwa semua variabel tidak bergantung satu sama lain. 

Algoritma KNN bekerja dengan menggunakan semua kumpulan data untuk menemukan k-titik terdekat ke sampel baru atau jumlah k sampel yang paling mirip. Algoritma ini biasa digunakan untuk masalah klasifikasi dengan nilai k ditentukan oleh si peneliti. Titik yang memiliki jarak paling dekat akan diklasifikasikan. Ukuran jarak yang digunakan adalah jarak euclidean dan jarak hamming.

3. Apriori, K-Means, dan PCA

Algoritma apriori digunakan dalam database transaksional untuk menambang det item yang menghasilkan aturan asosiasi. Algoritma ini sangat populer dalam basket market analysis. Basket market analysis merupakan metode untuk memeriksa kombinasi produk yang sering muncul bersamaan dalam database. Secara umum, aturan asosiasi dinyatakan dengan "jika seseorang membeli barang A, maka ia juga akan membeli barang B" atau A -> B. 

K-Means adalah algoritma berulang yang mengelompokkan data yang memiliki kemiripan ke dalam satu cluster. Algoritma ini menghitung centroid dari cluster k dan menetapkan titik data ke cluster yang memiliki jarak ke pusat paling kecil. Cara kerja algoritma K-Means adalah pertama peneliti memilih nilai k, misalkan k=3. Kemudian peneliti menetapkan data kesalah satu cluster secara acak dan menghitung centroid (pusat cluster) untuk setiap cluster. Selanjutnya peneliti meletakkan ulang setiap titik ke pusat cluster terdekat dan menghitung centroidnya lagi. Proses ini dilakukan terus menerus hingga menghasilkan kumpulan data yang paling dekat dengan centroid-centroid tersebut.

PCA merupakan singkatan dari Principal Component Analysis yang digunakan untuk mempermudah proses eksplorasi dan visualisasi dengan mengurangi jumlah variabelnya dengan cara menghitung varians maksimum dalam data. Setiap komponen dalam PCA merupakan kombinasi linier dari variabel asli dan ortogonal satu sama lain. Ortogonal ini berarti korelasi antar komponen adalah nol. 

Jika kita membahas mengenai machine learning, maka tidak akan jauh dari istilah data science karena kedua istilah ini sangat berkaitan dan tak jarang digunakan bersama-sama. Sama seperti machine learning, data science merupakan ilmu yang dapat diterapkan hampir di semua industri. Bertambahnya jumlah data dari waktu ke waktu mengakibatkan banyak industri mulai memanfaatkan data untuk memperoleh insight yang bermanfaat bagi perusahaannya. Insight tersebut diperoleh dari proses pengolahan data yang dilakukan oleh seorang data scientist. Tak heran jika di era big data, data scientist banyak dibutuhkan di dunia industri. Fakta unik dari data science adalah ilmu ini dapat dipelajari oleh siapapun dengan latar belakang pendidikan apapun.

Baca juga : Belajar Data Science: Pahami Penggunaan Machine Learning pada Python

4. Yuk, Mulai Belajar Data Science bersama DQLab secara GRATIS!

Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industi! Sign up sekarang untuk #MulaiBelajarData di DQLab!


Penulis: Galuh Nurvinda Kurniawati

Editor: Annissa Widya Davita


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login