Jenis-Jenis Metode Regresi dalam Algoritma Supervised Learning

Belajar Data Science di Rumah 05-Januari-2021

https://dqlab.id/files/dqlab/cache/e0dbd2bcc7cc547bdc1904a7b783d32c_x_Thumbnail800.jpg

Algoritma supervised learning merupakan salah satu metode pembelajaran pada machine learning yang digunakan untuk mengekstrak wawasan, pola, dan hubungan dari beberapa data pelatihan yang telah diberi label. Maksud dari data pelatihan berlabel adalah kumpulan data yang telah diketahui nilai kebenarannya yang akan dijadikan variabel target. Algoritma supervised learning merupakan salah satu algoritma powerful yang dapat dikombinasikan dengan teknologi artificial intelligence untuk membuat sebuah keputusan dengan cepat dan akurat daripada manusia. Pada dasarnya, semua algoritma machine learning dapat diaplikasikan di segala sektor, terutama sektor bisnis. Beberapa manfaat algoritma supervised learning di sektor bisnis adalah untuk mengklasifikasikan pelanggan berdasarkan karakteristik tertentu, melakukan rekomendasi produk kepada pelanggan, mengalokasikan sumber daya manusia, peramalan penjualan, penawaran, dan permintaan, mendeteksi penipuan, dan memprediksi perawatan peralatan.

Beberapa metode supervised learning yang banyak digunakan adalah regresi dan klasifikasi. Regresi adalah metode pada supervised learning yang mengembalikan target numerik untuk setiap sampel sedangkan klasifikasi adalah metode supervised learning yang bekerja dengan cara memberikan label pada setiap sampel dengan memilih dua atau lebih kelas atau kelompok yang berbeda. Proses yang bertujuan untuk memilih dua kelas disebut dengan klasifikasi biner sedangkan proses untuk memilih lebih dari dua kelas disebut klasifikasi multi kelas. Sama halnya dengan klasifikasi, metode regresi juga memiliki banyak jenis. Apa saja jenis regresi tersebut? Yuk simak artikel ini sampai selesai!

1. Regresi Linier, Polinomial, Logistik, dan Quantile

Regresi linier adalah metode regresi paling sederhana. Pada metode ini variabel bersifat kontinu dan hubungan antara variabel dependen dengan variabel independen diasumsikan bersifat linier. Asumsi yang harus terpenuhi dalam regresi linier adalah harus ada hubungan linier antara variabel dependen dengan variabel independen, tidak ada data pencilan, tidak ada heteroskedastisitas, pengamatan sampel harus independen, tidak ada multikolinieritas, dan residual harus berdistribusi normal dengan mean 0 dan varian konstan. Regresi polinomial adalah metode regresi untuk menyesuaikan persamaan non linier dengan mengambil fungsi polinom pada variabel independen. Jika pada regresi linier garis pada scatter plot berbentuk garis lurus, maka pada regresi polinomial garis pada scatter plot sedikit melengkung. Regresi logistik adalah regresi yang variabel dependennya bersifat biner atau memiliki dua kategori sedangkan variabel independennya bisa berupa data biner atau kontinu. Namun, jika kita memiliki lebih dari dua kategori pada variabel dependennya, kita bisa menggunakan regresi logistik multinomial.

Regresi kuantil merupakan pengembangan dari regresi linier dan biasanya digunakan saat ada data outlier, skewness terlalu tinggi, dan terdapat heteroskedastisitas pada data. Kelebihan regresi kuantil dibandingkan regresi linier adalah dapat digunakan jika terdapat heteroskedastisitas dan outlier pada data, distribusi variabel dependen dapat dijelaskan melalui berbagai kuantil, dan dapat digunakan jika skewness data terlalu tinggi. Apabila koefisien pada suatu kuantil berbeda secara signifikan dengan koefisien pada regresi linier, maka kita bisa menggunakan regresi kuantil. Hal ini dapat dilakukan dengan mengamati interval kepercayaan koefisien regresi dari estimasi yang kita peroleh dari kedua metode regresi tersebut.

2. Regresi Ridge dan Lasso

Pada regresi ridge ada 3 konsep yang harus kita pahami yaitu regularization, L1 Loss function atau L1 Regularization, dan L2 Loss function atau L2 Regularization. Regularization digunakan untuk menyelesaikan masalah performa model yang tidak sinkron. Maksudnya, suatu model memiliki performa yang baik untuk data latih tetapi memiliki performa yang buruk untuk data uji. regularization menyelesaikan masalah ini dengan menambahkan penalti ke fungsi tujuan dan mengontrol kompleksitas model dengan penalti tersebut. Regularization biasanya digunakan untuk situasi variabel berjumlah besar, rasio jumlah observasi dan jumlah variabel kecil, dan adanya multikolinieritas. Maksud dari istilah L1 Loss function atau L1 Regularization adalah meminimalkan fungsi tujuan dengan menambahkan penalti ke jumlah nilai absolut koefisien atau biasa dikenal dengan metode deviasi absolut terkecil sedangkan maksud dari L2 Loss function atau L2 Regularization adalah meminimalkan fungsi tujuan dengan menambahkan penalti ke jumlah kuadrat koefisien.

Kata Lasso pada regresi lasso merupakan singkatan dari Least Absolute Shrinkage and Selection Operator. Metode ini menggunakan teknik L1 Regularization dalam fungsi tujuan. Keuntungan regresi lasso dibandingkan regresi ridge adalah regresi lasso dapat memilih variabel bawaan serta penyusutan parameter. Persamaan regresi ridge dan laso adalah sama-sama digunakan untuk menangani multikolinieritas. Regresi ridge secara komputasi lebih efisien jika dibandingkan regresi lasso.

3. Principal Component Regression (PCR) dan Partial Least Square (PLS) Regression

PCR merupakan metode regresi yang banyak digunakan jika dalam sebuah data terdapat banyak variabel independen atau terdapat multikolinieritas. PCR dibagi menjadi dua langkah. Pertama, cari dahulu komponen principal, dan kedua lakukan analisis regresi pada komponen utama. Analisis komponen utama adalah metode statistik untuk mengekstrak variabel baru jika variabel asli sangat berkorelasi sehingga perlu variabel baru yang tidak saling berhubungan. Kelebihan dari PCR adalah untuk mengurangi dimensi, menghapus multikolinieritas, dan mendapatkan komponen principal. Regresi PLS merupakan metode alternatif dari regresi komponen utama saat kita memiliki variabel independen yang banyak dan sangat berkorelasi. PCR dan regresi PLS sama-sama mengekstrak variabel independen baru, hanya saja PCR membuat variabel tersebut untuk menjelaskan variabilitas yang diamati dalam variabel prediktor tanpa mempertimbangkan variabel dependen sedangkan PLS memperhitungkan variabel dependen.

Algoritma machine learning dan data science memiliki kesamaan, yaitu sama-sama banyak digunakan di berbagai sektor. Di era serba data seperti saat ini, data science merupakan salah satu ilmu "mahal" yang banyak dicari dan banyak diminati. Tak heran jika profesi data scientist dinobatkan sebagai The Sexiest Job in 21st Century. Tak hanya banyak diminati, tapi gaji yang ditawarkan untuk seorang data scientist pun cukup fantastis. Kabar baiknya, data science dapat dipelajari oleh siapapun bahkan oleh seseorang yang tidak memiliki background IT.

4. Yuk, Mulai Belajar Data Science bersama DQLab secara GRATIS!

Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industi! Sign up sekarang untuk #MulaiBelajarData di DQLab!

Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":

Buat Akun Gratis dengan Signup di DQLab.id/signup
Akses module Introduction to Data Science
Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab
Subscribe DQLab.id untuk Akses Semua Module Premium!

Penulis: Galuh Nurvinda Kurniawati

Editor: Annissa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Jenis-Jenis Metode Regresi dalam Algoritma Supervised Learning

1. Regresi Linier, Polinomial, Logistik, dan Quantile

2. Regresi Ridge dan Lasso

3. Principal Component Regression (PCR) dan Partial Least Square (PLS) Regression

4. Yuk, Mulai Belajar Data Science bersama DQLab secara GRATIS!

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab