PROMO PUNCAK LEBARAN DISKON 99%
Belajar Data Science 6 Bulan BERSERTIFIKAT hanya Rp 99K!

0 Hari 2 Jam 12 Menit 23 Detik

Perbedaan Bias & Variance di Model Machine Learning

Belajar Data Science di Rumah 21-Maret-2023
https://dqlab.id/files/dqlab/cache/4b7a3f85a6906918dd36a68bdf29ac91_x_Thumbnail800.jpeg

Machine learning merupakan salah satu bidang ilmu yang sangat erat hubungannya dengan Artificial Intelligence. Belakangan ini, machine learning masih menjadi topik menarik untuk dikulik. Sebab, machine learning dapat diartikan sebagai mesin yang dikembangkan untuk melakukan aktivitas belajar dengan sendirinya. Dengan teknologi machine learning, perusahaan dapat membangun dan mengembangkan model otomatis yang bisa memproses data dalam jumlah besar dengan cepat dan mempelajari cara menggunakan data tersebut untuk melakukan pemecahan masalah. Tidak heran apabila machine learning kini sudah mulai banyak diadaptasi oleh industri. 


Salah satu tujuan penggunaan dari machine learning yaitu untuk mempermudah dalam melakukan analisis data dan membuat prediksi atas data yang dimilikinya. Apabila model machine learning yang sudah dibuat ini terindikasi tidak valid maka hasilnya pun juga tidak akurat. Dalam istilah machine learning ada yang disebut Bias dan Varians yang menjadi alasan mengapa data yang dimasukkan dalam model machine learning tidak valid. 


Error pada data dapat digambarkan pada perbedaan antara model aktual dengan model prediksi. Ketimpangan antar keduanya dapat disimpulkan bahwa apakah model machine learning yang dibuat mengandung error atau tidak? Pada artikel kali ini, kita akan mencoba untuk mengulik bias dan varians dalam model machine learning. Simak selengkapnya yuk sahabat DQLab.


1. Error dalam Machine Learning

Dalam istilah machine learning, error merupakan tolak ukur seberapa besar akurat model algoritma machine learning yang dibuat untuk menghasilkan prediksi dari dataset yang dimilikinya. Model machine learning yang dibuat setidaknya memiliki kinerja yang baik dan tanpa menghasilkan nilai error sama sekali. Ada dua jenis error dalam machine learning yaitu reducible error dan irreducible error. 

Machine Learning

Berikut adalah penjelasan dari masing-masing jenis error dalam machine learning:

  • Reducible error: Kesalahan jenis ini dinilai dapat dikurangi untuk meningkatkan akurasi model yang dimiliki oleh machine learning. Adapun reducible error ini diklasifikasikan menjadi bias dan variance.

  • Irreducible error: Error ini selalu ada dalam model machine learning

Terlepas dari algoritma mana yang sudah digunakan, penyebab error pada model machine learning yaitu variabel yang tidak diketahui yang nilainya juga tidak dapat dikurangi.


Baca juga : Yuk Kenali Macam-Macam Algoritma Machine Learning!


2. Arti Bias dalam Machine Learning

Secara umum, model machine learning digunakan untuk menganalisis data, menemukan pola didalamnya, dan membuat prediksi pada data. Saat melakukan training pada model, disinilah machine learning mencoba untuk mempelajari pola-pola yang ada dalam kumpulan data dan menerapkannya untuk menguji data sekaligus prediksi data. Ketika membuat prediksi, diharapkan terdapat keselarasan antara nilai aktual dengan nilai prediksi yang dibuat pada model. Namun berbeda dengan kasus yang satu ini dimana ketika membuat model machine learning justru terdapat perbedaan antara nilai aktual atau nilai yang diharapkan dengan nilai prediksi yang dihasikan oleh model. Gap atau perbedaan ini digambarkan sebagai kesalahan bias atau errors due to bias.


Bias dapat didefinisikan sebagai ketidakmampuan algoritma machine learning dalam menangkap hubungan sehingga memunculkan perbedaan antara nilai aktual dengan prediksi yang dihasilkan oleh model. Adapun contoh kasus dari data bias ini misalnya pada regresi linier dimana model machine learning tidak dapat menangkap hubungan yang sebenarnya antar setiap titik data yang dihasilkan. Setiap algoritma dimulai dengan sejumlah bias karena bias terjadi dari asumsi dalam model yang membuat fungsi target mudah dipelajari.


Machine Learning


Dalam machine learning, sebuah model memiliki dua jenis bias yaitu

  • Bias rendah: model dengan bias rendah akan membuat lebih sedikit asumsi tentang bentuk fungsi target.

  • Bias tinggi: Model dengan bias tinggi membuat lebih banyak asumsi dan model tidak mampu menangkap fitur penting dari kumpulan data yang dimilikinya. Model bias tinggi juga tidak dapat bekerja dengan baik pada data baru. 

Perlu untuk diketahui bahwa setiap algoritma yang dipilih oleh praktisi data memiliki tingkat bias yang berbeda-beda. Algoritma yang memiliki tingkat bias rendah contohnya Decision Trees, K-Nearest Neighbours, dan Support Vector Machines. Pada saat yang sama, algoritma yang memiliki tingkat bias tinggi yaitu Regresi Linear, Regresi Logistik, dan Linear Discriminant Analysis.


3. Arti Varians dalam Machine Learning

Varians akan menentukan jumlah variasi dalam prediksi jika data pelatihan yang berbeda digunakan. Dengan kata lain, varians mengatakan bahwa seberapa besar variabel acak berbeda dari nilai yang diharapkan. Idealnya, model machine learning tidak boleh terlalu bervariasi dari satu set data training ke yang lain, yang berarti algoritma harus baik untuk memahami pemetaan tersembunyi antara variabel input dan output. 


Ada dua jenis dalam kesalahan varians pada model machine learning yaitu varians rendah dan varians tinggi. Varians rendah menunjukkan bahwa ada variasi kecil dalam prediksi fungsi target dengan perubahan dalam kumpulan data pelatihan. Sedangkan varians tinggi menunjukkan variasi data yang besar dalam prediksi fungsi target dengan perubahan dalam dataset training.


Machine Learning


Model yang menunjukkan varians tinggi mengindikasikan banyak belajar dan bekerja dengan baik melalui dataset pelatihan dan tidak menggeneralisasi dengan baik atas dataset yang tidak terlihat. Akibatnya model seperti ini memberikan hasil yang baik dengan dataset pelatihan tetapi menunjukkan tingkat kesalahan yang tinggi pada dataset uji. Kalau varians sudah terindikasi tinggi menyebabkan overfitting model. Model dengan varians tinggi memiliki masalah yang menyebabkan overfitting. Salah satunya algoritma nonlinier memiliki banyak fleksibilitas dan varians yang tinggi.


Baca juga : Kenali Algoritma Klasifikasi Machine Learning Terpopuler di Tahun 2021


4. Cara Mengurangi Bias dan Kesalahan Varians

Bias tinggi terjadi akibat model yang jauh lebih sederhana. Berikut adalah beberapa cara yang bisa diaplikasikan untuk mengurangi bias tinggi dalam model machine learning:

  • Tingkatkan fitur input saat model tidak sesuai

  • Kurangi istilah regularisasi

  • Gunakan model yang lebih kompleks seperti menyertakan beberapa fitur polinomial.

Sedangkan cara mengurangi varians yang terlampau tinggi yaitu:

  • Kurangi fitur input atau jumlah parameter saat model dioverfit

  • Jangan menggunakan model yang terlalu rumit 

  • Meningkatkan training data

  • Meningkatkan istilah regularisasi

Machine Learning

Jadi gimana sahabat DQLab sudah tahu kan apa saja perbedaan antara bias dan varians dalam model machine learning? Ngga perlu khawatir jika kamu belum memiliki pengalaman tentang machine learning sebelumnya, kamu tetap bisa mengasah pemahaman mendasar kamu tentang machine learning, kamu bisa bergabung dalam modul DQLab yang berjudul “Basic Feature Discovering for Machine Learning” Caranya gimana? Mudah banget kok cukup signup sekarang ke DQLab.id lalu pilih menu learn.


Setelah itu kamu sudah bisa menikmati pembelajaran yang praktis dan aplikatif dan jago machine learning bersama DQLab! Tunggu apa lagi? Yuk, signup sekarang dan mulai belajar Module Premium di DQLab!


Penulis: Reyvan Maulid

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login